ByteDance ve Zhejiang Üniversitesi, video içeriğini yorumlayabilen çok modlu bir büyük dil modeli olan Vista-LLaMA'yı ortaklaşa başlattı

Bit ByteDance, video içeriğinin anlaşılması için tasarlanmış ve yüksek kaliteli video açıklamaları çıkarabilen çok modlu bir büyük dil modeli olan Vista-LLaMA'yı başlatmak için Zhejiang Üniversitesi ile ortaklık kurdu. Yenilikçi görsel ve sözel belirteç işleme sayesinde Vista-LLaMA, video içeriğindeki "halüsinasyonlar" sorununu çözer.

Vista-LLaMA, özellikle NExT-QA ve MSRVTT-QA testlerinde, çoklu açık video Soru-Cevap testlerinde üstündür. Sıfır atış NExT-QA testinde %60,7 ve MSRVTT-QA testinde %60,5 doğruluk oranı elde ederek mevcut tüm SOTA yöntemlerini geride bıraktı. Bu sonuçlar, Vista-LLaMA'nın video içeriğini anlama ve açıklama oluşturmadaki verimliliğini ve doğruluğunu göstermektedir.

TOKEN-1.45%
View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Reward
  • 1
  • Repost
  • Share
Comment
0/400
TalkingAboutCurrencyvip
· 2024-03-14 21:37
Stud Hepsi Bir Arada 🙌
View OriginalReply0
Trade Crypto Anywhere Anytime
qrCode
Scan to download Gate app
Community
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)