位元組跳動與浙江大學聯合推出Vista-LLaMA,這是一種可以解讀視頻內容的多模態大語言模型

比特位元組跳動與浙江大學合作推出了Vista-LLaMA,這是一種多模式大語言模型,專為視頻內容理解而設計,能夠輸出高品質的視頻描述。 通過創新的視覺和語言令牌處理,Vista-LLaMA解決了視頻內容中的“幻覺”問題。

Vista-LLaMA在多個開放視頻問答基準測試中表現出色,特別是在NExT-QA和MSRVTT-QA測試中。 它在零樣本NExT-QA測試中達到了60.7%的準確率,在MSRVTT-QA測試中達到了60.5%的準確率,超過了目前所有的SOTA方法。 這些結果證明瞭Vista-LLaMA在視頻內容理解和描述生成方面的效率和準確性。

TOKEN-9.23%
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 1
  • 轉發
  • 分享
留言
0/400
笑谈币生vip
· 2024-03-14 21:37
梭哈 All in 🙌
回復0
交易,隨時隨地
qrCode
掃碼下載 Gate APP
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)