位元組跳動與浙江大學聯合推出Vista-LLaMA，這是一種可以解讀視頻內容的多模態大語言模型

2024-01-09 05:19:41

比特位元組跳動與浙江大學合作推出了Vista-LLaMA，這是一種多模式大語言模型，專為視頻內容理解而設計，能夠輸出高品質的視頻描述。通過創新的視覺和語言令牌處理，Vista-LLaMA解決了視頻內容中的“幻覺”問題。

Vista-LLaMA在多個開放視頻問答基準測試中表現出色，特別是在NExT-QA和MSRVTT-QA測試中。它在零樣本NExT-QA測試中達到了60.7%的準確率，在MSRVTT-QA測試中達到了60.5%的準確率，超過了目前所有的SOTA方法。這些結果證明瞭Vista-LLaMA在視頻內容理解和描述生成方面的效率和準確性。

TOKEN-1.05%

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

1人點讚了這條動態