ByteDanceと浙江大学が共同で、動画コンテンツを解釈できるマルチモーダル大規模言語モデル「Vista-LLaMA」を発表

Bit ByteDanceは、浙江大学と提携し、ビデオコンテンツ理解のために設計され、高品質のビデオ説明を出力できるマルチモーダル大規模言語モデルであるVista-LLaMAを立ち上げました。 Vista-LLaMAは、革新的な視覚的および言語的トークン処理により、ビデオコンテンツにおける「幻覚」の問題を解決します。

Vista-LLaMAは、複数のオープンビデオQ&Aベンチマーク、特にNExT-QAおよびMSRVTT-QAテストで優れています。 ゼロショットNExT-QA試験で60.7%、MSRVTT-QA試験で60.5%の精度を達成し、現行のSOTA法を凌駕しました。 これらの結果は、ビデオコンテンツの理解と説明の生成におけるVista-LLaMAの効率と精度を示しています。

TOKEN-7.45%
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • 1
  • リポスト
  • 共有
コメント
0/400
TalkingAboutCurrencyvip
· 2024-03-14 21:37
スタッドオールイン 🙌
原文表示返信0
いつでもどこでも暗号資産取引
qrCode
スキャンしてGateアプリをダウンロード
コミュニティ
日本語
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)