ByteDanceと浙江大学が共同で、動画コンテンツを解釈できるマルチモーダル大規模言語モデル「Vista-LLaMA」を発表

2024-01-09 05:19:41

Bit ByteDanceは、浙江大学と提携し、ビデオコンテンツ理解のために設計され、高品質のビデオ説明を出力できるマルチモーダル大規模言語モデルであるVista-LLaMAを立ち上げました。 Vista-LLaMAは、革新的な視覚的および言語的トークン処理により、ビデオコンテンツにおける「幻覚」の問題を解決します。

Vista-LLaMAは、複数のオープンビデオQ&Aベンチマーク、特にNExT-QAおよびMSRVTT-QAテストで優れています。ゼロショットNExT-QA試験で60.7%、MSRVTT-QA試験で60.5%の精度を達成し、現行のSOTA法を凌駕しました。これらの結果は、ビデオコンテンツの理解と説明の生成におけるVista-LLaMAの効率と精度を示しています。

TOKEN-1.1%

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。

1 いいね