Bit ByteDanceは、浙江大学と提携し、ビデオコンテンツ理解のために設計され、高品質のビデオ説明を出力できるマルチモーダル大規模言語モデルであるVista-LLaMAを立ち上げました。 Vista-LLaMAは、革新的な視覚的および言語的トークン処理により、ビデオコンテンツにおける「幻覚」の問題を解決します。Vista-LLaMAは、複数のオープンビデオQ&Aベンチマーク、特にNExT-QAおよびMSRVTT-QAテストで優れています。 ゼロショットNExT-QA試験で60.7%、MSRVTT-QA試験で60.5%の精度を達成し、現行のSOTA法を凌駕しました。 これらの結果は、ビデオコンテンツの理解と説明の生成におけるVista-LLaMAの効率と精度を示しています。
ByteDanceと浙江大学が共同で、動画コンテンツを解釈できるマルチモーダル大規模言語モデル「Vista-LLaMA」を発表
Bit ByteDanceは、浙江大学と提携し、ビデオコンテンツ理解のために設計され、高品質のビデオ説明を出力できるマルチモーダル大規模言語モデルであるVista-LLaMAを立ち上げました。 Vista-LLaMAは、革新的な視覚的および言語的トークン処理により、ビデオコンテンツにおける「幻覚」の問題を解決します。
Vista-LLaMAは、複数のオープンビデオQ&Aベンチマーク、特にNExT-QAおよびMSRVTT-QAテストで優れています。 ゼロショットNExT-QA試験で60.7%、MSRVTT-QA試験で60.5%の精度を達成し、現行のSOTA法を凌駕しました。 これらの結果は、ビデオコンテンツの理解と説明の生成におけるVista-LLaMAの効率と精度を示しています。