Bit ByteDance telah bermitra dengan Universitas Zhejiang untuk meluncurkan Vista-LLaMA, model bahasa besar multimodal yang dirancang untuk pemahaman konten video dan mampu menghasilkan deskripsi video berkualitas tinggi. Melalui pemrosesan token visual dan verbal yang inovatif, Vista-LLaMA memecahkan masalah "halusinasi" dalam konten video.
Vista-LLaMA unggul dalam beberapa benchmark Q&A video terbuka, terutama dalam tes NExT-QA dan MSRVTT-QA. Ini mencapai tingkat akurasi 60,7% dalam tes NExT-QA zero-shot dan 60,5% dalam tes MSRVTT-QA, melampaui semua metode SOTA saat ini. Hasil ini menunjukkan efisiensi dan akurasi Vista-LLaMA dalam pemahaman konten video dan pembuatan deskripsi.
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
ByteDance dan Zhejiang University bersama-sama meluncurkan Vista-LLaMA, model bahasa besar multimodal yang dapat menafsirkan konten video
Bit ByteDance telah bermitra dengan Universitas Zhejiang untuk meluncurkan Vista-LLaMA, model bahasa besar multimodal yang dirancang untuk pemahaman konten video dan mampu menghasilkan deskripsi video berkualitas tinggi. Melalui pemrosesan token visual dan verbal yang inovatif, Vista-LLaMA memecahkan masalah "halusinasi" dalam konten video.
Vista-LLaMA unggul dalam beberapa benchmark Q&A video terbuka, terutama dalam tes NExT-QA dan MSRVTT-QA. Ini mencapai tingkat akurasi 60,7% dalam tes NExT-QA zero-shot dan 60,5% dalam tes MSRVTT-QA, melampaui semua metode SOTA saat ini. Hasil ini menunjukkan efisiensi dan akurasi Vista-LLaMA dalam pemahaman konten video dan pembuatan deskripsi.