ByteDance y la Universidad de Zhejiang lanzaron conjuntamente Vista-LLaMA, un modelo multimodal de lenguaje grande que puede interpretar contenido de video

Bit ByteDance se ha asociado con la Universidad de Zhejiang para lanzar Vista-LLaMA, un modelo de lenguaje multimodal de gran tamaño diseñado para la comprensión de contenido de video y capaz de generar descripciones de video de alta calidad. A través de un innovador procesamiento visual y verbal de tokens, Vista-LLaMA resuelve el problema de las "alucinaciones" en el contenido de video.

Vista-LLaMA sobresale en múltiples pruebas de preguntas y respuestas de video abierto, especialmente en las pruebas NExT-QA y MSRVTT-QA. Logró una tasa de precisión del 60,7 % en la prueba NExT-QA de disparo cero y del 60,5 % en la prueba MSRVTT-QA, superando todos los métodos SOTA actuales. Estos resultados demuestran la eficiencia y precisión de Vista-LLaMA en la comprensión del contenido de video y la generación de descripciones.

TOKEN-1.45%
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • 1
  • Republicar
  • Compartir
Comentar
0/400
TalkingAboutCurrencyvip
· 2024-03-14 21:37
Stud All in 🙌
Ver originalesResponder0
Opere con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)