ByteDance y USTC propusieron conjuntamente DocPedia, un modelo de documentos multimodales de gran tamaño

DocPedia, un modelo de documento multimodal desarrollado conjuntamente por ByteDance y la Universidad de Ciencia y Tecnología de China, ha superado con éxito el límite de resolución y ha alcanzado una alta resolución de 2560×2560, mientras que los modelos grandes multimodales avanzados de la industria, como LLaVA y MiniGPT-4, procesan imágenes con una resolución de 336×336, que no pueden analizar imágenes de documentos de alta resolución. El resultado es que el equipo de investigación ha adoptado un nuevo enfoque para abordar las deficiencias de los modelos existentes en el análisis de imágenes de documentos de alta resolución.

Se dice que DocPedia no solo puede identificar con precisión la información de la imagen, sino también llamar a la base de conocimientos para responder preguntas basadas en las necesidades del usuario, lo que demuestra la capacidad de comprender documentos multimodales de alta resolución.

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
0/400
Sin comentarios
  • Anclado
Opere con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)