DocPedia, un modelo de documento multimodal desarrollado conjuntamente por ByteDance y la Universidad de Ciencia y Tecnología de China, ha superado con éxito el límite de resolución y ha alcanzado una alta resolución de 2560×2560, mientras que los modelos grandes multimodales avanzados de la industria, como LLaVA y MiniGPT-4, procesan imágenes con una resolución de 336×336, que no pueden analizar imágenes de documentos de alta resolución. El resultado es que el equipo de investigación ha adoptado un nuevo enfoque para abordar las deficiencias de los modelos existentes en el análisis de imágenes de documentos de alta resolución.
Se dice que DocPedia no solo puede identificar con precisión la información de la imagen, sino también llamar a la base de conocimientos para responder preguntas basadas en las necesidades del usuario, lo que demuestra la capacidad de comprender documentos multimodales de alta resolución.
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
ByteDance y USTC propusieron conjuntamente DocPedia, un modelo de documentos multimodales de gran tamaño
DocPedia, un modelo de documento multimodal desarrollado conjuntamente por ByteDance y la Universidad de Ciencia y Tecnología de China, ha superado con éxito el límite de resolución y ha alcanzado una alta resolución de 2560×2560, mientras que los modelos grandes multimodales avanzados de la industria, como LLaVA y MiniGPT-4, procesan imágenes con una resolución de 336×336, que no pueden analizar imágenes de documentos de alta resolución. El resultado es que el equipo de investigación ha adoptado un nuevo enfoque para abordar las deficiencias de los modelos existentes en el análisis de imágenes de documentos de alta resolución.
Se dice que DocPedia no solo puede identificar con precisión la información de la imagen, sino también llamar a la base de conocimientos para responder preguntas basadas en las necesidades del usuario, lo que demuestra la capacidad de comprender documentos multimodales de alta resolución.