DocPedia, un modèle de document multimodal développé conjointement par ByteDance et l’Université des sciences et technologies de Chine, a franchi avec succès la limite de résolution et atteint une haute résolution de 2560×2560, tandis que les grands modèles multimodaux avancés de l’industrie, tels que LLaVA et MiniGPT-4, traitent des images avec une résolution de 336×336, qui ne peuvent pas analyser les images de documents haute résolution. Le résultat est que l’équipe de recherche a adopté une nouvelle approche pour remédier aux lacunes des modèles existants dans l’analyse des images de documents haute résolution.
On dit que DocPedia peut non seulement identifier avec précision les informations d’image, mais aussi appeler la base de connaissances pour répondre aux questions en fonction des besoins des utilisateurs, démontrant ainsi sa capacité à comprendre des documents multimodaux haute résolution.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
ByteDance et USTC proposé conjointement DocPedia, un modèle de document multimodal volumineux
DocPedia, un modèle de document multimodal développé conjointement par ByteDance et l’Université des sciences et technologies de Chine, a franchi avec succès la limite de résolution et atteint une haute résolution de 2560×2560, tandis que les grands modèles multimodaux avancés de l’industrie, tels que LLaVA et MiniGPT-4, traitent des images avec une résolution de 336×336, qui ne peuvent pas analyser les images de documents haute résolution. Le résultat est que l’équipe de recherche a adopté une nouvelle approche pour remédier aux lacunes des modèles existants dans l’analyse des images de documents haute résolution.
On dit que DocPedia peut non seulement identifier avec précision les informations d’image, mais aussi appeler la base de connaissances pour répondre aux questions en fonction des besoins des utilisateurs, démontrant ainsi sa capacité à comprendre des documents multimodaux haute résolution.