ByteDance et USTC proposé conjointement DocPedia, un modèle de document multimodal volumineux

DocPedia, un modèle de document multimodal développé conjointement par ByteDance et l’Université des sciences et technologies de Chine, a franchi avec succès la limite de résolution et atteint une haute résolution de 2560×2560, tandis que les grands modèles multimodaux avancés de l’industrie, tels que LLaVA et MiniGPT-4, traitent des images avec une résolution de 336×336, qui ne peuvent pas analyser les images de documents haute résolution. Le résultat est que l’équipe de recherche a adopté une nouvelle approche pour remédier aux lacunes des modèles existants dans l’analyse des images de documents haute résolution.

On dit que DocPedia peut non seulement identifier avec précision les informations d’image, mais aussi appeler la base de connaissances pour répondre aux questions en fonction des besoins des utilisateurs, démontrant ainsi sa capacité à comprendre des documents multimodaux haute résolution.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
0/400
Aucun commentaire
  • Épingler
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)