ByteDance і USTC спільно запропонували DocPedia, велику мультимодальну модель документів

DocPedia, мультимодальна модель документів, розроблена спільно ByteDance і Університетом науки і технологій Китаю, успішно подолала межу роздільної здатності і досягла високої роздільної здатності 2560×2560, в той час як передові мультимодальні великі моделі, такі як LLaVA і MiniGPT-4, обробляють зображення з роздільною здатністю 336×336, які не можуть аналізувати зображення документів з високою роздільною здатністю. Результатом є те, що дослідницька група застосувала новий підхід до усунення недоліків існуючих моделей при аналізі зображень документів з високою роздільною здатністю.

Кажуть, що DocPedia може не тільки точно ідентифікувати інформацію про зображення, але й викликати базу знань, щоб відповісти на запитання на основі потреб користувачів, демонструючи здатність розуміти мультимодальні документи з високою роздільною здатністю.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити