DocPedia, мультимодальна модель документів, розроблена спільно ByteDance і Університетом науки і технологій Китаю, успішно подолала межу роздільної здатності і досягла високої роздільної здатності 2560×2560, в той час як передові мультимодальні великі моделі, такі як LLaVA і MiniGPT-4, обробляють зображення з роздільною здатністю 336×336, які не можуть аналізувати зображення документів з високою роздільною здатністю. Результатом є те, що дослідницька група застосувала новий підхід до усунення недоліків існуючих моделей при аналізі зображень документів з високою роздільною здатністю.
Кажуть, що DocPedia може не тільки точно ідентифікувати інформацію про зображення, але й викликати базу знань, щоб відповісти на запитання на основі потреб користувачів, демонструючи здатність розуміти мультимодальні документи з високою роздільною здатністю.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
ByteDance і USTC спільно запропонували DocPedia, велику мультимодальну модель документів
DocPedia, мультимодальна модель документів, розроблена спільно ByteDance і Університетом науки і технологій Китаю, успішно подолала межу роздільної здатності і досягла високої роздільної здатності 2560×2560, в той час як передові мультимодальні великі моделі, такі як LLaVA і MiniGPT-4, обробляють зображення з роздільною здатністю 336×336, які не можуть аналізувати зображення документів з високою роздільною здатністю. Результатом є те, що дослідницька група застосувала новий підхід до усунення недоліків існуючих моделей при аналізі зображень документів з високою роздільною здатністю.
Кажуть, що DocPedia може не тільки точно ідентифікувати інформацію про зображення, але й викликати базу знань, щоб відповісти на запитання на основі потреб користувачів, демонструючи здатність розуміти мультимодальні документи з високою роздільною здатністю.