位元組跳動和USTC聯合提出了DocPedia,一個大型多模式文檔模型

位元組跳動與中國科學技術大學聯合開發的多模態文檔模型DocPedia成功突破解析度極限,達到2560×2560的高解析度,而LLaVA、MiniGPT-4等業界先進的多模態大型模型則以336×336的解析度處理圖像,無法解析高解析度文檔圖像。 其結果是,研究團隊採用了一種新的方法來解決現有模型在解析高解析度文檔圖像方面的缺點。

據說DocPedia不僅可以準確識別圖像資訊,還可以調用知識庫根據使用者需求回答問題,展示了理解高解析度多模態文檔的能力。

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 留言
  • 轉發
  • 分享
留言
0/400
暫無留言
交易,隨時隨地
qrCode
掃碼下載 Gate APP
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)