位元組跳動與中國科學技術大學聯合開發的多模態文檔模型DocPedia成功突破解析度極限,達到2560×2560的高解析度,而LLaVA、MiniGPT-4等業界先進的多模態大型模型則以336×336的解析度處理圖像,無法解析高解析度文檔圖像。 其結果是,研究團隊採用了一種新的方法來解決現有模型在解析高解析度文檔圖像方面的缺點。據說DocPedia不僅可以準確識別圖像資訊,還可以調用知識庫根據使用者需求回答問題,展示了理解高解析度多模態文檔的能力。
位元組跳動和USTC聯合提出了DocPedia,一個大型多模式文檔模型
位元組跳動與中國科學技術大學聯合開發的多模態文檔模型DocPedia成功突破解析度極限,達到2560×2560的高解析度,而LLaVA、MiniGPT-4等業界先進的多模態大型模型則以336×336的解析度處理圖像,無法解析高解析度文檔圖像。 其結果是,研究團隊採用了一種新的方法來解決現有模型在解析高解析度文檔圖像方面的缺點。
據說DocPedia不僅可以準確識別圖像資訊,還可以調用知識庫根據使用者需求回答問題,展示了理解高解析度多模態文檔的能力。