ByteDance USTC共同で、大規模なマルチモーダルドキュメントモデルであるDocPediaを提案しました

ByteDanceと中国科技大学が共同開発したマルチモーダルドキュメントモデルであるDocPediaは、解像度の限界を突破して2560×2560の高解像度に到達しましたが、LLaVAやMiniGPT-4などの業界最先端のマルチモーダル大規模モデルは、高解像度のドキュメント画像を解析できない336×336の解像度で画像を処理します。 その結果、研究チームは、高解像度のドキュメント画像を解析する際の既存のモデルの欠点に対処するために、新しいアプローチを採用しました。

DocPediaは、画像情報を正確に識別できるだけでなく、ナレッジベースを呼び出してユーザーのニーズに基づいた質問に答えることができ、高解像度のマルチモーダル文書を理解する能力を実証できると言われています。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
0/400
コメントなし
いつでもどこでも暗号資産取引
qrCode
スキャンしてGateアプリをダウンロード
コミュニティ
日本語
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)