ByteDance dan USTC bersama-sama mengusulkan DocPedia, model dokumen multimodal besar

DocPedia, model dokumen multi-modal yang dikembangkan bersama oleh ByteDance dan Universitas Sains dan Teknologi China, telah berhasil menembus batas resolusi dan mencapai resolusi tinggi 2560×2560, sedangkan model besar multi-modal canggih industri seperti LLaVA dan MiniGPT-4 memproses gambar dengan resolusi 336×336, yang tidak dapat mengurai gambar dokumen resolusi tinggi. Hasilnya adalah bahwa tim peneliti telah mengadopsi pendekatan baru untuk mengatasi kekurangan model yang ada dalam mengurai gambar dokumen resolusi tinggi.

Dikatakan bahwa DocPedia tidak hanya dapat mengidentifikasi informasi gambar secara akurat, tetapi juga memanggil basis pengetahuan untuk menjawab pertanyaan berdasarkan kebutuhan pengguna, menunjukkan kemampuan untuk memahami dokumen multimodal resolusi tinggi.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
0/400
Tidak ada komentar
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)