DocPedia, model dokumen multi-modal yang dikembangkan bersama oleh ByteDance dan Universitas Sains dan Teknologi China, telah berhasil menembus batas resolusi dan mencapai resolusi tinggi 2560×2560, sedangkan model besar multi-modal canggih industri seperti LLaVA dan MiniGPT-4 memproses gambar dengan resolusi 336×336, yang tidak dapat mengurai gambar dokumen resolusi tinggi. Hasilnya adalah bahwa tim peneliti telah mengadopsi pendekatan baru untuk mengatasi kekurangan model yang ada dalam mengurai gambar dokumen resolusi tinggi.
Dikatakan bahwa DocPedia tidak hanya dapat mengidentifikasi informasi gambar secara akurat, tetapi juga memanggil basis pengetahuan untuk menjawab pertanyaan berdasarkan kebutuhan pengguna, menunjukkan kemampuan untuk memahami dokumen multimodal resolusi tinggi.
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
ByteDance dan USTC bersama-sama mengusulkan DocPedia, model dokumen multimodal besar
DocPedia, model dokumen multi-modal yang dikembangkan bersama oleh ByteDance dan Universitas Sains dan Teknologi China, telah berhasil menembus batas resolusi dan mencapai resolusi tinggi 2560×2560, sedangkan model besar multi-modal canggih industri seperti LLaVA dan MiniGPT-4 memproses gambar dengan resolusi 336×336, yang tidak dapat mengurai gambar dokumen resolusi tinggi. Hasilnya adalah bahwa tim peneliti telah mengadopsi pendekatan baru untuk mengatasi kekurangan model yang ada dalam mengurai gambar dokumen resolusi tinggi.
Dikatakan bahwa DocPedia tidak hanya dapat mengidentifikasi informasi gambar secara akurat, tetapi juga memanggil basis pengetahuan untuk menjawab pertanyaan berdasarkan kebutuhan pengguna, menunjukkan kemampuan untuk memahami dokumen multimodal resolusi tinggi.