نجح DocPedia ، وهو نموذج مستند متعدد الوسائط تم تطويره بشكل مشترك من قبل ByteDance وجامعة العلوم والتكنولوجيا في الصين ، في اختراق حد الدقة ووصل إلى دقة عالية تبلغ 2560×2560 ، في حين أن النماذج الكبيرة متعددة الوسائط المتقدمة في الصناعة مثل LLaVA و MiniGPT-4 تعالج الصور بدقة 336×336 ، والتي لا يمكنها تحليل صور المستندات عالية الدقة. والنتيجة هي أن فريق البحث قد اعتمد نهجا جديدا لمعالجة أوجه القصور في النماذج الحالية في تحليل صور المستندات عالية الدقة.
يقال إن DocPedia لا يمكنها تحديد معلومات الصورة بدقة فحسب ، بل يمكنها أيضا الاتصال بقاعدة المعرفة للإجابة على الأسئلة بناء على احتياجات المستخدم ، مما يدل على القدرة على فهم المستندات متعددة الوسائط عالية الدقة.
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
اقترحت ByteDance و USTC بشكل مشترك DocPedia ، وهو نموذج مستند كبير متعدد الوسائط
نجح DocPedia ، وهو نموذج مستند متعدد الوسائط تم تطويره بشكل مشترك من قبل ByteDance وجامعة العلوم والتكنولوجيا في الصين ، في اختراق حد الدقة ووصل إلى دقة عالية تبلغ 2560×2560 ، في حين أن النماذج الكبيرة متعددة الوسائط المتقدمة في الصناعة مثل LLaVA و MiniGPT-4 تعالج الصور بدقة 336×336 ، والتي لا يمكنها تحليل صور المستندات عالية الدقة. والنتيجة هي أن فريق البحث قد اعتمد نهجا جديدا لمعالجة أوجه القصور في النماذج الحالية في تحليل صور المستندات عالية الدقة.
يقال إن DocPedia لا يمكنها تحديد معلومات الصورة بدقة فحسب ، بل يمكنها أيضا الاتصال بقاعدة المعرفة للإجابة على الأسئلة بناء على احتياجات المستخدم ، مما يدل على القدرة على فهم المستندات متعددة الوسائط عالية الدقة.