DocPedia, một mô hình tài liệu đa phương thức do ByteDance và Đại học Khoa học và Công nghệ Trung Quốc hợp tác phát triển, đã phá vỡ thành công giới hạn độ phân giải và đạt độ phân giải cao 2560×2560, trong khi các mô hình lớn đa phương thức tiên tiến của ngành như LLaVA và MiniGPT-4 xử lý hình ảnh với độ phân giải 336×336, không thể phân tích cú pháp hình ảnh tài liệu có độ phân giải cao. Kết quả là nhóm nghiên cứu đã áp dụng một cách tiếp cận mới để giải quyết những thiếu sót của các mô hình hiện có trong việc phân tích cú pháp hình ảnh tài liệu có độ phân giải cao.
Người ta nói rằng DocPedia không chỉ có thể xác định chính xác thông tin hình ảnh mà còn gọi cho cơ sở kiến thức để trả lời các câu hỏi dựa trên nhu cầu của người dùng, thể hiện khả năng hiểu các tài liệu đa phương thức có độ phân giải cao.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
ByteDance và USTC cùng đề xuất DocPedia, một mô hình tài liệu đa phương thức lớn
DocPedia, một mô hình tài liệu đa phương thức do ByteDance và Đại học Khoa học và Công nghệ Trung Quốc hợp tác phát triển, đã phá vỡ thành công giới hạn độ phân giải và đạt độ phân giải cao 2560×2560, trong khi các mô hình lớn đa phương thức tiên tiến của ngành như LLaVA và MiniGPT-4 xử lý hình ảnh với độ phân giải 336×336, không thể phân tích cú pháp hình ảnh tài liệu có độ phân giải cao. Kết quả là nhóm nghiên cứu đã áp dụng một cách tiếp cận mới để giải quyết những thiếu sót của các mô hình hiện có trong việc phân tích cú pháp hình ảnh tài liệu có độ phân giải cao.
Người ta nói rằng DocPedia không chỉ có thể xác định chính xác thông tin hình ảnh mà còn gọi cho cơ sở kiến thức để trả lời các câu hỏi dựa trên nhu cầu của người dùng, thể hiện khả năng hiểu các tài liệu đa phương thức có độ phân giải cao.