Mô hình lớn vượt qua 400.000 token, việc cân bằng giữa độ dài và hiệu quả trở thành trọng tâm.

robot
Đang tạo bản tóm tắt

Các nhà sản xuất mô hình lớn cạnh tranh để vượt qua khả năng văn bản dài 400.000 token chỉ có thể là khởi đầu.

Mô hình lớn đang nâng cao khả năng xử lý văn bản dài với tốc độ đáng kinh ngạc, từ 4000 token ban đầu tăng vọt lên 400.000 token. Khả năng xử lý văn bản dài đã trở thành "tiêu chuẩn" mới của các nhà sản xuất mô hình lớn.

Theo thống kê, hiện nay đã có nhiều công ty và tổ chức nghiên cứu hàng đầu như OpenAI, Anthropic, Meta, Mặt Trăng Tối, v.v. trong và ngoài nước đang coi việc mở rộng độ dài ngữ cảnh là một hướng nâng cấp trọng điểm. Hầu hết các công ty này đều là đối tượng được thị trường vốn yêu thích và đã nhận được lượng tài trợ lớn.

Tại sao các công ty mô hình lớn lại chú trọng đến công nghệ văn bản dài như vậy? Việc tăng chiều dài ngữ cảnh lên 100 lần có ý nghĩa gì?

Bề ngoài, điều này có nghĩa là độ dài văn bản đầu vào của mô hình ngày càng tăng, khả năng đọc ngày càng mạnh. Ở mức độ sâu hơn, công nghệ văn bản dài đang thúc đẩy việc ứng dụng thực tế của các mô hình lớn trong các lĩnh vực chuyên môn như tài chính, tư pháp, nghiên cứu khoa học, chẳng hạn như việc cải thiện khả năng tóm tắt tài liệu dài, hiểu biết văn bản, và trả lời câu hỏi.

Tuy nhiên, nghiên cứu cho thấy việc mô hình hỗ trợ ngữ cảnh dài hơn và hiệu quả hơn không thể trực tiếp đánh đồng với nhau. Việc sử dụng nội dung ngữ cảnh của mô hình là yếu tố quan trọng hơn. Hiện tại, khám phá về độ dài văn bản trong và ngoài nước vẫn chưa đạt đến "điểm tới hạn", 400.000 token có thể chỉ là sự khởi đầu.

Người sáng lập Mặt Trăng Tối Yang Zhilin cho biết, chính vì chiều dài đầu vào của mô hình lớn bị hạn chế, đã gây ra nhiều khó khăn trong việc hiện thực hóa các ứng dụng. Trên con đường hướng tới các ứng dụng Agent và AI bản địa trong tương lai, văn bản dài đóng vai trò quan trọng.

Công nghệ văn bản dài có thể giải quyết một số vấn đề sớm của mô hình lớn, đồng thời cũng là công nghệ then chốt thúc đẩy ngành công nghiệp phát triển. Điều này đánh dấu sự phát triển của mô hình lớn bước vào giai đoạn mới từ LLM đến Long LLM.

Thông qua Kimi Chat của Mặt Trăng Tối, chúng ta có thể nhìn thấy sự nâng cấp chức năng của mô hình lớn giai đoạn Long LLM, như trích xuất thông tin văn bản siêu dài, sinh mã, đóng vai, v.v. Điều này cho thấy robot trò chuyện đang phát triển theo hướng chuyên nghiệp hóa, cá nhân hóa và sâu sắc, có khả năng trở thành công cụ thúc đẩy việc ứng dụng trong ngành.

Tuy nhiên, công nghệ văn bản dài đang phải đối mặt với nghịch cảnh "tam giác không thể" về độ dài văn bản, sự chú ý và sức mạnh tính toán. Khối lượng tính toán của cơ chế tự chú ý tăng theo cấp số nhân với độ dài ngữ cảnh, ngữ cảnh quá dài sẽ dẫn đến sự phân tán sự chú ý. Đồng thời, sự thiếu hụt sức mạnh tính toán cũng hạn chế những bước đột phá trong công nghệ văn bản dài.

Hiện tại có ba giải pháp chính: sử dụng công cụ bên ngoài hỗ trợ xử lý, tối ưu hóa tính toán cơ chế tự chú ý, và áp dụng phương pháp tối ưu hóa mô hình. Các nhà sản xuất lớn đang tìm kiếm điểm cân bằng tốt nhất giữa ba phương pháp này, nhằm xử lý đủ thông tin đồng thời cân nhắc tính toán chú ý và hạn chế sức mạnh tính toán.

Sự đột phá trong công nghệ văn bản dài đánh dấu bước tiến của các mô hình lớn vào các lĩnh vực ứng dụng chuyên nghiệp và sâu hơn. Trong tương lai, với sự tiến triển liên tục của công nghệ, các mô hình lớn có khả năng phát huy vai trò quan trọng trong nhiều lĩnh vực rộng lớn hơn.

TOKEN-9.09%
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • 8
  • Chia sẻ
Bình luận
0/400
DegenRecoveryGroupvip
· 07-18 23:16
400.000 token đầy đầu dấu hỏi
Xem bản gốcTrả lời0
ApeWithAPlanvip
· 07-17 03:11
Bốn trăm nghìn token? Chịu đựng.
Xem bản gốcTrả lời0
GasFeeBeggarvip
· 07-16 18:47
40w dài cũng không đủ để tôi đếm tiền.
Xem bản gốcTrả lời0
HalfBuddhaMoneyvip
· 07-16 18:44
40 triệu token có tác dụng gì? Không uống được cà phê.
Xem bản gốcTrả lời0
GateUser-44a00d6cvip
· 07-16 18:36
Chắc không có tiền để mua card đồ họa rồi.
Xem bản gốcTrả lời0
MEV_Whisperervip
· 07-16 18:32
Khả năng tính toán đốt tiền
Xem bản gốcTrả lời0
VirtualRichDreamvip
· 07-16 18:28
Chơi gì cũng lên max cấp...
Xem bản gốcTrả lời0
AirdropGrandpavip
· 07-16 18:26
Ngữ cảnh dài có tác dụng gì, mệt mỏi quá.
Xem bản gốcTrả lời0
  • Ghim
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)