大模型突破40萬token長文本 長度與效果權衡成焦點

robot
摘要生成中

大模型廠商爭相突破長文本能力 40萬token或僅是開始

大模型正以驚人的速度提升長文本處理能力,從最初的4000 token飆升至40萬token。長文本能力已成爲各大模型廠商的新"標配"。

據統計,目前國內外已有OpenAI、Anthropic、Meta、月之暗面等多家頂級大模型公司和研究機構將拓展上下文長度作爲重點升級方向。這些公司大多是資本市場熱捧的對象,獲得了大額融資。

大模型公司爲何如此重視長文本技術?上下文長度擴大100倍意味着什麼?

表面上看,這意味着模型可輸入的文本越來越長,閱讀能力越來越強。更深層次來看,長文本技術正在推動大模型在金融、司法、科研等專業領域的落地應用,如長文檔摘要、閱讀理解、問答等能力的提升。

不過,研究表明模型支持更長上下文與效果更好並不能直接畫等號。模型對上下文內容的使用更爲關鍵。目前國內外對文本長度的探索還遠未達到"臨界點",40萬token可能只是開始。

月之暗面創始人楊植麟表示,正是由於大模型輸入長度受限,造成了許多應用落地的困境。在通往未來Agent和AI原生應用的道路上,長文本扮演着重要角色。

長文本技術可以解決大模型早期的一些問題,同時也是推進產業落地的關鍵技術。這標志着大模型發展邁入了從LLM到Long LLM的新階段。

通過月之暗面的Kimi Chat,我們可以一窺Long LLM階段大模型的升級功能,如超長文本信息提取、代碼生成、角色扮演等。這顯示出對話機器人正朝着專業化、個性化、深度化方向發展,有望成爲撬動產業落地的抓手。

然而,長文本技術面臨着文本長短、注意力和算力的"不可能三角"困境。自注意力機制計算量隨上下文長度呈平方級增長,過長上下文會導致注意力分散。同時,算力短缺也制約着長文本技術的突破。

目前主要有三種解決方案:借助外部工具輔助處理、優化自注意力機制計算、利用模型優化方法。各大廠商正在這三者間尋找最佳平衡點,以處理足夠信息的同時兼顧注意力計算和算力限制。

長文本技術的突破,標志着大模型向更專業、更深入的應用場景邁進。未來,隨着技術持續演進,大模型有望在更廣泛的領域發揮重要作用。

TOKEN5.96%
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 8
  • 分享
留言
0/400
Degen Recovery Groupvip
· 07-18 23:16
40万token 满脑袋问号
回復0
ApeWithAPlanvip
· 07-17 03:11
四十万token?撑了
回復0
GasFeeBeggarvip
· 07-16 18:47
40w长也不够我数钱用
回復0
半佛薅羊毛vip
· 07-16 18:44
40万token有啥用 喝不成咖啡
回復0
GateUser-44a00d6cvip
· 07-16 18:36
没钱搞显卡了吧
回復0
MEVWhisperervip
· 07-16 18:32
算力烧钱
回復0
虚拟土豪梦vip
· 07-16 18:28
玩啥都冲满级...
回復0
空投爷爷vip
· 07-16 18:26
上下文长了有啥用 心累
回復0
交易,隨時隨地
qrCode
掃碼下載 Gate APP
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)