大模型突破40万token长文本 长度与效果权衡成焦点

robot
摘要生成中

大模型厂商争相突破长文本能力 40万token或仅是开始

大模型正以惊人的速度提升长文本处理能力,从最初的4000 token飙升至40万token。长文本能力已成为各大模型厂商的新"标配"。

据统计,目前国内外已有OpenAI、Anthropic、Meta、月之暗面等多家顶级大模型公司和研究机构将拓展上下文长度作为重点升级方向。这些公司大多是资本市场热捧的对象,获得了大额融资。

大模型公司为何如此重视长文本技术?上下文长度扩大100倍意味着什么?

表面上看,这意味着模型可输入的文本越来越长,阅读能力越来越强。更深层次来看,长文本技术正在推动大模型在金融、司法、科研等专业领域的落地应用,如长文档摘要、阅读理解、问答等能力的提升。

不过,研究表明模型支持更长上下文与效果更好并不能直接画等号。模型对上下文内容的使用更为关键。目前国内外对文本长度的探索还远未达到"临界点",40万token可能只是开始。

月之暗面创始人杨植麟表示,正是由于大模型输入长度受限,造成了许多应用落地的困境。在通往未来Agent和AI原生应用的道路上,长文本扮演着重要角色。

长文本技术可以解决大模型早期的一些问题,同时也是推进产业落地的关键技术。这标志着大模型发展迈入了从LLM到Long LLM的新阶段。

通过月之暗面的Kimi Chat,我们可以一窥Long LLM阶段大模型的升级功能,如超长文本信息提取、代码生成、角色扮演等。这显示出对话机器人正朝着专业化、个性化、深度化方向发展,有望成为撬动产业落地的抓手。

然而,长文本技术面临着文本长短、注意力和算力的"不可能三角"困境。自注意力机制计算量随上下文长度呈平方级增长,过长上下文会导致注意力分散。同时,算力短缺也制约着长文本技术的突破。

目前主要有三种解决方案:借助外部工具辅助处理、优化自注意力机制计算、利用模型优化方法。各大厂商正在这三者间寻找最佳平衡点,以处理足够信息的同时兼顾注意力计算和算力限制。

长文本技术的突破,标志着大模型向更专业、更深入的应用场景迈进。未来,随着技术持续演进,大模型有望在更广泛的领域发挥重要作用。

TOKEN7.5%
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 8
  • 分享
评论
0/400
Degen Recovery Groupvip
· 07-18 23:16
40万token 满脑袋问号
回复0
ApeWithAPlanvip
· 07-17 03:11
四十万token?撑了
回复0
GasFeeBeggarvip
· 07-16 18:47
40w长也不够我数钱用
回复0
半佛薅羊毛vip
· 07-16 18:44
40万token有啥用 喝不成咖啡
回复0
GateUser-44a00d6cvip
· 07-16 18:36
没钱搞显卡了吧
回复0
MEVWhisperervip
· 07-16 18:32
算力烧钱
回复0
虚拟土豪梦vip
· 07-16 18:28
玩啥都冲满级...
回复0
空投爷爷vip
· 07-16 18:26
上下文长了有啥用 心累
回复0
交易,随时随地
qrCode
扫码下载 Gate APP
社群列表
简体中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)