大模型长文本革命:从4000到40万token的突破与挑战

robot
摘要生成中

大模型长文本技术进入新阶段,4000到40万token背后有何玄机?

近期,大模型的长文本能力正以惊人的速度提升。从最初的4000 token到现在的40万token,大模型厂商在这一领域的竞争日益激烈。

国际上,OpenAI通过多次升级将GPT-3.5和GPT-4的上下文长度分别提升至1.6万和3.2万token。Anthropic更是一举将其模型Claude的上下文长度扩展到10万token。LongLLaMA则将这一数字推至25.6万token甚至更高。

国内方面,初创公司月之暗面推出的Kimi Chat支持输入20万汉字,约合40万token。港中文和MIT合作开发的LongLoRA技术则可将7B模型的文本长度扩展到10万token,70B模型扩展到3.2万token。

目前,包括OpenAI、Anthropic、Meta、月之暗面在内的众多顶级大模型公司和研究机构都将提升上下文长度作为重点发展方向。这些公司大多受到资本市场的热捧。OpenAI获得近120亿美元投资,Anthropic估值有望达到300亿美元,月之暗面成立半年即完成多轮融资,估值超3亿美元。

长文本能力的提升意味着模型可处理的信息量大幅增加。从最初只能读取一篇短文,到现在可以轻松处理一本长篇小说,大模型的应用场景正不断拓展。这项技术在金融、法律、科研等专业领域的应用前景广阔,有望推动这些行业的智能化升级。

然而,专家指出,文本长度并非越长越好。研究表明,模型支持的上下文长度与其效果并不存在简单的线性关系。更重要的是模型如何有效利用上下文信息。目前,业界对长文本技术的探索仍在继续,40万token可能只是一个起点。

长文本技术的发展不仅解决了大模型早期面临的一些问题,还为进一步的产业应用铺平了道路。这标志着大模型进入了从LLM到Long LLM的新阶段。

以月之暗面的Kimi Chat为例,其长文本能力在多个场景中展现出独特优势:

  1. 可快速分析长文章要点,提取关键信息。
  2. 能处理整本书籍或专业法律文件,支持深入问答。
  3. 可直接将论文转化为代码,并进行修改。
  4. 支持长对话下的角色扮演,实现个性化互动。

这些功能显示出大模型正朝着专业化、个性化和深度化方向发展,有望成为撬动产业应用的新支点。

然而,长文本技术的发展也面临着"不可能三角"困境:文本长度、注意力分配和算力需求三者难以兼顾。这主要源于Transformer结构中自注意力机制的计算复杂度随文本长度呈平方级增长。

目前,业界主要采取三种方案应对这一挑战:

  1. 借助外部工具辅助处理长文本。
  2. 优化自注意力机制的计算方式。
  3. 对模型本身进行优化。

尽管长文本技术仍面临诸多挑战,但它为大模型开辟了新的发展方向。未来,大模型厂商将在文本长度、注意力分配和算力需求之间寻求最佳平衡点,以推动这项技术的进一步发展和应用。

此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 9
  • 分享
评论
0/400
PancakeFlippavip
· 07-13 04:55
长文本是对的路
回复0
NFT悔改者vip
· 07-11 10:00
智能不过是改变世界
回复0
代码审计姐vip
· 07-11 05:56
代码验证很重要
回复0
DeFi老韭菜vip
· 07-10 15:02
竞争终会带来进步
回复0
Token小灵通vip
· 07-10 14:59
续命能力确实牛
回复0
无常哲学家vip
· 07-10 14:59
算力终归有限度
回复0
委托书收集者vip
· 07-10 14:52
不可能三角真的存在
回复0
冷钱包守护者vip
· 07-10 14:44
上下文才是关键点
回复0
matic填坑工vip
· 07-10 14:40
性能突破真香
回复0
查看更多
交易,随时随地
qrCode
扫码下载 Gate APP
社群列表
简体中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)