大模型長文本革命:從4000到40萬token的突破與挑戰

robot
摘要生成中

大模型長文本技術進入新階段,4000到40萬token背後有何玄機?

近期,大模型的長文本能力正以驚人的速度提升。從最初的4000 token到現在的40萬token,大模型廠商在這一領域的競爭日益激烈。

國際上,OpenAI通過多次升級將GPT-3.5和GPT-4的上下文長度分別提升至1.6萬和3.2萬token。Anthropic更是一舉將其模型Claude的上下文長度擴展到10萬token。LongLLaMA則將這一數字推至25.6萬token甚至更高。

國內方面,初創公司月之暗面推出的Kimi Chat支持輸入20萬漢字,約合40萬token。港中文和MIT合作開發的LongLoRA技術則可將7B模型的文本長度擴展到10萬token,70B模型擴展到3.2萬token。

目前,包括OpenAI、Anthropic、Meta、月之暗面在內的衆多頂級大模型公司和研究機構都將提升上下文長度作爲重點發展方向。這些公司大多受到資本市場的熱捧。OpenAI獲得近120億美元投資,Anthropic估值有望達到300億美元,月之暗面成立半年即完成多輪融資,估值超3億美元。

長文本能力的提升意味着模型可處理的信息量大幅增加。從最初只能讀取一篇短文,到現在可以輕鬆處理一本長篇小說,大模型的應用場景正不斷拓展。這項技術在金融、法律、科研等專業領域的應用前景廣闊,有望推動這些行業的智能化升級。

然而,專家指出,文本長度並非越長越好。研究表明,模型支持的上下文長度與其效果並不存在簡單的線性關係。更重要的是模型如何有效利用上下文信息。目前,業界對長文本技術的探索仍在繼續,40萬token可能只是一個起點。

長文本技術的發展不僅解決了大模型早期面臨的一些問題,還爲進一步的產業應用鋪平了道路。這標志着大模型進入了從LLM到Long LLM的新階段。

以月之暗面的Kimi Chat爲例,其長文本能力在多個場景中展現出獨特優勢:

  1. 可快速分析長文章要點,提取關鍵信息。
  2. 能處理整本書籍或專業法律文件,支持深入問答。
  3. 可直接將論文轉化爲代碼,並進行修改。
  4. 支持長對話下的角色扮演,實現個性化互動。

這些功能顯示出大模型正朝着專業化、個性化和深度化方向發展,有望成爲撬動產業應用的新支點。

然而,長文本技術的發展也面臨着"不可能三角"困境:文本長度、注意力分配和算力需求三者難以兼顧。這主要源於Transformer結構中自注意力機制的計算復雜度隨文本長度呈平方級增長。

目前,業界主要採取三種方案應對這一挑戰:

  1. 借助外部工具輔助處理長文本。
  2. 優化自注意力機制的計算方式。
  3. 對模型本身進行優化。

盡管長文本技術仍面臨諸多挑戰,但它爲大模型開闢了新的發展方向。未來,大模型廠商將在文本長度、注意力分配和算力需求之間尋求最佳平衡點,以推動這項技術的進一步發展和應用。

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 9
  • 分享
留言
0/400
PancakeFlippavip
· 07-13 04:55
长文本是对的路
回復0
NFT悔改者vip
· 07-11 10:00
智能不过是改变世界
回復0
代码审计姐vip
· 07-11 05:56
代码验证很重要
回復0
DeFi老韭菜vip
· 07-10 15:02
竞争终会带来进步
回復0
Token小灵通vip
· 07-10 14:59
续命能力确实牛
回復0
无常哲学家vip
· 07-10 14:59
算力终归有限度
回復0
委托书收集者vip
· 07-10 14:52
不可能三角真的存在
回復0
冷钱包守护者vip
· 07-10 14:44
上下文才是关键点
回復0
matic填坑工vip
· 07-10 14:40
性能突破真香
回復0
查看更多
交易,隨時隨地
qrCode
掃碼下載 Gate APP
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)