大規模モデルによる長文革命：4000から40万トークンへの突破と挑戦

2025-07-10 14:32:41

概要作成中

大規模モデルの長文技術が新しい段階に入った。4000から40万トークンの背後には何の秘密があるのか?

最近、大規模モデルの長文能力が驚異的な速度で向上しています。最初の4000トークンから現在の40万トークンまで、大規模モデルのメーカー間の競争がますます激化しています。

国際的に、OpenAIは複数回のアップグレードを通じて、GPT-3.5とGPT-4のコンテキスト長をそれぞれ1.6万および3.2万トークンに引き上げました。Anthropicはさらに、そのモデルClaudeのコンテキスト長を10万トークンにまで拡張しました。LongLLaMAはこの数字を25.6万トークン以上にまで押し上げました。

国内では、スタートアップの月之暗面が発表したKimi Chatは20万の漢字入力をサポートし、約40万tokenに相当します。香港中文大学とMITが共同開発したLongLoRA技術は、7Bモデルのテキスト長を10万tokenに拡張し、70Bモデルは3.2万tokenに拡張します。

現在、OpenAI、Anthropic、Meta、月の暗い面を含む多くのトップモデル企業や研究機関が、コンテキストの長さを向上させることを重点的な発展方向としています。これらの企業は大半が資本市場から熱い支持を受けています。OpenAIは約120億ドルの投資を受け、Anthropicの評価額は300億ドルに達する見込みで、月の暗い面は設立から半年で複数回の資金調達を完了し、評価額は3億ドルを超えています。

長文能力の向上は、モデルが処理できる情報量が大幅に増加することを意味します。最初は短い文章しか読めなかったのが、今では簡単に長編小説を処理できるようになり、大規模モデルの応用シーンはどんどん広がっています。この技術は金融、法律、研究などの専門分野での応用の見通しが広く、これらの業界のスマート化を推進することが期待されています。

しかし、専門家は、テキストの長さが長ければ長いほど良いわけではないと指摘しています。研究によれば、モデルがサポートするコンテキストの長さとその効果との間には単純な線形関係は存在しません。より重要なのは、モデルがコンテキスト情報をどのように効果的に活用するかです。現在、業界では長文技術の探求が続いており、40万トークンは単なる出発点に過ぎないかもしれません。

長文技術の発展は、大規模モデルが初期に直面していたいくつかの問題を解決するだけでなく、さらなる産業応用への道を開きました。これは、大規模モデルがLLMからLong LLMへの新しい段階に入ったことを示しています。

月の裏側のKimi Chatを例にとると、その長文能力はさまざまなシーンで独自の強みを発揮しています: