# 大規模モデルの長文技術が新しい段階に入った。4000から40万トークンの背後には何の秘密があるのか?最近、大規模モデルの長文能力が驚異的な速度で向上しています。最初の4000トークンから現在の40万トークンまで、大規模モデルのメーカー間の競争がますます激化しています。国際的に、OpenAIは複数回のアップグレードを通じて、GPT-3.5とGPT-4のコンテキスト長をそれぞれ1.6万および3.2万トークンに引き上げました。Anthropicはさらに、そのモデルClaudeのコンテキスト長を10万トークンにまで拡張しました。LongLLaMAはこの数字を25.6万トークン以上にまで押し上げました。国内では、スタートアップの月之暗面が発表したKimi Chatは20万の漢字入力をサポートし、約40万tokenに相当します。香港中文大学とMITが共同開発したLongLoRA技術は、7Bモデルのテキスト長を10万tokenに拡張し、70Bモデルは3.2万tokenに拡張します。現在、OpenAI、Anthropic、Meta、月の暗い面を含む多くのトップモデル企業や研究機関が、コンテキストの長さを向上させることを重点的な発展方向としています。これらの企業は大半が資本市場から熱い支持を受けています。OpenAIは約120億ドルの投資を受け、Anthropicの評価額は300億ドルに達する見込みで、月の暗い面は設立から半年で複数回の資金調達を完了し、評価額は3億ドルを超えています。長文能力の向上は、モデルが処理できる情報量が大幅に増加することを意味します。最初は短い文章しか読めなかったのが、今では簡単に長編小説を処理できるようになり、大規模モデルの応用シーンはどんどん広がっています。この技術は金融、法律、研究などの専門分野での応用の見通しが広く、これらの業界のスマート化を推進することが期待されています。しかし、専門家は、テキストの長さが長ければ長いほど良いわけではないと指摘しています。研究によれば、モデルがサポートするコンテキストの長さとその効果との間には単純な線形関係は存在しません。より重要なのは、モデルがコンテキスト情報をどのように効果的に活用するかです。現在、業界では長文技術の探求が続いており、40万トークンは単なる出発点に過ぎないかもしれません。長文技術の発展は、大規模モデルが初期に直面していたいくつかの問題を解決するだけでなく、さらなる産業応用への道を開きました。これは、大規模モデルがLLMからLong LLMへの新しい段階に入ったことを示しています。月の裏側のKimi Chatを例にとると、その長文能力はさまざまなシーンで独自の強みを発揮しています:1. 長文の要点を迅速に分析し、重要な情報を抽出できます。2. 書籍全体や専門的な法律文書を処理でき、深い質問応答をサポートします。3. 論文を直接コードに変換し、修正することができます。4. 長い対話の中でのロールプレイをサポートし、個性的なインタラクションを実現します。これらの機能は、大規模モデルが専門化、個性化、深度化の方向に向かって進化していることを示しており、産業応用の新しい支点となることが期待されています。しかし、長文技術の発展は「不可能な三角形」というジレンマにも直面しています:テキストの長さ、注意配分、計算能力の要求の三者を同時に満たすことが難しいのです。これは主に、Transformer構造における自己注意メカニズムの計算の複雑さがテキストの長さに対して平方的に増加することに起因しています。現在、業界はこの課題に対処するために主に3つのソリューションを採用しています:1. 外部ツールを使用して長文を処理する。2.セルフアテンションメカニズムの計算方法を最適化します。3. モデル自体を最適化する。長文技術は依然として多くの課題に直面していますが、それは大規模モデルに新たな発展の方向性を開きました。今後、大規模モデルのメーカーは、テキストの長さ、注意の配分、計算力の需要の間で最適なバランスを追求し、この技術のさらなる発展と応用を促進していくでしょう。
大規模モデルによる長文革命:4000から40万トークンへの突破と挑戦
大規模モデルの長文技術が新しい段階に入った。4000から40万トークンの背後には何の秘密があるのか?
最近、大規模モデルの長文能力が驚異的な速度で向上しています。最初の4000トークンから現在の40万トークンまで、大規模モデルのメーカー間の競争がますます激化しています。
国際的に、OpenAIは複数回のアップグレードを通じて、GPT-3.5とGPT-4のコンテキスト長をそれぞれ1.6万および3.2万トークンに引き上げました。Anthropicはさらに、そのモデルClaudeのコンテキスト長を10万トークンにまで拡張しました。LongLLaMAはこの数字を25.6万トークン以上にまで押し上げました。
国内では、スタートアップの月之暗面が発表したKimi Chatは20万の漢字入力をサポートし、約40万tokenに相当します。香港中文大学とMITが共同開発したLongLoRA技術は、7Bモデルのテキスト長を10万tokenに拡張し、70Bモデルは3.2万tokenに拡張します。
現在、OpenAI、Anthropic、Meta、月の暗い面を含む多くのトップモデル企業や研究機関が、コンテキストの長さを向上させることを重点的な発展方向としています。これらの企業は大半が資本市場から熱い支持を受けています。OpenAIは約120億ドルの投資を受け、Anthropicの評価額は300億ドルに達する見込みで、月の暗い面は設立から半年で複数回の資金調達を完了し、評価額は3億ドルを超えています。
長文能力の向上は、モデルが処理できる情報量が大幅に増加することを意味します。最初は短い文章しか読めなかったのが、今では簡単に長編小説を処理できるようになり、大規模モデルの応用シーンはどんどん広がっています。この技術は金融、法律、研究などの専門分野での応用の見通しが広く、これらの業界のスマート化を推進することが期待されています。
しかし、専門家は、テキストの長さが長ければ長いほど良いわけではないと指摘しています。研究によれば、モデルがサポートするコンテキストの長さとその効果との間には単純な線形関係は存在しません。より重要なのは、モデルがコンテキスト情報をどのように効果的に活用するかです。現在、業界では長文技術の探求が続いており、40万トークンは単なる出発点に過ぎないかもしれません。
長文技術の発展は、大規模モデルが初期に直面していたいくつかの問題を解決するだけでなく、さらなる産業応用への道を開きました。これは、大規模モデルがLLMからLong LLMへの新しい段階に入ったことを示しています。
月の裏側のKimi Chatを例にとると、その長文能力はさまざまなシーンで独自の強みを発揮しています:
これらの機能は、大規模モデルが専門化、個性化、深度化の方向に向かって進化していることを示しており、産業応用の新しい支点となることが期待されています。
しかし、長文技術の発展は「不可能な三角形」というジレンマにも直面しています:テキストの長さ、注意配分、計算能力の要求の三者を同時に満たすことが難しいのです。これは主に、Transformer構造における自己注意メカニズムの計算の複雑さがテキストの長さに対して平方的に増加することに起因しています。
現在、業界はこの課題に対処するために主に3つのソリューションを採用しています:
長文技術は依然として多くの課題に直面していますが、それは大規模モデルに新たな発展の方向性を開きました。今後、大規模モデルのメーカーは、テキストの長さ、注意の配分、計算力の需要の間で最適なバランスを追求し、この技術のさらなる発展と応用を促進していくでしょう。