La technologie des longs textes des grands modèles entre dans une nouvelle phase, quel est le mystère derrière 4000 à 400 000 tokens ?
Récemment, la capacité des grands modèles à traiter de longs textes s'améliore à un rythme incroyable. Passant de 4000 tokens au départ à maintenant 400 000 tokens, la concurrence entre les fournisseurs de grands modèles dans ce domaine devient de plus en plus intense.
À l'international, OpenAI a augmenté la longueur de contexte de GPT-3.5 et GPT-4 à respectivement 16 000 et 32 000 tokens grâce à plusieurs mises à jour. Anthropic a même porté la longueur de contexte de son modèle Claude à 100 000 tokens. LongLLaMA a poussé ce chiffre à 256 000 tokens, voire plus.
Dans le pays, Kimi Chat lancé par la startup Mois de l'Obscurité prend en charge l'entrée de 200 000 caractères chinois, soit environ 400 000 tokens. La technologie LongLoRA développée en collaboration entre l'Université Chinoise de Hong Kong et le MIT peut étendre la longueur de texte du modèle 7B à 100 000 tokens et celle du modèle 70B à 32 000 tokens.
Actuellement, de nombreuses entreprises et institutions de recherche de premier plan en modèles de grande taille, y compris OpenAI, Anthropic, Meta et Moonlight, considèrent l'augmentation de la longueur du contexte comme une priorité de développement. La plupart de ces entreprises sont très prisées par le marché des capitaux. OpenAI a obtenu près de 12 milliards de dollars d'investissement, la valorisation d'Anthropic devrait atteindre 30 milliards de dollars, et Moonlight, après seulement six mois d'existence, a déjà réalisé plusieurs tours de financement, avec une valorisation dépassant 300 millions de dollars.
L'amélioration de la capacité de traitement de longs textes signifie que la quantité d'informations que le modèle peut gérer a considérablement augmenté. Passant de la capacité de lire uniquement un court article à celle de traiter facilement un roman entier, les scénarios d'application des grands modèles continuent de s'élargir. Cette technologie a un large potentiel d'application dans des domaines professionnels tels que la finance, le droit et la recherche scientifique, et devrait favoriser la montée en intelligence de ces secteurs.
Cependant, les experts soulignent que la longueur du texte n'est pas nécessairement meilleure lorsqu'elle est plus longue. Des études montrent qu'il n'existe pas de relation linéaire simple entre la longueur du contexte soutenue par le modèle et son efficacité. Plus important encore, c'est la manière dont le modèle utilise efficacement les informations contextuelles. Actuellement, l'exploration des technologies de texte long dans l'industrie se poursuit, et 400 000 tokens pourraient n'être qu'un point de départ.
Le développement de la technologie des longs textes a non seulement résolu certains problèmes auxquels les grands modèles étaient confrontés au début, mais a également ouvert la voie à de nouvelles applications industrielles. Cela marque l'entrée des grands modèles dans une nouvelle phase, passant de LLM à Long LLM.
Prenons Kimi Chat de la face cachée de la lune comme exemple, sa capacité à traiter de longs textes présente des avantages uniques dans plusieurs scénarios :
Peut rapidement analyser les points clés des longs articles et extraire des informations essentielles.
Capable de traiter des livres entiers ou des documents juridiques spécialisés, prend en charge des questions et réponses approfondies.
Il est possible de convertir directement le document en code et de le modifier.
Support de la simulation de rôle dans de longues conversations pour réaliser des interactions personnalisées.
Ces fonctionnalités montrent que les grands modèles évoluent vers une spécialisation, une personnalisation et une profondeur, et pourraient devenir un nouveau levier pour les applications industrielles.
Cependant, le développement des technologies de longs textes est également confronté au dilemme du "triangle impossible" : il est difficile de concilier la longueur du texte, la répartition de l'attention et les exigences en matière de puissance de calcul. Cela provient principalement de la complexité de calcul du mécanisme d'auto-attention dans la structure Transformer, qui augmente de manière exponentielle avec la longueur du texte.
Actuellement, l'industrie adopte principalement trois solutions pour relever ce défi :
Utiliser des outils externes pour aider à traiter des textes longs.
Optimiser la méthode de calcul du mécanisme d'attention auto.
Optimiser le modèle lui-même.
Bien que la technologie des longs textes fasse encore face à de nombreux défis, elle ouvre de nouvelles directions de développement pour les grands modèles. À l'avenir, les fournisseurs de grands modèles chercheront à trouver un meilleur équilibre entre la longueur du texte, la répartition de l'attention et les besoins en puissance de calcul pour promouvoir le développement et l'application de cette technologie.
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
23 J'aime
Récompense
23
9
Partager
Commentaire
0/400
PancakeFlippa
· 07-13 04:55
Un long texte est le bon chemin.
Voir l'originalRépondre0
NFTRegretful
· 07-11 10:00
L'intelligence ne fait que changer le monde
Voir l'originalRépondre0
CodeAuditQueen
· 07-11 05:56
La vérification du code est très importante
Voir l'originalRépondre0
DefiVeteran
· 07-10 15:02
La concurrence finira par apporter des progrès.
Voir l'originalRépondre0
TokenGuru
· 07-10 14:59
La capacité de prolonger la vie est effectivement bull
La révolution des longs textes des grands modèles : percée et défis de 4000 à 400000 tokens.
La technologie des longs textes des grands modèles entre dans une nouvelle phase, quel est le mystère derrière 4000 à 400 000 tokens ?
Récemment, la capacité des grands modèles à traiter de longs textes s'améliore à un rythme incroyable. Passant de 4000 tokens au départ à maintenant 400 000 tokens, la concurrence entre les fournisseurs de grands modèles dans ce domaine devient de plus en plus intense.
À l'international, OpenAI a augmenté la longueur de contexte de GPT-3.5 et GPT-4 à respectivement 16 000 et 32 000 tokens grâce à plusieurs mises à jour. Anthropic a même porté la longueur de contexte de son modèle Claude à 100 000 tokens. LongLLaMA a poussé ce chiffre à 256 000 tokens, voire plus.
Dans le pays, Kimi Chat lancé par la startup Mois de l'Obscurité prend en charge l'entrée de 200 000 caractères chinois, soit environ 400 000 tokens. La technologie LongLoRA développée en collaboration entre l'Université Chinoise de Hong Kong et le MIT peut étendre la longueur de texte du modèle 7B à 100 000 tokens et celle du modèle 70B à 32 000 tokens.
Actuellement, de nombreuses entreprises et institutions de recherche de premier plan en modèles de grande taille, y compris OpenAI, Anthropic, Meta et Moonlight, considèrent l'augmentation de la longueur du contexte comme une priorité de développement. La plupart de ces entreprises sont très prisées par le marché des capitaux. OpenAI a obtenu près de 12 milliards de dollars d'investissement, la valorisation d'Anthropic devrait atteindre 30 milliards de dollars, et Moonlight, après seulement six mois d'existence, a déjà réalisé plusieurs tours de financement, avec une valorisation dépassant 300 millions de dollars.
L'amélioration de la capacité de traitement de longs textes signifie que la quantité d'informations que le modèle peut gérer a considérablement augmenté. Passant de la capacité de lire uniquement un court article à celle de traiter facilement un roman entier, les scénarios d'application des grands modèles continuent de s'élargir. Cette technologie a un large potentiel d'application dans des domaines professionnels tels que la finance, le droit et la recherche scientifique, et devrait favoriser la montée en intelligence de ces secteurs.
Cependant, les experts soulignent que la longueur du texte n'est pas nécessairement meilleure lorsqu'elle est plus longue. Des études montrent qu'il n'existe pas de relation linéaire simple entre la longueur du contexte soutenue par le modèle et son efficacité. Plus important encore, c'est la manière dont le modèle utilise efficacement les informations contextuelles. Actuellement, l'exploration des technologies de texte long dans l'industrie se poursuit, et 400 000 tokens pourraient n'être qu'un point de départ.
Le développement de la technologie des longs textes a non seulement résolu certains problèmes auxquels les grands modèles étaient confrontés au début, mais a également ouvert la voie à de nouvelles applications industrielles. Cela marque l'entrée des grands modèles dans une nouvelle phase, passant de LLM à Long LLM.
Prenons Kimi Chat de la face cachée de la lune comme exemple, sa capacité à traiter de longs textes présente des avantages uniques dans plusieurs scénarios :
Ces fonctionnalités montrent que les grands modèles évoluent vers une spécialisation, une personnalisation et une profondeur, et pourraient devenir un nouveau levier pour les applications industrielles.
Cependant, le développement des technologies de longs textes est également confronté au dilemme du "triangle impossible" : il est difficile de concilier la longueur du texte, la répartition de l'attention et les exigences en matière de puissance de calcul. Cela provient principalement de la complexité de calcul du mécanisme d'auto-attention dans la structure Transformer, qui augmente de manière exponentielle avec la longueur du texte.
Actuellement, l'industrie adopte principalement trois solutions pour relever ce défi :
Bien que la technologie des longs textes fasse encore face à de nombreux défis, elle ouvre de nouvelles directions de développement pour les grands modèles. À l'avenir, les fournisseurs de grands modèles chercheront à trouver un meilleur équilibre entre la longueur du texte, la répartition de l'attention et les besoins en puissance de calcul pour promouvoir le développement et l'application de cette technologie.