La tecnología de texto largo de grandes modelos entra en una nueva fase, ¿cuál es el misterio detrás de 4000 a 400,000 tokens?
Recientemente, la capacidad de texto largo de los grandes modelos está mejorando a un ritmo asombroso. Desde los 4000 tokens iniciales hasta los 400,000 tokens actuales, la competencia entre los proveedores de grandes modelos en este campo es cada vez más intensa.
A nivel internacional, OpenAI ha aumentado la longitud del contexto de GPT-3.5 y GPT-4 a 16,000 y 32,000 tokens, respectivamente, a través de múltiples actualizaciones. Anthropic, por su parte, ha ampliado la longitud del contexto de su modelo Claude a 100,000 tokens. LongLLaMA ha llevado este número a 256,000 tokens o incluso más.
En el ámbito nacional, Kimi Chat, lanzado por la startup "La Cara Oculta de la Luna", admite la entrada de 200,000 caracteres chinos, lo que equivale a aproximadamente 400,000 tokens. La tecnología LongLoRA, desarrollada en colaboración entre la Universidad China de Hong Kong y el MIT, puede extender la longitud del texto del modelo de 7B a 100,000 tokens y del modelo de 70B a 32,000 tokens.
Actualmente, numerosas empresas y organizaciones de investigación de modelos grandes de primer nivel, incluidos OpenAI, Anthropic, Meta y Moonlight, están enfocándose en aumentar la longitud del contexto como una dirección clave de desarrollo. La mayoría de estas empresas son muy buscadas por el mercado de capitales. OpenAI ha obtenido cerca de 12 mil millones de dólares en inversiones, se espera que la valoración de Anthropic alcance los 30 mil millones de dólares, y Moonlight ha completado varias rondas de financiamiento en seis meses desde su fundación, con una valoración que supera los 30 millones de dólares.
La mejora en la capacidad de texto largo significa que la cantidad de información que el modelo puede manejar ha aumentado significativamente. Desde poder leer solo un breve artículo al principio, hasta poder manejar fácilmente una novela larga ahora, el ámbito de aplicación de los grandes modelos está en constante expansión. Esta tecnología tiene un amplio potencial de aplicación en campos profesionales como las finanzas, el derecho y la investigación científica, y se espera que impulse la modernización inteligente de estas industrias.
Sin embargo, los expertos señalan que la longitud del texto no siempre es mejor cuanto más larga sea. Las investigaciones muestran que no hay una relación lineal simple entre la longitud del contexto que un modelo soporta y su rendimiento. Más importante es cómo el modelo utiliza eficazmente la información del contexto. Actualmente, la exploración de tecnologías de texto largo en la industria sigue en curso, y 400,000 tokens pueden ser solo un punto de partida.
El desarrollo de la tecnología de texto largo no solo ha resuelto algunos de los problemas que enfrentaban los grandes modelos en sus primeras etapas, sino que también ha allanado el camino para aplicaciones industriales adicionales. Esto marca la entrada de los grandes modelos en una nueva etapa, de LLM a Long LLM.
Tomando como ejemplo Kimi Chat de la cara oculta de la luna, su capacidad para textos largos muestra ventajas únicas en múltiples escenarios:
Puede analizar rápidamente los puntos clave de artículos largos y extraer información importante.
Puede manejar libros completos o documentos legales especializados y soporta preguntas y respuestas profundas.
Se puede convertir directamente el documento en código y realizar modificaciones.
Soporte para la interpretación de roles en diálogos largos, logrando una interacción personalizada.
Estas funciones muestran que los grandes modelos están avanzando hacia la especialización, personalización y profundización, y se espera que se conviertan en un nuevo punto de apoyo para impulsar las aplicaciones industriales.
Sin embargo, el desarrollo de la tecnología de texto largo también enfrenta la dificultad del "triángulo imposible": es difícil equilibrar la longitud del texto, la distribución de la atención y la demanda de potencia de cálculo. Esto se debe principalmente a que la complejidad computacional del mecanismo de autoatención en la estructura del Transformer crece de manera cuadrática con la longitud del texto.
Actualmente, la industria ha adoptado principalmente tres soluciones para hacer frente a este desafío:
Utilizar herramientas externas para ayudar a procesar texto largo.
Optimizar el método de cálculo del mecanismo de autoatención.
Optimizar el modelo en sí.
A pesar de que la tecnología de texto largo aún enfrenta muchos desafíos, ha abierto nuevas direcciones de desarrollo para los grandes modelos. En el futuro, los fabricantes de grandes modelos buscarán el mejor punto de equilibrio entre la longitud del texto, la distribución de la atención y las demandas de potencia de cálculo para impulsar el desarrollo y la aplicación de esta tecnología.
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
23 me gusta
Recompensa
23
9
Compartir
Comentar
0/400
PancakeFlippa
· 07-13 04:55
El texto largo es el camino correcto.
Ver originalesResponder0
NFTRegretful
· 07-11 10:00
La inteligencia solo es un cambio en el mundo
Ver originalesResponder0
CodeAuditQueen
· 07-11 05:56
La verificación de código es muy importante
Ver originalesResponder0
DefiVeteran
· 07-10 15:02
La competencia siempre traerá progreso
Ver originalesResponder0
TokenGuru
· 07-10 14:59
La capacidad de prolongar la vida es realmente alcista
La revolución de los grandes modelos de texto largo: superación y desafíos de 4000 a 400,000 tokens
La tecnología de texto largo de grandes modelos entra en una nueva fase, ¿cuál es el misterio detrás de 4000 a 400,000 tokens?
Recientemente, la capacidad de texto largo de los grandes modelos está mejorando a un ritmo asombroso. Desde los 4000 tokens iniciales hasta los 400,000 tokens actuales, la competencia entre los proveedores de grandes modelos en este campo es cada vez más intensa.
A nivel internacional, OpenAI ha aumentado la longitud del contexto de GPT-3.5 y GPT-4 a 16,000 y 32,000 tokens, respectivamente, a través de múltiples actualizaciones. Anthropic, por su parte, ha ampliado la longitud del contexto de su modelo Claude a 100,000 tokens. LongLLaMA ha llevado este número a 256,000 tokens o incluso más.
En el ámbito nacional, Kimi Chat, lanzado por la startup "La Cara Oculta de la Luna", admite la entrada de 200,000 caracteres chinos, lo que equivale a aproximadamente 400,000 tokens. La tecnología LongLoRA, desarrollada en colaboración entre la Universidad China de Hong Kong y el MIT, puede extender la longitud del texto del modelo de 7B a 100,000 tokens y del modelo de 70B a 32,000 tokens.
Actualmente, numerosas empresas y organizaciones de investigación de modelos grandes de primer nivel, incluidos OpenAI, Anthropic, Meta y Moonlight, están enfocándose en aumentar la longitud del contexto como una dirección clave de desarrollo. La mayoría de estas empresas son muy buscadas por el mercado de capitales. OpenAI ha obtenido cerca de 12 mil millones de dólares en inversiones, se espera que la valoración de Anthropic alcance los 30 mil millones de dólares, y Moonlight ha completado varias rondas de financiamiento en seis meses desde su fundación, con una valoración que supera los 30 millones de dólares.
La mejora en la capacidad de texto largo significa que la cantidad de información que el modelo puede manejar ha aumentado significativamente. Desde poder leer solo un breve artículo al principio, hasta poder manejar fácilmente una novela larga ahora, el ámbito de aplicación de los grandes modelos está en constante expansión. Esta tecnología tiene un amplio potencial de aplicación en campos profesionales como las finanzas, el derecho y la investigación científica, y se espera que impulse la modernización inteligente de estas industrias.
Sin embargo, los expertos señalan que la longitud del texto no siempre es mejor cuanto más larga sea. Las investigaciones muestran que no hay una relación lineal simple entre la longitud del contexto que un modelo soporta y su rendimiento. Más importante es cómo el modelo utiliza eficazmente la información del contexto. Actualmente, la exploración de tecnologías de texto largo en la industria sigue en curso, y 400,000 tokens pueden ser solo un punto de partida.
El desarrollo de la tecnología de texto largo no solo ha resuelto algunos de los problemas que enfrentaban los grandes modelos en sus primeras etapas, sino que también ha allanado el camino para aplicaciones industriales adicionales. Esto marca la entrada de los grandes modelos en una nueva etapa, de LLM a Long LLM.
Tomando como ejemplo Kimi Chat de la cara oculta de la luna, su capacidad para textos largos muestra ventajas únicas en múltiples escenarios:
Estas funciones muestran que los grandes modelos están avanzando hacia la especialización, personalización y profundización, y se espera que se conviertan en un nuevo punto de apoyo para impulsar las aplicaciones industriales.
Sin embargo, el desarrollo de la tecnología de texto largo también enfrenta la dificultad del "triángulo imposible": es difícil equilibrar la longitud del texto, la distribución de la atención y la demanda de potencia de cálculo. Esto se debe principalmente a que la complejidad computacional del mecanismo de autoatención en la estructura del Transformer crece de manera cuadrática con la longitud del texto.
Actualmente, la industria ha adoptado principalmente tres soluciones para hacer frente a este desafío:
A pesar de que la tecnología de texto largo aún enfrenta muchos desafíos, ha abierto nuevas direcciones de desarrollo para los grandes modelos. En el futuro, los fabricantes de grandes modelos buscarán el mejor punto de equilibrio entre la longitud del texto, la distribución de la atención y las demandas de potencia de cálculo para impulsar el desarrollo y la aplicación de esta tecnología.