Revolução de Textos Longos com Grandes Modelos: A Quebra e os Desafios de 4000 a 400000 tokens

robot
Geração de resumo em curso

A tecnologia de longos textos de grandes modelos entra em uma nova fase, qual é o mistério por trás de 4000 a 400 mil tokens?

Recentemente, a capacidade de longo texto dos grandes modelos está a melhorar a um ritmo impressionante. Desde os 4000 tokens iniciais até aos atuais 400.000 tokens, a concorrência entre os fornecedores de grandes modelos nesta área está a tornar-se cada vez mais intensa.

A nível internacional, a OpenAI aumentou o comprimento do contexto do GPT-3.5 e do GPT-4 para 16 mil e 32 mil tokens, respetivamente, através de várias atualizações. A Anthropic, por sua vez, expandiu o comprimento do contexto do seu modelo Claude para 100 mil tokens. O LongLLaMA levou esse número para 256 mil tokens ou até mais.

No âmbito nacional, o Kimi Chat, lançado pela startup A Face Oculta da Lua, suporta a entrada de 200 mil caracteres chineses, o que equivale a cerca de 400 mil tokens. A tecnologia LongLoRA, desenvolvida em colaboração entre a Universidade Chinesa de Hong Kong e o MIT, pode expandir o comprimento de texto do modelo de 7B para 100 mil tokens e do modelo de 70B para 32 mil tokens.

Atualmente, muitas das principais empresas e instituições de pesquisa em grandes modelos, incluindo OpenAI, Anthropic, Meta e a Dark Side of the Moon, estão focadas em aumentar o comprimento do contexto como uma direção de desenvolvimento prioritária. A maioria dessas empresas é muito procurada pelo mercado de capitais. A OpenAI recebeu quase 12 bilhões de dólares em investimentos, a valuation da Anthropic pode alcançar 30 bilhões de dólares, e a Dark Side of the Moon completou várias rodadas de financiamento em apenas seis meses, com uma valuation superior a 300 milhões de dólares.

A melhoria na capacidade de lidar com textos longos significa que a quantidade de informações que o modelo pode processar aumentou significativamente. Desde inicialmente poder ler apenas um artigo curto, até agora conseguir lidar facilmente com um romance extenso, os cenários de aplicação de grandes modelos estão se expandindo continuamente. Esta tecnologia tem um vasto potencial de aplicação em áreas profissionais como finanças, direito e pesquisa científica, e espera-se que impulsione a modernização inteligente desses setores.

No entanto, os especialistas apontam que o comprimento do texto não é necessariamente melhor quanto mais longo for. Estudos mostram que não existe uma relação linear simples entre o comprimento do contexto suportado pelo modelo e seu desempenho. Mais importante é como o modelo utiliza de forma eficaz as informações do contexto. Atualmente, a exploração da tecnologia de texto longo na indústria continua, e 400 mil tokens podem ser apenas um ponto de partida.

O desenvolvimento da tecnologia de longos textos não só resolveu alguns problemas enfrentados pelos grandes modelos no início, mas também pavimentou o caminho para futuras aplicações industriais. Isso marca a entrada dos grandes modelos em uma nova fase, de LLM para Long LLM.

Tomando como exemplo o Kimi Chat do lado escuro da Lua, a sua capacidade de texto longo demonstra vantagens únicas em vários cenários:

  1. Pode analisar rapidamente os principais pontos de longos artigos e extrair informações-chave.
  2. Capaz de processar livros inteiros ou documentos legais especializados, suportando perguntas e respostas profundas.
  3. Pode converter diretamente o artigo em código e fazer modificações.
  4. Suporte para interpretação de papéis em longas conversas, permitindo interações personalizadas.

Estas funcionalidades mostram que os grandes modelos estão a evoluir na direção da especialização, personalização e profundidade, e têm potencial para se tornarem novos pontos de apoio na aplicação industrial.

No entanto, o desenvolvimento da tecnologia de texto longo também enfrenta o dilema do "triângulo impossível": é difícil equilibrar o comprimento do texto, a distribuição de atenção e a demanda de poder computacional. Isso se deve principalmente à complexidade computacional do mecanismo de autoatenção na estrutura do Transformer, que cresce em proporção quadrática com o comprimento do texto.

Atualmente, a indústria está a adotar três soluções principais para enfrentar este desafio:

  1. Usar ferramentas externas para ajudar a processar textos longos.
  2. Otimizar a forma de cálculo do mecanismo de autoatenção.
  3. Otimizar o próprio modelo.

Apesar de a tecnologia de textos longos ainda enfrentar muitos desafios, ela abriu novas direções de desenvolvimento para modelos grandes. No futuro, os fornecedores de modelos grandes buscarão o melhor equilíbrio entre o comprimento do texto, a distribuição de atenção e as necessidades de computação, para promover o desenvolvimento e a aplicação adicionais dessa tecnologia.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • 9
  • Partilhar
Comentar
0/400
PancakeFlippavip
· 07-13 04:55
O texto longo está no caminho certo
Ver originalResponder0
NFTRegretfulvip
· 07-11 10:00
A inteligência não é mais do que mudar o mundo
Ver originalResponder0
CodeAuditQueenvip
· 07-11 05:56
A verificação de código é muito importante
Ver originalResponder0
DefiVeteranvip
· 07-10 15:02
A competição acabará por trazer progresso.
Ver originalResponder0
TokenGuruvip
· 07-10 14:59
A habilidade de prolongar a vida é realmente bull
Ver originalResponder0
ImpermanentSagevip
· 07-10 14:59
Poder de computação termina por ser limitado
Ver originalResponder0
ProxyCollectorvip
· 07-10 14:52
Trindade Profana realmente existe
Ver originalResponder0
ColdWalletGuardianvip
· 07-10 14:44
O contexto é o ponto chave.
Ver originalResponder0
MaticHoleFillervip
· 07-10 14:40
O desempenho é realmente excelente.
Ver originalResponder0
Ver mais
  • Pino
Negocie cripto em qualquer lugar e a qualquer hora
qrCode
Digitalizar para transferir a aplicação Gate
Novidades
Português (Portugal)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)