Технология длинных текстов больших моделей вступает в новую стадию, что стоит за преобразованием от 4000 до 400000 токенов?
В последнее время способности больших моделей по работе с длинными текстами значительно возросли. С первоначальных 4000 токенов до нынешних 400000 токенов конкуренция среди производителей больших моделей в этой области становится все более интенсивной.
На международной арене OpenAI многократно обновлял GPT-3.5 и GPT-4, увеличив длину контекста до 16 000 и 32 000 токенов соответственно. Anthropic же значительно расширил длину контекста своей модели Claude до 100 000 токенов. LongLLaMA даже увеличил эту цифру до 256 000 токенов и более.
Внутри страны стартап Moon's Dark Side представил Kimi Chat, который поддерживает ввод 200000 иероглифов, что соответствует примерно 400000 токенам. Технология LongLoRA, разработанная в сотрудничестве Гонконгского китайского университета и MIT, позволяет увеличить длину текста модели 7B до 100000 токенов, а модели 70B — до 32000 токенов.
В настоящее время многие ведущие компании и исследовательские учреждения в области крупных моделей, включая OpenAI, Anthropic, Meta и Лунную Тень, делают акцент на увеличении длины контекста как на ключевом направлении развития. Эти компании в значительной степени пользуются восторженным вниманием со стороны капитальных рынков. OpenAI получила почти 12 миллиардов долларов инвестиций, оценка Anthropic может достигнуть 30 миллиардов долларов, а Лунная Тень, которая была основана всего полгода назад, уже завершила несколько раундов финансирования с оценкой более 300 миллионов долларов.
Увеличение способности к обработке длинного текста означает, что объем информации, который может обрабатывать модель, значительно увеличился. Сначала модель могла читать только короткие статьи, а теперь она может легко обрабатывать целый роман; сферы применения больших моделей продолжают расширяться. Эта технология имеет широкие перспективы применения в таких профессиональных областях, как финансы, юриспруденция и научные исследования, и, вероятно, будет способствовать интеллектуальному обновлению этих отраслей.
Однако эксперты отмечают, что длина текста не всегда должна быть больше. Исследования показывают, что длина контекста, поддерживаемая моделью, не имеет простой линейной зависимости от ее эффективности. Более важно то, как модель эффективно использует информацию контекста. В настоящее время исследования технологий длинного текста продолжаются, и 400 000 токенов могут быть лишь отправной точкой.
Развитие технологий длинного текста не только решило некоторые проблемы, с которыми сталкивались большие модели на ранних стадиях, но и проложило путь для дальнейшего применения в промышленности. Это знаменует собой переход больших моделей от LLM к Long LLM.
Например, Kimi Chat с темной стороны луны демонстрирует уникальные преимущества своей способности к обработке длинных текстов в различных сценариях:
Можно быстро анализировать основные моменты длинных статей и извлекать ключевую информацию.
Может обрабатывать целые книги или специализированные юридические документы, поддерживает глубокие вопросы и ответы.
Можно напрямую преобразовать论文 в код и внести изменения.
Поддержка ролевого взаимодействия в длинных диалогах для реализации персонализированного общения.
Эти функции показывают, что большие модели движутся в направлении специализации, персонализации и углубления, и могут стать новым рычагом для индустриальных приложений.
Тем не менее, развитие технологий длинного текста также сталкивается с дилеммой "невозможного треугольника": трудно одновременно учесть длину текста, распределение внимания и требования к вычислительной мощности. Это в основном связано со сложностью вычислений механизма самовнимания в структуре Transformer, которая растет квадратным образом с увеличением длины текста.
В настоящее время в отрасли в основном используются три решения для преодоления этой проблемы:
Используйте внешние инструменты для обработки длинных текстов.
Несмотря на то, что технологии длинного текста по-прежнему сталкиваются со многими проблемами, они открывают новые направления для развития больших моделей. В будущем производители больших моделей будут искать оптимальный баланс между длиной текста, распределением внимания и потребностями в вычислительной мощности для дальнейшего развития и применения этой технологии.
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
23 Лайков
Награда
23
9
Поделиться
комментарий
0/400
PancakeFlippa
· 07-13 04:55
Длинный текст — это правильный путь
Посмотреть ОригиналОтветить0
NFTRegretful
· 07-11 10:00
Умное просто меняет мир
Посмотреть ОригиналОтветить0
CodeAuditQueen
· 07-11 05:56
Кодовая проверка очень важна
Посмотреть ОригиналОтветить0
DefiVeteran
· 07-10 15:02
Конкуренция в конечном итоге приведет к прогрессу
Посмотреть ОригиналОтветить0
TokenGuru
· 07-10 14:59
Способность продлевать жизнь действительно бык
Посмотреть ОригиналОтветить0
ImpermanentSage
· 07-10 14:59
Вычислительная мощность в конечном итоге ограничена
Революция длинных текстов больших моделей: прорыв и вызовы от 4000 до 400000 токенов
Технология длинных текстов больших моделей вступает в новую стадию, что стоит за преобразованием от 4000 до 400000 токенов?
В последнее время способности больших моделей по работе с длинными текстами значительно возросли. С первоначальных 4000 токенов до нынешних 400000 токенов конкуренция среди производителей больших моделей в этой области становится все более интенсивной.
На международной арене OpenAI многократно обновлял GPT-3.5 и GPT-4, увеличив длину контекста до 16 000 и 32 000 токенов соответственно. Anthropic же значительно расширил длину контекста своей модели Claude до 100 000 токенов. LongLLaMA даже увеличил эту цифру до 256 000 токенов и более.
Внутри страны стартап Moon's Dark Side представил Kimi Chat, который поддерживает ввод 200000 иероглифов, что соответствует примерно 400000 токенам. Технология LongLoRA, разработанная в сотрудничестве Гонконгского китайского университета и MIT, позволяет увеличить длину текста модели 7B до 100000 токенов, а модели 70B — до 32000 токенов.
В настоящее время многие ведущие компании и исследовательские учреждения в области крупных моделей, включая OpenAI, Anthropic, Meta и Лунную Тень, делают акцент на увеличении длины контекста как на ключевом направлении развития. Эти компании в значительной степени пользуются восторженным вниманием со стороны капитальных рынков. OpenAI получила почти 12 миллиардов долларов инвестиций, оценка Anthropic может достигнуть 30 миллиардов долларов, а Лунная Тень, которая была основана всего полгода назад, уже завершила несколько раундов финансирования с оценкой более 300 миллионов долларов.
Увеличение способности к обработке длинного текста означает, что объем информации, который может обрабатывать модель, значительно увеличился. Сначала модель могла читать только короткие статьи, а теперь она может легко обрабатывать целый роман; сферы применения больших моделей продолжают расширяться. Эта технология имеет широкие перспективы применения в таких профессиональных областях, как финансы, юриспруденция и научные исследования, и, вероятно, будет способствовать интеллектуальному обновлению этих отраслей.
Однако эксперты отмечают, что длина текста не всегда должна быть больше. Исследования показывают, что длина контекста, поддерживаемая моделью, не имеет простой линейной зависимости от ее эффективности. Более важно то, как модель эффективно использует информацию контекста. В настоящее время исследования технологий длинного текста продолжаются, и 400 000 токенов могут быть лишь отправной точкой.
Развитие технологий длинного текста не только решило некоторые проблемы, с которыми сталкивались большие модели на ранних стадиях, но и проложило путь для дальнейшего применения в промышленности. Это знаменует собой переход больших моделей от LLM к Long LLM.
Например, Kimi Chat с темной стороны луны демонстрирует уникальные преимущества своей способности к обработке длинных текстов в различных сценариях:
Эти функции показывают, что большие модели движутся в направлении специализации, персонализации и углубления, и могут стать новым рычагом для индустриальных приложений.
Тем не менее, развитие технологий длинного текста также сталкивается с дилеммой "невозможного треугольника": трудно одновременно учесть длину текста, распределение внимания и требования к вычислительной мощности. Это в основном связано со сложностью вычислений механизма самовнимания в структуре Transformer, которая растет квадратным образом с увеличением длины текста.
В настоящее время в отрасли в основном используются три решения для преодоления этой проблемы:
Несмотря на то, что технологии длинного текста по-прежнему сталкиваются со многими проблемами, они открывают новые направления для развития больших моделей. В будущем производители больших моделей будут искать оптимальный баланс между длиной текста, распределением внимания и потребностями в вычислительной мощности для дальнейшего развития и применения этой технологии.