Технологія довгих текстів великих моделей входить у нову стадію, що стоїть за 4000 до 400000 токенів?
Нещодавно здатність великих моделей працювати з довгими текстами стрімко зростає. Від початкових 4000 токенів до теперішніх 400000 токенів конкуренція між виробниками великих моделей у цій галузі дедалі зростає.
На міжнародному рівні OpenAI кілька разів оновлював GPT-3.5 і GPT-4, відповідно підвищивши довжину контексту до 16000 і 32000 токенів. Anthropic навіть розширив довжину контексту своєї моделі Claude до 100000 токенів. LongLLaMA ж підвищив це число до 256000 токенів і навіть вище.
На внутрішньому ринку стартап Kimi Chat, розроблений компанією "Місяць темряви", підтримує введення 200 000 ієрогліфів, що приблизно відповідає 400 000 токенів. Технологія LongLoRA, розроблена спільно Гонконгським університетом та MIT, може розширити довжину тексту 7B моделі до 100 000 токенів, а 70B моделі - до 32 000 токенів.
На сьогоднішній день багато провідних компаній з великими моделями та дослідницьких установ, включаючи OpenAI, Anthropic, Meta та Moonlight, зосередили свої зусилля на підвищенні довжини контексту. Більшість із цих компаній користуються великим попитом на фінансових ринках. OpenAI отримала інвестиції на суму майже 12 мільярдів доларів, оцінка Anthropic може досягти 30 мільярдів доларів, а Moonlight, заснована лише півроку тому, вже провела кілька раундів фінансування, а її оцінка перевищила 300 мільйонів доларів.
Підвищення здатності до обробки довгих текстів означає значне збільшення кількості інформації, яку може обробляти модель. Від початкової можливості читання лише короткої статті до здатності легко обробляти цілу довгу повість, сфера застосування великих моделей постійно розширюється. Ця технологія має великі перспективи застосування в таких професійних сферах, як фінанси, право, наукові дослідження, і має потенціал для сприяння інтелектуальному оновленню цих галузей.
Однак експерти зазначають, що довжина тексту не завжди є кращою. Дослідження показують, що між довжиною контексту, яку підтримує модель, та її ефективністю немає простої лінійної залежності. Набагато важливіше, як модель ефективно використовує контекстну інформацію. На даний момент в індустрії триває дослідження технологій довгих текстів, 400 тисяч токенів, можливо, лише початок.
Розвиток технологій довгих текстів не лише вирішив деякі проблеми, з якими стикалися великі моделі на ранніх етапах, а й проклав шлях для подальшого промислового застосування. Це знаменує перехід великих моделей від LLM до Long LLM.
Наприклад, Kimi Chat з темного боку місяця демонструє унікальні переваги своїх можливостей роботи з довгими текстами в різних сценаріях:
Можна швидко аналізувати основні моменти довгих статей, виділяти ключову інформацію.
Може обробляти цілі книги або професійні юридичні документи, підтримує поглиблені запитання та відповіді.
Можна безпосередньо перетворити статтю на код і внести зміни.
Підтримка рольової гри в довгих розмовах для досягнення персоналізованої взаємодії.
Ці функції демонструють, що великі моделі розвиваються в напрямку спеціалізації, індивідуалізації та заглибленості, що обіцяє стати новою опорою для промислових застосувань.
Однак розвиток технологій довгих текстів також стикається з困境ою "неможливого трикутника": важко забезпечити баланс між довжиною тексту, розподілом уваги та вимогами до обчислювальної потужності. Це в основному пов'язано зі складністю обчислень механізму самоуваги в структурі Transformer, яка зростає квадратично з довжиною тексту.
Наразі в індустрії в основному використовують три рішення для подолання цієї виклики:
Використовуйте зовнішні інструменти для обробки довгих текстів.
Оптимізувати спосіб обчислення механізму самостійної уваги.
Оптимізуйте саму модель.
Незважаючи на те, що технології довгих текстів все ще стикаються з численними викликами, вони відкривають нові напрямки розвитку для великих моделей. У майбутньому виробники великих моделей шукатимуть оптимальний баланс між довжиною тексту, розподілом уваги та вимогами до обчислювальної потужності, щоб сприяти подальшому розвитку та застосуванню цієї технології.
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
Революція довгих текстів великих моделей: прорив і виклики від 4000 до 400000 токенів
Технологія довгих текстів великих моделей входить у нову стадію, що стоїть за 4000 до 400000 токенів?
Нещодавно здатність великих моделей працювати з довгими текстами стрімко зростає. Від початкових 4000 токенів до теперішніх 400000 токенів конкуренція між виробниками великих моделей у цій галузі дедалі зростає.
На міжнародному рівні OpenAI кілька разів оновлював GPT-3.5 і GPT-4, відповідно підвищивши довжину контексту до 16000 і 32000 токенів. Anthropic навіть розширив довжину контексту своєї моделі Claude до 100000 токенів. LongLLaMA ж підвищив це число до 256000 токенів і навіть вище.
На внутрішньому ринку стартап Kimi Chat, розроблений компанією "Місяць темряви", підтримує введення 200 000 ієрогліфів, що приблизно відповідає 400 000 токенів. Технологія LongLoRA, розроблена спільно Гонконгським університетом та MIT, може розширити довжину тексту 7B моделі до 100 000 токенів, а 70B моделі - до 32 000 токенів.
На сьогоднішній день багато провідних компаній з великими моделями та дослідницьких установ, включаючи OpenAI, Anthropic, Meta та Moonlight, зосередили свої зусилля на підвищенні довжини контексту. Більшість із цих компаній користуються великим попитом на фінансових ринках. OpenAI отримала інвестиції на суму майже 12 мільярдів доларів, оцінка Anthropic може досягти 30 мільярдів доларів, а Moonlight, заснована лише півроку тому, вже провела кілька раундів фінансування, а її оцінка перевищила 300 мільйонів доларів.
Підвищення здатності до обробки довгих текстів означає значне збільшення кількості інформації, яку може обробляти модель. Від початкової можливості читання лише короткої статті до здатності легко обробляти цілу довгу повість, сфера застосування великих моделей постійно розширюється. Ця технологія має великі перспективи застосування в таких професійних сферах, як фінанси, право, наукові дослідження, і має потенціал для сприяння інтелектуальному оновленню цих галузей.
Однак експерти зазначають, що довжина тексту не завжди є кращою. Дослідження показують, що між довжиною контексту, яку підтримує модель, та її ефективністю немає простої лінійної залежності. Набагато важливіше, як модель ефективно використовує контекстну інформацію. На даний момент в індустрії триває дослідження технологій довгих текстів, 400 тисяч токенів, можливо, лише початок.
Розвиток технологій довгих текстів не лише вирішив деякі проблеми, з якими стикалися великі моделі на ранніх етапах, а й проклав шлях для подальшого промислового застосування. Це знаменує перехід великих моделей від LLM до Long LLM.
Наприклад, Kimi Chat з темного боку місяця демонструє унікальні переваги своїх можливостей роботи з довгими текстами в різних сценаріях:
Ці функції демонструють, що великі моделі розвиваються в напрямку спеціалізації, індивідуалізації та заглибленості, що обіцяє стати новою опорою для промислових застосувань.
Однак розвиток технологій довгих текстів також стикається з困境ою "неможливого трикутника": важко забезпечити баланс між довжиною тексту, розподілом уваги та вимогами до обчислювальної потужності. Це в основному пов'язано зі складністю обчислень механізму самоуваги в структурі Transformer, яка зростає квадратично з довжиною тексту.
Наразі в індустрії в основному використовують три рішення для подолання цієї виклики:
Незважаючи на те, що технології довгих текстів все ще стикаються з численними викликами, вони відкривають нові напрямки розвитку для великих моделей. У майбутньому виробники великих моделей шукатимуть оптимальний баланс між довжиною тексту, розподілом уваги та вимогами до обчислювальної потужності, щоб сприяти подальшому розвитку та застосуванню цієї технології.