Децентралізація AI тренування дослідження: Prime Intellect та Pluralis ведуть на передовій

2025-07-27 13:30:11

Святий Грааль Crypto AI: Децентралізація тренування на передовій

У повній ціннісній ланцюзі ШІ, навчання моделей є етапом з найбільшими витратами ресурсів та найвищими технічними бар'єрами, яке безпосередньо визначає межі можливостей моделі та реальні результати застосування. На відміну від легковагого виклику на етапі висновку, процес навчання вимагає постійних великих обсягів обчислювальної потужності, складних процесів обробки даних та підтримки інтенсивних алгоритмів оптимізації, що робить його справжньою "важкою промисловістю" системи ШІ. З точки зору архітектурних парадигм, способи навчання можна розділити на чотири категорії: централізоване навчання, розподілене навчання, федеративне навчання та децентралізоване навчання, яке буде обговорюватися в цій статті.

Централізоване навчання є найпоширенішим традиційним методом, який здійснюється єдиною установою в локальному високопродуктивному кластері, де весь процес навчання, починаючи від апаратного забезпечення, програмного забезпечення низького рівня, системи планування кластерів і закінчуючи всіма компонентами навчальної платформи, координується єдиною системою управління. Така глибока координація архітектури забезпечує оптимальну ефективність спільного використання пам'яті, синхронізації градієнтів та механізмів відмовостійкості, що робить її дуже придатною для навчання масштабних моделей, таких як GPT, Gemini, з такими перевагами, як висока ефективність та контрольовані ресурси, але водночас є проблеми монополії даних, бар'єрів для ресурсів, споживання енергії та ризику єдиної точки.

Розподілене навчання є основним методом навчання великих моделей, його суть полягає в розподілі завдань навчання моделей на кілька машин для спільного виконання, щоб подолати обмеження обчислень та зберігання на одному комп'ютері. Хоча фізично має "дистрибутивні" характеристики, загалом все ще контролюється централізованими установами для управління та синхронізації, часто працює в середовищі швидкої локальної мережі, за допомогою технології швидкісної магістралі NVLink, де основний вузол координує всі підзавдання. Основні методи включають:

Паралельність даних: кожен вузол навчає різні дані, параметри спільні, потрібно узгодити ваги моделі
Модельна паралельність: розміщення різних частин моделі на різних вузлах для досягнення сильної розширюваності
Паралельні канали: поетапне послідовне виконання, підвищення пропускної спроможності
Тензорна паралельність: детальне розділення матричних обчислень, підвищення паралельного масштабу

Розподілене навчання є комбінацією "централізованого контролю + розподіленого виконання", аналогічно тому, як один і той же керівник віддалено керує співробітниками в кількох "офісах" для виконання завдання. На сьогодні майже всі основні великі моделі навчаються саме цим способом.

Децентралізація тренування означає більш відкритий та стійкий до цензури шлях у майбутнє. Його основна характеристика полягає в тому, що кілька недовірливих вузлів співпрацюють для виконання завдань тренування без центрального координатора, зазвичай через протоколи, які керують розподілом завдань та співпрацею, а також завдяки механізмам криптостимулювання, які забезпечують чесність внесків. Основними викликами цього режиму є:

Гетерогенність пристроїв і труднощі в розподілі: висока складність координації гетерогенних пристроїв, низька ефективність розподілу завдань
Проблеми з ефективністю зв'язку: нестабільна мережева комунікація, помітні проблеми з синхронізацією градієнтів
Відсутність довіреного виконання: брак довіреного середовища виконання, важко перевірити, чи дійсно вузол бере участь у розрахунках
Відсутність єдиної координації: немає центрального диспетчера, складне розподілення завдань та механізми відкату при аномаліях

Децентралізація тренування можна зрозуміти як: група глобальних волонтерів, які спільно вносять обчислювальні потужності для навчання моделі, але "справді здійсненне масштабне децентралізоване тренування" все ще є системним інженерним викликом, що охоплює такі аспекти, як системна архітектура, комунікаційний протокол, криптозахист, економічний механізм, верифікація моделі та інші, але чи можливо "спільно ефективно + стимулювати чесність + отримати правильний результат" все ще перебуває на ранній стадії прототипування.

Федеративне навчання як перехідна форма між розподіленими та децентралізованими системами підкреслює збереження даних на місці та централізовану агрегацію параметрів моделі, що підходить для сценаріїв, де важливе дотримання конфіденційності. Федеративне навчання має інженерну структуру розподіленого навчання та можливості локальної кооперації, одночасно володіючи перевагами розподілених даних, характерними для децентралізованого навчання, але все ще залежить від надійної координаційної сторони і не має повністю відкритих та антицензурних характеристик. Його можна розглядати як "контрольовану децентралізацію" у сценах дотримання конфіденційності, яка є відносно помірною в аспектах навчальних завдань, структур довіри та комунікаційних механізмів, що робить його більш придатним для промислових перехідних архітектур.

Децентралізація тренування: межі, можливості та реальні шляхи

З точки зору навчальної парадигми, децентралізоване навчання не підходить для всіх типів завдань. У певних сценаріях, через складну структуру завдання, надвисокі вимоги до ресурсів або велику складність співпраці, воно природно не підходить для ефективного виконання між гетерогенними, довіреними вузлами. Наприклад, навчання великих моделей часто залежить від великої пам'яті, низької затримки та високої пропускної здатності, що ускладнює їх ефективне розподілення та синхронізацію в відкритих мережах; завдання, що обмежені правовими нормами та етичними обмеженнями, не можуть бути відкрито поділені через сильні обмеження на конфіденційність даних та суверенітет; а завдання, які не мають бази для співпраці, не мають зовнішнього стимулу для участі. Ці межі разом складають реальні обмеження поточного децентралізованого навчання.

Але це не означає, що децентралізоване навчання є хибним твердженням. Насправді, у типах завдань з легкою структурою, які легко паралелізуються та можуть бути стимульовані, децентралізоване навчання демонструє чіткі перспективи застосування. Включаючи, але не обмежуючись: тонкою налаштуванням LoRA, завданнями після тренування з поведінковим вирівнюванням (, такими як RLHF, DPO ), навчанням та маркуванням даних через краудсорсинг, навчанням малих основних моделей з контрольованими ресурсами, а також сценаріями кооперативного навчання за участю крайових пристроїв. Ці завдання зазвичай мають високу паралельність, низьку зв'язаність та здатність терпіти гетерогенну обробку, що робить їх дуже підходящими для спільного навчання через P2P мережі, протокол Swarm, розподілені оптимізатори та ін.

Децентралізація тренування класичних проектів аналіз

Наразі в області децентралізованого навчання та федеративного навчання, основними представницькими блокчейн-проєктами є Prime Intellect, Pluralis.ai, Gensyn, Nous Research та Flock.io. З точки зору технічної інноваційності та складності реалізації, Prime Intellect, Nous Research та Pluralis.ai запропонували більше оригінальних досліджень у системній архітектурі та алгоритмічному дизайні, представляючи передові напрямки теоретичних досліджень; тоді як реалізаційні шляхи Gensyn та Flock.io відносно зрозумілі, вже можна побачити перші інженерні досягнення. У цій статті буде поетапно проаналізовано основні технології та інженерні архітектури п'яти проєктів, а також буде додатково досліджено їхні відмінності та взаємодоповнювальні відносини в системі децентралізованого навчання ШІ.

Prime Intellect: тренувальна траєкторія, що підлягає верифікації, посилена навчанням кооперативна мережа піонерів

Prime Intellect прагне побудувати мережу навчання AI без довіри, що дозволяє будь-кому брати участь у навчанні та отримувати надійні винагороди за свій обчислювальний внесок. Prime Intellect сподівається створити систему децентралізованого навчання AI з трьох основних модулів: PRIME-RL + TOPLOC + SHARDCAST, що має верифікацію, відкритість та повноцінний механізм винагород.

01、Структура стеку протоколу Prime Intellect та цінність ключових модулів

02、Детальний аналіз ключових механізмів тренування Prime Intellect

#PRIME-RL: Архітектура задач декомпозованого асинхронного підсилювального навчання

PRIME-RL є рамкою моделювання та виконання завдань, розробленою Prime Intellect для Децентралізація навчальних сцен, спеціально спроєктованою для гетерогенних мереж та асинхронної участі. Вона використовує підкріплювальне навчання як пріоритетний об'єкт адаптації, структурно декомпозуючи процеси навчання, висновку та завантаження ваг, що дозволяє кожному навчальному вузлу незалежно виконувати цикли завдань локально та співпрацювати через стандартизовані інтерфейси з механізмами верифікації та агрегування. У порівнянні з традиційними процесами контрольованого навчання, PRIME-RL краще підходить для реалізації еластичного навчання в умовах безцентрового управління, що знижує складність системи та закладає основу для підтримки паралельного виконання багатьох завдань та еволюції стратегій.

#TOPLOC:Легка перевірка поведінки навчання

TOPLOC є основним механізмом перевірки навчання, запропонованим Prime Intellect, який використовується для визначення того, чи дійсно вузол завершив ефективне навчання стратегії на основі спостережуваних даних. На відміну від важких рішень, таких як ZKML, TOPLOC не залежить від повторного обчислення всієї моделі, а виконує верифікацію легковаговою структурою, аналізуючи локальні траєкторії узгодженості між "послідовністю спостережень ↔ оновленням стратегії". Вперше він перетворює поведінкові траєкторії під час навчання на об'єкти, які можна перевіряти, що є ключовою інновацією для реалізації без довіри розподілу винагород за навчання і надає здійсненний шлях для побудови аудиторних, стимулюючих децентралізованих мереж співпраці в навчанні.

#SHARDCAST: Асинхронна агрегація ваг та протокол поширення

SHARDCAST є протоколом поширення та агрегації ваг, розробленим Prime Intellect, оптимізованим для асинхронних, з обмеженою пропускною здатністю та змінним станом вузлів реальних мережевих середовищ. Він поєднує механізм поширення gossip і стратегію локальної синхронізації, що дозволяє багатьом вузлам продовжувати надсилати часткові оновлення в умовах різних станів синхронізації, досягаючи поступової конвергенції ваг та еволюції з кількома версіями. У порівнянні з централізованими або синхронними методами AllReduce, SHARDCAST суттєво підвищує масштабованість та стійкість до помилок децентралізованого навчання, є основою для побудови стабільного консенсусу ваг та безперервної ітерації навчання.

#OpenDiLoCo:Рідка асинхронна комунікаційна структура

OpenDiLoCo є комунікаційним оптимізаційним фреймворком, незалежно реалізованим та відкритим вихідним кодом командою Prime Intellect на основі концепції DiLoCo, запропонованої DeepMind, спеціально розробленим для вирішення проблем, з якими зазвичай стикаються під час децентралізованого навчання, таких як обмежена пропускна здатність, гетерогенність пристроїв та нестабільність вузлів. Його архітектура базується на паралельній обробці даних, шляхом побудови розріджених топологій, таких як Кільце, Розширювач, Малосвіт, що дозволяє уникнути високих витрат на комунікацію, пов'язаних з глобальною синхронізацією, і для виконання спільного навчання моделі покладається лише на сусідні локальні вузли. Поєднуючи асинхронні оновлення та механізм відмовостійкості, OpenDiLoCo дозволяє споживчим GPU та крайнім пристроям стабільно брати участь у навчальних завданнях, що суттєво підвищує можливість участі в глобальному кооперативному навчанні, і є однією з ключових комунікаційних інфраструктур для побудови децентралізованої навчальної мережі.

#PCCL:Бібліотека спільної комунікації

PCCL - це легка бібліотека зв'язку, створена Prime Intellect для децентралізованого середовища навчання AI, яка має на меті вирішити проблеми адаптації традиційних бібліотек зв'язку на гетерогенних пристроях та в мережах з низькою пропускною здатністю. PCCL підтримує рідкісну топологію, стиснення градієнтів, синхронізацію з низькою точністю та відновлення з контрольних точок, може працювати на споживчих GPU та нестабільних вузлах, є базовим компонентом, що підтримує асинхронні можливості зв'язку протоколу OpenDiLoCo. Він суттєво підвищує пропускну здатність навчальної мережі та сумісність пристроїв, прокладаючи "остання миля" зв'язку для створення справді відкритої, без довіри кооперативної навчальної мережі.

03、Prime Intellect стимулююча мережа та розподіл ролей

Prime Intellect побудував мережу навчання, що не потребує дозволу, є перевірною та має економічні стимули, що дозволяє будь-кому брати участь у завданнях і отримувати винагороду на основі реального внеску. Протокол працює на основі трьох основних ролей:

Ініціатор завдання: визначення навчального середовища, початкової моделі, функції винагороди та стандартів валідації
Тренувальний вузол: виконання локального тренування, подача оновлень ваг і спостереження за траєкторією
Вузли перевірки: використання механізму TOPLOC для перевірки справжності навчальної поведінки та участі в розрахунку винагород і агрегації стратегій

Ядро процесу угоди включає в себе публікацію завдань, навчання вузлів, верифікацію траєкторії, агрегацію ваг (SHARDCAST) та виплату винагород, що формує стимулюючий замкнутий цикл навколо "реальної навчальної діяльності".

04、INTELLECT-2: перший перевіряємий децентралізований навчальний модель випущений

Prime Intellect випустила INTELLECT-2 у травні 2025 року, це перша у світі велика модель посилення, яка була навчена за допомогою асинхронних, не довірених децентралізованих вузлів, з кількістю параметрів 32B. Модель INTELLECT-2 була навчена за допомогою 100+ гетерогенних вузлів GPU, розташованих на трьох континентах, використовуючи повністю асинхронну архітектуру, тривалість навчання перевищила 400 годин, демонструючи життєздатність і стабільність асинхронної кооперативної мережі. Ця модель є не лише проривом у продуктивності, але й першою системною реалізацією парадигми "навчання - це консенсус", запропонованою Prime Intellect. INTELLECT-2 інтегрує основні протокольні модулі, такі як PRIME-RL, TOPLOC та SHARDCAST, що знаменує децентралізоване навчання.

PRIME0.18%

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

16 лайків

Нагородити
16
7
Поділіться

Прокоментувати

0/400

mev_me_maybe