Децентралізація AI тренування на передовій: від централізованого до інноваційних проривів Prime Intellect

2025-07-06 14:07:49

Святий грааль Crypto AI: передові дослідження децентралізованого навчання

У повній ціннісній ланцюжку ШІ навчання моделей є найбільш ресурсомістким і з найвищим технічним бар'єром етапом, який безпосередньо визначає межі можливостей моделі та реальні результати застосування. На відміну від легкого виклику на етапі виведення, процес навчання вимагає безперервних інвестицій у великомасштабні обчислювальні потужності, складні процеси обробки даних та підтримку інтенсивних алгоритмів оптимізації, що є справжньою "важкою промисловістю" побудови систем ШІ. З точки зору архітектурних парадигм, способи навчання можна розділити на чотири категорії: централізоване навчання, розподілене навчання, федеративне навчання та децентралізоване навчання, яке є основною темою цієї статті.

Централізоване навчання є найпоширенішим традиційним методом, який виконується єдиним агентством на локальних високопродуктивних кластерах, де всі етапи навчання, від апаратного забезпечення, базового програмного забезпечення, системи управління кластерами до всіх компонентів навчальної рамки, координуються єдиною системою контролю. Така глибока співпраця в архітектурі забезпечує максимальну ефективність спільного використання пам'яті, синхронізації градієнтів і механізмів відмовостійкості, що робить її дуже підходящою для навчання масштабних моделей, таких як GPT, Gemini, з перевагами високої ефективності та контрольованих ресурсів, але водночас існують проблеми монополізації даних, бар'єрів для ресурсів, споживання енергії та ризиків одноточкових відмов.

Розподілене навчання є основним способом навчання великих моделей, його суть полягає в тому, щоб розділити завдання навчання моделі і розподілити їх на кілька машин для спільного виконання, щоб подолати вузькі місця в обчисленнях та зберіганні на одній машині. Хоча фізично має "Децентралізація" характеристики, але в цілому все ще контролюється централізованими установами для управління та синхронізації, часто працює в середовищі швидкої локальної мережі, через технологію високошвидкісної інтерконектної шини NVLink, головний вузол централізовано координує всі підзавдання. Основні методи включають:

Паралельність даних: кожен вузол навчає різні дані, параметри поділяються, потрібно узгодити ваги моделі
Паралелізм моделей: розміщення різних частин моделі на різних вузлах для досягнення сильної масштабованості
Паралельне виконання: поетапне послідовне виконання, підвищення пропускної спроможності
Тензорне паралельне виконання: детальне розподілення матричних обчислень, підвищення паралельної зернистості

Розподілене навчання є комбінацією "централізованого контролю + розподіленого виконання", аналогічно тому, як один і той же бос віддалено керує співробітниками в кількох "офісах" для виконання завдання. На даний момент практично всі основні великі моделі навчаються саме таким чином.

Децентралізація навчання означає більш відкритий і стійкий до цензури майбутній шлях. Його основні характеристики полягають у наступному: кілька недовірливих вузлів спільно виконують завдання з навчання без центрального координатора, зазвичай через протокол, що стимулює розподіл завдань і співпрацю, а також за допомогою крипто-інсентивних механізмів для забезпечення чесності внесків. Основні виклики, з якими стикається ця модель, включають:

Гетерогенність пристроїв та складність розподілу: висока складність координації гетерогенних пристроїв, низька ефективність розподілу завдань
Вузьке місце в ефективності зв'язку: нестабільний мережевий зв'язок, помітне вузьке місце в синхронізації градієнтів
Відсутність довіреного виконання: відсутність довіреного середовища виконання ускладнює перевірку того, чи дійсно вузли беруть участь у обчисленнях.
Брак єдиного координаційного центру: немає центрального диспетчера, складний розподіл завдань і механізм відкату помилок

Децентралізація тренування можна зрозуміти як: група глобальних волонтерів, які кожен вносять обчислювальну потужність для спільного навчання моделі, але "справді життєздатне масштабне децентралізоване навчання" все ще є системним інженерним викликом, що охоплює системну архітектуру, комунікаційні протоколи, криптографічну безпеку, економічні механізми, валідацію моделей та інші аспекти, але чи можливо "координаційно ефективно + стимулювати чесність + отримати правильні результати" поки що залишається на стадії раннього прототипування.

Федеративне навчання як перехідна форма між розподіленістю та Децентралізація, підкреслює локальне збереження даних, централізовану агрегацію параметрів моделі, підходить для сценаріїв, які акцентують на дотриманні конфіденційності. Федеративне навчання має інженерну структуру розподіленого навчання та місцеві координаційні можливості, одночасно володіючи розподіленими перевагами Децентралізація, але все ж залежить від надійного координуючого суб'єкта і не має повністю відкритих та антикорупційних характеристик. Це можна розглядати як "контрольовану Децентралізація" в сценаріях дотримання конфіденційності, з відносно м'якими вимогами до навчальних завдань, структур довіри та комунікаційних механізмів, що більше підходить як перехідна архітектура для промисловості.

Децентралізація тренування: межі, можливості та реальні шляхи

З точки зору парадигми навчання, децентралізоване навчання не підходить для всіх типів завдань. У деяких сценаріях, через складну структуру завдань, надзвичайно високі вимоги до ресурсів або великі труднощі в співпраці, воно природно не підходить для ефективного виконання між гетерогенними, недовіреними вузлами. Наприклад, навчання великих моделей часто залежить від великої пам'яті, низької затримки та високої пропускної здатності, що ускладнює ефективний розподіл і синхронізацію в відкритих мережах; завдання з сильною конфіденційністю даних і обмеженнями суверенітету обмежені юридичними нормами та етичними обмеженнями, що не дозволяє відкрито ділитися; а завдання, які не мають основи для співпраці, відчувають брак зовнішньої мотивації для участі. Ці межі разом складають реальні обмеження нинішнього децентралізованого навчання.

Але це не означає, що децентралізоване навчання є хибним тезою. Насправді, у типах завдань з легкою структурою, що легко паралелізуються та можуть бути стимульовані, децентралізоване навчання демонструє чітку перспективу застосування. Включаючи, але не обмежуючись: мікронастройка LoRA, завдання після навчання з поведінковим вирівнюванням, навчання та маркування даних через краудсорсинг, навчання малих базових моделей з контрольованими ресурсами, а також сценарії кооперативного навчання з участю крайових пристроїв. Ці завдання зазвичай мають високу паралельність, низьку зв’язаність та толерантність до гетерогенної обчислювальної потужності, що робить їх дуже підходящими для кооперативного навчання через P2P мережі, протокол Swarm, розподілені оптимізатори та інші способи.

Децентралізація тренування класичних проєктів аналіз

Наразі в області децентралізованого навчання та федеративного навчання, представлені блокчейн-проекти, такі як Prime Intellect, Pluralis.ai, Gensyn, Nous Research та Flock.io. З точки зору технологічної інноваційності та складності реалізації, Prime Intellect, Nous Research та Pluralis.ai запропонували багато оригінальних досліджень у системній архітектурі та алгоритмічному дизайні, що представляє передові напрямки теоретичних досліджень; тоді як реалізаційні шляхи Gensyn та Flock.io є відносно зрозумілими, вже можна спостерігати попередні інженерні досягнення. У цій статті буде поетапно проаналізовано основні технології та інженерну архітектуру цих п'яти проектів, а також подальше обговорення їх відмінностей та взаємодоповнюючих відносин у децентралізованій системі AI навчання.

Prime Intellect: навчені траєкторії можуть бути перевірені в посиленому навчанні кооперативних мереж

Prime Intellect прагне створити мережу навчання штучного інтелекту, яка не потребує довіри, дозволяючи кожному брати участь у навчанні та отримувати надійні винагороди за свій обчислювальний внесок. Prime Intellect сподівається створити децентралізовану систему навчання штучного інтелекту з перевіряємістю, відкритістю та повноцінним механізмом мотивації через три основні модулі: PRIME-RL + TOPLOC + SHARDCAST.

01、Структура протоколу Prime Intellect та цінність ключових модулів

02、Детальний аналіз ключових механізмів тренування Prime Intellect

PRIME-RL: Архітектура завдань асинхронного підкріплювального навчання з декомпозицією

PRIME-RL є фреймворком моделювання завдань і виконання, спеціально розробленим Prime Intellect для децентралізованих навчальних сценаріїв, призначеним для гетерогенних мереж і асинхронних учасників. Він використовує підкріплювальне навчання як пріоритетний об'єкт адаптації, структурно розділяючи процеси навчання, висновку та завантаження ваг, що дозволяє кожному навчальному вузлу незалежно завершувати цикл завдання локально та співпрацювати через стандартизовані інтерфейси з механізмами верифікації та агрегації. На відміну від традиційних процесів навчання з наглядом, PRIME-RL краще підходить для реалізації гнучкого навчання в середовищах без центрального планування, знижуючи складність системи та закладаючи основу для підтримки паралельного виконання кількох завдань і еволюції стратегій.

TOPLOC: легковаговий механізм верифікації поведінки навчання

TOPLOC є основним механізмом перевірки навчання, запропонованим Prime Intellect, який використовується для визначення того, чи дійсно вузол завершив ефективне навчання стратегії на основі спостережуваних даних. На відміну від важких рішень, таких як ZKML, TOPLOC не залежить від повторного обчислення повної моделі, а здійснює легку верифікацію структури, аналізуючи локальну послідовність узгодженості між "послідовністю спостережень ↔ оновленням стратегії". Вперше він перетворює поведінкові траєкторії навчального процесу на об'єкти, що підлягають перевірці, що є ключовою інновацією для реалізації розподілу винагород за навчання без необхідності у довірі, надаючи реальний шлях для створення аудованої, заохочувальної децентралізованої мережі спільного навчання.

SHARDCAST: асинхронна агрегація ваги та протокол розповсюдження

SHARDCAST – це протокол важливості, розроблений Prime Intellect, який оптимізований для асинхронних, обмежених за пропускною здатністю та з мінливим станом вузлів реальних мережевих середовищ. Він поєднує механізм поширення gossip та локальні стратегії синхронізації, що дозволяє кільком вузлам продовжувати надсилати часткові оновлення в умовах асинхронного стану, досягаючи поступової конвергенції ваги та еволюції декількох версій. У порівнянні з централізованими або синхронними методами AllReduce, SHARDCAST суттєво підвищує масштабованість та стійкість до помилок децентралізованого навчання, що є основою для побудови стабільного консенсусу ваг та безперервної ітерації навчання.

OpenDiLoCo: Рідкісний асинхронний комунікаційний фреймворк

OpenDiLoCo є незалежною реалізацією та відкритим вихідним кодом оптимізаційного фреймворку зв'язку, розробленого командою Prime Intellect на основі концепції DiLoCo, запропонованої DeepMind, спеціально створеною для вирішення викликів, пов'язаних з обмеженою пропускною здатністю, гетерогенністю пристроїв та нестабільністю вузлів, що часто виникають під час децентралізованого навчання. Його архітектура базується на паралельному обробленні даних, завдяки побудові рідкісних топологічних структур, таких як кільце, розширювач, малий світ, що уникає високих витрат на зв'язок через глобальну синхронізацію і дозволяє виконувати спільне навчання моделі, покладаючись лише на сусідні вузли. Поєднуючи асинхронне оновлення та механізм відмовостійкості, OpenDiLoCo дозволяє споживчим GPU та крайнім пристроям стабільно брати участь у навчальних завданнях, суттєво підвищуючи можливість глобальної співпраці в навчанні і є однією з ключових комунікаційних інфраструктур для побудови децентралізованої навчальної мережі.

PCCL:Бібліотека спільної комунікації

PCCL є легковаговою комунікаційною бібліотекою, створеною Prime Intellect для децентралізованого середовища навчання штучного інтелекту, що має на меті вирішити проблеми адаптації традиційних комунікаційних бібліотек на гетерогенних пристроях та в мережах з низькою пропускною здатністю. PCCL підтримує розріджену топологію, стиснення градієнтів, синхронізацію з низькою точністю та відновлення з контрольних точок, може працювати на споживчих GPU та нестабільних вузлах, є основним компонентом, що забезпечує асинхронні комунікаційні можливості протоколу OpenDiLoCo. Це значно підвищує толерантність тренувальної мережі до пропускної здатності та сумісність пристроїв, прокладаючи "останню милю" комунікаційної інфраструктури для створення справді відкритих, бездостовірних мереж спільного навчання.

03、Prime Intellect стимулююча мережа та розподіл ролей

Prime Intellect побудував мережу навчання, що не потребує дозволу, є перевірною та має економічні стимули, що дозволяє будь-кому брати участь у завданнях та отримувати винагороду на основі реального внеску. Протокол працює на основі трьох основних ролей:

Ініціатор завдання: визначення навчального середовища, початкової моделі, функції винагороди та стандартів валідації
Навчальні вузли: виконання локального навчання, подання оновлень ваг та спостережних траєкторій
Вузли верифікації: використання механізму TOPLOC для підтвердження справжності навчальної поведінки та участі у розрахунку винагороди та агрегації стратегій

Ядро процесу угоди включає в себе публікацію завдань, навчання вузлів, верифікацію траєкторій, агрегацію ваг та розподіл винагород, утворюючи стимулюючий замкнутий цикл, що обертається навколо "реальної навчальної поведінки".

04、INTELLECT-2: перший перевіряємий децентралізований модель навчання

Prime Intellect випустила INTELLECT-2 у травні 2025 року, це перша у світі велика модель навчання з підкріпленням, що була навчена за допомогою асинхронних, бездоверених децентралізованих вузлів, з параметрами обсягом 32B. Модель INTELLECT-2 була навчена за допомогою понад 100 гетерогенних вузлів GPU, розподілених на трьох континентах, з використанням повністю асинхронної архітектури, а тривалість навчання перевищила 400 годин, що демонструє життєздатність та стабільність асинхронних мереж співпраці. Ця модель не лише є проривом в продуктивності, але й першим системним втіленням парадигми "навчання як консенсус", запропонованої Prime Intellect. INTELLECT-2 інтегрує основні протокольні модулі, такі як PRIME-RL, TOPLOC та SHARDCAST, що знаменує собою перше досягнення децентралізованої мережі навчання.

PRIME-5.84%

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

17 лайків

Нагородити
17
9
Поділіться

Прокоментувати

0/400

GasFeeCrying