З моменту народження GPT-3 генеративний штучний інтелект відкрив вибухонебезпечний переломний момент у сфері штучного інтелекту завдяки своїй дивовижній продуктивності та широким сценаріям застосування, а технологічні гіганти почали групами переходити на трек штучного інтелекту. Однак робота навчання та висновків великих мовних моделей (LLM) вимагає великої обчислювальної потужності, а з ітеративним оновленням моделі попит на обчислювальну потужність та вартість зростають експоненціально. На прикладі GPT-2 і GPT-3 різниця в кількості параметрів між GPT-2 і GPT-3 становить 1 166 разів (150 мільйонів параметрів для GPT-2 і 175 мільярдів параметрів для GPT-3), а вартість GPT-3 може досягати до 12 мільйонів доларів, виходячи з цінової моделі публічної хмари GPU на той час, що в 200 разів більше, ніж у GPT-2. У реальному процесі використання кожне питання користувача потрібно зробити висновок і прорахувати, відповідно до ситуації 13 мільйонів унікальних користувачів на початок цього року, відповідний попит на чіпи становить понад 30 000 штук A100GPU. Тоді початкова вартість становитиме приголомшливі 800 мільйонів доларів, з приблизно 700 000 доларів на день на висновок моделі.
Недостатня обчислювальна потужність і високі витрати стали проблемою для всієї індустрії штучного інтелекту, але та ж проблема, схоже, переслідує і блокчейн-індустрію. З одного боку, наближається четвертий халвінг біткоіни і проходження ETF, і в міру зростання ціни в майбутньому попит на обчислювальне обладнання з боку майнерів неминуче значно зросте. З іншого боку, технологія «Zero-Knowledge Proof» (ZKP) процвітає, і Віталік неодноразово підкреслював, що вплив ZK на блокчейн-простір в наступному десятилітті буде таким же важливим, як і сам блокчейн. Незважаючи на те, що майбутнє цієї технології дуже очікуване блокчейн-індустрією, ZK також споживає багато обчислювальної потужності та часу в процесі створення доказів, таких як штучний інтелект, через складний обчислювальний процес.
В осяжному майбутньому дефіцит обчислювальних потужностей стане неминучим, так чи буде ринок децентралізованих обчислювальних потужностей хорошим бізнесом?
Визначення ринку децентралізованих обчислень
Ринок децентралізованих обчислювальних потужностей фактично еквівалентний децентралізованим хмарним обчисленням, але в порівнянні з децентралізованими хмарними обчисленнями, я особисто вважаю, що цей термін буде більш доречним для опису нових проектів, згаданих пізніше. Ринок децентралізованих обчислювальних потужностей повинен належати до підмножини DePIN (децентралізована фізична інфраструктурна мережа), і його мета полягає в тому, щоб створити відкритий ринок обчислювальних потужностей за допомогою стимулів для токенів, щоб будь-хто, хто має незадіяні обчислювальні ресурси, міг надавати свої ресурси на цьому ринку, в основному обслуговуючи спільноту користувачів і розробників B-end. Що стосується відомих проектів, то до цього треку належать такі відомі проекти, як Render Network, мережа рішень для рендерингу на основі децентралізованих графічних процесорів, і Akash Network, розподілений одноранговий маркетплейс для хмарних обчислень.
Нижче ми почнемо з основної концепції, а потім обговоримо три ринки, що розвиваються в рамках треку: ринок обчислювальних потужностей AGI, ринок обчислювальних потужностей Bitcoin і ринок обчислювальних потужностей AGI на ринку апаратного прискорення ZK, а останні два будуть обговорюватися в «Потенційному попередньому перегляді: Ринок децентралізованих обчислювальних потужностей (частина II)».
Огляд хешрейту
Походження поняття обчислювальної потужності можна простежити до винаходу комп'ютерів, оригінальний комп'ютер був механічним пристроєм для виконання обчислювальних завдань, а обчислювальна потужність відноситься до обчислювальної потужності механічного пристрою. З розвитком комп'ютерних технологій еволюціонувало і поняття обчислювальної потужності, і тепер під обчислювальною потужністю зазвичай розуміють здатність комп'ютерного обладнання (CPU, GPU, FPGA і т.д.) і програмного забезпечення (операційна система, компілятор, додаток і т.д.) працювати разом.
Визначення
Обчислювальна потужність відноситься до обсягу даних, які може обробити комп'ютер або інший обчислювальний пристрій, або кількості обчислювальних завдань, які можуть бути виконані за певний проміжок часу. Хешрейт часто використовується для опису продуктивності комп'ютера або іншого обчислювального пристрою, і це важливий показник обчислювальної потужності обчислювального пристрою.
Показники
Обчислювальна потужність може бути виміряна різними способами, такими як швидкість обчислень, обчислювальне енергоспоживання, точність обчислень і паралелізм. У комп'ютерній галузі широко використовувані показники обчислювальної потужності включають FLOPS (операції з плаваючою комою за секунду), IPS (інструкції за секунду), TPS (транзакції за секунду) тощо.
FLOPS (Floating-Point Operations Per Second) відноситься до здатності комп'ютера обробляти операції з плаваючою комою (математичні операції над числами з десятковими комами, беручи до уваги такі проблеми, як точність і помилки округлення), і він вимірює, скільки операцій з плаваючою комою комп'ютер може виконати за секунду. FLOPS — це показник високопродуктивної обчислювальної потужності комп'ютера, який зазвичай використовується для вимірювання обчислювальної потужності суперкомп'ютерів, високопродуктивних обчислювальних серверів і графічних процесорів (GPU), серед іншого. Наприклад, комп'ютерна система має FLOPS 1 TFLOPS (1 трильйон операцій з плаваючою комою в секунду), що означає, що вона може виконувати 1 трильйон операцій з плаваючою комою в секунду.
IPS (Instructions Per Second) відноситься до швидкості, з якою комп'ютер обробляє інструкції, і вимірює, скільки інструкцій комп'ютер здатний виконати за секунду. IPS — це показник однокомандної продуктивності комп'ютера, який часто використовується для вимірювання продуктивності центрального процесора (ЦП) тощо. Наприклад, центральний процесор з IPS 3 ГГц (який може виконувати 300 мільйонів інструкцій в секунду) означає, що він може виконувати 300 мільйонів інструкцій в секунду.
TPS (Transactions Per Second) означає здатність комп'ютера обробляти транзакції та вимірює, скільки транзакцій комп'ютер може виконати за секунду. Він часто використовується для вимірювання продуктивності сервера баз даних. Наприклад, сервер баз даних з TPS 1000 означає, що він може обробляти 1000 транзакцій бази даних в секунду.
Крім того, існують деякі показники обчислювальної потужності для конкретних сценаріїв застосування, такі як швидкість логічного висновку, швидкість обробки зображень і точність розпізнавання мови.
Тип хешрейту
Обчислювальна потужність графічного процесора відноситься до обчислювальної потужності графічного процесора. На відміну від центрального процесора (центрального процесора), графічний процесор є апаратним забезпеченням, спеціально розробленим для обробки графічних даних, таких як зображення та відео, і він має велику кількість процесорів та ефективну паралельну обчислювальну потужність, яка може виконувати велику кількість операцій з плаваючою комою одночасно. Оскільки графічні процесори спочатку використовувалися для обробки ігрової графіки, вони зазвичай мають вищу тактову частоту та більшу пропускну здатність пам'яті, ніж центральні процесори, для підтримки складних графічних операцій.
Різниця між CPU та GPU
Архітектура: Обчислювальна архітектура центральних і графічних процесорів відрізняється. Процесори зазвичай мають одне або кілька ядер, кожне з яких є процесором загального призначення, здатним виконувати безліч різних операцій. Графічні процесори, з іншого боку, мають велику кількість потокових процесорів і шейдерів, які призначені для виконання операцій, пов'язаних з обробкою зображень.
Паралельні обчислення: графічні процесори зазвичай мають вищі можливості паралельних обчислень. Центральні процесори мають обмежену кількість ядер і можуть виконувати лише одну інструкцію на ядро, але графічні процесори можуть мати тисячі потокових процесорів, які можуть виконувати кілька інструкцій і операцій одночасно. Як наслідок, графічні процесори, як правило, краще підходять, ніж центральні процесори, для виконання завдань паралельних обчислень, таких як машинне навчання та глибоке навчання, які вимагають багато паралельних обчислень.
Програмування: Програмування графічного процесора є складнішим, ніж процесори, вимагаючи використання певних мов програмування (таких як CUDA або OpenCL) і використання спеціальних методів програмування, щоб скористатися перевагами паралельної обчислювальної потужності графічних процесорів. На відміну від них, процесори простіші в програмуванні та можуть використовувати поширені мови програмування та інструменти програмування.
Важливість обчислювальної потужності
В епоху промислової революції нафта була кров'ю світу, пронизуючи кожну галузь промисловості. Обчислювальна потужність закладена в блокчейні, і в майбутню еру штучного інтелекту обчислювальні потужності стануть «цифровою нафтою» світу. Від шаленого ажіотажу великих компаній на чіпи штучного інтелекту і того факту, що акції Nvidia перевищили один трильйон, до нещодавньої блокади високоякісних чіпів у Китаї Сполученими Штатами, до розміру обчислювальної потужності, площі чіпів і навіть плану заборонити хмару GPU, його важливість очевидна, і обчислювальна потужність буде товаром у наступну епоху.
Штучний інтелект (ШІ) – це нова технічна наука, яка вивчає та розробляє теорії, методи, технології та прикладні системи для моделювання, розширення та розширення людського інтелекту. Він зародився в п'ятдесятих і шістдесятих роках 20-го століття, і після більш ніж півстоліття еволюції пережив переплетення трьох хвиль символізму, коннекціонізму і акторів. Більш конкретним визначенням генеративного ШІ є штучний загальний інтелект (AGI), система штучного інтелекту з широким розумінням, яка може виконувати інтелект, подібний до людини або перевершує його, у різних завданнях і сферах. AGI в основному повинен складатися з трьох елементів: глибокого навчання (DL), великих даних і великомасштабних обчислювальних потужностей.
Глибоке навчання
Глибоке навчання – це підгалузь машинного навчання (ML), а алгоритми глибокого навчання – це нейронні мережі, змодельовані за зразком людського мозку. Наприклад, людський мозок містить мільйони взаємопов'язаних нейронів, які працюють разом, щоб навчатися та обробляти інформацію. Аналогічно, нейронні мережі глибокого навчання (або штучні нейронні мережі) складаються з кількох шарів штучних нейронів, які працюють разом усередині комп'ютера. Штучні нейрони — це програмні модулі, які називаються вузлами, які використовують математичні обчислення для обробки даних. Штучні нейронні мережі – це алгоритми глибокого навчання, які використовують ці вузли для вирішення складних завдань.
Нейронні мережі можна розділити на вхідні, приховані та вихідні шари, а параметри пов'язані між різними шарами.
Вхідний рівень: Вхідний рівень є першим рівнем нейронної мережі і відповідає за отримання зовнішніх вхідних даних. Кожному нейрону вхідного шару відповідає особливість вхідних даних. Наприклад, при обробці даних зображення кожен нейрон може відповідати одному значенню пікселя зображення;
Приховані шари: вхідний шар обробляє дані та передає їх на більш віддалені шари нейронної мережі. Ці приховані шари обробляють інформацію на різних рівнях, коригуючи свою поведінку в міру надходження нової інформації. Мережі глибокого навчання мають сотні прихованих шарів, які можна використовувати для аналізу проблем з різних сторін. Наприклад, якщо вам дають зображення невідомої тварини, яке потрібно класифікувати, ви можете порівняти його з твариною, яку ви вже знаєте. Наприклад, за формою вух, кількістю ніг, розміром зіниць можна визначити, що це за тварина. Таким же чином працюють приховані шари в глибоких нейронних мережах. Якщо алгоритм глибокого навчання намагається класифікувати зображення тварини, кожен з його прихованих шарів обробляє різні ознаки тварини і намагається точно класифікувати її;
Вихідний рівень: Вихідний рівень є останнім шаром нейронної мережі і відповідає за генерацію виходу мережі. Кожен нейрон у вихідному шарі представляє можливий вихідний клас або значення. Наприклад, у задачі класифікації кожен нейрон вихідного шару може відповідати категорії, тоді як у задачі регресії вихідний шар може мати лише один нейрон, значення якого представляє передбачуваний результат;
Параметри: У нейронній мережі зв'язки між різними шарами представлені параметрами Weights і Biases, які оптимізуються під час навчання, щоб дозволити мережі точно виявляти закономірності та робити прогнози в даних. Збільшення параметрів може збільшити ємність моделі нейронної мережі, тобто здатність моделі навчатися та представляти складні закономірності в даних. Однак збільшення параметрів збільшить попит на обчислювальні потужності.
Великі дані
Для ефективного навчання нейронним мережам часто потрібна велика кількість даних, різноманітних, якісних і з безліччю джерел. Це основа для навчання та валідації моделей машинного навчання. Аналізуючи великі дані, моделі машинного навчання можуть вивчати закономірності та взаємозв'язки в даних, щоб робити прогнози або класифікації.
Величезні обчислювальні потужності
Багатошарова складна структура нейронної мережі, велика кількість параметрів, необхідність обробки великих даних, ітераційний метод навчання (на етапі навчання модель повинна повторюватися багаторазово, а пряме поширення та зворотне поширення кожного шару потрібно розраховувати під час процесу навчання, включаючи обчислення функції активації, обчислення функції втрат, обчислення градієнта та оновлення ваги), потреба у високоточних обчисленнях, можливість паралельних обчислень, технологія оптимізації та регуляризації, а також процес оцінки та верифікації моделі, все це призводить до попиту на високу обчислювальну потужність. Вимоги AGI до великомасштабних обчислювальних потужностей зростають приблизно в 10 разів щороку. Поки що остання модель GPT-4 містить 1,8 трильйона параметрів, вартість одного навчання становить понад 60 мільйонів доларів США, а необхідна обчислювальна потужність становить 2,15e25 FLOPS (21 500 трильйонів обчислень з плаваючою комою). Попит на обчислювальні потужності для навчання наступної моделі все ще розширюється, а також збільшуються нові моделі.
Комп'ютерна економіка штучного інтелекту
Майбутній розмір ринку
Згідно з найавторитетнішими оцінками, «Звіт про оцінку глобального індексу обчислювальної потужності за 2022-2023 роки», складений спільно IDC (International Data Corporation) та Inspur Information та Глобальним інститутом галузевих досліджень Університету Цінхуа, Розмір світового ринку обчислень штучного інтелекту зросте з 19,50 мільярда доларів у 2022 році до 34,66 мільярда доларів у 2026 році, а розмір ринку генеративних обчислень зі штучним інтелектом зросте з 820 мільйонів доларів у 2022 році до 10,99 мільярда доларів у 2026 році. Генеративні обчислення зі штучним інтелектом зростуть з 4,2% до 31,7% від загального ринку обчислень штучного інтелекту.
Виробництво графічних процесорів зі штучним інтелектом було монополізовано NVIDA, і вони надзвичайно дорогі (останній H100 був проданий за 40 000 доларів за чіп), а графічні процесори були розкуплені гігантами Кремнієвої долини, як тільки вони були випущені, і деякі з цих пристроїв використовуються для навчання власних нових моделей. Інша частина здається в оренду розробникам штучного інтелекту через хмарні платформи, такі як Google, Amazon і платформи хмарних обчислень Microsoft, які освоюють велику кількість обчислювальних ресурсів, таких як сервери, графічні процесори та TPU. Обчислювальні потужності стали новим ресурсом, монополізованим гігантами, і велика кількість розробників, пов'язаних зі штучним інтелектом, не можуть навіть купити виділений графічний процесор без націнки, а щоб використовувати новітнє обладнання, розробникам доводиться орендувати хмарні сервери AWS або Microsoft. Згідно з фінансовим звітом, цей бізнес має надзвичайно високий прибуток: хмарні сервіси AWS мають валову маржу 61%, тоді як Microsoft має вищу валову маржу – 72%.
Отже, чи повинні ми прийняти цю централізовану владу та контроль і платити 72% від прибутку за обчислювальні ресурси? Чи матимуть гіганти, які монополізують Web2, монополію на наступну епоху?
Проблема децентралізованих обчислювальних потужностей AGI
Коли справа доходить до антимонопольного законодавства, децентралізація, як правило, є оптимальним рішенням, і чи можемо ми використовувати протокол для досягнення великомасштабної обчислювальної потужності, необхідної штучному інтелекту, за допомогою проектів зберігання даних у DePIN та непрацюючих графічних процесорів, таких як RDNR? Відповідь - ні, шлях до знищення драконів не такий простий, ранні проекти не були спеціально розроблені для обчислювальних потужностей AGI, це неможливо, і обчислювальна потужність повинна зіткнутися як мінімум з наступними п'ятьма проблемами в ланцюжку:
Перевірка роботи: Щоб побудувати дійсно надійну обчислювальну мережу та забезпечити фінансові стимули для учасників, мережа повинна мати спосіб перевірити, чи дійсно виконується обчислювальна робота з глибокого навчання. В основі цієї проблеми лежить залежність стану моделей глибокого навчання; У моделі глибокого навчання вхід кожного шару залежить від виходу попереднього шару. Це означає, що ви не можете просто перевірити один шар у вашій моделі, не розглянувши всі попередні шари. Розрахунки для кожного шару ведуться за результатами всіх шарів, які йому передували. Тому для того, щоб перевірити роботу, виконану в певній точці (наприклад, на певному шарі), вся робота повинна бути виконана від початку моделі до цієї конкретної точки;
Ринок: Як ринок, що розвивається, ринок обчислювальних потужностей штучного інтелекту схильний до дилем попиту та пропозиції, таких як проблеми з холодним стартом, і ліквідність попиту та пропозиції має бути приблизно узгоджена з самого початку, щоб ринок міг успішно зростати. Для того, щоб отримати потенційну пропозицію хеш-потужності, учасникам повинні бути запропоновані явні винагороди в обмін на їхні хеш-ресурси. Маркетплейсу потрібен механізм для відстеження виконаної обчислювальної роботи та своєчасної виплати відповідних комісій провайдерам. На традиційних ринках посередники вирішують такі завдання, як управління та адаптація, одночасно знижуючи операційні витрати за рахунок встановлення мінімальних виплат. Однак такий підхід є більш витратним при масштабуванні ринку. Лише невелика частина пропозиції може бути ефективно захоплена економічно, що призводить до порогового рівноважного стану, коли ринок може захопити та підтримувати лише обмежену пропозицію і не може зростати далі;
Проблема простою: Проблема простою є фундаментальною проблемою в теорії обчислень, яка передбачає оцінку того, чи буде дане обчислювальне завдання виконано за кінцевий час або ніколи не зупиниться. Ця проблема є нерозв'язною, а це означає, що не існує універсального алгоритму, який міг би передбачити, чи всі обчислювальні завдання зупиняться через кінцевий проміжок часу. Наприклад, на Ethereum виконання смарт-контрактів стикається з аналогічним простоєм. тобто неможливо заздалегідь визначити, скільки обчислювальних ресурсів буде потрібно для виконання смарт-контракту, чи буде він виконаний в розумні терміни;
(У контексті глибокого навчання ця проблема буде складнішою, оскільки моделі та фреймворки переключаться зі статичної побудови графів на динамічну побудову та виконання.) )
Конфіденційність: Розробка та розробка обізнаності про конфіденційність є обов'язковими для команди проєкту. У той час як велика кількість досліджень машинного навчання може бути виконана на загальнодоступних наборах даних, часто потрібне тонке налаштування моделей на закритих даних користувача для підвищення продуктивності моделей та їх адаптації до конкретних програм. Цей процес тонкого налаштування може включати обробку персональних даних і тому повинен враховувати вимоги Privacy Shield;
Розпаралелювання: це ключовий фактор здійсненності поточних проектів, моделі глибокого навчання часто навчаються паралельно на великих апаратних кластерах із власною архітектурою та надзвичайно низькою затримкою, тоді як графічні процесори в розподілених обчислювальних мережах вимагають частого обміну даними для створення затримки та обмежені найнижчою продуктивністю графічних процесорів. У разі ненадійних і ненадійних обчислювальних джерел потужності, як гетерогенне розпаралелювання є проблемою, яку необхідно вирішити, і поточним можливим методом є досягнення розпаралелювання за допомогою трансформаторних моделей, таких як трансформатори перемикачів, які тепер мають характеристики високого розпаралелювання.
Рішення: Незважаючи на те, що поточна спроба децентралізованого ринку обчислювальних потужностей AGI все ще знаходиться на ранній стадії, є два проекти, які попередньо вирішили консенсусний дизайн децентралізованої мережі та процес впровадження децентралізованої обчислювальної мережі в навчанні моделей та висновках. Нижче ми розглянемо Gensyn і Together як приклади для аналізу методів проектування та проблем децентралізованого ринку обчислювальних потужностей AGI.
Gensyn — це ринок обчислювальних потужностей AGI, який все ще перебуває на стадії створення та має на меті вирішити численні проблеми децентралізованих обчислень глибокого навчання та знизити вартість глибокого навчання сьогодні. Gensyn — це, по суті, протокол підтвердження частки володіння proof-of-stake рівня 1, заснований на мережі Polkadot, який безпосередньо винагороджує розв'язувачів (Solvers) за допомогою смарт-контрактів в обмін на їхні незадіяні пристрої графічного процесора для обчислень і виконує завдання машинного навчання.
Отже, повертаючись до наведеного вище питання, суть побудови по-справжньому надійної обчислювальної мережі полягає в тому, щоб перевірити виконану роботу з машинного навчання. Це дуже складна проблема, яка вимагає знайти баланс на перетині теорії складності, теорії ігор, криптографії та оптимізації.
Gensyn пропонує просте рішення, де розв'язувач подає результати виконаного ним завдання машинного навчання. Щоб переконатися в точності цих результатів, інший незалежний валідатор намагається виконати ту саму роботу ще раз. Цей метод можна назвати однією реплікацією, оскільки повторно виконає лише один валідатор. Це означає, що є лише одне додаткове зусилля для перевірки точності оригінальної роботи. Однак, якщо особа, яка перевіряє роботу, не є запитувачем початкової роботи, то проблема довіри залишається. Тому що самі валідатори можуть бути нечесними, і їх роботу потрібно перевіряти. Це призводить до потенційної проблеми, яка полягає в тому, що якщо особа, яка перевіряє роботу, не є запитувачем оригінальної роботи, то для перевірки її роботи потрібен інший валідатор. Але цьому новому валідатору також не можна довіряти, тому для перевірки його роботи потрібен інший валідатор, який може тривати вічно, утворюючи нескінченний ланцюжок реплікації. Тут нам потрібно ввести три ключові поняття і переплести їх, щоб побудувати чотирирольову систему учасників для вирішення проблеми нескінченного ланцюга.
Доказ імовірнісного навчання: Використовуйте метадані процесу оптимізації на основі градієнта для створення сертифіката виконаної роботи. Відтворюючи певні етапи, ви можете швидко перевірити ці сертифікати, щоб переконатися, що роботу виконано відповідно до графіка.
Протокол точкових точок на основі графів: використовує багатодеталізований протокол на основі графів, а також послідовне виконання перехресних оцінювачів. Це дозволяє повторно запускати зусилля з верифікації та порівнювати, щоб забезпечити узгодженість, і в кінцевому підсумку підтвердити сам блокчейн.
Заохочувальні ігри в стилі Truebit: Використовуйте стейкінг і слешинг для створення заохочувальних ігор, які гарантують, що кожен фінансово здоровий учасник діятиме чесно та виконуватиме свої завдання.
Система контриб'юторів складається з комітерів, розв'язувачів, валідаторів та інформаторів.
Автори конкурсу:
Заявник є кінцевим користувачем системи, надає завдання, які будуть розраховані, і оплачує одиниці виконаних робіт;
Розв'язання:
Розв'язувач є основним працівником системи, який виконує навчання моделі та генерує докази, які перевіряються валідаторами;
Верифікатори:
Верифікатор є ключем до зв'язку недетермінованого процесу навчання з детермінованим лінійним обчисленням, відтворюючи частину доведення розв'язувача та порівнюючи відстань з очікуваним порогом;
Викривачі:
Викривачі є останньою лінією захисту, перевіряючи роботу валідаторів і роблячи виклики в надії на вигідні бонусні виплати.
Система працює
Протокол призначений для роботи в ігровій системі, яка складатиметься з восьми фаз, що охоплюють чотири основні ролі учасників, і буде використовуватися для завершення повного процесу від подання завдання до остаточної перевірки.
Подання завдання: Завдання складається з трьох конкретних частин інформації:
Метадані, що описують завдання та гіперпараметри;
Двійкова модель (або базова схема);
Загальнодоступні, попередньо оброблені навчальні дані.
Для того, щоб надіслати завдання, заявник вказує деталі завдання у машинозчитуваному форматі та надсилає його в ланцюжок разом із двійковою моделлю (або машинозчитуваною схемою) та загальнодоступним місцем розташування попередньо оброблених навчальних даних. Відкриті дані можуть зберігатися в простому сховищі об'єктів, такому як AWS S3, або в децентралізованому сховищі, такому як IPFS, Arweave або Subspace.
Профілювання: Процес аналізу визначає поріг базової відстані для навчання валідації доведення. Валідатор періодично викреслюватиме завдання аналізу та генеруватиме поріг варіацій для порівняння з доказом навчання. Щоб згенерувати порогові значення, валідатори детерміновано запускають і перезапускають частину навчання, використовуючи різні випадкові початки, генеруючи та перевіряючи власні докази. Під час цього процесу валідатор встановлює загальний поріг очікуваної відстані, який можна використовувати як недетерміноване зусилля для перевірки рішення.
Навчання: Після аналізу завдання потрапляє в публічний пул завдань (подібно до Mempool Ethereum). Виберіть розв'язувач для виконання завдання та видаліть завдання з пулу завдань. Розв'язувач виконує завдання на основі метаданих, наданих заявником, а також наданих моделей і навчальних даних. Виконуючи навчальне завдання, розв'язувач також генерує доказ навчання, періодично перевіряючи та зберігаючи метадані (включаючи параметри) з процесу навчання, щоб верифікатор міг якомога точніше відтворити наступні кроки оптимізації.
Генерація доказів: розв'язувач періодично зберігає вагу або оновлення моделі та відповідний індекс із навчальним набором даних для ідентифікації зразків, які використовуються для генерації оновлень ваги. Частоту контрольних точок можна регулювати, щоб забезпечити більшу впевненість або заощадити місце для зберігання. Доведення може бути «складеним», що означає, що доказ може починатися з випадкового розподілу ваг, що використовуються для ініціалізації ваг, або починатися з попередньо навчених ваг, згенерованих з використанням власних доведень. Це дозволяє протоколу створювати набір перевірених, попередньо навчених базових моделей (тобто базових моделей), які можуть бути точно налаштовані для більш конкретних завдань.
Перевірка доведення: Після завершення завдання розв'язувач реєструє завдання в ланцюжку та відображає свій доказ навчання у загальнодоступному місці, до якого валідатор може отримати доступ. Валідатор витягує завдання валідації із загального пулу завдань і виконує обчислювальну роботу, щоб повторно запустити частину доказу та виконати обчислення відстані. Потім ланцюжок (разом із пороговими значеннями, обчисленими на етапі аналізу) використовує отриману відстань, щоб визначити, чи збігається перевірка з доведенням.
Pinpoint challenge на основі графіка: Після перевірки доказу навчання викривач може скопіювати роботу валідатора, щоб перевірити, чи сама валідація виконана правильно. Якщо викривач вважає, що перевірка була проведена помилково (зловмисно або незловмисно), він може оскаржити кворум контракту, щоб отримати винагороду. Ця винагорода може надходити з депозитів від розв'язувачів і валідаторів (у разі справді позитивного результату) або з призового фонду лотерейного сховища (у разі помилкового спрацьовування), а арбітраж виконується за допомогою самого ланцюжка. Викривачі (у їхньому випадку валідатори) перевірятимуть і згодом оскаржуватимуть роботу лише в тому випадку, якщо вони очікують отримати відповідну компенсацію. На практиці це означає, що викривачі повинні приєднуватися до мережі та виходити з неї залежно від кількості викривачів, які займаються іншою діяльністю (наприклад, з живими депозитами та викликами). Таким чином, очікувана стратегія за замовчуванням для будь-якого викривача полягає в тому, щоб приєднатися до мережі, коли інших викривачів стає менше, внести депозит, випадковим чином вибрати активне завдання та розпочати процес верифікації. Після завершення першого завдання вони візьмуть інше випадкове активне завдання і повторюватимуть доти, доки кількість викривачів не перевищить визначений поріг виплат, а потім покинуть мережу (або, що ймовірніше, перейде на іншу роль у мережі – валідатора чи розв'язувача – залежно від їхніх апаратних можливостей), доки ситуація знову не зміниться.
Контрактний арбітраж: Коли викривач оскаржує валідатора, він вступає в процес з ланцюжком, щоб з'ясувати, де знаходиться спірна дія або вхідні дані, і, нарешті, ланцюжок виконує останню основну операцію та визначає, чи є оскарження обґрунтованим. Для того, щоб викривач залишався чесним і достовірним, а також подолав дилему валідаторів, тут вводяться регулярні вимушені помилки та виплати джекпотів.
Розрахунок: Під час процесу розрахунку учасники отримують оплату на основі висновку перевірок ймовірності та визначеності. Залежно від результатів попередніх верифікацій та челенджів, для різних сценаріїв будуть різні виплати. Якщо робота вважається виконаною правильно і всі перевірки пройдені, постачальник рішення та валідатор отримують винагороду на основі виконаних дій.
Короткий огляд проекту
Компанія Gensyn розробила чудову ігрову систему на рівні верифікації та стимулюючого рівня, яка може швидко виявити помилку, знайшовши точки розбіжності в мережі, але в поточній системі все ще не вистачає багатьох деталей. Наприклад, як встановити параметри, щоб винагороди та покарання були обґрунтованими, а поріг не був занадто високим? Чи враховувала гра різницю між крайнім випадком і обчислювальною потужністю розв'язувача? У поточній версії white paper немає детального опису гетерогенної паралельної роботи, і здається, що реалізація Gensyn все ще складна і тривала.
Together.ai
Together — це компанія, яка зосереджується на відкритому вихідному коді великих моделей і прагне до децентралізованих обчислювальних рішень зі штучним інтелектом, сподіваючись, що будь-хто зможе отримати доступ до штучного інтелекту та використовувати його будь-де. Строго кажучи, Together не є блокчейн-проектом, але проект попередньо вирішив проблему затримки в децентралізованій обчислювальній мережі AGI. Тому наступна стаття лише аналізує рішення Together, а не оцінює проєкт.
Як можна навчати та виводити великі моделі, якщо децентралізована мережа в 100 разів повільніша за центр обробки даних?
Уявімо, як виглядав би розподіл GPU-пристроїв, що беруть участь у мережі, якби децентралізацію прибрали. Ці пристрої будуть розподілені на різних континентах, в різних містах, і їх потрібно буде з'єднувати один з одним, а затримка і пропускна здатність з'єднання будуть відрізнятися. Як показано на малюнку нижче, розподілений сценарій моделюється з пристроями, розподіленими в Північній Америці, Європі та Азії, з різною пропускною здатністю та затримкою між пристроями. Так що ж потрібно зробити, щоб з'єднати його послідовно?
Комп'ютерне моделювання розподіленого навчання: На наступному малюнку показано базову модель навчання на кількох пристроях, і існує три типи зв'язку з точки зору типів зв'язку: пряма активація, зворотний градієнт і бічний зв'язок.
У поєднанні з пропускною здатністю зв'язку і затримкою необхідно враховувати дві форми паралелізму: паралелізм конвеєра і паралелізм даних, що відповідають трьом типам зв'язку у випадку з декількома пристроями:
При паралельності трубопроводів всі шари моделі поділяються на етапи, де кожен пристрій обробляє фазу, яка є безперервною послідовністю шарів, наприклад, кілька блоків трансформатора; При прямому проходженні активація передається наступному етапу, тоді як при зворотному проходженні градієнт активації передається попередньому етапу.
При паралелізмі даних пристрій самостійно обчислює градієнти різних мікропакетів, але зв'язується для синхронізації цих градієнтів.
Оптимізація планування:
У децентралізованому середовищі процес навчання часто обмежений комунікацією. Алгоритми планування зазвичай призначають завдання, які вимагають великого обсягу зв'язку, пристроям з більшою швидкістю з'єднання, а враховуючи залежності між завданнями та неоднорідність мережі, спочатку потрібно змоделювати вартість конкретної стратегії планування. Для того, щоб охопити складні комунікаційні витрати на навчання базової моделі, Together пропонує нову формулу і розкладає модель витрат на два рівні за допомогою теорії графів:
Теорія графів - розділ математики, що вивчає природу і структуру графів (мереж). Граф складається з вершин (вузлів) і ребер (ліній, які з'єднують вузли). Основною метою теорії графів є вивчення різних властивостей графів, таких як зв'язність графів, кольори графів, природа шляхів і петель у графах.
Перший рівень - це збалансований розбиття графа (розбиття множини вершин графа на кілька підмножин рівних або приблизно рівних розмірів, при цьому мінімізується кількість ребер між підмножинами. У цій сегментації кожна підмножина представляє розділ, а вартість зв'язку зменшується за рахунок мінімізації країв між розділами, що відповідає вартості зв'язку паралелізму даних.
Другий рівень - це задача про спільне зіставлення графів і комівояжера (задача про спільне зіставлення графів і комівояжера - це задача комбінаторної оптимізації, яка поєднує в собі елементи зіставлення графів і задач комівояжера. Проблема зіставлення графіків полягає в тому, щоб знайти збіг на графіку таким чином, щоб якась вартість була мінімізована або максимізована. Задача комівояжера полягає в тому, щоб знайти найкоротший шлях до всіх вузлів графа), що відповідає вартості зв'язку конвеєрного паралелізму.
Наведений вище малюнок є принциповою схемою процесу, тому що власне процес реалізації передбачає деякі складні формули розрахунку. Для того, щоб було простіше зрозуміти, нижче буде пояснено процес на схемі простою мовою, а з детальним процесом реалізації можна ознайомитися самостійно в документації на офіційному сайті Together.
Припустимо, є пристрій з набором D з N пристроями, і зв'язок між ними має невизначену затримку (A-матриця) і пропускну здатність (B-матриця). На основі набору пристроїв D спочатку згенеруємо збалансовану сегментацію графіка. Кількість пристроїв у кожному спліті або групі пристроїв приблизно однакова, і всі вони обробляють однакові етапи конвеєра. Це гарантує, що при паралельних даних групи пристроїв виконують однаковий обсяг роботи. (Паралелізм даних — це коли кілька пристроїв виконують одне й те саме завдання, тоді як етапи конвеєра — це коли пристрої виконують різні кроки завдання в певному порядку). Виходячи із затримки та пропускної здатності зв'язку, «вартість» передачі даних між групами пристроїв можна розрахувати за формулами. Кожна збалансована група пристроїв об'єднується для створення повністю зв'язаного приблизного графа, де кожен вузол представляє етап конвеєра, а краї представляють вартість зв'язку між двома етапами. Щоб мінімізувати витрати на зв'язок, використовується алгоритм зіставлення, який визначає, які групи пристроїв повинні працювати разом.
Для подальшої оптимізації задача також може бути змодельована як задача комівояжера з розімкнутим циклом (відкритий цикл означає, що немає необхідності повертатися до початку шляху) для пошуку оптимального шляху для передачі даних між усіма пристроями. Нарешті, Together використовує свій інноваційний алгоритм планування для пошуку оптимальної стратегії розподілу для заданої моделі витрат, щоб мінімізувати витрати на зв'язок і максимізувати пропускну здатність навчання. Згідно з фактичними вимірюваннями, навіть якщо мережа працює в 100 разів повільніше при такій оптимізації планування, пропускна здатність наскрізного навчання буде лише приблизно в 1,7-2,3 рази повільнішою.
Для оптимізації стиснення зв'язку Together вводить алгоритм AQ-SGD (для детального процесу розрахунків, будь ласка, зверніться до статті Fine-tuning Language Models over Slow Networks using Activation Compression with Guarantees). Алгоритм AQ-SGD — це нова технологія активного стиснення, призначена для вирішення проблеми ефективності зв'язку паралельного навчання конвеєрів у низькошвидкісних мережах. На відміну від попередніх методів безпосереднього стиснення значення активності, AQ-SGD фокусується на стисненні змін значення активності однієї і тієї ж навчальної вибірки за різні періоди, і цей унікальний метод вводить цікаву динаміку «самовиконання», і очікується, що продуктивність алгоритму буде поступово покращуватися в міру стабілізації навчання. Після ретельного теоретичного аналізу алгоритм AQ-SGD доводить, що він має хорошу швидкість збіжності за певних технічних умов та функцію квантування з обмеженою похибкою. Алгоритм може бути ефективно реалізований без додавання додаткових накладних витрат на наскрізне виконання, хоча для зберігання активного значення потрібно більше пам'яті та твердотільних накопичувачів. Завдяки широкій експериментальній валідації на класифікації послідовностей і наборах даних мовного моделювання, AQ-SGD може стискати значення активності до 2-4 біт без шкоди для продуктивності збіжності. Крім того, AQ-SGD також може бути інтегрований з найсучаснішими алгоритмами стиснення градієнтів для досягнення «наскрізного стиснення зв'язку», тобто обмін даними між усіма машинами, включаючи градієнти моделі, значення прямої активності та зворотні градієнти, стискається до низької точності, тим самим значно підвищуючи ефективність зв'язку розподіленого навчання. У порівнянні з наскрізною продуктивністю навчання централізованої обчислювальної мережі (наприклад, 10 Гбіт/с) без стиснення, вона в даний час лише на 31% повільніша. У поєднанні з даними оптимізації планування, хоча все ще існує певний відрив від централізованої обчислювальної потужної мережі, є відносно велика надія надолужити згаяне в майбутньому.
Висновок
У період дивідендів, принесений хвилею штучного інтелекту, ринок обчислювальних потужностей AGI, безсумнівно, є ринком з найбільшим потенціалом і найбільшим попитом серед багатьох ринків обчислювальних потужностей. Однак складність розробки, вимоги до апаратного забезпечення та вимоги до капіталу також найвищі. У поєднанні з двома вищезазначеними проектами до реалізації ринку обчислювальних потужностей AGI все ще існує певна дистанція, а реальна децентралізована мережа набагато складніше ідеальної ситуації, чого явно недостатньо для конкуренції з хмарними гігантами. На момент написання цієї статті також було помічено, що деякі проекти, які знаходяться в зародковому стані (стадія PPT), почали досліджувати деякі нові точки входу, такі як зосередження на менш складному етапі висновування або навчання малих моделей, які є більш практичними спробами.
Незважаючи на те, що вона стикається з багатьма проблемами, у довгостроковій перспективі важливо, щоб децентралізація та інклюзивне значення обчислювальних потужностей AGI не були зосереджені на кількох централізованих гігантах. Тому що людству не потрібна нова «релігія» чи новий «папа», не кажучи вже про те, щоб платити дорогі «членські внески».
Бібліографія
Gensyn Litepaper:
NeurIPS 2022: Подолання вузьких місць у комунікації для децентралізованого навчання:
Тонке налаштування мовних моделей у повільних мережах за допомогою активаційного стиснення з гарантіями:
Обчислювальний протокол машинного навчання та наше майбутнє:
5.Microsoft:Звіт про прибутки за 23 квартал 2 фінансового року:
Змагайтеся за квитки на штучний інтелект: BAT і Byte Meituan змагаються за графічний процесор:
Звіт про оцінку глобального індексу обчислювальної потужності IDC: 2022-2023:
Оцінка навчання великій моделі Guosheng Securities:
Крила інформації: який зв'язок між обчислювальними потужностями та штучним інтелектом? :
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
Попередній перегляд потенційного треку: Ринок децентралізованих обчислювальних потужностей (частина I)
Автор: Зік, YBB Capital
Вступ
З моменту народження GPT-3 генеративний штучний інтелект відкрив вибухонебезпечний переломний момент у сфері штучного інтелекту завдяки своїй дивовижній продуктивності та широким сценаріям застосування, а технологічні гіганти почали групами переходити на трек штучного інтелекту. Однак робота навчання та висновків великих мовних моделей (LLM) вимагає великої обчислювальної потужності, а з ітеративним оновленням моделі попит на обчислювальну потужність та вартість зростають експоненціально. На прикладі GPT-2 і GPT-3 різниця в кількості параметрів між GPT-2 і GPT-3 становить 1 166 разів (150 мільйонів параметрів для GPT-2 і 175 мільярдів параметрів для GPT-3), а вартість GPT-3 може досягати до 12 мільйонів доларів, виходячи з цінової моделі публічної хмари GPU на той час, що в 200 разів більше, ніж у GPT-2. У реальному процесі використання кожне питання користувача потрібно зробити висновок і прорахувати, відповідно до ситуації 13 мільйонів унікальних користувачів на початок цього року, відповідний попит на чіпи становить понад 30 000 штук A100GPU. Тоді початкова вартість становитиме приголомшливі 800 мільйонів доларів, з приблизно 700 000 доларів на день на висновок моделі.
Недостатня обчислювальна потужність і високі витрати стали проблемою для всієї індустрії штучного інтелекту, але та ж проблема, схоже, переслідує і блокчейн-індустрію. З одного боку, наближається четвертий халвінг біткоіни і проходження ETF, і в міру зростання ціни в майбутньому попит на обчислювальне обладнання з боку майнерів неминуче значно зросте. З іншого боку, технологія «Zero-Knowledge Proof» (ZKP) процвітає, і Віталік неодноразово підкреслював, що вплив ZK на блокчейн-простір в наступному десятилітті буде таким же важливим, як і сам блокчейн. Незважаючи на те, що майбутнє цієї технології дуже очікуване блокчейн-індустрією, ZK також споживає багато обчислювальної потужності та часу в процесі створення доказів, таких як штучний інтелект, через складний обчислювальний процес.
В осяжному майбутньому дефіцит обчислювальних потужностей стане неминучим, так чи буде ринок децентралізованих обчислювальних потужностей хорошим бізнесом?
Визначення ринку децентралізованих обчислень
Ринок децентралізованих обчислювальних потужностей фактично еквівалентний децентралізованим хмарним обчисленням, але в порівнянні з децентралізованими хмарними обчисленнями, я особисто вважаю, що цей термін буде більш доречним для опису нових проектів, згаданих пізніше. Ринок децентралізованих обчислювальних потужностей повинен належати до підмножини DePIN (децентралізована фізична інфраструктурна мережа), і його мета полягає в тому, щоб створити відкритий ринок обчислювальних потужностей за допомогою стимулів для токенів, щоб будь-хто, хто має незадіяні обчислювальні ресурси, міг надавати свої ресурси на цьому ринку, в основному обслуговуючи спільноту користувачів і розробників B-end. Що стосується відомих проектів, то до цього треку належать такі відомі проекти, як Render Network, мережа рішень для рендерингу на основі децентралізованих графічних процесорів, і Akash Network, розподілений одноранговий маркетплейс для хмарних обчислень.
Нижче ми почнемо з основної концепції, а потім обговоримо три ринки, що розвиваються в рамках треку: ринок обчислювальних потужностей AGI, ринок обчислювальних потужностей Bitcoin і ринок обчислювальних потужностей AGI на ринку апаратного прискорення ZK, а останні два будуть обговорюватися в «Потенційному попередньому перегляді: Ринок децентралізованих обчислювальних потужностей (частина II)».
Огляд хешрейту
Походження поняття обчислювальної потужності можна простежити до винаходу комп'ютерів, оригінальний комп'ютер був механічним пристроєм для виконання обчислювальних завдань, а обчислювальна потужність відноситься до обчислювальної потужності механічного пристрою. З розвитком комп'ютерних технологій еволюціонувало і поняття обчислювальної потужності, і тепер під обчислювальною потужністю зазвичай розуміють здатність комп'ютерного обладнання (CPU, GPU, FPGA і т.д.) і програмного забезпечення (операційна система, компілятор, додаток і т.д.) працювати разом.
Визначення
Обчислювальна потужність відноситься до обсягу даних, які може обробити комп'ютер або інший обчислювальний пристрій, або кількості обчислювальних завдань, які можуть бути виконані за певний проміжок часу. Хешрейт часто використовується для опису продуктивності комп'ютера або іншого обчислювального пристрою, і це важливий показник обчислювальної потужності обчислювального пристрою.
Показники
Обчислювальна потужність може бути виміряна різними способами, такими як швидкість обчислень, обчислювальне енергоспоживання, точність обчислень і паралелізм. У комп'ютерній галузі широко використовувані показники обчислювальної потужності включають FLOPS (операції з плаваючою комою за секунду), IPS (інструкції за секунду), TPS (транзакції за секунду) тощо.
FLOPS (Floating-Point Operations Per Second) відноситься до здатності комп'ютера обробляти операції з плаваючою комою (математичні операції над числами з десятковими комами, беручи до уваги такі проблеми, як точність і помилки округлення), і він вимірює, скільки операцій з плаваючою комою комп'ютер може виконати за секунду. FLOPS — це показник високопродуктивної обчислювальної потужності комп'ютера, який зазвичай використовується для вимірювання обчислювальної потужності суперкомп'ютерів, високопродуктивних обчислювальних серверів і графічних процесорів (GPU), серед іншого. Наприклад, комп'ютерна система має FLOPS 1 TFLOPS (1 трильйон операцій з плаваючою комою в секунду), що означає, що вона може виконувати 1 трильйон операцій з плаваючою комою в секунду.
IPS (Instructions Per Second) відноситься до швидкості, з якою комп'ютер обробляє інструкції, і вимірює, скільки інструкцій комп'ютер здатний виконати за секунду. IPS — це показник однокомандної продуктивності комп'ютера, який часто використовується для вимірювання продуктивності центрального процесора (ЦП) тощо. Наприклад, центральний процесор з IPS 3 ГГц (який може виконувати 300 мільйонів інструкцій в секунду) означає, що він може виконувати 300 мільйонів інструкцій в секунду.
TPS (Transactions Per Second) означає здатність комп'ютера обробляти транзакції та вимірює, скільки транзакцій комп'ютер може виконати за секунду. Він часто використовується для вимірювання продуктивності сервера баз даних. Наприклад, сервер баз даних з TPS 1000 означає, що він може обробляти 1000 транзакцій бази даних в секунду.
Крім того, існують деякі показники обчислювальної потужності для конкретних сценаріїв застосування, такі як швидкість логічного висновку, швидкість обробки зображень і точність розпізнавання мови.
Тип хешрейту
Обчислювальна потужність графічного процесора відноситься до обчислювальної потужності графічного процесора. На відміну від центрального процесора (центрального процесора), графічний процесор є апаратним забезпеченням, спеціально розробленим для обробки графічних даних, таких як зображення та відео, і він має велику кількість процесорів та ефективну паралельну обчислювальну потужність, яка може виконувати велику кількість операцій з плаваючою комою одночасно. Оскільки графічні процесори спочатку використовувалися для обробки ігрової графіки, вони зазвичай мають вищу тактову частоту та більшу пропускну здатність пам'яті, ніж центральні процесори, для підтримки складних графічних операцій.
Різниця між CPU та GPU
Архітектура: Обчислювальна архітектура центральних і графічних процесорів відрізняється. Процесори зазвичай мають одне або кілька ядер, кожне з яких є процесором загального призначення, здатним виконувати безліч різних операцій. Графічні процесори, з іншого боку, мають велику кількість потокових процесорів і шейдерів, які призначені для виконання операцій, пов'язаних з обробкою зображень.
Паралельні обчислення: графічні процесори зазвичай мають вищі можливості паралельних обчислень. Центральні процесори мають обмежену кількість ядер і можуть виконувати лише одну інструкцію на ядро, але графічні процесори можуть мати тисячі потокових процесорів, які можуть виконувати кілька інструкцій і операцій одночасно. Як наслідок, графічні процесори, як правило, краще підходять, ніж центральні процесори, для виконання завдань паралельних обчислень, таких як машинне навчання та глибоке навчання, які вимагають багато паралельних обчислень.
Програмування: Програмування графічного процесора є складнішим, ніж процесори, вимагаючи використання певних мов програмування (таких як CUDA або OpenCL) і використання спеціальних методів програмування, щоб скористатися перевагами паралельної обчислювальної потужності графічних процесорів. На відміну від них, процесори простіші в програмуванні та можуть використовувати поширені мови програмування та інструменти програмування.
Важливість обчислювальної потужності
В епоху промислової революції нафта була кров'ю світу, пронизуючи кожну галузь промисловості. Обчислювальна потужність закладена в блокчейні, і в майбутню еру штучного інтелекту обчислювальні потужності стануть «цифровою нафтою» світу. Від шаленого ажіотажу великих компаній на чіпи штучного інтелекту і того факту, що акції Nvidia перевищили один трильйон, до нещодавньої блокади високоякісних чіпів у Китаї Сполученими Штатами, до розміру обчислювальної потужності, площі чіпів і навіть плану заборонити хмару GPU, його важливість очевидна, і обчислювальна потужність буде товаром у наступну епоху.
! [Попередній перегляд потенційного треку: Ринок децентралізованих обчислювальних потужностей (частина I)] (https://img-cdn.gateio.im/webp-social/moments-69a80767fe-0827192de8-dd1a6f-cd5cc0.webp)
Загальні відомості про штучний інтелект
Штучний інтелект (ШІ) – це нова технічна наука, яка вивчає та розробляє теорії, методи, технології та прикладні системи для моделювання, розширення та розширення людського інтелекту. Він зародився в п'ятдесятих і шістдесятих роках 20-го століття, і після більш ніж півстоліття еволюції пережив переплетення трьох хвиль символізму, коннекціонізму і акторів. Більш конкретним визначенням генеративного ШІ є штучний загальний інтелект (AGI), система штучного інтелекту з широким розумінням, яка може виконувати інтелект, подібний до людини або перевершує його, у різних завданнях і сферах. AGI в основному повинен складатися з трьох елементів: глибокого навчання (DL), великих даних і великомасштабних обчислювальних потужностей.
Глибоке навчання
Глибоке навчання – це підгалузь машинного навчання (ML), а алгоритми глибокого навчання – це нейронні мережі, змодельовані за зразком людського мозку. Наприклад, людський мозок містить мільйони взаємопов'язаних нейронів, які працюють разом, щоб навчатися та обробляти інформацію. Аналогічно, нейронні мережі глибокого навчання (або штучні нейронні мережі) складаються з кількох шарів штучних нейронів, які працюють разом усередині комп'ютера. Штучні нейрони — це програмні модулі, які називаються вузлами, які використовують математичні обчислення для обробки даних. Штучні нейронні мережі – це алгоритми глибокого навчання, які використовують ці вузли для вирішення складних завдань.
! [Попередній перегляд потенційного треку: Ринок децентралізованих обчислювальних потужностей (частина I)] (https://img-cdn.gateio.im/webp-social/moments-69a80767fe-23a44030b8-dd1a6f-cd5cc0.webp)
Нейронні мережі можна розділити на вхідні, приховані та вихідні шари, а параметри пов'язані між різними шарами.
Вхідний рівень: Вхідний рівень є першим рівнем нейронної мережі і відповідає за отримання зовнішніх вхідних даних. Кожному нейрону вхідного шару відповідає особливість вхідних даних. Наприклад, при обробці даних зображення кожен нейрон може відповідати одному значенню пікселя зображення;
Приховані шари: вхідний шар обробляє дані та передає їх на більш віддалені шари нейронної мережі. Ці приховані шари обробляють інформацію на різних рівнях, коригуючи свою поведінку в міру надходження нової інформації. Мережі глибокого навчання мають сотні прихованих шарів, які можна використовувати для аналізу проблем з різних сторін. Наприклад, якщо вам дають зображення невідомої тварини, яке потрібно класифікувати, ви можете порівняти його з твариною, яку ви вже знаєте. Наприклад, за формою вух, кількістю ніг, розміром зіниць можна визначити, що це за тварина. Таким же чином працюють приховані шари в глибоких нейронних мережах. Якщо алгоритм глибокого навчання намагається класифікувати зображення тварини, кожен з його прихованих шарів обробляє різні ознаки тварини і намагається точно класифікувати її;
Вихідний рівень: Вихідний рівень є останнім шаром нейронної мережі і відповідає за генерацію виходу мережі. Кожен нейрон у вихідному шарі представляє можливий вихідний клас або значення. Наприклад, у задачі класифікації кожен нейрон вихідного шару може відповідати категорії, тоді як у задачі регресії вихідний шар може мати лише один нейрон, значення якого представляє передбачуваний результат;
Параметри: У нейронній мережі зв'язки між різними шарами представлені параметрами Weights і Biases, які оптимізуються під час навчання, щоб дозволити мережі точно виявляти закономірності та робити прогнози в даних. Збільшення параметрів може збільшити ємність моделі нейронної мережі, тобто здатність моделі навчатися та представляти складні закономірності в даних. Однак збільшення параметрів збільшить попит на обчислювальні потужності.
Великі дані
Для ефективного навчання нейронним мережам часто потрібна велика кількість даних, різноманітних, якісних і з безліччю джерел. Це основа для навчання та валідації моделей машинного навчання. Аналізуючи великі дані, моделі машинного навчання можуть вивчати закономірності та взаємозв'язки в даних, щоб робити прогнози або класифікації.
Величезні обчислювальні потужності
Багатошарова складна структура нейронної мережі, велика кількість параметрів, необхідність обробки великих даних, ітераційний метод навчання (на етапі навчання модель повинна повторюватися багаторазово, а пряме поширення та зворотне поширення кожного шару потрібно розраховувати під час процесу навчання, включаючи обчислення функції активації, обчислення функції втрат, обчислення градієнта та оновлення ваги), потреба у високоточних обчисленнях, можливість паралельних обчислень, технологія оптимізації та регуляризації, а також процес оцінки та верифікації моделі, все це призводить до попиту на високу обчислювальну потужність. Вимоги AGI до великомасштабних обчислювальних потужностей зростають приблизно в 10 разів щороку. Поки що остання модель GPT-4 містить 1,8 трильйона параметрів, вартість одного навчання становить понад 60 мільйонів доларів США, а необхідна обчислювальна потужність становить 2,15e25 FLOPS (21 500 трильйонів обчислень з плаваючою комою). Попит на обчислювальні потужності для навчання наступної моделі все ще розширюється, а також збільшуються нові моделі.
Комп'ютерна економіка штучного інтелекту
Майбутній розмір ринку
Згідно з найавторитетнішими оцінками, «Звіт про оцінку глобального індексу обчислювальної потужності за 2022-2023 роки», складений спільно IDC (International Data Corporation) та Inspur Information та Глобальним інститутом галузевих досліджень Університету Цінхуа, Розмір світового ринку обчислень штучного інтелекту зросте з 19,50 мільярда доларів у 2022 році до 34,66 мільярда доларів у 2026 році, а розмір ринку генеративних обчислень зі штучним інтелектом зросте з 820 мільйонів доларів у 2022 році до 10,99 мільярда доларів у 2026 році. Генеративні обчислення зі штучним інтелектом зростуть з 4,2% до 31,7% від загального ринку обчислень штучного інтелекту.
! [Попередній перегляд потенційного треку: Ринок децентралізованих обчислювальних потужностей (частина I)] (https://img-cdn.gateio.im/webp-social/moments-69a80767fe-f96a0c08e0-dd1a6f-cd5cc0.webp)
Економічна монополія обчислювальних потужностей
Виробництво графічних процесорів зі штучним інтелектом було монополізовано NVIDA, і вони надзвичайно дорогі (останній H100 був проданий за 40 000 доларів за чіп), а графічні процесори були розкуплені гігантами Кремнієвої долини, як тільки вони були випущені, і деякі з цих пристроїв використовуються для навчання власних нових моделей. Інша частина здається в оренду розробникам штучного інтелекту через хмарні платформи, такі як Google, Amazon і платформи хмарних обчислень Microsoft, які освоюють велику кількість обчислювальних ресурсів, таких як сервери, графічні процесори та TPU. Обчислювальні потужності стали новим ресурсом, монополізованим гігантами, і велика кількість розробників, пов'язаних зі штучним інтелектом, не можуть навіть купити виділений графічний процесор без націнки, а щоб використовувати новітнє обладнання, розробникам доводиться орендувати хмарні сервери AWS або Microsoft. Згідно з фінансовим звітом, цей бізнес має надзвичайно високий прибуток: хмарні сервіси AWS мають валову маржу 61%, тоді як Microsoft має вищу валову маржу – 72%.
! [Попередній перегляд потенційного треку: Ринок децентралізованих обчислювальних потужностей (частина I)] (https://img-cdn.gateio.im/webp-social/moments-69a80767fe-a2d9d13bc5-dd1a6f-cd5cc0.webp)
Отже, чи повинні ми прийняти цю централізовану владу та контроль і платити 72% від прибутку за обчислювальні ресурси? Чи матимуть гіганти, які монополізують Web2, монополію на наступну епоху?
Проблема децентралізованих обчислювальних потужностей AGI
Коли справа доходить до антимонопольного законодавства, децентралізація, як правило, є оптимальним рішенням, і чи можемо ми використовувати протокол для досягнення великомасштабної обчислювальної потужності, необхідної штучному інтелекту, за допомогою проектів зберігання даних у DePIN та непрацюючих графічних процесорів, таких як RDNR? Відповідь - ні, шлях до знищення драконів не такий простий, ранні проекти не були спеціально розроблені для обчислювальних потужностей AGI, це неможливо, і обчислювальна потужність повинна зіткнутися як мінімум з наступними п'ятьма проблемами в ланцюжку:
Перевірка роботи: Щоб побудувати дійсно надійну обчислювальну мережу та забезпечити фінансові стимули для учасників, мережа повинна мати спосіб перевірити, чи дійсно виконується обчислювальна робота з глибокого навчання. В основі цієї проблеми лежить залежність стану моделей глибокого навчання; У моделі глибокого навчання вхід кожного шару залежить від виходу попереднього шару. Це означає, що ви не можете просто перевірити один шар у вашій моделі, не розглянувши всі попередні шари. Розрахунки для кожного шару ведуться за результатами всіх шарів, які йому передували. Тому для того, щоб перевірити роботу, виконану в певній точці (наприклад, на певному шарі), вся робота повинна бути виконана від початку моделі до цієї конкретної точки;
Ринок: Як ринок, що розвивається, ринок обчислювальних потужностей штучного інтелекту схильний до дилем попиту та пропозиції, таких як проблеми з холодним стартом, і ліквідність попиту та пропозиції має бути приблизно узгоджена з самого початку, щоб ринок міг успішно зростати. Для того, щоб отримати потенційну пропозицію хеш-потужності, учасникам повинні бути запропоновані явні винагороди в обмін на їхні хеш-ресурси. Маркетплейсу потрібен механізм для відстеження виконаної обчислювальної роботи та своєчасної виплати відповідних комісій провайдерам. На традиційних ринках посередники вирішують такі завдання, як управління та адаптація, одночасно знижуючи операційні витрати за рахунок встановлення мінімальних виплат. Однак такий підхід є більш витратним при масштабуванні ринку. Лише невелика частина пропозиції може бути ефективно захоплена економічно, що призводить до порогового рівноважного стану, коли ринок може захопити та підтримувати лише обмежену пропозицію і не може зростати далі;
Проблема простою: Проблема простою є фундаментальною проблемою в теорії обчислень, яка передбачає оцінку того, чи буде дане обчислювальне завдання виконано за кінцевий час або ніколи не зупиниться. Ця проблема є нерозв'язною, а це означає, що не існує універсального алгоритму, який міг би передбачити, чи всі обчислювальні завдання зупиняться через кінцевий проміжок часу. Наприклад, на Ethereum виконання смарт-контрактів стикається з аналогічним простоєм. тобто неможливо заздалегідь визначити, скільки обчислювальних ресурсів буде потрібно для виконання смарт-контракту, чи буде він виконаний в розумні терміни;
(У контексті глибокого навчання ця проблема буде складнішою, оскільки моделі та фреймворки переключаться зі статичної побудови графів на динамічну побудову та виконання.) )
Конфіденційність: Розробка та розробка обізнаності про конфіденційність є обов'язковими для команди проєкту. У той час як велика кількість досліджень машинного навчання може бути виконана на загальнодоступних наборах даних, часто потрібне тонке налаштування моделей на закритих даних користувача для підвищення продуктивності моделей та їх адаптації до конкретних програм. Цей процес тонкого налаштування може включати обробку персональних даних і тому повинен враховувати вимоги Privacy Shield;
Розпаралелювання: це ключовий фактор здійсненності поточних проектів, моделі глибокого навчання часто навчаються паралельно на великих апаратних кластерах із власною архітектурою та надзвичайно низькою затримкою, тоді як графічні процесори в розподілених обчислювальних мережах вимагають частого обміну даними для створення затримки та обмежені найнижчою продуктивністю графічних процесорів. У разі ненадійних і ненадійних обчислювальних джерел потужності, як гетерогенне розпаралелювання є проблемою, яку необхідно вирішити, і поточним можливим методом є досягнення розпаралелювання за допомогою трансформаторних моделей, таких як трансформатори перемикачів, які тепер мають характеристики високого розпаралелювання.
Рішення: Незважаючи на те, що поточна спроба децентралізованого ринку обчислювальних потужностей AGI все ще знаходиться на ранній стадії, є два проекти, які попередньо вирішили консенсусний дизайн децентралізованої мережі та процес впровадження децентралізованої обчислювальної мережі в навчанні моделей та висновках. Нижче ми розглянемо Gensyn і Together як приклади для аналізу методів проектування та проблем децентралізованого ринку обчислювальних потужностей AGI.
Возз'єднання
! [Попередній перегляд потенційного треку: Ринок децентралізованих обчислювальних потужностей (частина I)] (https://img-cdn.gateio.im/webp-social/moments-69a80767fe-1c80fe339c-dd1a6f-cd5cc0.webp)
Gensyn — це ринок обчислювальних потужностей AGI, який все ще перебуває на стадії створення та має на меті вирішити численні проблеми децентралізованих обчислень глибокого навчання та знизити вартість глибокого навчання сьогодні. Gensyn — це, по суті, протокол підтвердження частки володіння proof-of-stake рівня 1, заснований на мережі Polkadot, який безпосередньо винагороджує розв'язувачів (Solvers) за допомогою смарт-контрактів в обмін на їхні незадіяні пристрої графічного процесора для обчислень і виконує завдання машинного навчання.
Отже, повертаючись до наведеного вище питання, суть побудови по-справжньому надійної обчислювальної мережі полягає в тому, щоб перевірити виконану роботу з машинного навчання. Це дуже складна проблема, яка вимагає знайти баланс на перетині теорії складності, теорії ігор, криптографії та оптимізації.
Gensyn пропонує просте рішення, де розв'язувач подає результати виконаного ним завдання машинного навчання. Щоб переконатися в точності цих результатів, інший незалежний валідатор намагається виконати ту саму роботу ще раз. Цей метод можна назвати однією реплікацією, оскільки повторно виконає лише один валідатор. Це означає, що є лише одне додаткове зусилля для перевірки точності оригінальної роботи. Однак, якщо особа, яка перевіряє роботу, не є запитувачем початкової роботи, то проблема довіри залишається. Тому що самі валідатори можуть бути нечесними, і їх роботу потрібно перевіряти. Це призводить до потенційної проблеми, яка полягає в тому, що якщо особа, яка перевіряє роботу, не є запитувачем оригінальної роботи, то для перевірки її роботи потрібен інший валідатор. Але цьому новому валідатору також не можна довіряти, тому для перевірки його роботи потрібен інший валідатор, який може тривати вічно, утворюючи нескінченний ланцюжок реплікації. Тут нам потрібно ввести три ключові поняття і переплести їх, щоб побудувати чотирирольову систему учасників для вирішення проблеми нескінченного ланцюга.
Доказ імовірнісного навчання: Використовуйте метадані процесу оптимізації на основі градієнта для створення сертифіката виконаної роботи. Відтворюючи певні етапи, ви можете швидко перевірити ці сертифікати, щоб переконатися, що роботу виконано відповідно до графіка.
Протокол точкових точок на основі графів: використовує багатодеталізований протокол на основі графів, а також послідовне виконання перехресних оцінювачів. Це дозволяє повторно запускати зусилля з верифікації та порівнювати, щоб забезпечити узгодженість, і в кінцевому підсумку підтвердити сам блокчейн.
Заохочувальні ігри в стилі Truebit: Використовуйте стейкінг і слешинг для створення заохочувальних ігор, які гарантують, що кожен фінансово здоровий учасник діятиме чесно та виконуватиме свої завдання.
Система контриб'юторів складається з комітерів, розв'язувачів, валідаторів та інформаторів.
Автори конкурсу:
Заявник є кінцевим користувачем системи, надає завдання, які будуть розраховані, і оплачує одиниці виконаних робіт;
Розв'язання:
Розв'язувач є основним працівником системи, який виконує навчання моделі та генерує докази, які перевіряються валідаторами;
Верифікатори:
Верифікатор є ключем до зв'язку недетермінованого процесу навчання з детермінованим лінійним обчисленням, відтворюючи частину доведення розв'язувача та порівнюючи відстань з очікуваним порогом;
Викривачі:
Викривачі є останньою лінією захисту, перевіряючи роботу валідаторів і роблячи виклики в надії на вигідні бонусні виплати.
Система працює
Протокол призначений для роботи в ігровій системі, яка складатиметься з восьми фаз, що охоплюють чотири основні ролі учасників, і буде використовуватися для завершення повного процесу від подання завдання до остаточної перевірки.
Для того, щоб надіслати завдання, заявник вказує деталі завдання у машинозчитуваному форматі та надсилає його в ланцюжок разом із двійковою моделлю (або машинозчитуваною схемою) та загальнодоступним місцем розташування попередньо оброблених навчальних даних. Відкриті дані можуть зберігатися в простому сховищі об'єктів, такому як AWS S3, або в децентралізованому сховищі, такому як IPFS, Arweave або Subspace.
Профілювання: Процес аналізу визначає поріг базової відстані для навчання валідації доведення. Валідатор періодично викреслюватиме завдання аналізу та генеруватиме поріг варіацій для порівняння з доказом навчання. Щоб згенерувати порогові значення, валідатори детерміновано запускають і перезапускають частину навчання, використовуючи різні випадкові початки, генеруючи та перевіряючи власні докази. Під час цього процесу валідатор встановлює загальний поріг очікуваної відстані, який можна використовувати як недетерміноване зусилля для перевірки рішення.
Навчання: Після аналізу завдання потрапляє в публічний пул завдань (подібно до Mempool Ethereum). Виберіть розв'язувач для виконання завдання та видаліть завдання з пулу завдань. Розв'язувач виконує завдання на основі метаданих, наданих заявником, а також наданих моделей і навчальних даних. Виконуючи навчальне завдання, розв'язувач також генерує доказ навчання, періодично перевіряючи та зберігаючи метадані (включаючи параметри) з процесу навчання, щоб верифікатор міг якомога точніше відтворити наступні кроки оптимізації.
Генерація доказів: розв'язувач періодично зберігає вагу або оновлення моделі та відповідний індекс із навчальним набором даних для ідентифікації зразків, які використовуються для генерації оновлень ваги. Частоту контрольних точок можна регулювати, щоб забезпечити більшу впевненість або заощадити місце для зберігання. Доведення може бути «складеним», що означає, що доказ може починатися з випадкового розподілу ваг, що використовуються для ініціалізації ваг, або починатися з попередньо навчених ваг, згенерованих з використанням власних доведень. Це дозволяє протоколу створювати набір перевірених, попередньо навчених базових моделей (тобто базових моделей), які можуть бути точно налаштовані для більш конкретних завдань.
Перевірка доведення: Після завершення завдання розв'язувач реєструє завдання в ланцюжку та відображає свій доказ навчання у загальнодоступному місці, до якого валідатор може отримати доступ. Валідатор витягує завдання валідації із загального пулу завдань і виконує обчислювальну роботу, щоб повторно запустити частину доказу та виконати обчислення відстані. Потім ланцюжок (разом із пороговими значеннями, обчисленими на етапі аналізу) використовує отриману відстань, щоб визначити, чи збігається перевірка з доведенням.
Pinpoint challenge на основі графіка: Після перевірки доказу навчання викривач може скопіювати роботу валідатора, щоб перевірити, чи сама валідація виконана правильно. Якщо викривач вважає, що перевірка була проведена помилково (зловмисно або незловмисно), він може оскаржити кворум контракту, щоб отримати винагороду. Ця винагорода може надходити з депозитів від розв'язувачів і валідаторів (у разі справді позитивного результату) або з призового фонду лотерейного сховища (у разі помилкового спрацьовування), а арбітраж виконується за допомогою самого ланцюжка. Викривачі (у їхньому випадку валідатори) перевірятимуть і згодом оскаржуватимуть роботу лише в тому випадку, якщо вони очікують отримати відповідну компенсацію. На практиці це означає, що викривачі повинні приєднуватися до мережі та виходити з неї залежно від кількості викривачів, які займаються іншою діяльністю (наприклад, з живими депозитами та викликами). Таким чином, очікувана стратегія за замовчуванням для будь-якого викривача полягає в тому, щоб приєднатися до мережі, коли інших викривачів стає менше, внести депозит, випадковим чином вибрати активне завдання та розпочати процес верифікації. Після завершення першого завдання вони візьмуть інше випадкове активне завдання і повторюватимуть доти, доки кількість викривачів не перевищить визначений поріг виплат, а потім покинуть мережу (або, що ймовірніше, перейде на іншу роль у мережі – валідатора чи розв'язувача – залежно від їхніх апаратних можливостей), доки ситуація знову не зміниться.
Контрактний арбітраж: Коли викривач оскаржує валідатора, він вступає в процес з ланцюжком, щоб з'ясувати, де знаходиться спірна дія або вхідні дані, і, нарешті, ланцюжок виконує останню основну операцію та визначає, чи є оскарження обґрунтованим. Для того, щоб викривач залишався чесним і достовірним, а також подолав дилему валідаторів, тут вводяться регулярні вимушені помилки та виплати джекпотів.
Розрахунок: Під час процесу розрахунку учасники отримують оплату на основі висновку перевірок ймовірності та визначеності. Залежно від результатів попередніх верифікацій та челенджів, для різних сценаріїв будуть різні виплати. Якщо робота вважається виконаною правильно і всі перевірки пройдені, постачальник рішення та валідатор отримують винагороду на основі виконаних дій.
Короткий огляд проекту
Компанія Gensyn розробила чудову ігрову систему на рівні верифікації та стимулюючого рівня, яка може швидко виявити помилку, знайшовши точки розбіжності в мережі, але в поточній системі все ще не вистачає багатьох деталей. Наприклад, як встановити параметри, щоб винагороди та покарання були обґрунтованими, а поріг не був занадто високим? Чи враховувала гра різницю між крайнім випадком і обчислювальною потужністю розв'язувача? У поточній версії white paper немає детального опису гетерогенної паралельної роботи, і здається, що реалізація Gensyn все ще складна і тривала.
Together.ai
Together — це компанія, яка зосереджується на відкритому вихідному коді великих моделей і прагне до децентралізованих обчислювальних рішень зі штучним інтелектом, сподіваючись, що будь-хто зможе отримати доступ до штучного інтелекту та використовувати його будь-де. Строго кажучи, Together не є блокчейн-проектом, але проект попередньо вирішив проблему затримки в децентралізованій обчислювальній мережі AGI. Тому наступна стаття лише аналізує рішення Together, а не оцінює проєкт.
Як можна навчати та виводити великі моделі, якщо децентралізована мережа в 100 разів повільніша за центр обробки даних?
Уявімо, як виглядав би розподіл GPU-пристроїв, що беруть участь у мережі, якби децентралізацію прибрали. Ці пристрої будуть розподілені на різних континентах, в різних містах, і їх потрібно буде з'єднувати один з одним, а затримка і пропускна здатність з'єднання будуть відрізнятися. Як показано на малюнку нижче, розподілений сценарій моделюється з пристроями, розподіленими в Північній Америці, Європі та Азії, з різною пропускною здатністю та затримкою між пристроями. Так що ж потрібно зробити, щоб з'єднати його послідовно?
! [Попередній перегляд потенційного треку: Ринок децентралізованих обчислювальних потужностей (частина I)] (https://img-cdn.gateio.im/webp-social/moments-69a80767fe-42ef6469f3-dd1a6f-cd5cc0.webp)
Комп'ютерне моделювання розподіленого навчання: На наступному малюнку показано базову модель навчання на кількох пристроях, і існує три типи зв'язку з точки зору типів зв'язку: пряма активація, зворотний градієнт і бічний зв'язок.
! [Попередній перегляд потенційного треку: Ринок децентралізованих обчислювальних потужностей (частина I)] (https://img-cdn.gateio.im/webp-social/moments-69a80767fe-ea4665b014-dd1a6f-cd5cc0.webp)
У поєднанні з пропускною здатністю зв'язку і затримкою необхідно враховувати дві форми паралелізму: паралелізм конвеєра і паралелізм даних, що відповідають трьом типам зв'язку у випадку з декількома пристроями:
При паралельності трубопроводів всі шари моделі поділяються на етапи, де кожен пристрій обробляє фазу, яка є безперервною послідовністю шарів, наприклад, кілька блоків трансформатора; При прямому проходженні активація передається наступному етапу, тоді як при зворотному проходженні градієнт активації передається попередньому етапу.
При паралелізмі даних пристрій самостійно обчислює градієнти різних мікропакетів, але зв'язується для синхронізації цих градієнтів.
Оптимізація планування:
У децентралізованому середовищі процес навчання часто обмежений комунікацією. Алгоритми планування зазвичай призначають завдання, які вимагають великого обсягу зв'язку, пристроям з більшою швидкістю з'єднання, а враховуючи залежності між завданнями та неоднорідність мережі, спочатку потрібно змоделювати вартість конкретної стратегії планування. Для того, щоб охопити складні комунікаційні витрати на навчання базової моделі, Together пропонує нову формулу і розкладає модель витрат на два рівні за допомогою теорії графів:
! [Попередній перегляд потенційного треку: Ринок децентралізованих обчислювальних потужностей (частина I)] (https://img-cdn.gateio.im/webp-social/moments-69a80767fe-15383f3e42-dd1a6f-cd5cc0.webp)
Наведений вище малюнок є принциповою схемою процесу, тому що власне процес реалізації передбачає деякі складні формули розрахунку. Для того, щоб було простіше зрозуміти, нижче буде пояснено процес на схемі простою мовою, а з детальним процесом реалізації можна ознайомитися самостійно в документації на офіційному сайті Together.
Припустимо, є пристрій з набором D з N пристроями, і зв'язок між ними має невизначену затримку (A-матриця) і пропускну здатність (B-матриця). На основі набору пристроїв D спочатку згенеруємо збалансовану сегментацію графіка. Кількість пристроїв у кожному спліті або групі пристроїв приблизно однакова, і всі вони обробляють однакові етапи конвеєра. Це гарантує, що при паралельних даних групи пристроїв виконують однаковий обсяг роботи. (Паралелізм даних — це коли кілька пристроїв виконують одне й те саме завдання, тоді як етапи конвеєра — це коли пристрої виконують різні кроки завдання в певному порядку). Виходячи із затримки та пропускної здатності зв'язку, «вартість» передачі даних між групами пристроїв можна розрахувати за формулами. Кожна збалансована група пристроїв об'єднується для створення повністю зв'язаного приблизного графа, де кожен вузол представляє етап конвеєра, а краї представляють вартість зв'язку між двома етапами. Щоб мінімізувати витрати на зв'язок, використовується алгоритм зіставлення, який визначає, які групи пристроїв повинні працювати разом.
Для подальшої оптимізації задача також може бути змодельована як задача комівояжера з розімкнутим циклом (відкритий цикл означає, що немає необхідності повертатися до початку шляху) для пошуку оптимального шляху для передачі даних між усіма пристроями. Нарешті, Together використовує свій інноваційний алгоритм планування для пошуку оптимальної стратегії розподілу для заданої моделі витрат, щоб мінімізувати витрати на зв'язок і максимізувати пропускну здатність навчання. Згідно з фактичними вимірюваннями, навіть якщо мережа працює в 100 разів повільніше при такій оптимізації планування, пропускна здатність наскрізного навчання буде лише приблизно в 1,7-2,3 рази повільнішою.
Оптимізація стиснення зв'язку:
! [Попередній перегляд потенційного треку: Ринок децентралізованих обчислювальних потужностей (частина I)] (https://img-cdn.gateio.im/webp-social/moments-69a80767fe-a29a418c60-dd1a6f-cd5cc0.webp)
Для оптимізації стиснення зв'язку Together вводить алгоритм AQ-SGD (для детального процесу розрахунків, будь ласка, зверніться до статті Fine-tuning Language Models over Slow Networks using Activation Compression with Guarantees). Алгоритм AQ-SGD — це нова технологія активного стиснення, призначена для вирішення проблеми ефективності зв'язку паралельного навчання конвеєрів у низькошвидкісних мережах. На відміну від попередніх методів безпосереднього стиснення значення активності, AQ-SGD фокусується на стисненні змін значення активності однієї і тієї ж навчальної вибірки за різні періоди, і цей унікальний метод вводить цікаву динаміку «самовиконання», і очікується, що продуктивність алгоритму буде поступово покращуватися в міру стабілізації навчання. Після ретельного теоретичного аналізу алгоритм AQ-SGD доводить, що він має хорошу швидкість збіжності за певних технічних умов та функцію квантування з обмеженою похибкою. Алгоритм може бути ефективно реалізований без додавання додаткових накладних витрат на наскрізне виконання, хоча для зберігання активного значення потрібно більше пам'яті та твердотільних накопичувачів. Завдяки широкій експериментальній валідації на класифікації послідовностей і наборах даних мовного моделювання, AQ-SGD може стискати значення активності до 2-4 біт без шкоди для продуктивності збіжності. Крім того, AQ-SGD також може бути інтегрований з найсучаснішими алгоритмами стиснення градієнтів для досягнення «наскрізного стиснення зв'язку», тобто обмін даними між усіма машинами, включаючи градієнти моделі, значення прямої активності та зворотні градієнти, стискається до низької точності, тим самим значно підвищуючи ефективність зв'язку розподіленого навчання. У порівнянні з наскрізною продуктивністю навчання централізованої обчислювальної мережі (наприклад, 10 Гбіт/с) без стиснення, вона в даний час лише на 31% повільніша. У поєднанні з даними оптимізації планування, хоча все ще існує певний відрив від централізованої обчислювальної потужної мережі, є відносно велика надія надолужити згаяне в майбутньому.
Висновок
У період дивідендів, принесений хвилею штучного інтелекту, ринок обчислювальних потужностей AGI, безсумнівно, є ринком з найбільшим потенціалом і найбільшим попитом серед багатьох ринків обчислювальних потужностей. Однак складність розробки, вимоги до апаратного забезпечення та вимоги до капіталу також найвищі. У поєднанні з двома вищезазначеними проектами до реалізації ринку обчислювальних потужностей AGI все ще існує певна дистанція, а реальна децентралізована мережа набагато складніше ідеальної ситуації, чого явно недостатньо для конкуренції з хмарними гігантами. На момент написання цієї статті також було помічено, що деякі проекти, які знаходяться в зародковому стані (стадія PPT), почали досліджувати деякі нові точки входу, такі як зосередження на менш складному етапі висновування або навчання малих моделей, які є більш практичними спробами.
Незважаючи на те, що вона стикається з багатьма проблемами, у довгостроковій перспективі важливо, щоб децентралізація та інклюзивне значення обчислювальних потужностей AGI не були зосереджені на кількох централізованих гігантах. Тому що людству не потрібна нова «релігія» чи новий «папа», не кажучи вже про те, щоб платити дорогі «членські внески».
Бібліографія
Gensyn Litepaper:
NeurIPS 2022: Подолання вузьких місць у комунікації для децентралізованого навчання:
Тонке налаштування мовних моделей у повільних мережах за допомогою активаційного стиснення з гарантіями:
Обчислювальний протокол машинного навчання та наше майбутнє:
5.Microsoft:Звіт про прибутки за 23 квартал 2 фінансового року:
Змагайтеся за квитки на штучний інтелект: BAT і Byte Meituan змагаються за графічний процесор:
Звіт про оцінку глобального індексу обчислювальної потужності IDC: 2022-2023:
Оцінка навчання великій моделі Guosheng Securities:
Крила інформації: який зв'язок між обчислювальними потужностями та штучним інтелектом? :