Скільки томів становить навчання великої моделі? Розгадайте таємницю обчислювальної потужності великих моделей

Question

Джерело статті: Titanium MediaАвтор|Цінь КонхуейРедактор|Гай Хунда> Передумовою захоплення обчислювальних потужностей є те, що обчислювальні потужності стають новою бізнес-моделлю. Бум масштабної модельної «алхімії» мине, і постачальникам обчислювальних потужностей слід вжити запобіжних заходів і вчасно здатися.![](https://appserversrc.8btc.cn/886188AC950B2D808EFEBF7B16AE4F27/1697530110/Fp_19DUgWHSsTDl4d7Z9v4obhD9N.png) *Джерело зображення: Створено Unbounded AI*Використовуючи 40-річні глобальні дані про погоду, попереднє навчання з 200 картами GPU і приблизно за 2 місяці була навчена велика метеорологічна модель Pangea з сотнями мільйонів параметрів.Це історія Бі Кайфена, який закінчив університет Цінхуа протягом 3 років, і тренував велику модель.Однак, з точки зору вартості, за звичайних обставин GPU становить 7,8 юанів / год, а вартість навчання метеорологічної моделі Bikaifeng Pangu може перевищувати 2 млн. Це все-таки вертикальна велика модель в метеорологічній сфері, і якщо її тренувати на загальній великій моделі, то вартість може бути в сто разів.За статистикою, в Китаї налічується понад 100 великих моделей з 1 мільярдом параметрів. Однак велика модель індустрії «Алхімія» стикається з проблемою, яку важко знайти високоякісним графічним процесорам. Вартість обчислювальних потужностей висока, а нестача обчислювальних потужностей і коштів стала найбільш інтуїтивною проблемою перед галуззю.  ## **Висококласний графічний процесор, скільки не вистачає? **  — Ні, звичайно, не вистачає, але що поробиш. Топ-менеджер великого заводу випалив, коли його запитали, чи не вистачає йому обчислювальних потужностей.Схоже, що це стало невирішеною проблемою, визнаною індустрією, ціна NVIDIA A100 на піку спекулювалася до 200 000 юанів, а щомісячна ціна оренди одного сервера A100 також злетіла до 50 000-70 000 / місяць. Але навіть незважаючи на це, висока ціна все одно може бути не в змозі отримати чіп, і деякі постачальники обчислювальної потужності також стикалися з дивним досвідом, з яким важко зіткнутися раніше, наприклад, пропуск квитків постачальників.Чжоу Ліцзюнь, керівник індустрії хмарних обчислень, сказав подібне: «Існує дефіцит обчислювальних потужностей. У нас є багато клієнтів, яким потрібні високоякісні ресурси графічних процесорів, але наразі вони не можуть повністю задовольнити потреби широкого ринку. "![](https://appserversrc.8btc.cn/Fg9bHJifvdE3KlrsFulrJlWnOap_) *Високопродуктивний обчислювальний кластер постачальника хмарних послуг з інтерфейсом A100 розпроданий*Виходить, що дефіцит високоякісних графічних процесорів у галузі не вирішений у короткостроковій перспективі. З появою великих моделей попит ринку на обчислювальні потужності стрімко зріс, але темпи зростання пропозиції далеко не встигають. Хоча пропозиція обчислювальних потужностей обов'язково надійде на ринок покупця з ринку продавця в довгостроковій перспективі, невідомо, скільки часу займе цей час.Кожна компанія підраховує, скільки «товарів» (графічних процесорів NVIDIA) у них на руках, і навіть використовує це для оцінки частки ринку. Наприклад, якщо у вас на руках близько 10 000 карт, а загальний ринок становить 100 000 карт, частка становить 10%. «До кінця року їх буде близько 40 000, а якщо ринок буде 200 000, то, ймовірно, це буде 20 відсотків ринку». Люди, знайомі з цим питанням, наводили приклади.З одного боку, картку не купиш, з іншого боку, поріг для навчання великих моделей не так просто «почати», як пече індустрія. Як вже говорилося вище, вартість навчання метеорологічної моделі Bikaifeng Pangea може перевищувати 2 млн. Однак слід зазначити, що метеорологічна модель Бікайфен Паньгу - це вертикальна велика модель, навчена на основі загальної великої моделі Паньгу, а її параметри обчислюються сотнями мільйонів. Якщо ви хочете навчити велику модель загального призначення з мільярдними параметрами або більше, вартість може бути в десятки або сто разів вище.«Наразі найбільші масштаби інвестицій – це навчання, і без мільярдних капіталовкладень важко продовжувати робити велику модель». Про це розповів Цю Юепен, віце-президент Tencent Group, головний операційний директор бізнес-групи хмарних технологій та розумної промисловості та президент Tencent Cloud.«Біжіть швидко, принаймні до тих пір, поки гроші не згорять, щоб отримати наступний раунд «фінансування». Один із підприємців описав нинішню велику модель «воєнної ситуації»: «Ця дорога – глухий кутЯкщо у вас за плечима немає десятків мільярдів доларів, це важко зробити. "У цій ситуації поширена думка в галузі полягає в тому, що з конкуренцією на великому модельному ринку ринок також зміниться від фанатичного до раціонального, а підприємства також контролюватимуть витрати та коригуватимуть стратегії з очікуваними змінами.  ## **Нерозв'язна позитивна відповідь**  Якщо умов немає, необхідно створювати умови - це, схоже, менталітет більшості серед учасників великої моделі. А як створити умови для боротьби з реальними проблемами, у кожної компанії теж є безліч методів.Через дефіцит високоякісних чіпів GPU, а доступний на китайському ринку графічний процесор не останнього покоління, продуктивність зазвичай нижча, тому підприємствам потрібно більше часу для навчання великих моделей. Ці компанії також шукають інноваційні способи компенсувати нестачу обчислювальних потужностей.Одним із способів зробити це є використання більш якісних даних для навчання, що робить навчання більш ефективним.Нещодавно Академія інформаційно-комунікаційних технологій (CAICT) взяла на себе провідну роль у випуску «Звіту про дослідження стандартної системи та архітектури потужностей великих моделей промисловості», в якому згадувалася оцінка рівня даних великих моделей. У звіті йдеться про те, що з точки зору якості даних, оскільки це матиме великий вплив на ефект моделі, рекомендується запровадити ручне маркування та підтвердження, а також вибрати принаймні певну частку вихідних даних для маркування, щоб побудувати та справді якісні набори даних.Крім зниження вартості великих моделей за рахунок високоякісних даних, для промисловості поліпшення можливостей інфраструктури і досягнення стабільної роботи понад 100000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000«Як постачальник хмарних послуг, ми допомагаємо клієнтам побудувати стабільну та надійну інфраструктуру. Оскільки стабільність серверної карти графічного процесора буде низькою, будь-який збій перерве навчання, що призведе до збільшення загального часу навчання. Високопродуктивні обчислювальні кластери можуть надавати клієнтам більш стабільні послуги, скорочувати час навчання та вирішувати деякі проблеми обчислювальної потужності. – сказав Чжоу Ліцзюнь.У той же час планування ресурсів обчислювальної карти потужності також перевіряє технічну спроможність постачальника послуг. Сюй Вей, керівник відділу інтернет-рішень Volcano Engine у Східному Китаї, розповів Titanium Media, що наявність ресурсів обчислювальних карт – це лише один аспект, і те, як планувати ресурси карти та реально використовувати їх, є більш перевіреною основною здатністю та інженерними здібностями. «Розділення карти на багато дрібних карток і спроба досягти розподіленого та точного планування може ще більше знизити вартість обчислювальної потужності». – сказав Сюй Вей.Мережа також впливає на швидкість та ефективність навчання великих моделей. Навчання великих моделей часто складається з тисяч карток, підключення сотень серверів GPU, необхідна швидкість мережі, надзвичайно висока, якщо мережа трохи перевантажена, швидкість навчання буде дуже низькою, це дуже вплине на ефективність. «Поки один сервер перегрівається і виходить з ладу, весь кластер, можливо, доведеться зупинитися, а навчальні завдання доведеться перезапустити. Це вимагає дуже високих вимог до можливостей обслуговування та обслуговування хмарних сервісів та можливостей усунення несправностей. – сказав Цю Юепен.Деякі вендори знайшли інший шлях, і перехід від архітектури хмарних обчислень до суперкомп'ютерної архітектури також став способом зниження витрат, тобто в разі задоволення потреб користувачів, невисокопродуктивних обчислювальних завдань і паралельних сценаріїв завдань суперкомп'ютерна хмара коштує приблизно вдвічі дешевше хмарних суперкомп'ютерів, а потім за рахунок оптимізації продуктивності використання ресурсів може бути збільшено з 30% до 60%.Крім того, деякі виробники вважають за краще використовувати вітчизняні платформи для навчання і аргументувати великі моделі на заміну NVIDIA, яку складно знайти з картою. «Ми спільно з Huawei випустили моноблок iFLYTEK Spark, який дуже примітний тим, що може проводити навчання та міркування на вітчизняній платформі. Мені особливо приємно повідомити вам, що можливості графічного процесора Huawei тепер такі ж, як у NVIDIA, і Жень Чженфей надає цьому великого значення, а три директори Huawei працювали в спеціальному класі iFLYTEK і тепер зробили його порівнянним з A100 від NVIDIA. Лю Цінфен, засновник і голова iFLYTEK, якось сказав.Кожен з перерахованих вище методів є відносно великим проектом, тому звичайним підприємствам складно зустрітися за допомогою самостійно побудованих центрів обробки даних, і багато алгоритмічних команд вибирають для підтримки найбільш професійних виробників обчислювальних потужностей. Серед них паралельне зберігання також є великою вартістю, а також технічні можливості, відповідні гарантії частоти відмов тощо також є частиною вартості обладнання. Звичайно, навіть враховуйте вартість доступності IDC в зоні електропостачання, експлуатаційні витрати, такі як програмне забезпечення, платформа та витрати на персонал.Тільки кластер графічних процесорів на рівні кілокарт матиме ефект масштабу, а вибір постачальника послуг обчислювальної потужності рівнозначний тому, щоб сказати, що граничні витрати дорівнюють нулю.Академік Китайської інженерної академії та науковий співробітник Інституту обчислювальних технологій Китайської академії наук Сунь Нінхуей у своєму виступі також припустив, що AIGC спричинила спалах індустрії штучного інтелекту, а широкомасштабне застосування інтелектуальних технологій має типову проблему довгого хвоста, тобто сильні відділи з потужними можливостями ШІ (мережева безпека, дев'ять інститутів дев'ятої академії та метеорологічні бюро тощо), науково-дослідні установи та великі та середні підприємства становлять лише близько 20% основної маси попиту на обчислювальні потужності, а інші 80% – це малі та середні підприємства. Або обмежений високою ціною обчислювальних потужностей, важко отримати дивіденди від розвитку на хвилі ери ШІ.Тому для реалізації широкомасштабного застосування інтелектуальних технологій індустрії штучного інтелекту одночасно «аплодують» і «аплодують», і потрібна велика кількість дешевих і простих у використанні інтелектуальних обчислювальних потужностей, щоб малі, середні та мікропідприємства також могли зручно і дешево використовувати обчислювальні потужності.Незалежно від того, чи йдеться про нагальну потребу в обчислювальних потужностях великих моделей, чи про різні проблеми, які необхідно вирішити в процесі застосування обчислювальних потужностей, нова зміна, на яку необхідно звернути увагу, полягає в тому, що обчислювальні потужності стали новою моделлю обслуговування в процесі ринкового попиту та ітерації технологій.  ## **Досліджуємо нову модель обчислювальної потужності**  Яка обчислювальна потужність великої моделі, яку ми хапаємо? Щоб відповісти на це питання, потрібно почати з сервісу обчислювальної потужності.З точки зору типів, обчислювальна потужність поділяється на загальну обчислювальну потужність, інтелектуальну обчислювальну потужність і суперкомп'ютерну потужність, і ці обчислювальні потужності стали послугою, яка є результатом подвійного приводу ринку та технології.Визначення обчислювальної енергетичної послуги в «Білій книзі Computing Power Service 2023» (далі – «Біла книга») – це нова галузь обчислювальної енергетики, заснована на диверсифікованій обчислювальній потужності, пов'язана обчислювальною мережею, і спрямована на забезпечення ефективної обчислювальної потужності.Суть обчислювальної потужності полягає в досягненні уніфікованої віддачі різнорідних обчислювальних потужностей за допомогою нових обчислювальних технологій, а також перехресної інтеграції з хмарними технологіями, великими даними, штучним інтелектом та іншими технологіями. У службі обчислювальних потужностей є не тільки обчислювальна потужність, це уніфікована інкапсуляція обчислювальних потужностей, сховища, мережі та інших ресурсів, а надання обчислювальних потужностей здійснюється у вигляді сервісів (наприклад, API).Розуміючи це, ви виявите, що, захоплюючи чіпи NVIDIA, значна частина з них є постачальниками обчислювальних потужностей, тобто виробниками обчислювальної потужності. Галузевим користувачам, які фактично називають API обчислювальних потужностей на фронтенді, потрібно лише висунути відповідні вимоги до обчислювальної потужності.За даними Titanium Media App, з точки зору програмного забезпечення, вся велика модель, що використовується для взаємодії програмного забезпечення, розділена на три типи, перший виклик API великої моделі, кожне сімейство має котирування, відповідно до розрахунку ціни; Другий – володіти невеликою моделлю, самостійно придбати обчислювальні потужності або навіть розгорнути її самостійно; По-третє, великі постачальники моделей співпрацюють з постачальниками хмарних послуг, тобто виділеними хмарами, і платять щомісяця. «Як правило, це три, Kingsoft Office в даний час в основному використовує виклики API, а внутрішня невелика модель створила власну платформу планування обчислювальної потужності». – сказав Яо Дун, віце-президент Kingsoft Office, виданню Titanium Media App.![](https://appserversrc.8btc.cn/FnjR8ARycfmwdqVbGSI1dFjCBI51) Діаграма структури галузевого ланцюжка хешрейту, джерело: Китайська академія інформаційно-комунікаційних технологійІншими словами, в ланцюжку індустрії структури обчислювальної потужності видобувні підприємства в основному завершують поставку допоміжних ресурсів для обчислювальних енергетичних послуг, таких як загальна обчислювальна потужність, інтелектуальна обчислювальна потужність, суперкомп'ютерна потужність, сховище та мережа. Наприклад, у битві за обчислювальні потужності великих моделей NVIDIA належить до базового постачання обчислювальної потужності в галузь для постачання чіпів, і на зростання запасів виробників серверів, таких як Inspur Information, також впливає ринковий попит.Середні підприємства в основному є постачальниками хмарних послуг і новими постачальниками обчислювальних потужностей, і їх роль в основному полягає в реалізації виробництва обчислювальної потужності за допомогою оркестрації обчислювальних потужностей, планування обчислювальних потужностей і технології торгівлі обчислювальними потужностями, а також у завершенні постачання обчислювальної потужності через API. Вищезгадані постачальники послуг обчислювальної потужності, Tencent Cloud і Volcano Engine знаходяться за цим посиланням. Чим сильніша сервісно-орієнтована здатність обчислювальних потужностей обслуговувати середні підприємства, тим нижчий поріг для прикладної сторони та тим більше сприяє інклюзивному та повсюдному розвитку обчислювальних потужностей.Підприємства, що займаються переробкою, покладаються на обчислювальні потужності, що надаються службами обчислювальної потужності, для створення та виробництва послуг з доданою вартістю, наприклад, для користувачів галузі. Цій частині користувачеві потрібно лише висунути вимогу, а виробник обчислювальної потужності налаштовує відповідну обчислювальну потужність відповідно до вимоги для виконання «завдання обчислювальної потужності», виданого користувачем.Це має більше економічних і технічних переваг, ніж початкова покупка серверів для побудови обчислювальної потужності великої моделі. Навчання Бі Кайфеном метеорологічної великої моделі Паньгу має прямо називати базовий рівень моделі Паньгу, тобто високопродуктивним обчислювальним сервісом HUAWEI CLOUD, тож чи буде процес інших великих модельних підприємств використовувати обчислювальні потужності або платити за обчислювальні потужності інакше?  ## **Ітерація бізнес-моделі обчислювальної потужності**  ChatGLM — це перша запущена партія загальних великих моделей, на прикладі якої використовується обчислювальна потужність ChatGLM Zhipu AI, згідно з інформацією, яка була публічно оприлюднена, ChatGLM AI використовує низку основних постачальників обчислювальної потужності штучного інтелекту в Китаї. «За ідеєю, все має бути корисним». Люди, знайомі з цим питанням, сказали, що це також може включати вітчизняних основних постачальників обчислювальних потужностей/постачальників хмарних послуг.Оплата за фактом використання та щомісячне виставлення рахунків є основними режимами поточної служби обчислювальної потужності, і існує приблизно два типи вимог до використання, один з яких полягає у виборі відповідного екземпляра служби обчислювальної потужності, а в інтерфейсі офіційного веб-сайту постачальника хмарних послуг він може надати високопродуктивні сервери GPU, оснащені трьома основними відеокартами NVIDIA A800, A100, V100.![](https://appserversrc.8btc.cn/FjyuAMtiFpB6-NSl4kxNzIrgQiAy) *Типи високопродуктивних обчислювальних відеокарт із графічними процесорами, що надаються постачальником обчислювальних послуг*Інший – вибрати відповідну сервісну платформу MaaS і точно налаштувати велику модель на платформі MaaS. Візьмемо для прикладу ціну публікації платформи Tencent Cloud TI-ONE, яка платить за фактом використання, конфігурація 8C40G V100\*1 становить 20,32 юаня на годину, що можна використовувати для автоматичного навчання-зору, моделювання на основі завдань, ноутбука та візуального моделювання.В даний час галузь також сприяє «інтеграції обчислень і мережі» обчислювальних енергетичних послуг, і за допомогою всебічного судження обчислювальних завдань, стану ресурсів обчислювальної мережі та іншої інформації формується схема оркестрації обчислювальної мережі, яка може підтримувати міжархітектурне, міжрегіональне та міжсервісне планування постачальників, і завершується розгортання відповідних ресурсів. Наприклад, якщо ви заощаджуєте певну суму грошей і вносите її в обчислювальну мережу, розділи в обчислювальній мережі можна викликати за бажаннямВідповідно до характеристик програми, виберіть найбільш підходящий розділ, найшвидший розділ і найбільш економічно вигідний розділ, а потім стягуйте плату відповідно до тривалості та вираховуйте комісію з попередньо внесених коштів.Те ж саме стосується і постачальників хмарних послуг, як унікального продукту хмарних сервісів, що дозволяє їм швидко брати участь у ланцюжку обчислювальної енергетики.Згідно з даними Міністерства промисловості та інформаційних технологій, загальний масштаб обчислювальної потужності Китаю досягне 180 EFLOPS у 2022 році, посівши друге місце у світі. Станом на 2022 рік масштаби обчислювальної енергетики Китаю досягли 1,8 трлн. Обчислювальні потужності великих моделей значно прискорили розвиток обчислювальної енергетики.Одна з приказок полягає в тому, що нинішня служба обчислювальної потужності насправді є новим типом моделі «продажу електроенергії». Однак, відповідно до різного розподілу праці, деяким постачальникам обчислювальних послуг може знадобитися допомогти користувачам виконувати більше налагодження продуктивності системи, встановлення програмного забезпечення, великомасштабного аналізу робочих операцій та експлуатаційних характеристик, тобто частину роботи «останньої милі» та технічного обслуговування.З нормалізацією попиту на високопродуктивні обчислення великих моделей обчислювальні потужності, які народилися з хмарних сервісів, швидко увійшли в поле зору громадськості, сформувавши унікальний промисловий ланцюжок і бізнес-модель. Просто на початку спалаху індустрії обчислювальної потужності через великі моделі, дефіцит висококласних графічних процесорів, висока вартість обчислювальних потужностей і захоплення «ядер» сформували унікальний ландшафт, що належить до цієї епохи.«На даному етапі обсяг полягає в тому, хто може отримати карту в ланцюжку поставок, NVIDIA є королем всієї індустрії в даний час, і всі ринки контролюються нею, що є статус-кво». Люди, знайомі з цим питанням, прокоментували. Це схоже на те, що той, хто отримає картку, може забезпечити бізнес, коли попит перевищує пропозицію.Але не всі хапаються за «карту», адже дефіцит тимчасовий, а проблема завжди буде вирішена. "Людина, яка проводить довгострокове дослідження, насправді не хапається за це, а просто чекає, тому що вона не помреНаразі є лише група стартапів, які хапаються за карти, і вони хочуть гарантувати, що зможуть дожити до наступного року. – сказала людина.У багатьох невизначеностях існує певна тенденція, коли обчислювальні потужності стають послугою, і постачальники обчислювальних потужностей повинні бути готові вжити запобіжних заходів, коли велика модель повернеться до раціональності, а ринковий вітер швидко зміниться.Примітка: На прохання співрозмовника Чжоу Ліцзюнь є псевдонімом.**(Ця стаття вперше опублікована Titanium Media APP) **