Для народження GPT-5 потрібно 50 000 H100! Загальний глобальний попит на H100 становить 430 000, і Nvidia GPU відчуває штормовий дефіцит

2023-08-06 06:37:26

Перше джерело: Xinzhiyuan

Джерело зображення: створено Unbounded AI‌

«Хто скільки отримає H100 і коли стануть найгарячішими темами в Кремнієвій долині».

Співзасновник OpenAI та вчений за сумісництвом Андрій Карпаті нещодавно опублікував статтю, в якій пояснює свої погляди на дефіцит графічних процесорів NVIDIA.

Нещодавно картинка «Скільки графічних процесорів нам потрібно», яка була широко поширена в спільноті, викликала дискусії серед багатьох користувачів мережі.

Відповідно до вмісту, зображеного на малюнку:

GPT-4, ймовірно, навчався приблизно на 10 000-25 000 A100
Мета близько 21000 A100
Tesla близько 7000 A100
Стабільність AI близько 5000 A100
Falcon-40B тренувався на 384 A100

– Inflection використовував 3500 і H100 для навчання моделі, порівнянної з GPT-3.5

Крім того, за словами Маска, GPT-5 може знадобитися 30 000-50 000 H100.

Раніше Morgan Stanley заявляв, що GPT-5 використовує 25 000 графічних процесорів і навчається з лютого, але пізніше Сем Альтман уточнив, що GPT-5 ще не навчався.

Однак Альтман раніше заявляв,

У нас дуже мало графічних процесорів, чим менше людей користується нашими продуктами, тим краще.

Ми були б раді, якби люди використовували менше, тому що у нас не вистачає графічних процесорів.

У цій статті під назвою «Графічний процесор Nvidia H100: попит і пропозиція» міститься поглиблений аналіз поточного використання та попиту на графічні процесори технологічними компаніями.

У статті припускається, що потужність великомасштабного кластера H100 малих і великих хмарних провайдерів скоро вичерпається, і тенденція попиту на H100 збережеться принаймні до кінця 2024 року.

Отже, чи дійсно попит на GPU є вузьким місцем?

Вимоги до GPU великих компаній: близько 430 000 H100

В даний час вибух генеративного штучного інтелекту не сповільнюється, і він висуває більш високі вимоги до обчислювальної потужності.

Деякі стартапи використовують дорогий і надзвичайно високопродуктивний H100 від Nvidia для навчання моделей.

Наразі графічні процесори знайти важче, ніж ліки, сказав Маск.

Сем Альтман каже, що OpenAI обмежений графічним процесором, що затримує їхні короткострокові плани (тонка настройка, виділена ємність, вікна контексту 32k, мультимодальність).

Коментарі Karpathy надходять у той час, як щорічні звіти великих технологічних компаній навіть обговорюють проблеми, пов’язані з доступом до GPU.

Минулого тижня Microsoft опублікувала свій річний звіт і підкреслила інвесторам, що графічні процесори є «ключовою сировиною» для її стрімко зростаючого хмарного бізнесу. Якщо необхідна інфраструктура недоступна, може існувати фактор ризику збоїв у роботі центру обробки даних.

Цю статтю нібито написав автор допису HK.

Він припустив, що OpenAI може знадобитися 50 000 H100, тоді як Inflection потребує 22 000, Meta може знадобитися 25 тис., а великим постачальникам хмарних послуг може знадобитися 30 тис. (таким як Azure, Google Cloud, AWS, Oracle).

Lambda, CoreWeave та інші приватні хмари можуть потребувати загалом 100 тис. Він написав, що Anthropic, Helsing, Mistral і Character може знадобитися по 10 тисяч.

Автори кажуть, що все це приблизні оцінки та припущення, деякі з яких пов’язані з подвійним підрахунком хмари та кінцевими клієнтами, які орендують обладнання з хмари.

Загалом глобальним компаніям потрібно близько 432 000 H100. За розрахунком близько 35 тис. доларів США на H100, загальна вартість GPU становить 15 мільярдів доларів.

Це не включає вітчизняні Інтернет-компанії, яким потрібна велика кількість H800.

Є також деякі відомі фінансові компанії, такі як Jane Street, JP Morgan, Two Sigma тощо, кожна з яких розгортає, починаючи з сотень A/H100 і розширюючи до тисяч A/H100.

Усі великі лабораторії, включаючи OpenAI, Anthropic, DeepMind, Google і X.ai, навчають великі мовні моделі, і H100 від Nvidia є незамінним.

Чому H100 є першим вибором?

H100 є більш популярним, ніж A100, як перший вибір, частково через меншу затримку кешу та обчислення FP8.

Тому що його ефективність до 3 разів, а вартість всього (в 1,5-2 рази). Враховуючи загальну вартість системи, продуктивність H100 набагато вища.

З точки зору технічних деталей, порівняно з A100, H100 приблизно в 3,5 рази швидший за 16-бітних міркувань і приблизно в 2,3 рази швидше за 16-бітне навчання.

Швидкість A100 проти H100

Н100 навчальний MoE

Величезне прискорення H100

Більшість компаній купують H100 і використовують його для навчання та висновків, тоді як A100 здебільшого призначений для висновків.

Але деякі компанії не рішуться переходити через вартість, потужність, ризики використання та налаштування нового апаратного забезпечення та той факт, що існуюче програмне забезпечення вже оптимізовано для A100.

GPU — це не недолік, а проблема ланцюжка поставок

Керівник Nvidia сказав, що проблема полягає не в нестачі графічних процесорів, а в тому, як ці графічні процесори потрапляють на ринок.

Nvidia виробляє графічні процесори на повну потужність, але виконавчий директор сказав, що потужність виробництва графічних процесорів в основному обмежена ланцюгом поставок.

Сам чіп може мати достатню ємність, але недостатня ємність інших компонентів сильно обмежить ємність GPU.

Виробництво цих компонентів покладається на інших постачальників по всьому світу.

Але попит прогнозований, тому зараз проблема поступово вирішується.

Виробнича потужність графічного процесора

По-перше, Nvidia співпрацює лише з TSMC для виробництва H100. Усі 5-нм графічні процесори Nvidia співпрацюють лише з TSMC.

Співпраця з Intel і Samsung в майбутньому можлива, але в короткостроковій перспективі це неможливо, що обмежує виробництво H100.

За словами інформатора, TSMC має 4 виробничі вузли для забезпечення потужності для 5-нм чіпів: N5, N5P, N4, N5P

H100 виробляється лише на вузлі 4N N5 або N5P, який є вдосконаленим вузлом 5 нм.

Nvidia повинна поділитися потужністю цього вузла з Apple, Qualcomm і AMD.

Фабрика TSMC повинна планувати виробничу потужність кожного клієнта на 12 місяців наперед.

Якщо раніше Nvidia і TSMC недооцінювали попит на H100, то зараз виробничі потужності будуть обмежені.

За словами інформатора, для того, щоб H100 перейшов від виробництва до доставки, знадобиться близько півроку.

Крім того, інформатор процитував професіонала напівпровідникової галузі на пенсії, який сказав, що фабрика не є вузьким місцем виробництва TSMC, а упаковка CoWoS (3D-стекування) є воротами виробничих потужностей TSMC.

Обсяг пам'яті H100

Що стосується іншого важливого компонента на H100, пам'яті H100, також може виникнути проблема недостатньої ємності.

HBM (High Bandwidth Memory), яка особливим чином інтегрована з GPU, є ключовим компонентом для забезпечення продуктивності GPU.

Інформатор процитував інсайдера галузі:

Основна проблема - HBM. Робити це кошмар. Оскільки HBM важко виробляти, поставки дуже обмежені. І виробництво, і дизайн повинні слідувати його ритму.

Для пам'яті HBM3 Nvidia майже завжди використовує продукти SK Hynix, і можуть бути деякі продукти Samsung, і не повинно бути продуктів Micron.

Nvidia хоче, щоб SK Hynix збільшила виробничі потужності, і вони це роблять. Але і Samsung, і Micron мають обмежену потужність.

Крім того, багато інших матеріалів і процесів, у тому числі рідкоземельні елементи, будуть використовуватися у виробництві GPU, що також стане можливим фактором, що обмежує виробничу потужність GPU.

Як чіп GPU розвиватиметься в майбутньому

Заява Nvidia

Nvidia лише повідомила, що зможе постачати більше графічних процесорів у другій половині року, але не надала жодної кількісної інформації.

Сьогодні ми обробляємо постачання на квартал, але ми також закуповуємо значну кількість постачання на друге півріччя. Ми вважаємо, що пропозиція у другому півріччі буде значно вищою, ніж у першому півріччі.

– фінансовий директор Nvidia Колетт Кресс під час дзвінка про прибутки за лютий-квітень 2023 року

Що далі?

Питання поставок графічних процесорів тепер є замкнутим циклом, де дефіцит змушує володіння графічним процесором розглядатися як рів, спричиняючи накопичення більшої кількості графічних процесорів, що посилює дефіцит.

– Розкрито особу, відповідальну за приватну хмару

**Коли з’явиться наступне покоління H100? **

Відповідно до попередньої дорожньої карти Nvidia, наступне покоління H100 не буде анонсовано до кінця 2024 – початку 2025 року.

До цього моменту H100 буде флагманським продуктом Nvidia.

Однак протягом цього періоду Nvidia випустить версію H100 з водяним охолодженням на 120 ГБ.

Згідно з інсайдерами галузі, опитаними інформатором, H100 буде розпродано до кінця 2023 року! !

Як отримати обчислювальну потужність H100?

Як зазначали керівники Nvidia раніше, обчислювальна потужність, яку забезпечує графічний процесор H100, з часом буде інтегрована в галузевий ланцюг через різних постачальників хмарних обчислень, тому нестача H100 спричинена генерацією графічного процесора, з одного боку.

Інший аспект полягає в тому, як постачальники хмарних обчислень можуть ефективно отримати H100 від Nvidia та, нарешті, охопити клієнтів, які цього потребують, забезпечуючи потужність хмарних обчислень.

Процес простий:

Постачальник хмарних технологій обчислювальної потужності купує чіпи H100 у OEM-виробників, а потім створює хмарні служби обчислювальної потужності та продає їх різним компаніям зі штучним інтелектом, щоб кінцеві користувачі могли отримати обчислювальну потужність H100.

Існують також різні чинники в цьому процесі, які спричинили поточний дефіцит обчислювальної потужності H100, і стаття, яка розповсюдила цю новину, також містить багато інформації в галузі для довідки.

**У кого я можу купити плату H100? **

Такі OEM-виробники, як Dell, Lenovo, HPE, Supermicro і Quanta, продаватимуть як H100, так і HGX H100.

Хмарні провайдери, такі як CoreWeave і Lambda, купують графічні процесори в OEM-виробників і здають їх в оренду стартапам.

Гіпермасштабувальники (Azure, GCP, AWS, Oracle) працюватимуть безпосередньо з Nvidia, але також купуватимуть у OEM-виробників. Здається, це схоже на те, як геймери купують відеокарти. Але навіть щоб придбати DGX, користувачі повинні купувати через OEM і не можуть розмістити замовлення безпосередньо в Nvidia.

час доставки

Час виконання для сервера HGX з 8 GPU жахливий, час виконання для сервера HGX з 4 GPU просто чудовий.

Але кожен клієнт хоче сервер з 8 GPU!

Чи купує стартап у OEM-виробників і торгових посередників?

Якщо компанія-початківець хоче отримати обчислювальну потужність H100, вона не купує H100 і не підключає його до власного кластера GPU.

Зазвичай вони орендують обчислювальну потужність у великих хмар, таких як Oracle, приватних хмар, таких як Lambda та CoreWeave, або постачальників, які працюють з OEM-виробниками та центрами обробки даних, таких як FluidStack.

Якщо ви хочете побудувати власний центр обробки даних, вам потрібно врахувати час для створення центру обробки даних, чи є у вас персонал і досвід роботи з апаратним забезпеченням, а також чи можна собі дозволити капітальні витрати.

Оренда та розміщення серверів стала ще простішою. Якщо користувачі хочуть побудувати власні дата-центри, для підключення до Інтернету необхідно прокласти темне волокно – 10 тис. доларів за кілометр. Велика частина інфраструктури вже була побудована та оплачена під час буму доткомов. Просто візьміть його в оренду, це недорого.

– особа, відповідальна за приватну хмару

Послідовність від оренди до власноруч побудованих хмарних служб приблизно така: оренда хмарних служб на вимогу (хмарні послуги чистої оренди), заплановані хмарні послуги, керовані хмарні послуги (купівля серверів, співпраця з постачальниками для розміщення та керування серверами), самостійне розміщення (придбання самостійно) та хостинг сервер)).

Більшість стартапів, яким потрібна обчислювальна потужність H100, вибирають хмарні послуги або керовані хмарні послуги.

Порівняння між великими платформами хмарних обчислень

Для багатьох стартапів хмарні сервіси, що надаються великими хмарними обчислювальними компаніями, є основним джерелом H100.

Вибір хмарної платформи також остаточно визначає, чи зможуть вони отримати стабільну обчислювальну потужність H100.

Загальна думка така: Oracle не такий надійний, як велика трійка хмар. Але Oracle надасть більше технічної підтримки.

Основні відмінності між іншими великими хмарними обчислювальними компаніями:

Мережа: хоча більшість стартапів, які шукають великі кластери A100/H100, шукають InfiniBand, AWS і Google Cloud повільніше впроваджують InfiniBand, оскільки вони мають власні методи надання послуг.

Доступність: більша частина Microsoft Azure H100 присвячена OpenAI. У Google було важче придбати H100.

Тому що Nvidia, схоже, схильна надати більше квот H100 для тих хмар, які не планують розробляти конкуруючі мікросхеми машинного навчання. (Це все припущення, а не сувора правда.)

Три великі хмарні компанії, окрім Microsoft, розробляють мікросхеми машинного навчання, а альтернативні продукти Nvidia від AWS і Google уже є на ринку, займаючи частину ринку.

Що стосується відносин із Nvidia, це може виглядати так: Oracle і Azure > GCP і AWS. Але це лише припущення.

Менші постачальники потужностей хмарних обчислень будуть дешевшими, але в деяких випадках деякі постачальники хмарних обчислень обмінюють обчислювальну потужність на акції.

Як Nvidia розподіляє H100

Nvidia надасть кожному клієнту квоту H100.

Але якщо Azure скаже: «Привіт, ми хочемо отримати 10 000 H100, усе для Inflection», ви отримаєте іншу квоту, ніж якщо Azure скаже: «Привіт, ми хочемо отримати 10 000 H100 для хмари Azure».

Nvidia піклується про кінцевого клієнта, тому, якщо Nvidia зацікавлена в кінцевому споживачі, платформа хмарних обчислень отримає більше H100.

Nvidia хоче якомога більше зрозуміти, хто є кінцевим споживачем, і вони віддають перевагу клієнтам із хорошими брендами або стартапам із сильним родоводом.

Так, здається, це так. NVIDIA хоче гарантувати доступ до GPU новим компаніям зі штучним інтелектом (багато з яких мають тісні зв’язки з ними). Подивіться, як Inflection – компанія штучного інтелекту, у яку вони інвестують – тестує величезний кластер H100 на CoreWeave, у який вони також інвестують.

– особа, відповідальна за приватну хмару

Висновок

Поточна жага графічних процесорів — це і піна, і ажіотаж, але об’єктивно вона існує.

Є компанії на кшталт OpenAI з такими продуктами, як ChatGPT, які набувають популярності, але вони все ще не можуть отримати достатньо графічних процесорів.

Інші компанії купують і накопичують графічні процесори для майбутнього використання або для навчання великих мовних моделей, які ринок може навіть не використовувати. Це створює бульбашку нестачі GPU.

Але як би ви на це не дивилися, Nvidia — зелений король у фортеці.

Література:

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

2 лайків