Старий Хуанг перемагає! Замовлення Nvidia H100 розраховано на 24 роки, і Маск не може сидіти на місці

2023-08-13 01:07:59

Перше джерело: Qubit

Найкращий графічний процесор для вдосконалення великих моделей NVIDIA H100, все розпродано!

Навіть якщо ви замовите його зараз, він не буде доступний до першого або навіть другого кварталу 2024 року.

Це останні новини, оприлюднені Wall Street Journal від CoreWeave, хмарного постачальника, тісно пов’язаного з Nvidia.

Постачання було надзвичайно обмеженим з початку квітня. Всього за один тиждень очікувані терміни доставки підскочили з розумного рівня до кінця року.

Amazon AWS, найбільший у світі постачальник хмарних технологій, також підтвердив цю новину. Генеральний директор Адам Селіпскі нещодавно сказав:

A100 і H100 є найсучаснішими... важко отримати навіть для AWS.

Раніше Маск також сказав у ток-шоу: GPU тепер отримати складніше, ніж продукти d.

Якщо ви знайдете «скальпера» для покупки, премія сягає 25%.

Наприклад, ціна на Ebay зросла приблизно з 36 000 доларів США із заводу до 45 000 доларів США**, а пропозиція невелика.

У цій ситуації великі вітчизняні технологічні компанії, такі як Baidu, Byte, Ali та Tencent**, також розмістили замовлення на A800 та інші чіпи на загальну суму 5 мільярдів доларів США** від Nvidia.

З них тільки 1 мільярд доларів США можуть бути доставлені протягом цього року, а інші 80% повинні будуть почекати до 2024 року.

Отже, кому продаються існуючі високоякісні графічні процесори? Де застрягла ця хвиля виробничих потужностей?

Хто продає H100, Лао Хуанг має останнє слово

Після спалаху ChatGPT стали популярними Nvidia A100 і H100, які добре підходять для навчання великих моделей.

Навіть H100 вже можна використовувати як актив для компаній-початківців для пошуку інвестиційних коштів для отримання іпотечних кредитів.

Компанії штучного інтелекту, представлені OpenAI і Meta, компанії хмарних обчислень, представлені Amazon і Microsoft, приватні хмари Coreweave і Lambda, а також усі різноманітні технологічні компанії, які хочуть удосконалити власні великі моделі, попит величезний.

**Однак останнє слово щодо того, кому продавати, має генеральний директор Nvidia Хуан Реньсюнь. **

Згідно з The Information, H100 настільки дефіцитний, що Nvidia** виділила велику кількість нових карт для CoreWeave** і обмежила поставку** таким відомим компаніям хмарних обчислень, як Amazon і Microsoft.

(Nvidia також інвестувала безпосередньо в CoreWeave.)

Зовнішній аналіз полягає в тому, що ці відомі компанії розробляють власні мікросхеми для прискорення штучного інтелекту, сподіваючись зменшити свою залежність від Nvidia, тож Лао Хуан допоможе їм.

Лао Хуан також контролює всі аспекти повсякденної діяльності компанії в Nvidia, навіть включаючи "перегляд того, що торгові представники скажуть невеликим потенційним клієнтам".

Близько 40 керівників компанії безпосередньо підпорядковуються Лао Хуанг**, що більше, ніж безпосередні підлеглі Meta Xiaozha та Microsoft Xiaona разом узяті.

Колишній менеджер Nvidia розповів: «У Nvidia Huang Renxun є фактично головним спеціалістом з продуктів кожного продукту».

Деякий час тому також повідомлялося, що Лао Хуанг зробив перебільшену річ: Попросив деякі невеликі компанії хмарних обчислень надати списки своїх клієнтів, бажаючи знати, хто є кінцевими користувачами GPU.

Відповідно до зовнішнього аналізу, цей крок дозволить Nvidia краще зрозуміти потреби клієнтів у своїх продуктах, і це також викликало занепокоєння, що Nvidia може використовувати цю інформацію для отримання додаткових переваг.

Деякі люди також вважають, що ще однією причиною є те, що Лао Хуанг хоче знати, хто насправді використовує картку, а хто просто накопичує картку і не використовує її.

Чому Nvidia та Lao Huang зараз мають такий гучний голос?

Основна причина полягає в тому, що попит і пропозиція висококласних графічних процесорів занадто незбалансовані.За підрахунками веб-сайту GPU Utils, розрив H100** досягає 430 000**.

Автор Клей Паскаль оцінив кількість H100, необхідних різним гравцям індустрії штучного інтелекту в найближчому майбутньому на основі різної відомої інформації та чуток.

Сторона компанії AI:

Для навчання GPT-5 OpenAI може знадобитися 50 000 H100
Кажуть, що Meta потребує 100 000
Було оголошено про план кластера обчислювальної потужності InflectionAI із 22 000 карт
Основні стартапи штучного інтелекту, такі як Anthropic, Character.ai, MistraAI і HelsingAI в Європі, потребують приблизно 10 000.

Компанія хмарних обчислень:

У великих загальнодоступних хмарах Amazon, Microsoft, Google і Oracle оцінюється в 30 000, що становить 120 000
Для приватної хмари, представленої CoreWeave та Lambda, потрібно загалом 100 000

У сумі це 432 тис.

Це не рахуючи деяких фінансових компаній та інших учасників галузі, таких як JP Morgan Chase і Two Sigma, які також почали розгортати власні кластери обчислювальної потужності.

Отже, питання полягає в тому, чи не можемо ми виробляти більше, маючи такий великий дефіцит пропозиції?

Лао Хуан також думав про це, але виробничі потужності застрягли.

Де застрягли виробничі потужності цього разу?

Насправді TSMC вже скорегувала свій план виробництва для Nvidia.

Однак так і не вдалося заповнити таку величезну прогалину.

Чарлі Бойл, віце-президент і генеральний менеджер системи Nvidia DGX, сказав, що цього разу вона не застрягла в пластині, а що технологія упаковки CoWoS від TSMC зіткнулася з вузьким місцем у своїх виробничих потужностях.

Саме Apple конкурує з Nvidia за виробничі потужності TSMC, і вона отримає чіп A17 для iPhone наступного покоління до вересневої конференції.

TSMC нещодавно заявила, що очікується, що для того, щоб повернути процес упаковки до нормального стану, знадобиться 1,5 роки.

Технологія упаковки CoWoS є майстерністю TSMC, і причина, чому TSMC може перемогти Samsung, щоб стати ексклюзивним ливарником мікросхем Apple, залежить від цього.

Продукти, виготовлені за цією технологією, мають високу продуктивність і високу надійність, тому H100 може мати пропускну здатність 3 ТБ/с (або навіть вище).

Повна назва CoWoS — Chip-on-Wafer-on-Substrate, це технологія інтеграції чіпів, унікальна на рівні пластин.

Ця технологія дозволяє упаковувати кілька мікросхем на кремнієвий проміжний елемент товщиною лише 100 мкм**.

Згідно з повідомленнями, площа інтерпозера наступного покоління досягне 6-кратної площі візирної сітки, що становить близько 5000 мм².

Наразі, окрім TSMC, жоден виробник не має такого рівня пакувальних можливостей.

Незважаючи на те, що CoWoS є потужним, хіба він не працював би без нього? Чи можуть це зробити інші виробники?

Не кажучи вже про те, що Лао Хуанг вже заявив, що «ми не розглядатимемо додавання другого ливарного цеху H100».

Насправді це може бути неможливим.

Nvidia раніше співпрацювала з Samsung, але остання ніколи не випускала продукти серії H100 для Nvidia або навіть інші 5-нм чіпи.

Виходячи з цього, деякі люди припускають, що технічний рівень Samsung може не задовольнити технологічні потреби Nvidia щодо передових графічних процесорів.

Що стосується Intel... їхні 5-нм продукти, здається, ще не виходять.

Оскільки змінити виробника Lao Huang неможливо, як щодо того, щоб користувачі перейшли безпосередньо на AMD?

AMD，Так？

З точки зору лише продуктивності, AMD справді повільно наздоганяє.

Останній MI300X від AMD має 192 ГБ пам’яті HBM3, пропускну здатність 5,2 ТБ/с і може запускати 80 мільярдів моделей параметрів.

DGX GH200, щойно випущений Nvidia, має 141 ГБ пам’яті HBM3e і пропускну здатність 5 ТБ/с.

Але це не означає, що AMD може негайно заповнити вакансію карти N——

Справжній «рів» Nvidia лежить у платформі CUDA.

###

CUDA створила повну екосистему розробки, що означає, що якщо користувачі купують продукти AMD, налагодження займе більше часу.

Керівник приватної хмарної компанії сказав, що ніхто не ризикне витратити 300 мільйонів доларів на експериментальне розгортання 10 000 графічних процесорів AMD.

Керівництво вважає, що цикл розробки та налагодження може тривати щонайменше два місяці.

На тлі стрімкої заміни продукції штучного інтелекту двомісячний розрив може стати фатальним для будь-якого виробника.

Однак Microsoft продовжила оливкову гілку AMD.

Раніше ходили чутки про те, що Microsoft готується спільно з AMD розробити штучний інтелект під кодовою назвою «Athena».

Раніше, коли було випущено MI200, Microsoft першою оголосила про покупку та розгорнула її на своїй хмарній платформі Azure.

Наприклад, інфраструктура нової великої моделі MSRA RetNet була навчена на 512 AMD MI200 деякий час тому.

У ситуації, коли Nvidia займає майже весь ринок штучного інтелекту, комусь може знадобитися взяти на себе лідерство, і весь масштабний кластер обчислювальної потужності AMD повинен бути прототипований, перш ніж хтось наважиться продовжити.

Однак за короткий проміжок часу Nvidia H100 і A100 все ще залишаються найбільш поширеним вибором.

І ще одна річ

Деякий час тому, коли Apple випустила новий чіп M2 Ultra, який підтримує до 192 ГБ пам’яті**, багато практиків із задоволенням використовували його для тонкого налаштування великих моделей.

Зрештою, пам’ять і відеопам’ять чіпів серії M від Apple уніфіковані: 192 ГБ пам’яті – це 192 ГБ відеопам’яті, що в 2,4 рази більше, ніж у 80 ГБ H100, або у 8 разів більше, ніж у 24 ГБ RTX4090.

Однак після того, як хтось справді придбав цю машину, фактична швидкість тестування та навчання** не така висока, як у Nvidia RTX3080TI**, точне налаштування не є рентабельним, не кажучи вже про навчання.

Зрештою, обчислювальна потужність чіпів серії M не оптимізована спеціально для обчислень штучного інтелекту, а відеопам’ять Everbright марна.

Здається, що удосконалення великої моделі в основному залежить від H100, а H100 - це те, чого ви не можете попросити.

Зіткнувшись із цією ситуацією, в Інтернеті навіть циркулює чарівна «пісня GPU»**.

Дуже промиває мозок, входьте обережно.

, тривалість 04:10

Домашня пісня GPU

Посилання на посилання: [1] [2] [3] [4] [5] [6] [7] [8] [9]

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.