Хто встав на шию Nvidia?

Question

**Оригінал: He Luheng****Джерело:** Yuanchuan Technology Review** (ID: kechuangych)**Після оприлюднення останнього квартального фінансового звіту Nvidia не тільки AMD змусила Intel замовкнути і пролила сльози, але й аналітики, які провели довгострокову психологічну конструкцію, не очікували, що реальна ситуація перевершить очікування.Що ще страшніше, так це те, що дохід Nvidia зріс на 854% у порівнянні з минулим роком, головним чином тому, що «вона може продати лише стільки», а не «продати так багато». За великою кількістю невеликих есе про «стартапи, які беруть іпотечні кредити H100» відображається той факт, що постачання графічних процесорів H100 обмежене.Якщо дефіцит триватиме до кінця цього року, показники Nvidia можуть бути ще більш шокуючими.Дефіцит H100 нагадує кілька років тому, коли графічних процесорів не було в наявності через стрімке зростання криптовалют, а геймери лаяли Nvidia. Однак дефіцит відеокарт тоді був здебільшого пов'язаний з невиправданою премією, а дефіцит H100 - через обмежені виробничі потужності, і їх неможливо було купити дорожче.Іншими словами, Nvidia все ще заробила менше грошей.У телефонній конференції в день оприлюднення фінансового звіту найчастішим словом, природно, стало «потужність». У цьому відношенні формулювання Nvidia є суворими, і вона налаштована не носити горщик, який не слід носити:«З точки зору частки ринку, ми не можемо досягти поодинці, це має охопити багато різних постачальників».Насправді є лише два з «багатьох різних постачальників», яких Nvidia називає:SK Hynix і TSMC.## HBM: корейська граЯкщо ви подивитеся тільки на співвідношення площі, чіп H100, лише близько 50% належить Nvidia.У поперечному перерізі мікросхеми матриця H100 займає центральну позицію з трьома пакетами HBM з кожного боку, а сумарна площа еквівалентна матриці H100.Ці шість посередніх мікросхем пам'яті є одними з винуватців дефіциту H100.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-1ff82b08d7-dd1a6f-1c6801)HBM (High Bandwidth Memory) буквально перекладається як пам'ять з високою пропускною здатністю, яка передбачає частину пам'яті в GPU.На відміну від традиційної пам’яті DDR, HBM по суті збирає кілька модулів пам’яті DRAM вертикально, що не тільки збільшує ємність пам’яті, але також може добре контролювати енергоспоживання та площу мікросхеми пам’яті, а також зменшити простір, зайнятий усередині корпусу.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-8bd669e8e6-dd1a6f-1c6801)«Стекова пам’ять» спочатку була спрямована на ринок смартфонів, який дуже чутливий до площі мікросхеми та виділення тепла, але проблема полягає в тому, що через високу вартість виробництва смартфони нарешті вибрали більш економічно ефективний шлях LPDDR, що призвело до пустої технології. для накопиченої пам’яті. Зарезервовано, але не вдалося знайти сцену посадки.До 2015 року AMD, частка ринку якої втрачала позиції, сподівалася скористатися популярністю ігор 4K, щоб скопіювати хвилю Nvidia.У серії графічних процесорів AMD Fiji, випущених того року, AMD застосувала стекову пам’ять, розроблену спільно з SK Hynix, і назвала її HBM (пам’ять високої пропускної здатності).Бачення AMD полягає в тому, що ігри 4K потребують більшої ефективності пропускної здатності даних, і переваги високої пропускної здатності пам’яті HBM можуть бути відображені. У той час відеокарта AMD Radeon R9 Fury X справді переважала нову архітектуру Nvidia Kepler з точки зору продуктивності паперу.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-b650140bfe-dd1a6f-1c6801)Але проблема полягає в тому, що поліпшення пропускної здатності, принесене HBM, очевидно, важко компенсувати власну високу вартість, тому воно не було популяризовано.До 2016 року AlphaGo переміг шахіста-чемпіона Лі Шиші, і народилося глибоке навчання, яке змусило пам’ять HBM увійти в гру.Суть глибокого навчання полягає в навчанні моделі за допомогою масивних даних, визначенні параметрів у функції та використанні фактичних даних для прийняття рішення для отримання остаточного рішення.Теоретично кажучи, чим більший обсяг даних, тим надійніші функціональні параметри, що змушує навчання ШІ мати майже патологічну гонитву за пропускною здатністю даних і затримкою передачі даних, і саме цю проблему вирішує пам’ять HBM.У 2017 році AlphaGo знову боролася з Ке Джі, і чіп був замінений TPU, розробленим самою Google. Що стосується дизайну чіпа, кожне покоління TPU, починаючи з другого покоління, приймає дизайн HBM. Новий графічний процесор Nvidia Tesla P100 для центрів обробки даних і глибокого навчання оснащений другим поколінням пам’яті HBM (HBM2).Оскільки майже всі чіпи GPU на ринку високопродуктивних обчислень оснащені пам’яттю HBM, конкуренція серед гігантів зберігання навколо HBM також швидко розгортається.Зараз у світі є лише три гіганти пам’яті, які можуть масово виробляти HBM: SK Hynix, Samsung Electronics і Micron.SK Hynix є одним із винахідників HBM і на даний момент є єдиним виробником, який масово виробляє HBM3E (HBM третього покоління); Samsung Electronics вийшла на ринок з HBM2 (HBM другого покоління) і є першим постачальником графічних процесорів Nvidia. з використанням HBM; Micron Найбільше відстає, він перейшов з HMC на HBM лише в 2018 році, а масове виробництво HBM2 почалося в середині 2020 року.Серед них SK Hynix монополізує 50% частки ринку HBM, а його ексклюзивне постачання HBM3E для Nvidia рішуче заблокувало поставки H100:Обидві версії H100 PCIe і SXM використовують 5 стеків HBM, версія H100S SXM може досягати 6, а версія H100 NVL, запропонована Nvidia, досягла 12. За даними демонтажу дослідницької установи, вартість одного стека HBM на 16 ГБ становить 240 доларів. Тоді вартість однієї мікросхеми пам'яті H100 NVL становить майже 3000 доларів США.Вартість все ще невелика проблема.Враховуючи, що Google TPU v5 і AMD MI300, які безпосередньо конкурують з H100, незабаром будуть масово вироблятися, а останні два також використовуватимуть HBM3E, Чен Ненг ще більше напружений.Кажуть, що через різке зростання попиту SK Hynix поставила невелику мету подвоїти свої виробничі потужності та почала розширювати виробничі лінії. Samsung і Micron також готуються до HBM3E, але в напівпровідниковій промисловості розширення виробничих ліній ніколи не було. було досягнуто за ніч.Згідно з оптимістичним прогнозом циклу 9-12 місяців, виробничі потужності HBM3E не будуть поповнені принаймні до другого кварталу наступного року.Крім того, навіть якщо визначити виробничі потужності HBM, скільки H100 може постачати, залежить від обличчя TSMC.## CoWoS: меч TSMCНещодавно аналітик Роберт Кастеллано зробив підрахунок: H100 виробляється за техпроцесом TSMC 4N (5 нм), а ціна 12-дюймової пластини з техпроцесом 4N становить $13 400. Теоретично можна вирізати 86 чіпів H100.Якщо не брати до уваги виробничу продуктивність, то з кожного виробленого H100 TSMC може отримати 155 доларів США доходу. [6] .Але насправді дохід, який кожен H100 приносить TSMC, ймовірно, перевищить 1000 доларів США. Причина в тому, що H100 використовує технологію упаковки CoWoS TSMC, а дохід від упаковки становить 723 долари США. [6] .Кожен H100, що виходить з виробничої лінії N4/N5 18-го заводу TSMC, буде відправлятися на другий передовий завод пакування та тестування TSMC у тому ж парку, щоб завершити найбільш особливий і важливий етап у виробництві H100 – CoWoS.Щоб зрозуміти важливість упаковки CoWoS, нам все одно потрібно почати з дизайну чіпа H100.У споживчих продуктах із графічним процесором чіпи пам’яті зазвичай упаковані навколо ядра графічного процесора, а сигнали передаються через схеми між платами друкованих плат.Наприклад, на зображенні нижче чіп RTX4090 також виробництва Nvidia.Ядро графічного процесора та пам'ять GDDR упаковані окремо та зібрані на платі друкованої плати незалежно один від одного.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-5d9f641245-dd1a6f-1c6801)І GPU, і CPU дотримуються архітектури фон Неймана, і її ядро полягає в «розділенні зберігання та обчислення» - тобто, коли чіп обробляє дані, йому потрібно отримати дані із зовнішньої пам’яті, а потім перенести їх у пам'яті після завершення обчислення.Один раз це спричинить затримку обчислення. При цьому «кількість» передачі даних буде відповідно обмежена.Взаємозв’язок між графічним процесором і пам’яттю можна порівняти з Pudong і Puxi у Шанхаї. Транспортування матеріалів (даних) між двома місцями залежить від мосту Наньпу. Пропускна здатність мосту Наньпу визначає ефективність транспортування матеріалів. Ця пропускна здатність є пропускна здатність пам'яті, яка визначає це впливає на швидкість передачі даних і опосередковано впливає на швидкість обчислення GPU.З 1980 по 2000 рік "невідповідність швидкості" між графічним процесором і пам'яттю збільшувалася на 50% на рік. Іншими словами, навіть якщо дорожні тунелі Longyao і Shangzhong Road Tunnel будуть побудовані, вони не зможуть задовольнити зростання транспортування матеріалів між Пудуном і Пусі.Це призвело до того, що пропускна здатність стає все більш очевидним вузьким місцем у високопродуктивних обчисленнях. сценарії.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-5f6cc57f3e-dd1a6f-1c6801) *Розрив між продуктивністю CPU/GPU і пам’яті збільшується*У 2015 році, застосовуючи пам'ять HBM, AMD також прийняла інноваційне рішення для передачі даних: поєднання Pudong і Puxi.Простіше кажучи, відеокарта з архітектурою Фіджі 2015 року «зшила» пам’ять HBM і ядро графічного процесора разом, перетворивши кілька маленьких чіпів у цілий великий чіп. Таким чином ефективність пропускання даних подвоюється.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-a79baafd87-dd1a6f-1c6801)Однак, як згадувалося вище, через вартість і технічні проблеми архітектура AMD на Фіджі не дозволила ринку купити її. Однак бурхливий розвиток глибокого навчання та навчання ШІ, спрямоване на ефективність пропускної здатності даних незалежно від вартості, зробили «зшивання чіпів» корисним.Крім того, ідея AMD хороша, але вона також приносить нову проблему - незалежно від того, скільки переваг має HBM, вона повинна співпрацювати з передовою технологією упаковки "шовного чіпа", і ці дві тісно пов'язані.Якщо говорити, що пам'ять HBM все ще можна порівняти з трьома компаніями, то вдосконалена упаковка, яка використовується в "шовному чіпі", здається, єдина, яку може зробити TSMC.CoWoS є відправною точкою бізнесу TSMC із просунутого пакування, а Nvidia є першою компанією чіпів, яка запровадила цю технологію.CoWoS — це комбінація CoW та oS: CoW означає Chip on Wafer, що стосується процесу складання чистих мікросхем на пластині, а oS означає on Substrate, що означає процес упаковки на підкладку.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-fd16f0162f-dd1a6f-1c6801)Традиційна упаковка, як правило, має лише зв’язок з ОС. Після того, як ливарне виробництво завершить виготовлення пластини, її передають сторонній фабриці пакування та тестування для вирішення. Однак зв’язок CoW, доданий розширеною упаковкою, не може бути вирішений за допомогою упаковки та тестування. фабрика.Взявши як приклад повний чіп H100, кілька стеків HBM розподілені навколо матриці H100, які з’єднані разом за допомогою технології CoW. Але не просто з’єднання, а водночас зв’язок між матрицею та стеком.CoW від TSMC відрізняється від інших вдосконалених упаковок тим, що він розміщує матрицю та стек на кремнієвому проміжному елементі (по суті, пластині) і з’єднує канали в проміжному модулі для реалізації зв’язку між матрицею та стеком.Подібно до EMIB від Intel, відмінність полягає в тому, що він з’єднаний через кремнієвий міст. Однак пропускна здатність набагато менша, ніж у кремнієвого інтерпозера. Враховуючи, що пропускна здатність тісно пов’язана зі швидкістю передачі даних, CoWoS став єдиним вибором для H100.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-3209354359-dd1a6f-1c6801)Це ще одна рука, яка застрягла у виробничих потужностях H100.Незважаючи на те, що ефект від CoWoS зашкалює, захмарна ціна в 4000-6000 доларів США за штуку все ще зупиняє багатьох людей, в тому числі Apple, яка є надзвичайно заможною. Тому готові виробничі потужності TSMC досить обмежені.Однак хвиля ШІ раптово спалахнула, і баланс попиту та пропозиції миттєво порушився.Ще в червні ходили чутки, що потреба Nvidia в CoWoS цього року досягла 45 000 пластин, тоді як оцінка TSMC на початку року становила 30 000. У поєднанні з потребами інших клієнтів розрив виробничих потужностей перевищив 20%.Щоб надолужити розрив, TSMC бореться не мало.У червні TSMC офіційно запустила шосту передову фабрику пакування та тестування в Нанке. Одна лише чиста кімната є більшою, ніж інші заводи пакування та тестування разом узяті. Компанія також пообіцяла збільшувати виробничі потужності CoWoS квартал за кварталом. З цієї причини частина ОС передається третій стороні Фабрика пакування та тестування.Але так само, як для HBM нелегко розширити виробництво, для TSMC потрібен час для розширення виробництва. Зараз терміни поставки частини пакувального обладнання та комплектуючих становлять від 3 до 6 місяців, поки невідомо, скільки нових виробничих потужностей можна відкрити до кінця року.## План Б, якого не існуєЗіткнувшись зі структурним недоліком H100, Nvidia не зовсім позбавлена плану B.Під час телефонної конференції після оприлюднення фінансового звіту Nvidia повідомила, що виробничі потужності CoWoS вже сертифіковані іншими постачальниками. Хоча я не сказав, хто це, враховуючи технічний поріг advanced packaging, окрім TSMC можуть лише вроджено-дефіцитний EMIB від Intel і I-Cube від Samsung, який вже давно розробляється і чекає на клієнтів. ледь борються з вогнем.Однак заміна основної технології схожа на зміну генералів перед битвою. Оскільки AMD MI300 збирається масово виробляти та поставляти, конкуренція за мікросхеми ШІ є жорсткою. Я боюся, що Хуан Реньсюнь також хвилюється, чи зможе він інтегрувати з технологіями Intel і Samsung.Більше, ніж Huang Renxun, можуть хвилюватися постачальники хмарних сервісів і стартапи штучного інтелекту, які не можуть купити H100. Адже геймери не можуть отримати відеокарту, тобто кількість ігрових кадрів менше на 20 кадрів, великі компанії не можуть отримати H100, і вони можуть втратити мільярди доходів і десятки мільярдів оцінки.Є три основних типи компаній, яким потрібен H100: постачальники хмарних послуг, такі як Microsoft і Amazon; стартапи, такі як Anthropic і OpenAI; і великі технологічні компанії, такі як Tesla.GPU кластер для навчання.Це не включає фінансові компанії, такі як Citadel, і китайські компанії, які не можуть купити спеціальну версію H800.За розрахунками GPU Utils [7] , за консервативною оцінкою, поточний дефіцит пропозиції H100 досяг 430 000.Хоча існують теоретичні альтернативи H100, жодна з них не є здійсненною на практиці.Наприклад, попередник H100, A100, коштує лише близько 1/3 ціни H100. Але проблема полягає в тому, що продуктивність H100 набагато вища, ніж у A100, що призводить до вищої обчислювальної потужності на одиницю вартості H100, ніж A100. Враховуючи, що технологічні компанії починають закуповувати сотні чи тисячі копій, купувати A100 ще гірше.AMD є ще однією альтернативою, і продуктивність на папері не відстає від H100. Однак через бар’єри екосистеми CUDA від Nvidia використання графічного процесора AMD, ймовірно, подовжить цикл розробки, а конкуренти, які використовують H100, ймовірно, відійдуть від себе через цю різницю в часі та навіть інвестують сотні мільйони доларів без повернення.З різних причин чіп із загальною вартістю матеріалів 3000 доларів США Nvidia безпосередньо додала в роздрібну торгівлю, і всі кинулися його купувати. Можливо, цього не очікував сам Хуан Реньсюнь.До покращення виробничих потужностей HBM і CoWoS може бути лише один спосіб купити H100:Зачекайте, поки стартапи, які купили купу H100, розоряться, вихваляючись і збираючи гроші, а потім візьміть їхні вживані графічні процесори.**Посилання**[1] Обмеження потужності штучного інтелекту - CoWoS і HBM Supply Chain，SemiAnalysis[2] Початкова фабрика активно розширює виробництво, і щорічний темп зростання поставок долот HBM оцінюється в 105% у 2024 році, TrendForce[3] Які зміни принесе технологія HBM в ЦОД? Вертикальна і горизонтальна промисловість напівпровідників[4] Advanced Packaging Part II: Options/Usage Review for Intel, TSMC, Samsung, AMD, ASE, Sony, Micron, SKHynix, YMTC, Tesla та Nvidia, Semianalysis[5] Співзасновник OpenAI та науковець за сумісництвом Андрій Карпаті написав у Twitter[6] Taiwan Semiconductor: значно недооцінений як постачальник мікросхем і пакетів для Nvidia，SeekingAlpha[7] Графічні процесори Nvidia H100: попит і пропозиція， GPU UtilsРедактор: Лі МотянВізуальний дизайн: ShuruiВідповідальний редактор: Лі Мотянь