Кто воткнул шею Nvidia?

Question

**Оригинал: Хэ Лухэн****Источник:** Yuanchuan Technology Review** (ID: kechuangych)**После объявления последнего квартального финансового отчета Nvidia AMD не только заставила Intel замолчать и пролила слезы, но и аналитики, проводившие долгосрочное психологическое моделирование, не ожидали, что реальная ситуация превзойдет ожидания.Что еще более пугает, так это то, что выручка Nvidia выросла на 854% в годовом исчислении, главным образом потому, что «она может продать только столько-то», а не «продать столько-то». За множеством небольших эссе о «стартапах, берущих ипотеку H100» отражается тот факт, что предложение графических процессоров H100 ограничено.Если дефицит сохранится до конца этого года, производительность Nvidia может оказаться еще более шокирующей.Дефицит H100 напоминает ситуацию, произошедшую несколько лет назад, когда из-за стремительного роста криптовалют не было в наличии графических процессоров, а геймеры ругали Nvidia. Однако дефицит видеокарт тогда был во многом обусловлен необоснованной премией, а дефицит H100 был обусловлен ограниченностью производственных мощностей, и их нельзя было купить по более высокой цене.Другими словами, Nvidia по-прежнему заработала меньше денег.На телефонной конференции в день публикации финансового отчета слово «мощность», естественно, стало самым частым словом. В этом отношении формулировка Nvidia является строгой, и она полна решимости не носить с собой горшок, который не следует носить с собой:«Что касается доли рынка, этого мы не можем достичь в одиночку, это должно охватывать множество разных поставщиков».На самом деле из «множества разных поставщиков», которых называет Nvidia, есть только два:SK Hynix и TSMC.## HBM: Корейская играЕсли вы посмотрите только на соотношение площади, чип H100 только около 50% принадлежит Nvidia.На сечении кристалла кристалл H100 занимает центральное положение с тремя стопками HBM на каждой стороне, а общая площадь эквивалентна кристаллу H100.Эти шесть посредственных чипов памяти являются одной из причин дефицита поставок H100.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-1ff82b08d7-dd1a6f-1c6801)HBM (High Bandwidth Memory) дословно переводится как память с высокой пропускной способностью, которая занимает часть памяти графического процессора.В отличие от традиционной памяти DDR, HBM по существу укладывает несколько модулей памяти DRAM вертикально, что не только увеличивает емкость памяти, но также позволяет хорошо контролировать энергопотребление и площадь микросхем памяти, а также уменьшать пространство, занимаемое внутри корпуса.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-8bd669e8e6-dd1a6f-1c6801)«Стекированная память» изначально была нацелена на рынок смартфонов, который очень чувствителен к площади чипа и выделению тепла, но проблема в том, что из-за высокой себестоимости производства смартфоны в конечном итоге выбрали более экономичный маршрут LPDDR, что привело к пустой технологии. для переполненной памяти. Зарезервировано, но не удалось найти сцену приземления.До 2015 года AMD, чья доля рынка теряла позиции, надеялась воспользоваться популярностью 4К-игр, чтобы скопировать волну Nvidia.В серии графических процессоров AMD Fiji, выпущенной в том же году, AMD использовала многослойную память, разработанную совместно с SK Hynix, и назвала ее HBM (High Bandwidth Memory).По мнению AMD, игры 4K требуют большей эффективности передачи данных, и это может отразить преимущества высокой пропускной способности памяти HBM. В то время видеокарта AMD Radeon R9 Fury X действительно превосходила новую архитектуру Nvidia Kepler с точки зрения производительности на бумаге.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-b650140bfe-dd1a6f-1c6801)Но проблема в том, что улучшение пропускной способности, обеспечиваемое HBM, очевидно, трудно компенсировать его высокую стоимость, поэтому оно не получило популяризации.До 2016 года AlphaGo опередила чемпиона по шахматам Ли Шиши, и так родилось глубокое обучение, благодаря которому в игру вступила память HBM.Суть глубокого обучения заключается в обучении модели на основе массивных данных, определении параметров функции и использовании фактических данных для принятия окончательного решения.Теоретически, чем больше объем данных, тем надежнее параметры функции, из-за чего обучение ИИ имеет почти патологическую погоню за пропускной способностью и задержкой передачи данных, что и является проблемой, решаемой памятью HBM.В 2017 году AlphaGo снова сразилась с Кэ Цзе, и чип был заменен на TPU, разработанный самой Google. Что касается конструкции чипа, каждое поколение TPU, начиная со второго поколения, использует конструкцию HBM. Новый графический процессор Nvidia Tesla P100 для центров обработки данных и глубокого обучения оснащен памятью HBM второго поколения (HBM2).Поскольку почти все чипы графических процессоров на рынке высокопроизводительных вычислений оснащены памятью HBM, конкуренция среди гигантов хранения вокруг HBM также быстро разворачивается.В настоящее время в мире есть только три гиганта памяти, которые могут массово производить HBM: SK Hynix, Samsung Electronics и Micron.SK Hynix является одним из изобретателей HBM и в настоящее время является единственным производителем, который массово производит HBM3E (HBM третьего поколения); Samsung Electronics вышла на рынок с HBM2 (HBM второго поколения) и является первым поставщиком графических процессоров Nvidia. с использованием HBM; Micron Самый отстающий, перешел с HMC на HBM только в 2018 году, а массовое производство HBM2 началось в середине 2020 года.Среди них SK Hynix монополизирует 50% доли рынка HBM, а ее эксклюзивные поставки HBM3E для Nvidia жестко заблокировали поставки H100:Версии H100 PCIe и SXM используют по 5 стеков HBM, версия H100S SXM может достигать 6, а версия H100 NVL, продвигаемая Nvidia, достигла 12. По данным исследовательского института, стоимость одного стека HBM объемом 16 ГБ достигает $240. Тогда стоимость одного только чипа памяти H100 NVL составляет почти 3000 долларов США.Стоимость по-прежнему остается небольшой проблемой. Учитывая, что Google TPU v5 и AMD MI300, которые напрямую конкурируют с H100, скоро будут производиться серийно, а последние два также будут использовать HBM3E, Чэнь Нэн еще более расстроен.Говорят, что, столкнувшись с резким ростом спроса, SK Hynix поставила небольшую цель удвоить свои производственные мощности и начала расширять производственные линии.Samsung и Micron также готовятся к HBM3E, но в полупроводниковой промышленности расширение производственных линий никогда не происходило. было достигнуто в одночасье.По оптимистичному прогнозу цикла 9-12 месяцев, производственные мощности HBM3E не будут пополняться как минимум до второго квартала следующего года.Кроме того, даже если производственные мощности HBM решены, объем поставок H100 зависит от лица TSMC.## CoWoS: меч TSMCАналитик Роберт Кастеллано недавно подсчитал: H100 производится по техпроцессу TSMC 4N (5 нм), а цена 12-дюймовой пластины с техпроцессом 4N составляет $13 400. Теоретически можно нарезать 86 чипов H100.Если не учитывать доходность производства, то на каждые произведенные H100 TSMC может получить доход в размере 155 долларов США. [6] 。Но на самом деле доход, который каждый H100 приносит TSMC, вероятно, превысит 1000 долларов США. Причина в том, что H100 использует технологию упаковки TSMC CoWoS, а доход от упаковки достигает 723 долларов США. [6] 。Каждый H100, сходящий с производственной линии N4/N5 18-го завода TSMC, будет отправлен на второй современный завод по упаковке и тестированию TSMC в том же парке, чтобы завершить самый особенный и важный этап в производстве H100 — CoWoS.Чтобы понять важность упаковки CoWoS, нам все равно придется начать с конструкции чипа H100.В продуктах графического процессора потребительского уровня чипы памяти обычно размещаются вокруг ядра графического процессора, а сигналы передаются по схемам между печатными платами.Например, на картинке ниже чип RTX4090 также производится компанией Nvidia.Ядро графического процессора и память GDDR упакованы отдельно и собраны на печатной плате независимо друг от друга.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-5d9f641245-dd1a6f-1c6801)И GPU, и CPU следуют архитектуре фон Неймана, а ее суть заключается в «разделении хранения и вычислений» — то есть, когда чип обрабатывает данные, ему необходимо извлечь данные из внешней памяти, а затем передать их в памяти после завершения расчета.Однажды это приведет к задержке расчета. При этом «количество» передач данных будет соответственно ограничено.Отношения между графическим процессором и памятью можно сравнить с Пудуном и Пуси в Шанхае. Транспортировка материалов (данных) между двумя местами зависит от моста Нанпу. Пропускная способность моста Наньпу определяет эффективность транспортировки материалов. Эта пропускная способность является Пропускная способность памяти, которая определяет, влияет на скорость передачи данных и косвенно влияет на скорость вычислений графического процессора.С 1980 по 2000 год «несоответствие скоростей» между графическим процессором и памятью увеличивалось со скоростью 50% в год. Другими словами, даже если дорожные туннели Лунъяо и Шанчжун будут построены, они не смогут удовлетворить рост грузоперевозок между Пудуном и Пуси. сценарии.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-5f6cc57f3e-dd1a6f-1c6801) *Разрыв между производительностью CPU/GPU и производительностью памяти увеличивается*В 2015 году, применяя память HBM, AMD также приняла инновационное решение для передачи данных: объединив Pudong и Puxi.Проще говоря, видеокарта с архитектурой Fiji 2015 года «сшила» вместе память HBM и ядро графического процессора, превратив несколько маленьких чипов в целый большой чип. Таким образом, эффективность передачи данных удваивается.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-a79baafd87-dd1a6f-1c6801)Однако, как упоминалось выше, из-за стоимости и технических проблем архитектура AMD Fiji не позволила рынку купить ее. Однако бурный рост глубокого обучения и стремление ИИ к повышению эффективности пропускной способности данных независимо от стоимости сделали «сшивку чипов» полезной.Кроме того, идея AMD хороша, но она также порождает новую проблему: независимо от того, сколько преимуществ имеет HBM, она должна взаимодействовать с передовой технологией упаковки «чип шва», и эти две технологии тесно связаны.Если сказать, что память HBM еще можно сравнить с тремя компаниями, то продвинутая упаковка, использованная в «шовном чипе», похоже, единственная, которую может сделать TSMC.CoWoS — это отправная точка передового упаковочного бизнеса TSMC, а Nvidia — первая компания по производству чипов, принявшая эту технологию.CoWoS представляет собой комбинацию CoW и OS: CoW означает «Чип на пластине», что относится к процессу сборки голых чипов на пластине, а «OS» означает «На подложке», что означает процесс упаковки на подложке.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-fd16f0162f-dd1a6f-1c6801)Традиционная упаковка обычно имеет только ссылку на ОС. После того, как литейный завод завершает производство пластины, она передается на стороннюю фабрику по упаковке и тестированию для разрешения. Однако ссылка CoW, добавленная усовершенствованной упаковкой, не может быть решена путем упаковки и тестирования. фабрика.Если взять в качестве примера полный чип H100, то вокруг кристалла H100 распределены несколько стеков HBM, которые соединяются вместе с помощью технологии CoW. Но не просто сращивание, а связь между кристаллом и стеком одновременно.CoW TSMC отличается от других передовых корпусов тем, что в нем кристалл и стек размещаются на кремниевом переходнике (по сути, пластине) и соединяются каналы в промежуточном устройстве для реализации связи между кристаллом и стеком.Подобно EMIB от Intel, разница состоит в том, что он соединен между собой посредством кремниевого моста. Однако полоса пропускания намного меньше, чем у кремниевого интерпозера. Учитывая, что полоса пропускания тесно связана со скоростью передачи данных, CoWoS стал единственным выбором для H100.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-3209354359-dd1a6f-1c6801)Это еще одна рука, которая застряла на производственных мощностях H100.Хоть эффект от CoWoS и заоблачный, но заоблачная цена в 4000-6000 долларов США за штуку все же останавливает многих людей, в том числе чрезвычайно богатую Apple. Таким образом, подготовленные производственные мощности TSMC весьма ограничены.Однако внезапно разразилась волна ИИ, и баланс спроса и предложения был мгновенно нарушен.Еще в июне ходили слухи, что потребность Nvidia в CoWoS в этом году достигла 45 000 пластин, тогда как оценка TSMC на начало года составляла 30 000. Вкупе с потребностями других заказчиков разрыв производственных мощностей превысил 20%.Чтобы восполнить этот пробел, TSMC предстоит немалая битва.В июне TSMC официально запустила шестой современный завод по упаковке и тестированию в Нанке. Одно только чистое помещение больше, чем остальные заводы по упаковке и тестированию вместе взятые. Компания также пообещала увеличивать производственные мощности CoWoS квартал за кварталом. По этой причине часть ОС передается третьей стороне Фабрика упаковки и тестирования.Но так же, как HBM нелегко расширить производство, TSMC потребуется время для расширения производства. В настоящее время срок поставки некоторого упаковочного оборудования и комплектующих составляет от 3 до 6 месяцев, сколько новых производственных мощностей может быть открыто до конца года, пока неизвестно.## План Б, которого не существуетСтолкнувшись со структурной нехваткой H100, Nvidia не осталась без плана Б.На телефонной конференции после публикации финансового отчета Nvidia сообщила, что производственные мощности CoWoS уже сертифицированы другими поставщиками. Хотя я и не сказал кто это, учитывая технический порог продвинутой упаковки, кроме TSMC, могут только врожденно неполноценный EMIB от Intel и I-Cube от Samsung, который давно развивается и ждет покупателей. едва борюсь с огнем.Однако замена основной технологии подобна смене генералов перед битвой.Поскольку AMD MI300 будет массово производиться и поставляться, конкуренция за чипы искусственного интеллекта ожесточена.Боюсь, что Хуан Жэньсюнь также беспокоится о том, сможет ли он интегрировать с технологией Intel и Samsung.Больше беспокойства, чем Хуан Жэньсюнь, могут ожидать поставщики облачных услуг и стартапы в области искусственного интеллекта, которые не могут купить H100. Ведь геймеры не могут получить видеокарту, то есть количество игровых кадров на 20 кадров меньше; крупные компании не могут получить H100, и они могут потерять миллиарды доходов и десятки миллиардов стоимости.Есть три основных типа компаний, которым нужен H100: поставщики облачных услуг, такие как Microsoft и Amazon, начинающие компании, такие как Anthropic и OpenAI, и крупные технологические компании, такие как Tesla.GPU-кластер для обучения.Сюда не входят финансовые компании, такие как Citadel, и китайские компании, которые не могут купить специальную версию H800.По расчетам GPU Utils [7] По консервативной оценке, текущий дефицит предложения H100 достиг 430 000.Хотя существуют теоретические альтернативы H100, ни одна из них не осуществима в практических ситуациях.Например, предшественник H100, A100, стоит всего около 1/3 цены H100. Но проблема в том, что производительность H100 намного выше, чем у A100, что приводит к более высокой вычислительной мощности на единицу стоимости H100, чем у A100. Учитывая, что технологические компании начинают закупать сотни или тысячи экземпляров, покупка А100 — это еще хуже.AMD — еще одна альтернатива, и производительность на бумаге не сильно отстает от H100. Однако из-за барьеров экосистемы CUDA Nvidia использование графического процессора AMD, скорее всего, продлит цикл разработки, а конкуренты, использующие H100, скорее всего, оторвутся от себя из-за этой разницы во времени и даже вложат сотни миллионы долларов, возврата нет.По разным причинам чип общей стоимостью 3000 долларов США Nvidia напрямую добавила в розницу, и все бросились его покупать. Возможно, этого не ожидал сам Хуан Жэньсюнь.До того, как производственные мощности HBM и CoWoS улучшатся, может быть только один способ купить H100:Подождите, пока стартапы, купившие кучу H100, обанкротятся, хвастаясь и собирая деньги, а затем заберите свои подержанные графические процессоры.**Использованная литература**[1] Ограничения возможностей ИИ — цепочка поставок CoWoS и HBM，Полуанализ[2] Оригинальный завод активно расширяет производство, а ежегодные темпы роста поставок долот HBM оцениваются в 105% в 2024 году, TrendForce[3] Какие изменения принесет технология HBM в центр обработки данных? Полупроводниковая промышленность вертикальная и горизонтальная[4] Расширенная упаковка, часть II: варианты/обзор использования для Intel, TSMC, Samsung, AMD, ASE, Sony, Micron, SKHynix, YMTC, Tesla и Nvidia, полуанализ[5] Сооснователь OpenAI и ученый по совместительству Андрей Карпати написал в Твиттере:[6] Тайваньская компания по производству полупроводников: значительно недооценена как поставщик чипов и корпусов для Nvidia, SeekingAlpha[7] Графические процессоры Nvidia H100: спрос и предложение, утилиты для графических процессоровМонтажер: Ли МотянВизуальный дизайн: СюруиОтветственный редактор: Ли Мотян