Nvidia の首を絞めたのは誰ですか?

Question

**原文：何魯恒****出典:** Yuanchuan Technology Review** (ID: kechuangych)**Nvidia の最新の四半期財務報告が発表された後、AMD は Intel を黙らせて涙を流しただけでなく、長期的な心理的構築を行ってきたアナリストも実際の状況が予想を超えるとは予想していませんでした。さらに恐ろしいのは、エヌビディアの収益が前年同期比で854％も急増したことだが、その主な理由は「たくさん売れる」というよりは「これだけしか売れない」からだ。 「H100 の住宅ローンを借りている新興企業」に関する多くの小さなエッセイの背後には、H100 GPU の供給が逼迫しているという事実が反映されています。不足が今年末まで続いた場合、エヌビディアの業績はさらに衝撃的なものになる可能性がある。H100 の不足は、仮想通貨の高騰で GPU が在庫切れとなり、Nvidia がゲーマーから血のにじむような叱責を受けた数年前を思い出させます。しかし、当時のグラフィックスカードの不足は不当なプレミアによるところが大きく、H100の不足は生産能力の限界によるもので、これ以上の価格では買えなかった。言い換えれば、Nvidia の利益は依然として少ないということです。決算報告発表当日の電話会議では、当然のことながら「キャパシティ」が最も多く使われる単語となった。この点に関して、Nvidia の文言は厳格であり、持ち運ぶべきではないポットは持ち込まないと決められています。「市場シェアという点では、当社だけで達成できるものではなく、多くの異なるサプライヤーにまたがる必要がある。」実際、Nvidia が言う「さまざまなサプライヤー」のうち、次の 2 社だけです。SKハイニックスとTSMC。## HBM: 韓国のゲーム面積比率だけを見ると、H100 チップは約 50% のみが Nvidia に属します。チップの断面図では、H100 ダイがコアの位置を占め、両側に 3 つの HBM スタックがあり、合わせた面積は H100 ダイと同等です。これら 6 つの平凡なメモリ チップが、H100 の供給不足の原因の 1 つです。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-1ff82b08d7-dd1a6f-1c6801)HBM (High Bandwidth Memory) は直訳すると高帯域幅メモリで、GPU のメモリの一部を担います。従来の DDR メモリとは異なり、HBM は基本的に複数の DRAM メモリを垂直にスタックするため、メモリ容量が増加するだけでなく、メモリの消費電力とチップ面積を適切に制御し、パッケージ内の占有スペースを削減できます。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-8bd669e8e6-dd1a6f-1c6801)「スタックドメモリ」はもともと、チップ面積と発熱に非常に敏感なスマートフォン市場をターゲットにしていましたが、問題は、製造コストが高いため、スマートフォンは最終的によりコスト効率の高いLPDDRルートを選択し、その結果空の技術となったことです。スタックされたメモリ用。予約されていますが、着陸シーンが見つかりませんでした。2015 年まで、市場シェアが低下しつつあった AMD は、4K ゲームの人気を利用して Nvidia の波をコピーしたいと考えていました。同年に発売したAMD FijiシリーズのGPUでは、AMDはSK Hynixと共同開発した積層メモリを採用し、HBM（High Bandwidth Memory）と名付けた。AMD のビジョンは、4K ゲームではより高いデータ スループット効率が必要であり、HBM メモリの高帯域幅の利点を反映できるというものです。当時、AMD の Radeon R9 Fury X グラフィックス カードは、確かに紙のパフォーマンスの点で新しい Nvidia Kepler アーキテクチャを圧倒していました。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-b650140bfe-dd1a6f-1c6801)しかし問題は、HBM によってもたらされる帯域幅の向上は、HBM 自体の高いコストを相殺することが明らかに困難であるため、普及していないことです。2016 年まで、AlphaGo がチャンピオン チェス プレイヤーの Li Shishi を圧倒し、ディープラーニングが誕生し、HBM メモリが登場しました。ディープラーニングの中核は、大量のデータを通じてモデルをトレーニングし、関数のパラメーターを決定し、実際のデータを決定に取り入れて最終的な解決策を取得することです。理論的に言えば、データ量が大きいほど関数パラメータの信頼性が高まるため、AI トレーニングではデータ スループットとデータ送信遅延をほとんど病的に追求することになります。これはまさに HBM メモリによって解決される問題です。2017年、AlphaGoは柯潔と再び戦い、チップはGoogle自身が開発したTPUに置き換えられた。チップ設計に関しては、TPU は第 2 世代以降、すべての世代で HBM の設計が採用されています。データセンターおよびディープラーニング向けの Nvidia の新しい GPU Tesla P100 には、第 2 世代の HBM メモリ (HBM2) が搭載されています。ハイパフォーマンス コンピューティング市場のほぼすべての GPU チップには HBM メモリが搭載されており、HBM を巡るストレージ大手間の競争も急速に展開しています。現在、世界でHBMを量産できるメモリ大手はSKハイニックス、サムスン電子、マイクロンの3社だけだ。SK Hynix は HBM の発明者の 1 つであり、現在 HBM3E (第 3 世代 HBM) を量産する唯一のメーカーです; Samsung Electronics は HBM2 (第 2 世代 HBM) で市場に参入し、Nvidia の最初の GPU サプライヤーですHBM を使用; Micron 最も遅れており、2018 年に HMC から HBM に切り替えられたばかりで、HBM2 の量産は 2020 年半ばに開始されました。その中で、SK Hynix は HBM の市場シェアの 50% を独占しており、同社が Nvidia に HBM3E を独占的に供給しているため、H100 の出荷は断固として阻止されています。H100 PCIe および SXM バージョンは両方とも 5 つの HBM スタックを使用し、H100S SXM バージョンは 6 に達することができ、Nvidia がプッシュする H100 NVL バージョンは 12 に達します。研究機関の解体によると、16GB HBMスタック1個のコストは240ドルにも上るという。 H100 NVL メモリ チップだけのコストは 3,000 ドル近くになります。コストは依然として小さな問題ですが、H100 と直接競合する Google TPU v5 と AMD MI300 が間もなく量産され、後者 2 つも HBM3E を使用することを考慮すると、Chen Neng 氏の負担はさらに大きくなります。需要の急増に直面して、SKハイニックスは生産能力を倍増するという小さな目標を設定し、生産ラインの拡張に着手したと言われており、サムスンやマイクロンもHBM3Eの準備を進めているが、半導体業界では生産ラインの拡張は前例がなかった。一夜にして達成されました。9～12か月のサイクルという楽観的な予測によれば、HBM3Eの生産能力は少なくとも来年の第2四半期まで補充されないことになる。また、HBMの生産能力が解決したとしても、H100がどれだけ供給できるかはTSMCのメンツにかかっている。## CoWoS: TSMC の剣アナリストのロバート・カステラーノ氏が最近計算したところによると、H100はTSMCの4Nプロセス（5nm）で生産されており、4Nプロセスの12インチウェハーの価格は1万3400ドルで、理論上はH100チップを86個カットできるという。生産歩留まりを考慮しない場合、TSMC は H100 が生産されるごとに 155 ドルの収益を得ることができます。 [6] 。しかし実際には、H100 には TSMC の CoWoS パッケージング技術が採用されており、パッケージングによってもたらされる収入は 723 ドルにも上るため、H100 が TSMC にもたらす収入は 1,000 ドルを超える可能性があります。 [6] 。TSMCの第18工場のN4/N5生産ラインから出てくるすべてのH100は、同じ公園内にあるTSMCの2番目の高度なパッケージングおよびテスト工場に出荷され、H100製造の最も特別で重要なステップであるCoWoSを完了します。CoWoS パッケージングの重要性を理解するには、やはり H100 のチップ設計から始める必要があります。民生用 GPU 製品では、通常、メモリ チップが GPU のコアの周囲にパッケージされ、信号は PCB ボード間の回路を介して送信されます。たとえば、下の図の RTX4090 チップも Nvidia によって製造されており、GPU コアと GDDR メモリは個別にパッケージ化され、互いに独立して PCB ボード上に組み立てられています。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-5d9f641245-dd1a6f-1c6801)GPU と CPU は両方ともノイマン アーキテクチャに従っており、その核心は「ストレージと計算の分離」にあります。つまり、チップがデータを処理するときは、外部メモリからデータを取得し、それを外部メモリに転送する必要があります。計算が完了した後にメモリが消去されると、計算に遅れが生じます。同時に、データ転送の「量」もそれに応じて制限されます。GPU とメモリの関係は、上海の浦東と浦西にたとえることができます。この 2 つの場所間の物質 (データ) の輸送は南浦大橋に依存しています。南浦大橋の運搬能力が物質輸送の効率を決定します。この運搬能力は、メモリ帯域幅。データ転送速度に影響を与え、間接的に GPU の計算速度に影響します。1980 年から 2000 年にかけて、GPU とメモリ間の「速度の不一致」は年間 50% の割合で増加しました。言い換えれば、たとえ龍堯路トンネルと上中路トンネルが建設されたとしても、浦東と浦西間の物資輸送の増加に対応できないため、ハイパフォーマンスコンピューティングにおける帯域幅のボトルネックがますます顕著になってきています。シナリオ。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-5f6cc57f3e-dd1a6f-1c6801) *CPU/GPUの性能とメモリ性能の差は拡大中*2015 年、AMD は HBM メモリを適用しながら、浦東と浦西を組み合わせた革新的なデータ伝送ソリューションも採用しました。簡単に言えば、2015 フィジー アーキテクチャのグラフィックス カードは、HBM メモリと GPU コアを「つなぎ合わせ」、いくつかの小さなチップを全体の大きなチップに変えました。このようにして、データ スループット効率は 2 倍になります。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-a79baafd87-dd1a6f-1c6801)しかし、前述したように、コストと技術的な問題により、AMD のフィジー アーキテクチャは市場で購入することができませんでした。しかし、ディープラーニングの爆発的な普及と、コストに関係なくデータスループット効率を追求するAIトレーニングにより、「チップステッチング」が有用になりました。さらに、AMDのアイデアは良いものですが、新たな問題ももたらします。HBMがどれほど利点を持っていても、「シームチップ」という高度なパッケージング技術と協力する必要があり、両者は密接に関係しています。HBMメモリがまだ3社と比較できると言われると、「シームチップ」に使用されている高度なパッケージングはTSMCにしかできないようです。CoWoS は TSMC の高度なパッケージング ビジネスの出発点であり、Nvidia はこのテクノロジーを採用した最初のチップ企業です。CoWoS は CoW と oS を組み合わせたものです。CoW はチップ オン ウェーハ (ベアチップをウェーハ上に組み立てるプロセスを意味します) を意味し、OS はオン サブストレート (基板上にパッケージングするプロセスを意味します) を意味します。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-fd16f0162f-dd1a6f-1c6801)従来のパッケージングには通常、OS リンクのみが含まれます。ファウンドリがウェーハの製造を完了した後、解決のためにサードパーティのパッケージングおよびテスト工場に引き渡されます。しかし、高度なパッケージングによって追加された CoW リンクは、パッケージングおよびテストでは解決できません。工場。完全な H100 チップを例にとると、複数の HBM スタックが H100 ダイの周囲に分散され、CoW テクノロジーによって互いに接続されています。ただし、単に接合するだけではなく、ダイとスタック間の通信も同時に行います。TSMC の CoW は、ダイとスタックをシリコン インターポーザー (本質的にはウェーハ) 上に配置し、インターポーザー内のチャネルを相互接続してダイとスタック間の通信を実現するという点で、他の高度なパッケージングとは異なります。Intel の EMIB と似ていますが、シリコン ブリッジを介して相互接続されている点が異なります。ただし、帯域幅はシリコン インターポーザに比べてはるかに小さく、帯域幅がデータ転送速度と密接に関係していることを考慮すると、H100 には CoWoS が唯一の選択肢となっています。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-3209354359-dd1a6f-1c6801)これも生産能力 H100 に行き詰まっているもう 1 つの手です。CoWoSの効果は逆効果とはいえ、1個あたり4000～6000ドルという超高価格は依然として多くの人々を足止めさせており、その中には非常に裕福な企業も含まれている。したがって、TSMCが準備した生産能力は非常に限られています。しかし、AIの波が突如勃発し、需要と供給のバランスは一瞬にして崩れた。6月の時点で、今年のNvidiaのCoWoS需要は45,000枚のウェーハに達しているという噂があったが、TSMCの年初の見積りは30,000枚で、他の顧客のニーズと相まって、生産能力の差は20%を超えていた。その差を埋めるためにTSMCの戦いは小さくない。6月, TSMCは南科市に6番目の高度なパッケージングおよびテスト工場を正式に立ち上げた. クリーンルームだけでも他のパッケージングおよびテスト工場を合わせたよりも大きい. また、CoWoSの生産能力を四半期ごとに増加させることも約束した. このため、一部OSのパッケージングおよびテスト工場はサードパーティに委託されています。しかし、HBMが生産を拡大するのが容易ではないのと同様に、TSMCも生産を拡大するには時間がかかるだろう。現時点では、一部の包装機器や部品の納期は3～6か月となっており、年末までにどれだけの新たな生産能力を確保できるかはまだ不明だ。## 存在しないプラン BH100 の構造的な不足に直面している Nvidia には、プラン B がまったくないわけではありません。財務報告書の発表後の電話会議で、NvidiaはCoWoSの生産能力がすでに他のサプライヤーによって認定されていることを明らかにした。誰とは言いませんでしたが、高度なパッケージングの技術的限界を考慮すると、TSMCのほかに、先天的に欠陥のあるIntelのEMIBと、長い間開発を続けて顧客を待っていたSamsungのI-Cubeだけがそれを実現できますかろうじて消火活動をする。しかし、コアテクノロジーの置き換えは、戦いの前に将軍を変えるようなものです.AMD MI300が量産出荷されようとしているため、AIチップの競争は熾烈です.黄仁勲氏も統合できるかどうか心配しているのではないかと心配していますインテルとサムスンのテクノロジーを採用。黄仁勲よりも不安なのは、H100を買収できないクラウドサービスベンダーやAIスタートアップ企業かもしれない。結局のところ、ゲーマーはグラフィック カードを入手できず、つまりゲーム フレーム数が 20 フレーム少なくなり、大企業は H100 を入手できず、数十億の収益と数百億の評価を失う可能性があります。H100 を必要とする企業は主に 3 種類あります: Microsoft や Amazon などのクラウド サービス プロバイダー、Anthropic や OpenAI などの新興企業、Tesla などの大手テクノロジー企業です。トレーニング用の GPU クラスターです。これには、シタデルなどの金融会社や、H800 の特別バージョンを購入できない中国企業は含まれません。GPU使用率の計算によると [7] 控えめに見積もっても、現在の供給ギャップは H100 で 430,000 に達します。H100 に代わる理論的な選択肢はありますが、実際の状況ではどれも実現可能ではありません。例えば、H100の前身製品であるA100は、H100の約1/3の価格です。しかし、問題は、H100 のパフォーマンスが A100 のパフォーマンスよりもはるかに優れているため、単位コストあたりの計算能力が A100 よりも H100 の方が高くなるということです。テクノロジー企業が何百、何千ものコピーを購入し始めていることを考えると、A100を購入することはさらに悪いことです。AMD ももう 1 つの選択肢であり、理論上のパフォーマンスは H100 に大きく劣りません。しかし、Nvidia の CUDA エコシステムの障壁により、AMD の GPU を使用すると開発サイクルが長くなる可能性が高く、H100 を使用する競合他社はこの時間差により差が開き、さらには数百ドルを投資する可能性があります。何百万ドルも返せない。さまざまな理由から、総材料費が 3,000 ドルのチップに Nvidia が直接小売品目を追加し、誰もがそれを購入しようと殺到しました。これは黄仁勲自身も予想していなかったことかもしれない。HBM と CoWoS の生産能力が向上するまでは、H100 を購入する方法は 1 つしかないかもしれません。H100 を大量に購入した新興企業が自慢して資金を集めて廃業するのを待ってから、中古の GPU を手に入れましょう。**参考文献**[1] AI キャパシティの制約 - CoWoS および HBM サプライ チェーン、セミアナリシス[2] 元の工場は積極的に生産を拡大しており、HBM ビット供給の年間成長率は 2024 年に 105% になると予測されています (TrendForce)[3] HBM テクノロジーはデータセンターにどのような変化をもたらしますか?半導体産業の縦と横[4] 高度なパッケージング パート II: Intel、TSMC、Samsung、AMD、ASE、Sony、Micron、SKHynix、YMTC、Tesla、および Nvidia のオプション/使用法のレビュー、半分析[5] OpenAIの共同創設者で非常勤科学者のアンドレイ・カルパシー氏はツイートした。[6] 台湾半導体：Nvidiaのチップとパッケージのサプライヤーとして著しく過小評価されている、アルファを求めている[7] Nvidia H100 GPU: 需要と供給、GPU ユーティリティ編集者：李莫天ビジュアルデザイン：シュルイ責任編集者：李莫天