GPT-5 の誕生には 50,000 個の H100 が必要です。 H100の全世界需要は合計43万台、Nvidia GPUは不足の嵐に陥っている

巴比特_ · 2023-08-06T06:37:26+00:00

出典: 新志源![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-fd4843b00d-dd1a6f-1c6801) 画像ソース: Unbounded AI によって生成「誰がどれくらいの H100 を受け取るのか、そしていつそれがシリコンバレーで最もホットな話題になるのか。」OpenAI の共同創設者で非常勤科学者の Andrej Karpathy 氏は最近、NVIDIA GPU の不足に関する彼の見解を説明する記事を公開しました。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-3fe5c9a64d-dd1a6f-1c6801) 最近、コミュニティで広く拡散された「GPU の数はいくつ必要ですか」という画像が多くのネチズンの間で議論を引き起こしました。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-c020e33a3a-dd1a6f-1c6801) 図に示されている内容によると、次のようになります。- GPT-4 はおそらく約 10,000 ～ 25,000 の A100 でトレーニングされました●メタ約21000 A100- テスラ約7000 A100・安定AI 約5000 A100- Falcon-40B は 384 機の A100 で訓練されました– 屈折では 3500 と H100 を使用して GPT-3.5 と同等のモデルをトレーニングしましたさらに、マスク氏によれば、GPT-5には30,000〜50,000のH100が必要になる可能性があるという。以前、モルガン・スタンレーは、GPT-5は25,000のGPUを使用し、2月からトレーニングを行っていると述べていたが、後にサム・アルトマン氏は、GPT-5はまだトレーニングされていないことを明らかにした。しかし、アルトマン氏は以前、こう述べた。> GPU の供給が非常に不足しているため、製品を使用する人が少なければ少ないほど良いのです。>>> 十分な GPU がないため、人々の使用が減っていただければ幸いです。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-8f4846adb4-dd1a6f-1c6801) 「Nvidia H100 GPU: 需要と供給」というタイトルのこの記事では、現在のテクノロジー企業の GPU の使用状況と需要について詳しく分析しています。記事では、大小のクラウドプロバイダーの大規模H100クラスターの容量が間もなく枯渇し、H100の需要傾向は少なくとも2024年末まで続くと推測している。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-1be63c54a9-dd1a6f-1c6801) では、GPU 需要は本当にボトルネックなのでしょうか?## **大手企業のGPU要件: 約430,000 H100**現在、生成型 AI の爆発的な勢いは衰えておらず、コンピューティング能力に対する要件はさらに高まっています。一部のスタートアップは、Nvidia の高価で非常に高性能な H100 をモデルのトレーニングに使用しています。現時点ではGPUは麻薬よりも入手が難しいとマスク氏は語った。Sam Altman 氏は、OpenAI は GPU に制限があるため、短期計画 (微調整、専用キャパシティ、32k コンテキストウィンドウ、マルチモダリティ) が遅れていると述べています。Karpathy 氏のコメントは、大手テクノロジー企業の年次報告書でも GPU アクセスに関する問題について議論されている中で出されました。先週、Microsoftは年次報告書を発表し、GPUが急速に成長するクラウドビジネスにとって「重要な原材料」であることを投資家に強調した。必要なインフラストラクチャが利用できない場合、データセンターの停止のリスク要因が存在する可能性があります。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-ed6872056a-dd1a6f-1c6801) この記事は香港の投稿の著者によって書かれたものとされています。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-11d8840927-dd1a6f-1c6801) 同氏は、OpenAI には 50,000 H100 が必要であるのに対し、Inflection には 22,000、Meta には 25,000、大規模なクラウドサービスプロバイダー (Azure、Google Cloud、AWS、Oracle など) には 30,000 が必要になる可能性があると推測しました。Lambda、CoreWeave、その他のプライベートクラウドには合計 100k が必要になる場合があります。彼は、Anthropic、Helsing、Mistral、Character にはそれぞれ 10,000 が必要になる可能性があると書いています。著者らは、これらはすべて大まかな見積もりと推測であり、その一部はクラウドとクラウドから機器をレンタルしているエンド顧客を二重にカウントしていると述べている。全体として、グローバル企業は約 432,000 台の H100 を必要としています。 H100 あたり約 35,000 ドルと計算すると、必要な GPU の合計コストは 150 億ドルになります。これには、多数の H800 を必要とする国内のインターネット企業は含まれません。Jane Street、JP Morgan、Two Sigma などの有名な金融会社もいくつかあり、それぞれが数百台の A/H100 から始めて数千台の A/H100 まで展開しています。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-eda2233281-dd1a6f-1c6801) OpenAI、Anthropic、DeepMind、Google、X.ai などの大規模なラボはすべて大規模な言語モデルをトレーニングしており、Nvidia の H100 はかけがえのないものです。## **なぜ H100 が第一選択なのでしょうか? **H100 は、キャッシュレイテンシーの短縮と FP8 コンピューティングのおかげで、第一の選択肢として A100 よりも人気があります。なぜなら、その効率は最大3倍ですが、コストはわずか（1.5〜2倍）だからです。システム全体のコストを考慮すると、H100 のパフォーマンスははるかに優れています。技術的な詳細では、A100 と比較して、H100 は 16 ビット推論で約 3.5 倍、16 ビットトレーニングで約 2.3 倍高速です。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-0ca74877e8-dd1a6f-1c6801) A100 と H100 の速度![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-ca4afa1ce5-dd1a6f-1c6801) H100トレーニングMoE![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-0b2d8bd113-dd1a6f-1c6801) H100の圧倒的な加速ほとんどの企業は H100 を購入してトレーニングと推論に使用しますが、A100 は主に推論に使用されます。しかし、コスト、容量、新しいハードウェアの使用とセットアップのリスク、および既存のソフトウェアがすでに A100 用に最適化されているという事実を理由に、切り替えをためらう企業もあります。## **GPU は不足しているのではなく、サプライチェーンの問題です**Nvidia幹部は、問題はGPUの不足ではなく、それらのGPUがどのように市場に投入されるかであると述べた。Nvidiaはフル稼働でGPUを生産しているが、同幹部はGPUの生産能力は主にサプライチェーンによって制限されていると述べた。チップ自体には十分な容量があるかもしれませんが、他のコンポーネントの容量が不十分であると、GPU の容量が大幅に制限されます。これらのコンポーネントの生産は、世界中の他のサプライヤーに依存しています。しかし、需要は予測可能であるため、現在では問題は徐々に解決されつつあります。**GPU チップの生産能力**まず第一に、Nvidia は H100 の生産においてのみ TSMC と協力します。 Nvidia のすべての 5nm GPU は TSMC とのみ提携しています。将来的にはインテルやサムスンと協力することも可能だが、短期的には不可能であり、H100の生産が制限される。内部告発者によると、TSMCは5nmチップの容量を提供するための4つの生産ノードN5、N5P、N4、N5Pを持っています。H100 は、5nm 拡張ノードである N5 または N5P の 4N ノードでのみ生産されます。Nvidia は、このノードの容量を Apple、Qualcomm、AMD と共有する必要があります。TSMC 工場は、各顧客の生産能力を 12 か月前に計画する必要があります。Nvidia と TSMC が以前に H100 の需要を過小評価していれば、生産能力は今では制限されることになります。内部告発者によると、H100は生産から納入まで半年程度かかるという。また内部告発者は、工場はTSMCの生産のボトルネックではなく、CoWoS（3Dスタッキング）パッケージングがTSMCの生産能力の入り口であるとの退職半導体業界専門家の発言を引用した。**H100 メモリ容量**H100 のもう 1 つの重要なコンポーネントである H100 メモリについても、容量不足の問題が発生する可能性があります。特別な方法で GPU と統合された HBM (High Bandwidth Memory) は、GPU のパフォーマンスを確保するための重要なコンポーネントです。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-488eeab10e-dd1a6f-1c6801) 内部告発者は業界関係者の発言を引用して次のように述べた。一番の問題はHBMです。それを作るのは悪夢です。 HBMは生産が難しいため、供給が非常に限られています。生産もデザインもそのリズムに従う必要があります。HBM3メモリについては、NvidiaはSK Hynix製品をほぼ使用しており、Samsung製品もいくつかある可能性があり、Micron製品は存在しないはずです。NvidiaはSK Hynixに生産能力を増強することを望んでおり、実際にそうしている。しかし、サムスンもマイクロンも生産能力には限界がある。さらに、レアアース元素を含む他の多くの材料やプロセスが GPU の製造に使用されることになり、これらも GPU の生産能力を制限する要因となる可能性があります。## **GPUチップは今後どのように発展していくのか****NVIDIA の声明**Nvidiaは、今年下半期にはさらに多くのGPUを供給できると明らかにしただけで、定量的な情報は提供しなかった。> 現在、四半期の供給を処理していますが、今年の下半期に向けて大量の供給も調達しています。> 今年下半期の供給は上半期よりもはるかに多くなると考えています。>>> – Nvidia CFO コレット・クレス氏、2023 年 2 月から 4 月にかけての決算会見次は何ですか？> GPU の供給問題は現在、不足により GPU の所有権が堀とみなされ、さらに多くの GPU が買いだめされ、不足が悪化するという悪循環となっています。>>> – プライベートクラウド担当者が明らかに**次世代の H100 はいつ登場しますか? **Nvidia の以前のロードマップによると、次世代 H100 は 2024 年末から 2025 年初めまで発表されません。その時点までは、H100 が Nvidia の主力製品となるでしょう。ただし、Nvidia はこの期間中に H100 の 120GB 水冷バージョンを発売します。内部告発者がインタビューした業界関係者によると、H100 は 2023 年末までに完売する予定です。！## **H100 のコンピューティング能力を得るにはどうすればよいですか? **Nvidia 幹部が前述したように、H100 GPU によって提供されるコンピューティング能力は、最終的にはさまざまなクラウドコンピューティングプロバイダーを通じて業界チェーンに統合されるため、一方で H100 の不足は GPU の世代によって引き起こされます。もう 1 つの側面は、コンピューティングパワーのクラウドプロバイダーが Nvidia から H100 を効果的に入手し、クラウドコンピューティングパワーを提供することで最終的にそれを必要とする顧客に到達できる方法です。プロセスは次のとおりです。コンピューティングパワークラウドプロバイダーは、OEM から H100 チップを購入し、コンピューティングパワークラウドサービスを構築してさまざまな AI 企業に販売することで、エンドユーザーが H100 コンピューティングパワーを入手できるようにします。このプロセスにはさまざまな要因があり、現在の H100 のコンピューティングパワー不足の原因となっています。ニュースを速報した記事には、業界内の多くの情報も提供されていますので、ご参照ください。**H100 ボードはどこから購入できますか? **Dell、Lenovo、HPE、Supermicro、Quanta などの OEM は、H100 と HGX H100 の両方を販売します。CoreWeave や Lambda などのクラウドプロバイダーは、OEM から GPU を購入し、スタートアップにリースします。ハイパースケーラー (Azure、GCP、AWS、Oracle) は Nvidia とより直接的に連携しますが、OEM から購入することもあります。これはゲーマーがグラフィックスカードを購入する方法と似ているようです。ただし、DGX を購入する場合でも、ユーザーは OEM を通じて購入する必要があり、Nvidia に直接注文することはできません。**納期**8 GPU HGX サーバーのリードタイムは非常に長いですが、4 GPU HGX サーバーのリードタイムは問題ありません。しかし、すべての顧客は 8 GPU サーバーを望んでいます。スタートアップは OEM や再販業者から購入しますか?新興企業が H100 のコンピューティング能力を手に入れたい場合、最終的に H100 を購入して自社の GPU クラスターに接続することにはなりません。彼らは通常、Oracle などの大規模クラウド、Lambda や CoreWeave などのプライベートクラウド、または OEM やデータセンターと連携する FluidStack などのプロバイダーからコンピューティング能力を借りています。独自のデータセンターを構築したい場合は、データセンターの構築にかかる期間、ハードウェアに関する人材と経験があるかどうか、資本支出が余裕があるかどうかを考慮する必要があります。> サーバーのレンタルとホスティングがさらに簡単になりました。ユーザーが独自のデータセンターを構築したい場合、インターネットに接続するためにダークファイバー回線を敷設する必要があり、1キロメートルあたり1万ドルかかる。インフラストラクチャの多くは、ドットコムブームの間にすでに構築され、支払われています。レンタルするだけです、安いです。>>> – プライベートクラウド担当者リースから自社構築までの流れは大まかに、オンデマンドレンタルクラウドサービス（純粋リースクラウドサービス）、スケジュールクラウドサービス、マネージドクラウドサービス（サーバー購入、プロバイダーと協力してサーバーホスティング・管理）、セルフホスティングとなります。（自分で購入）およびホスティングサーバー））。H100 のコンピューティング能力を必要とするほとんどの新興企業は、クラウドサービスまたはマネージドクラウドサービスを予約することを選択します。**大規模なクラウドコンピューティングプラットフォーム間の比較**多くの新興企業にとって、大手クラウドコンピューティング企業が提供するクラウドサービスは、H100 の最終的な源泉です。クラウドプラットフォームの選択は、安定した H100 コンピューティングパワーを獲得できるかどうかも最終的に決定します。全体的なポイントは、Oracle は 3 大クラウドほど信頼性が高くないということです。ただし、Oracle はさらに多くの技術サポートを提供します。他の大手クラウドコンピューティング企業との主な違いは次のとおりです。ネットワーキング: 大規模な A100/H100 クラスターを探しているほとんどのスタートアップは InfiniBand を探していますが、AWS と Google Cloud はサービスのプロビジョニングに独自のアプローチをとっているため、InfiniBand の導入が遅れています。可用性: Microsoft Azure の H100 のほとんどは OpenAI 専用です。 GoogleはH100の買収に苦労してきた。Nvidia は、競合する機械学習チップを開発する計画がないクラウドに対して、より多くの H100 割り当てを提供する傾向があるようだからです。（これはすべて推測であり、厳密な真実ではありません。）Microsoftを除く大手クラウド3社はいずれも機械学習チップを開発しており、AWSやGoogleからはNvidiaの代替製品がすでに市場に出ており、市場シェアの一部を占めている。Nvidia との関係で言えば、Oracle と Azure > GCP と AWS となるかもしれません。しかし、それは単なる推測です。小規模なクラウドコンピューティングパワープロバイダーの方が安価ですが、場合によっては、一部のクラウドコンピューティングプロバイダーがコンピューティングパワーを株式と交換することもあります。## **Nvidia が H100 を割り当てる方法**Nvidia は、各顧客に H100 の割り当てを提供します。ただし、Azure が「H100 を 10,000 個取得したいです。すべて Inflection 用です」と言う場合、Azure が「Azure クラウド用に H100 を 10,000 個取得したいです」と言う場合とは異なる割り当てが与えられます。Nvidia は最終顧客が誰であるかを重視しているため、Nvidia が最終使用顧客に興味を持っている場合、クラウドコンピューティングプロバイダープラットフォームはさらに多くの H100 を獲得することになります。Nvidia は、最終顧客が誰なのかをできる限り理解したいと考えており、優れたブランドを持つ顧客や、強力な血統を持つ新興企業を好みます。> はい、そのようです。 NVIDIA は、新興 AI 企業 (その多くは彼らと密接な関係にあります) への GPU アクセスを保証することを好みます。 Inflection (彼らが投資している AI 企業) が、同じく投資している CoreWeave 上の巨大な H100 クラスターをテストしている様子をご覧ください。>>> – プライベートクラウド担当者＃＃ **結論**現在の GPU に対する熱望は泡沫であり誇大宣伝でもありますが、客観的には確かに存在します。OpenAI のように、ChatGPT のような製品で注目を集めている企業もありますが、まだ十分な GPU を確保できていません。他の企業は、将来の使用のために、または市場でさえ使用されない可能性のある大規模な言語モデルをトレーニングするために GPU を購入して貯め込んでいます。これにより、GPU 不足のバブルが発生します。しかし、どう見ても、NVIDIA は要塞における緑の王です。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-3916e2a177-dd1a6f-1c6801) 参考文献:

巴比特_

2023-08-06 06:37:26

出典: 新志源

画像ソース: Unbounded AI によって生成‌

「誰がどれくらいの H100 を受け取るのか、そしていつそれがシリコンバレーで最もホットな話題になるのか。」

OpenAI の共同創設者で非常勤科学者の Andrej Karpathy 氏は最近、NVIDIA GPU の不足に関する彼の見解を説明する記事を公開しました。

最近、コミュニティで広く拡散された「GPU の数はいくつ必要ですか」という画像が多くのネチズンの間で議論を引き起こしました。

図に示されている内容によると、次のようになります。

GPT-4 はおそらく約 10,000 ～ 25,000 の A100 でトレーニングされました

●メタ約21000 A100

テスラ約7000 A100

・安定AI 約5000 A100

Falcon-40B は 384 機の A100 で訓練されました

– 屈折では 3500 と H100 を使用して GPT-3.5 と同等のモデルをトレーニングしました

さらに、マスク氏によれば、GPT-5には30,000〜50,000のH100が必要になる可能性があるという。

以前、モルガン・スタンレーは、GPT-5は25,000のGPUを使用し、2月からトレーニングを行っていると述べていたが、後にサム・アルトマン氏は、GPT-5はまだトレーニングされていないことを明らかにした。

しかし、アルトマン氏は以前、こう述べた。

GPU の供給が非常に不足しているため、製品を使用する人が少なければ少ないほど良いのです。

十分な GPU がないため、人々の使用が減っていただければ幸いです。

「Nvidia H100 GPU: 需要と供給」というタイトルのこの記事では、現在のテクノロジー企業の GPU の使用状況と需要について詳しく分析しています。

記事では、大小のクラウドプロバイダーの大規模H100クラスターの容量が間もなく枯渇し、H100の需要傾向は少なくとも2024年末まで続くと推測している。

では、GPU 需要は本当にボトルネックなのでしょうか?

大手企業のGPU要件: 約430,000 H100

現在、生成型 AI の爆発的な勢いは衰えておらず、コンピューティング能力に対する要件はさらに高まっています。

一部のスタートアップは、Nvidia の高価で非常に高性能な H100 をモデルのトレーニングに使用しています。

現時点ではGPUは麻薬よりも入手が難しいとマスク氏は語った。

Sam Altman 氏は、OpenAI は GPU に制限があるため、短期計画 (微調整、専用キャパシティ、32k コンテキストウィンドウ、マルチモダリティ) が遅れていると述べています。

Karpathy 氏のコメントは、大手テクノロジー企業の年次報告書でも GPU アクセスに関する問題について議論されている中で出されました。

先週、Microsoftは年次報告書を発表し、GPUが急速に成長するクラウドビジネスにとって「重要な原材料」であることを投資家に強調した。必要なインフラストラクチャが利用できない場合、データセンターの停止のリスク要因が存在する可能性があります。

この記事は香港の投稿の著者によって書かれたものとされています。

同氏は、OpenAI には 50,000 H100 が必要であるのに対し、Inflection には 22,000、Meta には 25,000、大規模なクラウドサービスプロバイダー (Azure、Google Cloud、AWS、Oracle など) には 30,000 が必要になる可能性があると推測しました。

Lambda、CoreWeave、その他のプライベートクラウドには合計 100k が必要になる場合があります。彼は、Anthropic、Helsing、Mistral、Character にはそれぞれ 10,000 が必要になる可能性があると書いています。

著者らは、これらはすべて大まかな見積もりと推測であり、その一部はクラウドとクラウドから機器をレンタルしているエンド顧客を二重にカウントしていると述べている。

全体として、グローバル企業は約 432,000 台の H100 を必要としています。 H100 あたり約 35,000 ドルと計算すると、必要な GPU の合計コストは 150 億ドルになります。

これには、多数の H800 を必要とする国内のインターネット企業は含まれません。

Jane Street、JP Morgan、Two Sigma などの有名な金融会社もいくつかあり、それぞれが数百台の A/H100 から始めて数千台の A/H100 まで展開しています。

OpenAI、Anthropic、DeepMind、Google、X.ai などの大規模なラボはすべて大規模な言語モデルをトレーニングしており、Nvidia の H100 はかけがえのないものです。

なぜ H100 が第一選択なのでしょうか?

H100 は、キャッシュレイテンシーの短縮と FP8 コンピューティングのおかげで、第一の選択肢として A100 よりも人気があります。

なぜなら、その効率は最大3倍ですが、コストはわずか（1.5〜2倍）だからです。システム全体のコストを考慮すると、H100 のパフォーマンスははるかに優れています。

技術的な詳細では、A100 と比較して、H100 は 16 ビット推論で約 3.5 倍、16 ビットトレーニングで約 2.3 倍高速です。

A100 と H100 の速度

H100トレーニングMoE

H100の圧倒的な加速

ほとんどの企業は H100 を購入してトレーニングと推論に使用しますが、A100 は主に推論に使用されます。

しかし、コスト、容量、新しいハードウェアの使用とセットアップのリスク、および既存のソフトウェアがすでに A100 用に最適化されているという事実を理由に、切り替えをためらう企業もあります。

GPU は不足しているのではなく、サプライチェーンの問題です

Nvidia幹部は、問題はGPUの不足ではなく、それらのGPUがどのように市場に投入されるかであると述べた。

Nvidiaはフル稼働でGPUを生産しているが、同幹部はGPUの生産能力は主にサプライチェーンによって制限されていると述べた。

チップ自体には十分な容量があるかもしれませんが、他のコンポーネントの容量が不十分であると、GPU の容量が大幅に制限されます。

これらのコンポーネントの生産は、世界中の他のサプライヤーに依存しています。

しかし、需要は予測可能であるため、現在では問題は徐々に解決されつつあります。

GPU チップの生産能力

まず第一に、Nvidia は H100 の生産においてのみ TSMC と協力します。 Nvidia のすべての 5nm GPU は TSMC とのみ提携しています。

将来的にはインテルやサムスンと協力することも可能だが、短期的には不可能であり、H100の生産が制限される。

内部告発者によると、TSMCは5nmチップの容量を提供するための4つの生産ノードN5、N5P、N4、N5Pを持っています。

H100 は、5nm 拡張ノードである N5 または N5P の 4N ノードでのみ生産されます。

Nvidia は、このノードの容量を Apple、Qualcomm、AMD と共有する必要があります。

TSMC 工場は、各顧客の生産能力を 12 か月前に計画する必要があります。

Nvidia と TSMC が以前に H100 の需要を過小評価していれば、生産能力は今では制限されることになります。

内部告発者によると、H100は生産から納入まで半年程度かかるという。

また内部告発者は、工場はTSMCの生産のボトルネックではなく、CoWoS（3Dスタッキング）パッケージングがTSMCの生産能力の入り口であるとの退職半導体業界専門家の発言を引用した。

H100 メモリ容量

H100 のもう 1 つの重要なコンポーネントである H100 メモリについても、容量不足の問題が発生する可能性があります。

特別な方法で GPU と統合された HBM (High Bandwidth Memory) は、GPU のパフォーマンスを確保するための重要なコンポーネントです。

内部告発者は業界関係者の発言を引用して次のように述べた。

一番の問題はHBMです。それを作るのは悪夢です。 HBMは生産が難しいため、供給が非常に限られています。生産もデザインもそのリズムに従う必要があります。

HBM3メモリについては、NvidiaはSK Hynix製品をほぼ使用しており、Samsung製品もいくつかある可能性があり、Micron製品は存在しないはずです。

NvidiaはSK Hynixに生産能力を増強することを望んでおり、実際にそうしている。しかし、サムスンもマイクロンも生産能力には限界がある。

さらに、レアアース元素を含む他の多くの材料やプロセスが GPU の製造に使用されることになり、これらも GPU の生産能力を制限する要因となる可能性があります。

GPUチップは今後どのように発展していくのか

NVIDIA の声明

Nvidiaは、今年下半期にはさらに多くのGPUを供給できると明らかにしただけで、定量的な情報は提供しなかった。

現在、四半期の供給を処理していますが、今年の下半期に向けて大量の供給も調達しています。今年下半期の供給は上半期よりもはるかに多くなると考えています。

– Nvidia CFO コレット・クレス氏、2023 年 2 月から 4 月にかけての決算会見

次は何ですか？

GPU の供給問題は現在、不足により GPU の所有権が堀とみなされ、さらに多くの GPU が買いだめされ、不足が悪化するという悪循環となっています。

– プライベートクラウド担当者が明らかに

**次世代の H100 はいつ登場しますか? **

Nvidia の以前のロードマップによると、次世代 H100 は 2024 年末から 2025 年初めまで発表されません。

その時点までは、H100 が Nvidia の主力製品となるでしょう。

ただし、Nvidia はこの期間中に H100 の 120GB 水冷バージョンを発売します。

内部告発者がインタビューした業界関係者によると、H100 は 2023 年末までに完売する予定です。！

H100 のコンピューティング能力を得るにはどうすればよいですか?

Nvidia 幹部が前述したように、H100 GPU によって提供されるコンピューティング能力は、最終的にはさまざまなクラウドコンピューティングプロバイダーを通じて業界チェーンに統合されるため、一方で H100 の不足は GPU の世代によって引き起こされます。

もう 1 つの側面は、コンピューティングパワーのクラウドプロバイダーが Nvidia から H100 を効果的に入手し、クラウドコンピューティングパワーを提供することで最終的にそれを必要とする顧客に到達できる方法です。

プロセスは次のとおりです。

コンピューティングパワークラウドプロバイダーは、OEM から H100 チップを購入し、コンピューティングパワークラウドサービスを構築してさまざまな AI 企業に販売することで、エンドユーザーが H100 コンピューティングパワーを入手できるようにします。

このプロセスにはさまざまな要因があり、現在の H100 のコンピューティングパワー不足の原因となっています。ニュースを速報した記事には、業界内の多くの情報も提供されていますので、ご参照ください。

**H100 ボードはどこから購入できますか? **

Dell、Lenovo、HPE、Supermicro、Quanta などの OEM は、H100 と HGX H100 の両方を販売します。

CoreWeave や Lambda などのクラウドプロバイダーは、OEM から GPU を購入し、スタートアップにリースします。

ハイパースケーラー (Azure、GCP、AWS、Oracle) は Nvidia とより直接的に連携しますが、OEM から購入することもあります。これはゲーマーがグラフィックスカードを購入する方法と似ているようです。ただし、DGX を購入する場合でも、ユーザーは OEM を通じて購入する必要があり、Nvidia に直接注文することはできません。

納期

8 GPU HGX サーバーのリードタイムは非常に長いですが、4 GPU HGX サーバーのリードタイムは問題ありません。

しかし、すべての顧客は 8 GPU サーバーを望んでいます。

スタートアップは OEM や再販業者から購入しますか?

新興企業が H100 のコンピューティング能力を手に入れたい場合、最終的に H100 を購入して自社の GPU クラスターに接続することにはなりません。

彼らは通常、Oracle などの大規模クラウド、Lambda や CoreWeave などのプライベートクラウド、または OEM やデータセンターと連携する FluidStack などのプロバイダーからコンピューティング能力を借りています。

独自のデータセンターを構築したい場合は、データセンターの構築にかかる期間、ハードウェアに関する人材と経験があるかどうか、資本支出が余裕があるかどうかを考慮する必要があります。

サーバーのレンタルとホスティングがさらに簡単になりました。ユーザーが独自のデータセンターを構築したい場合、インターネットに接続するためにダークファイバー回線を敷設する必要があり、1キロメートルあたり1万ドルかかる。インフラストラクチャの多くは、ドットコムブームの間にすでに構築され、支払われています。レンタルするだけです、安いです。

– プライベートクラウド担当者

リースから自社構築までの流れは大まかに、オンデマンドレンタルクラウドサービス（純粋リースクラウドサービス）、スケジュールクラウドサービス、マネージドクラウドサービス（サーバー購入、プロバイダーと協力してサーバーホスティング・管理）、セルフホスティングとなります。（自分で購入）およびホスティングサーバー））。

H100 のコンピューティング能力を必要とするほとんどの新興企業は、クラウドサービスまたはマネージドクラウドサービスを予約することを選択します。

大規模なクラウドコンピューティングプラットフォーム間の比較

多くの新興企業にとって、大手クラウドコンピューティング企業が提供するクラウドサービスは、H100 の最終的な源泉です。

クラウドプラットフォームの選択は、安定した H100 コンピューティングパワーを獲得できるかどうかも最終的に決定します。

全体的なポイントは、Oracle は 3 大クラウドほど信頼性が高くないということです。ただし、Oracle はさらに多くの技術サポートを提供します。

他の大手クラウドコンピューティング企業との主な違いは次のとおりです。

ネットワーキング: 大規模な A100/H100 クラスターを探しているほとんどのスタートアップは InfiniBand を探していますが、AWS と Google Cloud はサービスのプロビジョニングに独自のアプローチをとっているため、InfiniBand の導入が遅れています。

可用性: Microsoft Azure の H100 のほとんどは OpenAI 専用です。 GoogleはH100の買収に苦労してきた。

Nvidia は、競合する機械学習チップを開発する計画がないクラウドに対して、より多くの H100 割り当てを提供する傾向があるようだからです。（これはすべて推測であり、厳密な真実ではありません。）

Microsoftを除く大手クラウド3社はいずれも機械学習チップを開発しており、AWSやGoogleからはNvidiaの代替製品がすでに市場に出ており、市場シェアの一部を占めている。

Nvidia との関係で言えば、Oracle と Azure > GCP と AWS となるかもしれません。しかし、それは単なる推測です。

小規模なクラウドコンピューティングパワープロバイダーの方が安価ですが、場合によっては、一部のクラウドコンピューティングプロバイダーがコンピューティングパワーを株式と交換することもあります。

Nvidia が H100 を割り当てる方法

Nvidia は、各顧客に H100 の割り当てを提供します。

ただし、Azure が「H100 を 10,000 個取得したいです。すべて Inflection 用です」と言う場合、Azure が「Azure クラウド用に H100 を 10,000 個取得したいです」と言う場合とは異なる割り当てが与えられます。

Nvidia は最終顧客が誰であるかを重視しているため、Nvidia が最終使用顧客に興味を持っている場合、クラウドコンピューティングプロバイダープラットフォームはさらに多くの H100 を獲得することになります。

Nvidia は、最終顧客が誰なのかをできる限り理解したいと考えており、優れたブランドを持つ顧客や、強力な血統を持つ新興企業を好みます。

はい、そのようです。 NVIDIA は、新興 AI 企業 (その多くは彼らと密接な関係にあります) への GPU アクセスを保証することを好みます。 Inflection (彼らが投資している AI 企業) が、同じく投資している CoreWeave 上の巨大な H100 クラスターをテストしている様子をご覧ください。

– プライベートクラウド担当者

＃＃結論

現在の GPU に対する熱望は泡沫であり誇大宣伝でもありますが、客観的には確かに存在します。

OpenAI のように、ChatGPT のような製品で注目を集めている企業もありますが、まだ十分な GPU を確保できていません。

他の企業は、将来の使用のために、または市場でさえ使用されない可能性のある大規模な言語モデルをトレーニングするために GPU を購入して貯め込んでいます。これにより、GPU 不足のバブルが発生します。

しかし、どう見ても、NVIDIA は要塞における緑の王です。

参考文献: