注目のHBMだけではない大型モデル市場

2023-07-12 06:49:26

出典: 半導体産業の垂直性と水平性

画像ソース: Unbounded AI によって生成‌

最近、HBM がチップ業界で注目を集めています。 TrendForce によると、高帯域幅メモリ (HBM) のビット量は、2023 年に前年比約 60% 増の 2 億 9000 万 GB に達すると予想されており、2024 年にはさらに 30% 増加すると予想されています。 2008年にAMDが提案したHBMメモリのコンセプトは、2013年にTSV技術を通じてSK Hynixによって実現されました。導入から10年が経ち、HBMは本格的に大規模商用化の時代を迎えたようです。

HBM の概念の定着は、AIGC の人気に直接関係しています。 AI サーバーの帯域幅要件は高くなりますが、DDR SDRAM と比較して、HBM は帯域幅が高く、エネルギー消費量が低くなります。超高帯域幅により、HBM は高性能 GPU のコアコンポーネントとなり、HBM は基本的に AI サーバーの標準構成となります。現在、HBMのコストはAIサーバーのコストの中で第3位で約9％を占め、サーバー1台の平均販売価格は1万8000ドルにも上る。

昨年のChatGPTの登場以来、大型モデル市場は急速に成長し始めており、国内市場ではBaidu、Ali、HKUST Xunfei、SenseTime、Huaweiなどのテクノロジー大手が相次いで独自のAIをトレーニングすると発表しています。大型モデル。 TrendForce は、2025 年には、ChatGPT に相当する大規模 AIGC が 5 つ、Midjourney の中規模 AIGC 製品が 25 つ、小規模 AIGC 製品が 80 になると予測しています。世界中で必要な最小限のコンピューティング能力リソースでも、145,600 ～ 233,700 個の NVIDIA A100 GPU が必要となる可能性があります。。これらは HBM の潜在的な成長分野です。

2023年に入ってからサムスンとSKハイニックスからのHBMの注文が急増し、HBMの価格も上昇し、最近ではHBM3 DRAMの価格が5倍に高騰している。サムスンはAMDとNvidiaからHBMの供給を増やす注文を受けている。 SKハイニックスはHBM生産能力の倍増を目指し、HBM生産ラインの拡張に着手した。韓国メディアは、サムスンがHBM生産拡大に約7億6千万ドルを投資し、来年末までにHBM生産能力を倍増する計画で、大規模な設備発注を行ったと報じた。

AIGC における HBM の利点

率直に言って、HBM はサーバーの計算能力を向上させます。 AI サーバーは短期間に大量のデータを処理するため、帯域幅の要件が高くなります。 HBMの機能はデータの「転送ステーション」に似ており、各フレームや使用する画像などの画像データをフレームバッファ領域に保存し、GPUからの呼び出しを待ちます。従来のメモリ技術と比較して、HBM は帯域幅が高く、I/O 量が多く、消費電力が低く、サイズが小さいため、AI サーバーのデータ処理量と送信速度を大幅に向上させることができます。

出典: ランバス

HBM には帯域幅の点で「ローリング」レベルの利点があることがわかります。 HBM2E が 1024 ビット幅のインターフェイス上で 3.6Gbps で実行される場合、1 秒あたり 3.7Tb の帯域幅が得られます。これは、LPDDR5 または DDR4 の帯域幅の 18 倍を超えます。

帯域幅の利点に加えて、HBM は領域を節約できるため、システムにより多くの GPU を搭載できます。 HBM メモリは、GPU と同じ物理パッケージ上のメモリスタックで構成されます。

このようなアーキテクチャは、従来の GDDR5/6 メモリ設計と比較して大幅な電力と面積の節約を意味し、より多くの GPU をシステムに搭載できるようになります。 HPC、AI、およびデータ分析のデータセットのサイズが増大し、計算問題がより複雑になるにつれて、ますます多くの GPU メモリ容量と帯域幅が必要となります。 H100 SXM5 GPU は、A100 のメモリ帯域幅の 2 倍である 80 GB (5 スタック) の高速 HBM3 メモリをサポートすることで、3 TB/秒を超えるメモリ帯域幅を提供します。

これまで HBM にとって価格は制限要因でした。しかし現在、大型模型市場は争奪戦の時代にあり、大型模型を展開する大手企業にとっては時は金なりであり、「高価で高価」なHBMが大手企業の新たなお気に入りとなっている。スケールモデルの巨人。ハイエンド GPU の需要が徐々に高まっているため、HBM が AI サーバーの標準構成になり始めています。

現在、Nvidia の A100 と H100 にはそれぞれ 80GB の HBM2e と HBM3 が搭載されていますが、CPU と GPU を統合した最新の Grace Hopper チップでは、単一チップの HBM 搭載容量が 20% 増加し、96GB に達しました。

AMDのMI300もHBM3を搭載しており、このうちMI300Aの容量は前世代の128GBと同じで、上位のMI300Xでは50％増の192GBに達します。

Googleは2023年後半にAISC AI加速チップの開発に向けてBroadcomとの協力を積極的に拡大すると予想されており、TPUにはAIインフラを拡張するためのHBMメモリも搭載される予定である。

ストレージベンダーの高速レイアウト

このような「マネーシーン」により、ストレージ大手はHBMメモリのレイアウトを加速できるようになる。現在、世界上位3位のメモリチップメーカーがHBMの生産に向けて生産能力を移管しているが、生産能力の調整に時間がかかるため、早急にHBMの増産は難しく、今後もHBMの供給は逼迫することが予想される今後 2 年以内に。

HBM の市場は主に DRAM 大手 3 社によって支配されています。しかし、Samsungが主導するDRAM市場とは異なり、SK HynixはHBM市場でより優れた発展を遂げている。冒頭で述べたように、SK Hynix は最初の HBM 製品を開発しました。 2023年4月、SKハイニックスは初の24GB HBM3 DRAM製品の開発を発表した。この製品はTSV技術を使用して12個の単体DRAMチップを垂直に積層し、既存のチップより40%薄く、16GB製品と同じ高さを実現した。一方、SKハイニックスは2023年下半期に8Gbpsのデータ伝送性能を持つHBM3Eのサンプルを準備し、2024年に量産する計画だ。

HBM向けの国内半導体企業の配置は主にパッケージングとインターフェースの分野を中心に展開している。

NationalChip Technology は現在、マルチ HBM メモリの 2.5D チップパッケージング技術を研究および計画しており、Chiplet 技術の研究開発および応用を積極的に推進しています。 Tongfu Microelectronics Co., Ltd.の 2.5D/3D 生産ラインの完成後、HBM 高性能パッケージング技術の分野で国内の画期的な進歩が実現します。 BIWIN は高性能メモリチップとメモリモジュールを発売しており、今後も HBM テクノロジーに注目していきます。 Montage Technology の PCIe 5.0/CXL 2.0 Retimer チップは量産を達成しました。このチップは Montage Technology の PCIe 4.0 Retimer 製品の重要なアップグレードであり、安定した信頼性の高い高帯域幅、低遅延の PCIe 5.0/CXL 2.0 を業界に提供できます。相互接続ソリューション。

HBM は優れていますが、まだ冷静である必要があり、HBM はまだ比較的初期段階にあり、その将来はまだ遠いです。ますます多くのメーカーが AI や機械学習などの分野に取り組み続けるにつれて、メモリ製品設計の複雑さが急速に高まり、帯域幅に対するより高い要件が課せられることが予測されます。ブロードバンド需要の高まりが今後も開発を推進すると予想されますHBMの。

HBMの熱さはAIGCの走力を反映している。では、HBM と GPU 以外に、この新しいトレンドを活用できる製品はあるのでしょうか?

他の発火したチップについて話します

FPGA の利点が現れ始めています

FPGA (フィールドプログラマブルゲートアレイ) は、プログラマブルロジックエレメント、メモリ、および相互接続リソースを備えた集積回路です。 ASIC (特定用途向け集積回路) とは異なり、FPGA には柔軟性、カスタマイズ性、並列処理能力、アップグレードが容易であるという利点があります。

ユーザーはプログラミングを通じて、FPGA のアプリケーションシナリオをいつでも変更でき、FPGA は CPU、GPU、その他のハードウェアのさまざまな並列動作をシミュレートできます。そのため、業界では「ユニバーサルチップ」とも呼ばれています。

FPGA は、基盤となるモデルが頻繁に変更される人工知能推論のニーズに適しています。 FPGA のプログラマビリティは、FPGA 使用の一般的な経済性を超えています。明確にしておきますが、FPGA は数千の GPU を使用する大規模 AI システムに対する重大な競合相手ではありませんが、AI がエレクトロニクスにさらに浸透するにつれて、FPGA のアプリケーションの範囲は拡大するでしょう。

GPU に対する FPGA の利点は、消費電力と遅延が低いことです。 GPU はオンチップメモリを有効に活用できず、オフチップ DRAM を頻繁に読み取る必要があるため、消費電力が非常に高くなります。 FPGA はオンチップストレージを柔軟に使用できるため、消費電力は GPU よりも大幅に低くなります。

6月27日、AMDはFPGAベースの適応型SoCであるAMD Versal Premium VP1902適応型システムオンチップ（SoC）の発売を発表した。これはエミュレーショングレードのチップレットベースのデバイスで、ますます複雑化する半導体設計の検証を簡素化します。 AMD VP1902 は世界最大の FPGA になると報じられており、前世代製品 (Xilinx VU19P) と比較して、新しい VP1902 は Versal 機能を追加し、小型チップ設計を採用し、FPGA の主要な性能を 2 倍以上に向上させています。

東興証券調査報告書は、FPGA はそのアーキテクチャによってもたらされる遅延と消費電力の利点により、AI 推論において大きな利点があると考えています。 Zheshang Securities の以前の調査レポートでは、GPU に加えて、CPU+FPGA ソリューションも AI の膨大な計算能力需要を満たすことができると指摘しています。

HBMが海外企業に独占されているのとは異なり、国内企業はすでにFPGAチップを蓄積している。

Anlu Technology の主な事業は、FPGA チップと特殊 EDA ソフトウェアの研究開発、設計、販売であり、その製品は産業用制御、ネットワーク通信、家庭用電化製品などの分野で広く使用されています。 Ziguang Guowei の子会社である Ziguang Tongchuang は、汎用 FPGA チップを設計および販売する FPGA 専門企業です。 Ziguang Guowei氏はかつて業績説明会で、同社のFPGAチップはAI分野で使用できると述べた。 Dongtu Technology は主に FPGA チップの工業化を行っており、同社の株主である Zhongke Yihai Micro チームは、FPGA 製品のアプリケーション開発をサポートする EDA ソフトウェアを独自に開発しています。

国内代替の新しいアイデア: ストレージとコンピューティング + チップレットの統合

現在利用可能なプロセスとテクノロジーを使用して、パフォーマンスの点で Nvidia と競合できる AI チップを開発できますか?ストレージと計算 + チップレットの統合など、いくつかの「新しいアイデア」も登場しています。

ストレージと計算を分離すると、コンピューティング能力のボトルネックが発生します。 AI テクノロジーの急速な発展に伴い、コンピューティング能力の需要が爆発的に増加しました。ムーア以降の時代では、ストレージ帯域幅がコンピューティングシステムの実効帯域幅を制限し、システムのコンピューティング能力の成長は苦戦しています。たとえば、1080TI の 8 ブロックを使用して BERT モデルを最初からトレーニングするには 99 日かかります。ストレージとコンピューティングの統合アーキテクチャには、ディープマルチレベルストレージの概念がありません。すべての計算はメモリ内に実装されるため、ストレージの壁と、ストレージとコンピューティングの異質性によって生じる対応する追加のオーバーヘッドが排除されます。ストレージの壁の排除により、ストレージの壁が大幅に改善されます。データ処理を削減し、データ伝送と処理速度を向上させるだけでなく、エネルギー効率も数倍向上させます。

一方で、ストレージコンピューティング統合アーキテクチャと従来のアーキテクチャプロセッサの間で同じ計算能力を処理するために必要な消費電力が削減され、従来のアーキテクチャのコンパイルの壁が開きます。

アリゾナ州立大学の学者らは、AI 大規模モデルのトレーニングにおけるこの新しいアーキテクチャの可能性を評価するために、チップレットベースの IMC アーキテクチャベンチマークシミュレータ SIAM を 2021 年にリリースしました。 SIAM は、デバイス、回路、アーキテクチャ、ネットワークオンチップ (NoC)、ネットワークインパッケージ (NoP)、および DRAM アクセスモデルを統合して、エンドツーエンドの高性能コンピューティングシステムを実現します。 SIAM は、ディープニューラルネットワーク (DNN) のサポートにおいて拡張性があり、さまざまなネットワーク構造および構成に合わせてカスタマイズできます。その研究チームは、CIFAR-10、CIFAR-100、ImageNet データセットを使用してさまざまな高度な DNN をベンチマークすることにより、SIAM の柔軟性、スケーラビリティ、シミュレーション速度を実証しています。 SIAM を通じて得られたチップレット +IMC アーキテクチャでは、NVIDIA V100 および T4 GPU と比較して、ImageNet データセット上の ResNet-50 のエネルギー効率がそれぞれ 130 および 72 向上したと言われています。

これは、ストレージコンピューティング統合 AI チップがチップレット技術と 2.5D / 3D スタックパッケージング技術の助けを借りてヘテロジニアス統合を実現し、それによって大規模コンピューティングシステムを形成すると期待されていることを意味します。これを実現するにはストレージと計算+チップレットの組み合わせが有力視されており、Yizhu Technologyはこの道を模索していると言われているが、その第一世代のストレージと計算を統合したAI大規模な計算能力の商用チップはシングルカードの計算能力を達成できる500T以上、消費電力75W以内。おそらくこれは、AI コンピューティング能力の第 2 の成長曲線への前奏曲の始まりとなるでしょう。

＃＃結論

世界人工知能会議で、AMD CEOのリサ・スー氏は、「今後10年間に大規模なコンピューティングのスーパーサイクルが訪れるだろう。したがって、今はテクノロジーサプライヤーになるのに良い時期であり、一部の企業とは異なる」と語った。は、これらのテクノロジーを使用してさまざまなテクノロジーを開発する予定です。アプリのクライアントと協力するには良い時期です。

たった 1 人の有力企業だけが存在する業界を誰も望んでいません。大規模モデル市場はチップ業界に新たな市場構造をもたらし、新たなプレーヤーの出現を可能にするでしょうか?

「大型モデル市場は、チップ業界に新たな市場パターンと機会をもたらしました。AIチップの開発を促進し、クラウドコンピューティングとデータセンター市場の成長を促進し、競争環境の変化を引き起こすことにより、大型モデルの台頭は、チップ業界に新たなチャンスをもたらした開発の方向性。

チップ業界は競争が激しく、技術集約型の業界であることに注意してください。業界に参入するには、複雑な製造および研究開発の要件を満たすために、多額の財政的および技術的リソースが必要です。大規模モデル市場は新規参入者にチャンスをもたらしますが、競争の激しいチップ業界で成功するには、技術的、財務的、マーケティング上の課題を克服する必要があります。「Chatgpt が応答しました。

原文表示

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.

1 いいね