Microsoft M12の投資家であるMichael Stewart氏は、「大規模な言語モデル推論のTCOが、企業がサービスやアプリケーションで高度なAIを使用するための重要な制限要因になったときに、正式に本番環境に入りました。 d-Matrixは、メモリ中心のアプローチに基づく柔軟で回復力のあるチップレットアーキテクチャを使用して、さまざまな潜在的なモデル提供シナリオに対して業界をリードするTCOを提供する計画に従っています。 "
AI 推論のコストを 30 倍削減
AI のトレーニングと推論に CPU と GPU を使用することは、最も効率的な方法ではありません。 AI 推論操作では、データの移動が最大のボトルネックになります。 具体的には、ランダムアクセスメモリにデータをやり取りすると、大幅な遅延が発生し、エネルギー消費とコストが高くなり、AIシステム全体の速度が低下します。
差別化でNVIDIAの「独占」を打ち破り、d-MatrixはAI推論の計算能力のコストを30倍削減します
元のソース: アルファコミューン
AIGCの爆発的な増加の背景には、AIトレーニングとAI推論に対する大きな需要があります。 NVIDIAは現在、AIコンピューティングパワーの最大のプロバイダーであり、第2四半期の収益性(前年比854%増)は、AIコンピューティングパワーに対する業界の需要が満たされていないことを示しています。
NVIDIAがAIコンピューティングパワーを独占(市場シェア80%以上)したことで、AIコンピューティングパワーを使用する多くの企業が心配になり、Microsoft、Amazon、OpenAIが積極的にコアを構築しており、OpenAIもCerebrasやAtomic SemiなどのAIチップスタートアップとの買収スキャンダルが発生しています。
AIアプリケーションを実行するためのAI推論コンピューティングパワー要件は、将来、大規模モデルをトレーニングするためのコンピューティングパワー要件を大幅に上回り、推論計算能力の要件はトレーニングと同じではなく、推論を行うための既存のGPUはコストに利点がなく、独自のAI推論チップが必要です。
最近、AI推論チップに焦点を当てたスタートアップであるd-Matrixは、Playground Global、M12(Microsoft Venture Capital Fund)、Industry Ventures、Ericsson Ventures、Samsung Ventures、SK Hynixなどの以前の資金調達ラウンドの投資家を含む、Temasekが主導するシリーズBの資金調達で1億1000万ドルを受け取り、産業投資がかなりの部分を占めています。 d-Matrixのシド・シェス最高経営責任者(CEO)は「彼らは半導体ビジネスを構築する方法を知っており、長い間私たちと協力できる資本です。 "
d-Matrixからの新しい資金は、デジタルインメモリコンピューティング(DIMC)チップレット推論コンピューティングカードであるCorsairの構築に使用されます。 このカードは、NVIDIA H9 GPUの100倍高速と言われており、コンピューティングカードのクラスターの場合、NVIDIAの同様のソリューションよりも電力効率が20倍、遅延が20倍、最大30倍安価です。
AIGC時代のAI推論コンピューティングパワーニーズを目指す2人のチップベテラン
AI システムでは、AI モデルをトレーニングするときに、予測や推論に使用する場合とで、さまざまな種類の計算を使用します。 AI 推論に必要なコンピューティング能力は少なくなりますが、大規模な AI サービスを実行する場合は、長期的にはトレーニングよりも多くのコンピューティング能力が必要になります。
既存のAIハードウェアを用いて、AI推論専用のデータセンターを低コストで展開することは困難である。 MicrosoftのGitHub Copilotサービスは、ユーザーあたり月額平均20ドルの投稿であり、SemiAnalysisの主任アナリストであるDylan Patelによると、ChatGPTを実行するOpenAIの毎日の投資コストは70万ドルにもなる可能性があるという。 これらのコストは、AIサービスを実行するときに削減できないAI推論コストです。
AI業界は、AI推論チップの推論コストとエネルギー消費コストを削減し、より健全に発展する必要があります。
チップ業界のベテランであるシド・シェスとスディープ・ボージャは、マーベルとブロードコムで一緒に働いた後、2019年にd-Matrixを設立しました。 2019年、TransformerアーキテクチャのAIモデルが登場したばかりで、彼らはこのモデルアーキテクチャの大きな可能性と機会を見出し、これらの大規模な言語モデル専用にAIハードウェアを設計することを決定しました。
Sid Sheth氏はさらに、d-Matrixの市場ポジショニングの独自性について、「ジェネレーティブAIは、人々や企業がテクノロジーを創造し、働き、相互作用する方法のパラダイムを永遠に変えるでしょう。
しかし、AI推論を実行するための現在の総所有コスト(TCO)は急速に上昇しており、d-Matrixチームは、大規模な言語モデル用の専用コンピューティングソリューションを使用してAI推論を展開するコスト経済を変えており、この資金調達ラウンドは、業界における当社の地位をさらに確認しています。 "
Microsoft M12の投資家であるMichael Stewart氏は、「大規模な言語モデル推論のTCOが、企業がサービスやアプリケーションで高度なAIを使用するための重要な制限要因になったときに、正式に本番環境に入りました。 d-Matrixは、メモリ中心のアプローチに基づく柔軟で回復力のあるチップレットアーキテクチャを使用して、さまざまな潜在的なモデル提供シナリオに対して業界をリードするTCOを提供する計画に従っています。 "
AI 推論のコストを 30 倍削減
AI のトレーニングと推論に CPU と GPU を使用することは、最も効率的な方法ではありません。 AI 推論操作では、データの移動が最大のボトルネックになります。 具体的には、ランダムアクセスメモリにデータをやり取りすると、大幅な遅延が発生し、エネルギー消費とコストが高くなり、AIシステム全体の速度が低下します。
この問題を解決するには3つの方法があります。
1つ目は、サンプリングとパイプラインを通じて処理されるデータの量を減らすことでディープラーニングを加速しますが、精度と精度も制限します。
2つ目は、従来のプロセッサの近くに専用のAIエンジンプロセッサを設定することですが、Apple、NVIDIA、Intel、AMDはすべてこの方法を使用していますが、これらのソリューションは依然として従来のフォンノイマンプロセッサアーキテクチャを使用しており、SRAMと外部DRAMメモリを統合し、データをメモリに出し入れする必要があり、それでも消費電力が高く、効率が低くなります。
3つ目は、d-Matrixが採用しているアプローチであるRAM(メモリ)に計算を近づけることです。 デジタルインメモリコンピューティング(DIMC)と呼ばれるこのエンジンアーキテクチャは、レイテンシとエネルギー消費を削減します。 また、推論には繰り返しアクセスされる比較的静的な(ただし大きな)重み付けデータセットが含まれ、DIMCはエネルギー伝達コストとデータ移動の遅延のほとんどを排除するため、AI推論にも適しています。
d-Matrixは、複数のチップレットを使用して、より大規模でモジュール式のスケーラブルな集積回路を構築します。 これにより、エンタープライズグレードのAI推論タスク用のスケーラブルなプラットフォームを構築でき、AI企業がパフォーマンスと効率を向上させるのに役立ちます。
ジェイホークIIチップレット
2021年、d-Matrixはナイトホークチップレットを発売し、その後、エネルギー効率の高い有機基板ベースのチップ間接続を提供するように設計された業界初のオープンドメイン固有アーキテクチャ(ODSA)バンチオブヴォール(BoW)チップレットプラットフォームであるJayhawkチップレットプラットフォームを発売しました。
各Jayhawk IIチップレットには、それを管理するためのRISC-Vコア、32個のApolloコア(それぞれが8つのDIMCユニットを並列に動作)、および150TB / sの帯域幅を持つ256MB SRAMが含まれています。 コアは、84TB / sの帯域幅を持つ特別なネットワークチップを使用して接続されます。
コルセアコンピュートカード
d-Matrixはまた、NVIDIAのH100と同様にCorsairコンピューティングカードを導入し、各Corsairコンピューティングカードには8つのJayhawk IIチップレットがあり、各Jayhawk IIは2Tb / s(250GB / s)のチップ間帯域幅を提供し、単一のCorsairコンピューティングカードは8Tb / s(1TB / s)のチップ間帯域幅を備えています。
d-Matrixは、Corsairコンピューティングカードを搭載したサーバーは、GPUベースのソリューションと比較して、生成AI推論の総所有コストを10〜30倍削減すると主張していますが、このハードウェアセットは2024年まで正式に利用できません。
d-マトリックスアビエイターソフトウェアスタック
AIコンピューティングパワーにおけるNVIDIAの力は、GPUだけでなく、CUDAソフトウェアスタックと、特定のワークロードとユースケースに最適化された多数のライブラリにもあり、完全なエコシステムを形成します。
比較的小型モデルを目指す
d-MatrixのCEOであるSid Sheth氏は、AI推論の位置づけに加えて、汎用の数千億の大規模モデルではなく、数十億から数百億の中小規模のモデルにさらに焦点を当てていると指摘しました。
半導体およびAI調査会社であるCambrian AIの創設者兼主席アナリストであるカール・フロイント氏は、「ほとんどの企業は、数千億または数兆のパラメーターを持つモデルを展開していません。 しかし、彼らは会社独自のデータを使用してモデルを微調整し、実際に展開するモデルははるかに小さくなります。 このサイズのモデルの場合、AI推論に関しては、NVIDIA H100が必ずしも最も経済的なオプションではなく、H100は現在最大40,000ドルで販売されています。 "
彼はまた、d-Matrixは機会の窓に直面しており、Nvidiaなどの巨人がこの市場に目を向ける前に、その価値を示すための比較的空白の期間があると指摘しました。
今のところ、d-Matrixは今年の収益を1,000万ドル以下と予想しており、主に評価のためにチップを購入する顧客からのものです。 創設者のSheth氏は、d-Matrixは2年間で年間7,000万ドル以上から7,500万ドルの収益を見込んでおり、損益分岐点に達すると述べました。 d-Matrixが直面している市場空間は巨大であり、Cambrian AIは、2030年までにAI推論チップの計算電力消費率がワットあたり1000TOPSを超える可能性があると予測しています。
自律性とコストはAIチップの土壌です
一方で、d-MatrixなどのAIチップスタートアップの存続土壌は、Microsoft、Meta、Amazonなどの巨人、OpenAIなどのスーパーユニコーン、Anthropic、またはCohereなどの主要なスタートアップであるかどうかにかかわらず、AIメーカーの独立した制御可能なニーズから来ています。
一方、AIサービスの運用コストは、大規模なモデル企業にとって、長期的には、AIサービスを実行するための計算能力のコストは、モデルのトレーニングのための計算能力のコストよりも高くなり、この段階では、AI企業の単一ユーザーの運用コストは赤字の状態であり、総所有コスト(TCO)も高い。 現金が豊富な巨人にとって、この損失は手頃な価格ですが、スタートアップにとっては大きな負担であり、ビジネスのさらなる拡大を遅らせます。
サードパーティの低コストのAI推論計算能力は、巨人と新興企業の両方にとって非常に必要です。
この段階で、AIチップの分野でスタートアップが直面するリスクは何ですか? 1つは、もちろん、NVIDIAの巨人の「独占」、マイクロソフト、メタ、グーグル、OpenAI、最大のAI企業が自社開発したチップ、そしてチップをサポートするソフトウェアの生態学的問題です。
そして、これらの問題は、d-Matrixが解決の過程にあります。 商用の中小規模AIモデルの市場をターゲットとし、オープンソースコミュニティと協力してソフトウェアエコシステムを構築し、巨人の競争において差別化された競争上の優位性を与えることができます。