大規模なモデルトレーニングは何ボリュームですか? ビッグモデルの計算能力の謎を解き明かす

Question

記事の出典:チタンメディア著者|秦 コンフイ編集|本田外>コンピューティングパワーを獲得する前提は、コンピューティングパワーが新しいビジネスモデルになりつつあることです。 大規模モデル「錬金術」のブームは過ぎ去り、コンピューティングパワーサービスプロバイダーは予防策を講じて時間内にターンする必要があります。![](https://appserversrc.8btc.cn/886188AC950B2D808EFEBF7B16AE4F27/1697530110/Fp_19DUgWHSsTDl4d7Z9v4obhD9N.png) *画像ソース:無制限のAIによって生成*40年間の全球気象データを使用し、200枚のGPUカードで事前トレーニングを行い、約2か月で、数億のパラメータを持つ大規模なパンゲア気象モデルがトレーニングされました。これは、清華大学を3年間卒業し、大きなモデルを訓練したBi Kaifengの物語です。ただし、コストの観点から、通常の状況では、GPUは7.8元/時間であり、BikaifengPangu気象モデルのトレーニングコストは200万を超える可能性があります。 これはまだ気象分野では垂直大型モデルであり、一般的な大規模モデルで学習すると、コストは100倍になる可能性があります。統計によると、中国には10億のパラメータを持つ100以上の大型モデルがあります。 しかし、業界の群がる大型モデル「Alchemy」は、ハイエンドGPUを見つけるのが難しいという問題に直面しています。 計算能力のコストは高く、計算能力と資金の不足は業界の前で最も直感的な問題になっています。  ## **ハイエンドGPU、どれだけ不足していますか? **  「いいえ、もちろん不足していますが、何ができますか。」 ある大規模工場の上級管理職は、計算能力が不足しているかどうか尋ねられたとき、ぼんやりと言いました。これは業界で認識されている未解決の問題になっているようで、ピーク時のNVIDIA A100の価格は20万元と推測されており、単一のA100サーバーの月額レンタル価格も月額50,000〜70,000に急騰しています。 しかし、それでも、高価格はまだチップを入手できない可能性があり、一部のコンピューティングパワーサプライヤーは、サプライヤーチケットのスキップなど、これまで遭遇するのが難しい奇妙な経験に遭遇しました。クラウドコンピューティング業界の幹部であるZhou Lijun氏も同様に、「コンピューティングパワーが不足しています。 ハイエンドのGPUリソースを求めるお客様は多くいらっしゃいますが、当面は幅広い市場のニーズに完全に応えられません。 "![](https://appserversrc.8btc.cn/Fg9bHJifvdE3KlrsFulrJlWnOap_) *A100を搭載したクラウドサービスプロバイダーの高性能コンピューティングクラスターは完売しました インターフェイス*ハイエンドGPUの不足は、短期的には業界で解決されていないことが判明しました。 大型モデルの発生により、コンピューティングパワーに対する市場の需要は急速に高まっていますが、供給の伸び率は追いついていません。 長期的には、コンピューティングパワーの供給は売り手市場から買い手市場に入ることは間違いありませんが、この時間にどれくらいの時間がかかるかは不明です。各企業は、手元にある「商品」(NVIDIA GPU)の数を計算しており、これを使用して市場シェアを判断しています。 たとえば、手札に10,000枚近くのカードがあり、市場が合計100,000枚のカードである場合、シェアは10%です。「年末までに約40,000人になり、市場が200,000人であれば、おそらく市場の20%になるでしょう。」 この問題に精通している人々が例を挙げました。一方では、カードを購入することはできませんが、他方では、大規模なモデルトレーニングのしきい値は、業界が焼くほど「始める」のは簡単ではありません。 上記のように、Bikaifeng Pangea気象モデルのトレーニングコストは200万を超える可能性があります。 ただし、BikaifengPangu気象モデルは、Pangu一般大規模モデルに基づいて訓練された垂直大型モデルであり、そのパラメータは数億であることに注意してください。 10億スケール以上のパラメータを持つ汎用の大規模モデルを学習する場合、コストは10倍または100倍になる可能性があります。「現在、最大の投資規模はトレーニングであり、数十億の設備投資がなければ、大規模なモデルを作り続けることは困難です。」 Tencent Groupのバイスプレジデント、クラウドおよびスマートインダストリービジネスグループのCOO、Tencent Cloudの社長であるQiu Yuepengが明らかにした。「少なくともお金が燃え尽きるまで、次の「資金調達」を得るために速く走ってください。」 ある起業家は、現在のビッグモデルの「戦争状況」を次のように説明しましたあなたがあなたの後ろに数百億ドルを持っていないなら、それは行くのが難しいです。 "このような状況では、業界共通の見解は、大型モデル市場での競争に伴い、市場も狂信的から合理的に変化し、企業もコストを管理し、予想される変化に合わせて戦略を調整するというものです。  ## **解決できない肯定的な反応**  条件がない場合は、条件を作成する必要があります-これは、ビッグモデルの参加者の間で大多数の考え方のようです。 そして、実際の問題に対処するための条件を作成する方法、各企業にも多くの方法があります。ハイエンドGPUチップが不足しており、中国市場で入手可能なGPUは最新世代ではないため、通常、パフォーマンスは低くなるため、企業は大規模なモデルのトレーニングに長い時間を必要とします。 これらの企業はまた、コンピューティング能力の不足を補うための革新的な方法を探しています。これを行う 1 つの方法は、トレーニングに高品質のデータを使用して、トレーニングをより効率的にすることです。最近、情報通信技術アカデミー(CAICT)は、大規模モデルのデータ層の評価について言及した「業界大規模モデル標準システムと容量アーキテクチャに関する研究報告書」のリリースを主導しました。 レポートでは、データ品質の面では、モデルの効果に大きな影響を与えるため、手動のラベル付けと確認を導入し、元のデータの少なくとも一定の割合を選択してラベル付けし、高品質のデータセットを構築して真剣に作成することをお勧めします。高品質のデータによる大規模モデルのコスト削減に加えて、業界向けには、インフラストラクチャ機能を向上させ、1000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000「クラウドサービスプロバイダーとして、私たちはお客様が安定した信頼性の高いインフラストラクチャを構築するのを支援します。 GPUサーバーカードの安定性が悪いため、障害が発生するとトレーニングが中断され、全体的なトレーニング時間が長くなります。 ハイパフォーマンス コンピューティング クラスターは、より安定したサービスを顧客に提供し、トレーニング時間を短縮し、コンピューティング能力の問題を解決できます。 周立軍は言った。同時に、コンピューティングパワーカードのリソーススケジューリングは、サービスプロバイダーの技術的能力もテストします。 Volcano Engineの華東インターネットソリューションの責任者であるXu Wei氏は、コンピューティングパワーカードリソースを持つことは1つの側面にすぎず、カードリソースをスケジュールして実際に使用する方法は、よりテストされたコア能力とエンジニアリング能力であるとTitanium Mediaに語った。 「カードを多くの小さなカードに分割し、分散して洗練されたスケジューリングを実現しようとすると、コンピューティング能力のコストをさらに削減できます。」 徐偉は言った。ネットワークは、大規模なモデルのトレーニングの速度と効率にも影響します。 大規模なモデルのトレーニングは、多くの場合、数千のカードであり、数百のGPUサーバーを接続するには、ネットワーク速度が非常に速く、ネットワークが少し混雑している場合、トレーニング速度は非常に遅く、効率は非常に影響を受けます。 「1台のサーバーが過熱してダウンする限り、クラスター全体を停止し、トレーニングタスクを再起動する必要があります。 これには、クラウドサービスのO&M機能とトラブルシューティング機能に対する非常に高い要件が必要です。 秋月鵬は言った。一部のベンダーは別の方法を見つけ、クラウドコンピューティングアーキテクチャからスーパーコンピューティングアーキテクチャへの移行は、ユーザーのニーズ、非高スループットコンピューティングタスク、並列タスクシナリオを満たす場合、スーパーコンピューティングクラウドはクラウドスーパーコンピューティングの約半分の価格であり、パフォーマンスの最適化により、リソース使用率を30%から60%に増やすことができます。さらに、一部のメーカーは、カードで見つけるのが難しいNVIDIAを置き換えるために、国内のプラットフォームを使用して大型モデルをトレーニングおよび推論することを選択しています。 「私たちはファーウェイと共同でiFLYTEK Sparkオールインワンマシンをリリースしました。これは、国内プラットフォームでトレーニングと推論を行うことができることは非常に注目に値します。 ファーウェイのGPU機能はNVIDIAと同じであり、Ren Zhengfeiはそれを非常に重要視しており、Huaweiの3人の取締役はiFLYTEKの特別クラスで働いており、NVIDIAのA100に匹敵するようになりました。 iFLYTEKの創設者兼会長であるLiu Qingfengはかつて言った。上記の各方法は比較的大規模なプロジェクトであるため、一般企業が自作のデータセンターを通じて会うことは困難であり、多くのアルゴリズムチームはサポートする最も専門的なコンピューティングパワーメーカーを選択します。 その中で、並列ストレージも大きなコストであり、技術的能力、対応する故障率の保証などもハードウェアコストの一部です。 もちろん、IDCの可用性エリアの電力コスト、ソフトウェア、プラットフォーム、人件費などの運用コストも考慮してください。キロカードレベルのGPUクラスターのみがスケール効果を持ち、コンピューティングパワーサービスプロバイダーを選択することは、限界費用がゼロであると言うことと同じです。中国工程院の学者であり、中国科学院コンピューティング技術研究所の研究者であるSun Ninghuiもスピーチで、AIGCは人工知能産業の勃発をもたらし、インテリジェント技術の大規模なアプリケーションは典型的なロングテールの問題、すなわち、強力なAI機能を備えた強力な部門(ネットワークセキュリティ、第9アカデミーの9つの研究所、気象局など)、科学研究機関、大企業は、コンピューティング電力需要の主要体の約20%しか占めておらず、残りの80%は中小企業です。 または、計算能力の高価格によって制限されたり、AI時代の波で開発配当を得ることは困難です。したがって、インテリジェント技術の大規模なアプリケーションを実現するために、人工知能産業は「称賛」と「称賛」の両方であり、中小企業も計算能力を便利かつ安価に使用できるように、安価で使いやすいインテリジェントなコンピューティングパワーが大量に必要です。大規模なモデルの計算能力に対する緊急の需要であろうと、計算能力の適用プロセスで解決する必要のあるさまざまな問題であろうと、注意を払う必要がある新しい変化は、計算能力が市場の需要と技術の反復の過程で新しいサービスモデルになったことです。  ## **コンピューティングパワーサービスの新しいモデルを探る**  私たちがつかんでいる大きなモデルの計算能力はどれくらいですか? この質問に答えるには、コンピューティングパワーサービスから始める必要があります。タイプに関しては、計算能力は一般的な計算能力、インテリジェント計算能力、スーパー計算能力に分けられ、これらの計算能力は、市場と技術の二重の推進の結果であるサービスになっています。「2023年型計算能力サービス白書」(以下「白書」)における計算能力サービスの定義は、多様な計算能力を基盤とし、計算能力ネットワークによってリンクされ、効果的な計算能力を提供することを目的とした計算能力産業の新しい分野です。コンピューティングパワーサービスの本質は、新しいコンピューティングテクノロジーを通じて異種コンピューティングパワーの統一された出力を実現し、クラウド、ビッグデータ、AIなどのテクノロジーと相互統合することです。 コンピューティングパワーサービスにはコンピューティングパワーだけでなく、コンピューティングパワー、ストレージ、ネットワーク、その他のリソースの統合カプセル化であり、コンピューティングパワーの提供はサービス(APIなど)の形で完了します。これを理解すると、NVIDIAチップを取得する際に、それらの大部分はコンピューティング電力サービスプロバイダー、つまりコンピューティングパワープロデューサーであることがわかります。 フロントエンドでコンピューティングパワーAPIを実際に呼び出す業界ユーザーは、対応するコンピューティングパワー要件を提示するだけで済みます。Titanium Media Appによると、ソフトウェア側の観点から、ソフトウェアの相互作用で使用されるすべての大規模モデルは、最初の大規模モデルAPI呼び出しの3つのタイプに分けられ、各ファミリには価格決済に応じて見積もりがあります。 2つ目は、小さなモデルを所有したり、自分でコンピューティングパワーを購入したり、自分で展開したりすることです。 第三に、大規模なモデルベンダーはクラウドベンダー、つまり専用クラウドと協力し、毎月支払います。 「一般的に、これらは3つであり、Kingsoft Officeは現在主にAPI呼び出しを使用しており、内部の小規模モデルは独自のコンピューティングパワースケジューリングプラットフォームを作成しています。」 Kingsoft OfficeのYao Dong副社長はTitanium Media Appに語った。![](https://appserversrc.8btc.cn/FnjR8ARycfmwdqVbGSI1dFjCBI51) ハッシュレート業界チェーン構造図、出典:中国情報通信技術アカデミー言い換えれば、コンピューティングパワー構造産業チェーンでは、上流企業は主に、一般的なコンピューティングパワー、インテリジェントコンピューティングパワー、スーパーコンピューティングパワー、ストレージ、ネットワークなどのコンピューティングパワーサービスのサポートリソースの供給を完了します。 たとえば、大規模モデルのコンピューティングパワーをめぐる戦いでは、NVIDIAはチップを供給するために業界に上流のコンピューティングパワーの基本リソースを供給しており、Inspur Informationなどのサーバーメーカーの在庫の上昇も市場の需要の影響を受けています。中流企業は主にクラウドサービスプロバイダーと新しいコンピューティングパワーサービスプロバイダーであり、その役割は主に、コンピューティングパワーオーケストレーション、コンピューティングパワースケジューリング、およびコンピューティングパワートレーディングテクノロジーを通じてコンピューティングパワーの生産を実現し、APIを介してコンピューティングパワーの供給を完了することです。 上記のコンピューティングパワーサービスプロバイダー、テンセントクラウド、およびボルケーノエンジンはすべてこのリンクにあります。 中流企業にサービスを提供するコンピューティング能力のサービス指向能力が強いほど、アプリケーション側のしきい値が低くなり、コンピューティング能力の包括的でユビキタスな開発に役立ちます。ダウンストリーム企業は、コンピューティングパワーサービスによって提供されるコンピューティングパワーに依存して、業界ユーザーなどの付加価値サービスを生成および製造します。 ユーザーのこの部分は、要求を提示するだけでよく、計算能力プロデューサーは、ユーザーが発行した「計算能力タスク」を完了するために、要求に応じて対応する計算能力を構成します。これには、大規模なモデルのコンピューティングパワー環境を構築するためのサーバーの最初の購入よりも多くのコストと技術的な利点があります。 Bi Kaifengの盤古気象ビッグモデルのトレーニングは、盤古モデルの基礎となる層、つまりHUAWEI CLOUDの高性能コンピューティングサービスを直接呼び出す必要があるため、他の大規模モデル企業のプロセスは計算能力を使用したり、計算能力にお金を払ったりしますか?  ## **コンピューティングパワービジネスモデルの反復**  ChatGLMは、Zhipu AIのChatGLMコンピューティングパワーを例にとり、一般的な大型モデルの最初のバッチであり、公開されている情報によると、ChatGLM AIは中国の多くの主流のAIコンピューティングパワーサービスプロバイダーを使用しています。 「理論的には、すべてが役立つはずです。」 この問題に精通している人々は、これには国内の主流のコンピューティングパワーサービスプロバイダー/クラウドサービスプロバイダーも含まれる可能性があると述べました。従量課金制と月次課金は、現在のコンピューティングパワーサービスの主流モードであり、使用要件には大まかに2種類あり、1つは対応するコンピューティングパワーサービスインスタンスを選択することであり、クラウドサービスプロバイダーの公式Webサイトインターフェイスでは、NVIDIA A800、A100、V100の3つの主流グラフィックカードを搭載した高性能GPUサーバーを提供できます。![](https://appserversrc.8btc.cn/FjyuAMtiFpB6-NSl4kxNzIrgQiAy) *コンピューティングサービスプロバイダーが提供する高性能コンピューティングGPUグラフィックスカードの種類*もう一つは、対応するMaaSサービスプラットフォームを選択し、MaaSプラットフォームでラージモデルを微調整することです。 Tencent Cloud TI-ONEプラットフォームの従量課金制の公開価格を例にとると、8C40G V100\*1の構成は1時間あたり20.32元で、自動学習ビジョン、タスクベースモデリング、ノートブック、ビジュアルモデリングに使用できます。現在、業界はコンピューティングパワーサービスの「コンピューティングとネットワークの統合」も推進しており、コンピューティングタスク、コンピューティングネットワークリソースのステータス、およびその他の情報を包括的に判断することにより、クロスアーキテクチャ、クロスリージョン、およびクロスサービスプロバイダーのスケジューリングをサポートできるコンピューティングネットワークオーケストレーションスキームが形成され、関連するリソースの展開が完了します。 たとえば、お金を節約して計算能力ネットワークに預ける限り、計算能力ネットワーク内のパーティションを自由に呼び出すことができますアプリケーションの特性に応じて、最適なパーティション、最速のパーティション、および最も費用効果の高いパーティションを選択し、期間に応じて充電し、事前に入金された資金から料金を差し引きます。クラウドサービスプロバイダーについても同じことが言え、クラウドサービスのユニークな製品として、コンピューティングパワー業界チェーンに迅速に参加できます。工業情報化部のデータによると、中国の計算能力の総規模は2022年に180EFLOPSに達し、世界第2位にランクされます。 2022年の時点で、中国のコンピューティングパワー産業の規模は1.8兆に達しています。 大規模モデルのコンピューティングパワーは、コンピューティングパワー業界の発展を大幅に加速させました。1つのことわざは、現在のコンピューティングパワーサービスは、実際には新しいタイプの「電気販売」モデルであるということです。 ただし、分業の違いに応じて、一部のコンピューティングサービスプロバイダーは、ユーザーがより多くのシステムパフォーマンスのデバッグ、ソフトウェアのインストール、大規模なジョブ操作義務および操作特性分析、つまりラストマイルの運用および保守作業の一部を行うのを支援する必要がある場合があります。大規模モデルの高性能コンピューティング需要の正常化に伴い、クラウドサービスから生まれたコンピューティングパワーサービスは、すぐに一般の人々の視野に入り、独自の産業チェーンとビジネスモデルを形成しています。 大型モデルによるコンピューティングパワー業界の勃発の初めに、ハイエンドGPUの不足、コンピューティングパワーの高コスト、および「コア」の獲得がこの時代に属する独特の風景を形成しただけです。「この段階では、量はサプライチェーンで誰がカードを入手できるかであり、NVIDIAは現在業界全体の王様であり、すべての市場はそれによって制御されており、これが現状です。」 この問題に精通している人々はコメントしました。 それはまるで、需要が供給を上回ったときに、カードを手に入れた人が誰でもビジネスを提供できるかのようです。しかし、不足は一時的なものであり、問題は常に解決されるため、誰もが「カード」をつかんでいるわけではありません。 「長期的な研究をしている人は、実際にそれをつかむのではなく、死なないので待ってください現在、カードをつかんでいるスタートアップのグループしかなく、彼らは来年まで生き残ることができるようにしたいと考えています。 その人は言った。多くの不確実性の中で、コンピューティングパワーがサービスになるのは明確な傾向であり、コンピューティングパワーサービスプロバイダーがすべきことは、ビッグモデルが合理性に戻り、市場の風が急速に変化したときに予防策を講じる準備をすることです。注:インタビュー対象者の要請により、周立軍は仮名です。**(この記事はチタンメディアAPPを最初に公開しました)**