潜在的なトラックプレビュー:分散型コンピューティングパワー市場(パートI)

ジーク、YBBキャピタル

はじめに

GPT-3の誕生以来、ジェネレーティブAIは、その驚くべき性能と幅広いアプリケーションシナリオにより、人工知能の分野に爆発的な変曲点をもたらし、テクノロジーの巨人はグループでAIの分野に飛び込み始めています。 ただし、大規模言語モデル(LLM)のトレーニングと推論の操作には多くの計算能力が必要であり、モデルの反復的なアップグレードにより、計算能力の需要とコストが指数関数的に増加します。 GPT-2とGPT-3を例にとると、GPT-2とGPT-3のパラメータ数の差は1,166倍(GPT-2は1億5000万パラメータ、GPT-3は1,750億パラメータ)であり、GPT-3のコストは当時のパブリックGPUクラウドの価格モデルに基づくと、GPT-2の200倍となる最大1,200万ドルに達する可能性があります。 実際の使用プロセスでは、ユーザーの各質問を推測して計算する必要があり、今年初めの1,300万人のユニークユーザーの状況に応じて、対応するチップの需要は30,000個以上A100GPU。 初期費用は8億ドルという驚異的な額になり、モデル推論には1日あたり70万ドルかかると推定されます。

コンピューティング能力の不足と高コストはAI業界全体の問題になっていますが、ブロックチェーン業界にも同じ問題があるようです。 一方では、ビットコインの第4半減期とETFの通過が近づいており、将来的に価格が上昇するにつれて、マイナーによるコンピューティングハードウェアの需要は必然的に大幅に増加します。 一方、「ゼロ知識証明」(ZKP)技術は活況を呈しており、ヴィタリック氏は、今後10年間のZKがブロックチェーン空間に与える影響は、ブロックチェーン自体と同じくらい重要であると繰り返し強調しています。 この技術の将来はブロックチェーン業界で非常に期待されていますが、ZKは複雑な計算プロセスのために、AIのような証明を生成するプロセスに多くの計算能力と時間を消費します。

近い将来、コンピューティングパワーの不足は避けられませんが、分散型コンピューティングパワー市場は良いビジネスになるのでしょうか?

分散型コンピューティング市場の定義

分散型コンピューティングパワー市場は、実際には基本的に分散型クラウドコンピューティングトラックに相当しますが、分散型クラウドコンピューティングと比較すると、後述する新しいプロジェクトを説明するのにこの用語の方が適切であると個人的には考えています。 分散型コンピューティングパワー市場は、DePIN(分散型物理インフラストラクチャネットワーク)のサブセットに属するべきであり、その目標は、トークンインセンティブを通じてオープンなコンピューティングパワー市場を創造し、アイドル状態のコンピューティングリソースを持つ誰もがこの市場でリソースを提供できるようにし、主にBエンドユーザーと開発者コミュニティにサービスを提供することです。 分散型GPUに基づくレンダリングソリューションのネットワークであるRender Networkや、クラウドコンピューティング用の分散型ピアツーピアマーケットプレイスであるAkash Networkなどの有名なプロジェクトがこのトラックに属しています。

以下では、基本的な概念から始めて、トラックの3つの新興市場、AGIコンピューティングパワー市場、ビットコインコンピューティングパワー市場、およびZKハードウェアアクセラレーション市場のAGIコンピューティングパワー市場について説明し、後者の2つについては「潜在的なトラックプレビュー:分散型コンピューティングパワー市場(パートII)」で説明します。

ハッシュレートの概要

計算能力の概念の起源はコンピューターの発明にまでさかのぼることができ、元のコンピューターは計算タスクを完了するための機械装置であり、計算能力は機械装置の計算能力を指します。 コンピュータ技術の発展に伴い、計算能力の概念も進化し、現在では、計算能力は通常、コンピュータハードウェア(CPU、GPU、FPGAなど)とソフトウェア(オペレーティングシステム、コンパイラ、アプリケーションなど)が連携する能力を指します。

定義

計算能力とは、コンピューターまたはその他のコンピューティングデバイスが処理できるデータの量、または一定期間内に完了できる計算タスクの数を指します。 ハッシュレートは、コンピュータやその他のコンピューティングデバイスのパフォーマンスを表すためによく使用され、コンピューティングデバイスの処理能力の重要な尺度です。

メトリクス

計算能力は、計算速度、計算エネルギー消費、計算精度、並列処理など、さまざまな方法で測定できます。 コンピュータ分野では、FLOPS(浮動小数点演算/秒)、IPS(命令数/秒)、TPS(トランザクション/秒)など、一般的に使用される計算能力指標があります。

FLOPS(Floating-Point Operations Per Second)とは、浮動小数点演算(精度や丸め誤差などの問題を考慮した小数点数に対する数学演算)をコンピュータが処理する能力を指し、コンピュータが1秒間に実行できる浮動小数点演算の数を測定します。 FLOPSは、コンピューターの高性能計算能力の尺度であり、スーパーコンピューター、高性能コンピューティングサーバー、グラフィックスプロセッシングユニット(GPU)などの計算能力を測定するために一般的に使用されます。 たとえば、コンピューター システムの FLOPS は 1 TFLOPS (1 秒あたり 1 兆回の浮動小数点演算) で、これは 1 秒あたり 1 兆回の浮動小数点演算を完了できることを意味します。

IPS(Instructions Per Second)とは、コンピュータが命令を処理する速度のことで、コンピュータが1秒間に実行できる命令数を測定します。 IPSは、コンピュータの単一命令性能の尺度であり、中央演算処理装置(CPU)などの性能を測定するためによく使用されます。 たとえば、IPS が 3 GHz の CPU (毎秒 3 億命令を実行できる) は、毎秒 3 億命令を実行できることを意味します。

TPS(Transactions Per Second)とは、コンピューターがトランザクションを処理する能力を指し、コンピューターが1秒間に完了できるトランザクションの数を測定します。 これは、データベースサーバーのパフォーマンスを測定するためによく使用されます。 たとえば、TPS が 1000 のデータベース サーバーは、毎秒 1000 のデータベース トランザクションを処理できることを意味します。

さらに、推論速度、画像処理速度、音声認識精度など、特定のアプリケーション シナリオ向けの計算能力インジケーターがいくつかあります。

ハッシュレートの種類

GPU コンピューティング能力とは、グラフィックス処理ユニットのコンピューティング能力を指します。 GPUは、CPU(中央処理装置)とは異なり、画像や動画などのグラフィックデータを処理するために特別に設計されたハードウェアであり、多数の処理ユニットと効率的な並列計算能力を備えているため、多数の浮動小数点演算を同時に実行できます。 GPU はもともとゲームのグラフィックス処理に使用されていたため、通常、複雑なグラフィックス操作をサポートするために CPU よりも高いクロック周波数とメモリ帯域幅を備えています。

CPUとGPUの違い

アーキテクチャ:CPUとGPUのコンピューティングアーキテクチャは異なります。 通常、CPU には 1 つ以上のコアがあり、各コアはさまざまな操作を実行できる汎用プロセッサです。 一方、GPU には多数のストリーム プロセッサとシェーダーがあり、画像処理に関連する操作の実行に特化しています。

並列コンピューティング: GPU は通常、より高い並列コンピューティング機能を備えています。 CPUはコア数が限られており、1コアにつき1つの命令しか実行できませんが、GPUは数千のストリームプロセッサを搭載し、複数の命令や演算を同時に実行することができます。 その結果、GPUは一般的にCPUよりも、多くの並列計算を必要とする機械学習や深層学習などの並列計算タスクの実行に適しています。

プログラミング: GPU プログラミングは CPU よりも複雑であり、GPU の並列計算能力を利用するには、特定のプログラミング言語 (CUDA や OpenCL など) の使用と特定のプログラミング手法の使用が必要です。 対照的に、CPUはプログラミングが簡単で、一般的なプログラミング言語とプログラミングツールを使用できます。

計算能力の重要性

産業革命の時代、石油は世界の血液であり、あらゆる産業に浸透していました。 コンピューティングパワーはブロックチェーンにあり、これからのAI時代には、コンピューティングパワーが世界の「デジタルオイル」になるでしょう。 大手企業がAIチップに殺到し、エヌビディアの株価が1兆株を超えたという事実から、最近の米国による中国でのハイエンドチップの封鎖、計算能力の規模、チップ面積、さらにはGPUクラウドを禁止する計画まで、その重要性は自明であり、計算能力は次の時代の商品になるでしょう。

! 潜在的なトラックプレビュー:分散型コンピューティングパワー市場(パートI)

汎用人工知能の概要

人工知能(AI)は、人間の知能をシミュレート、拡張、拡張するための理論、方法、技術、およびアプリケーションシステムを研究および開発する新しい技術科学です。 20世紀の50年代から60年代にかけて誕生し、半世紀以上の進化を経て、象徴主義、コネクショニズム、アクターの3つの波が絡み合った発展を遂げてきました。 ジェネレーティブAIのより具体的な定義は、汎用人工知能(AGI)であり、さまざまなタスクや領域で人間と同等またはそれ以上の知能を実行できる幅広い理解を持つAIシステムです。 汎用人工知能は、基本的にディープラーニング(DL)、ビッグデータ、大規模計算能力の3つの要素から構成する必要があります。

ディープラーニング

ディープラーニングは機械学習(ML)のサブフィールドであり、ディープラーニングアルゴリズムは人間の脳をモデルにしたニューラルネットワークです。 たとえば、人間の脳には、情報を学習して処理するために連携する何百万もの相互接続されたニューロンが含まれています。 同様に、ディープラーニングニューラルネットワーク(または人工ニューラルネットワーク)は、コンピューター内で連携して動作する人工ニューロンの複数の層で構成されています。 人工ニューロンは、数学的計算を使用してデータを処理するノードと呼ばれるソフトウェアモジュールです。 人工ニューラルネットワークは、これらのノードを使用して複雑な問題を解決するディープラーニングアルゴリズムです。

! 潜在的なトラックプレビュー:分散型コンピューティングパワー市場(パートI)

ニューラルネットワークは、入力層、隠れ層、出力層に分けることができ、パラメータは異なる層間で接続されています。

入力層: 入力層はニューラルネットワークの最初の層であり、外部入力データの受信を担当します。 入力層の各ニューロンは、入力データの特徴に対応します。 例えば、画像データを処理する場合、各ニューロンは、画像の1つの画素値に対応し得る。

隠れ層: 入力層はデータを処理し、ニューラル ネットワーク内のより遠い層に渡します。 これらの隠れ層は、さまざまなレベルで情報を処理し、新しい情報を受信すると動作を調整します。 深層学習ネットワークには、さまざまな角度から問題を分析するために使用できる何百もの隠れ層があります。 たとえば、分類する必要がある未知の動物の画像が与えられた場合、それをすでに知っている動物と比較できます。 たとえば、耳の形、足の数、瞳孔の大きさによって、それがどのような動物であるかを判断できます。 ディープニューラルネットワークの隠れ層も同様に機能します。 深層学習アルゴリズムが動物の画像を分類しようとすると、その隠れ層のそれぞれが動物のさまざまな特徴を処理し、正確に分類しようとします。

出力層: 出力層はニューラルネットワークの最後の層であり、ネットワークの出力を生成する役割を担います。 出力層の各ニューロンは、可能な出力クラスまたは値を表します。 たとえば、分類問題では、各出力層のニューロンがカテゴリに対応する場合がありますが、回帰問題では、出力層には、値が予測結果を表すニューロンが 1 つだけある場合があります。

パラメーター: ニューラル ネットワークでは、異なるレイヤー間の接続は [重み] パラメーターと [バイアス] パラメーターで表され、ネットワークがパターンを正確に識別してデータ内の予測を行えるようにトレーニング中に最適化されます。 パラメータの増加は、ニューラルネットワークのモデル容量、つまり、データ内の複雑なパターンを学習して表現するモデルの能力を高めることができます。 ただし、パラメータの増加により、コンピューティング能力の需要が増加します。

ビッグデータ

ニューラルネットワークを効果的にトレーニングするために、多くの場合、多様で高品質で複数のソースを持つ大量のデータが必要です。 これは、機械学習モデルのトレーニングと検証の基盤です。 ビッグデータを分析することで、機械学習モデルはデータのパターンと関係を学習し、予測や分類を行うことができます。

膨大な計算能力

ニューラルネットワークの多層複雑構造、多数のパラメータ、ビッグデータ処理の必要性、反復学習方法(学習段階では、モデルを繰り返し反復する必要があり、活性化関数の計算、損失関数の計算、勾配の計算、重みの更新など、学習プロセス中に各層の順伝播と逆伝播を計算する必要があります)、高精度コンピューティングの必要性、並列計算能力、最適化および正則化技術、およびモデルの評価および検証プロセス、これらすべてが、高い計算能力の要求につながります。 AGIの大規模計算能力に対する要求は、毎年約10倍に増加しています。 これまでのところ、最新モデルのGPT-4には1兆8,000億個のパラメータが含まれており、1回のトレーニングコストは6,000万米ドル以上で、必要な計算能力は2.15e25 FLOPS(21,500兆の浮動小数点計算)です。 次のモデルトレーニングのためのコンピューティングパワーの需要は依然として拡大しており、新しいモデルも増加しています。

AIコンピューティングの経済性

将来の市場規模

IDC(International Data Corporation)とInspur Information、清華大学グローバル産業研究院が共同でまとめた「2022-2023 Global Computing Power Index Evaluation Report」は、最も権威のある推定値によると、 AIコンピューティングの世界市場規模は、2022年の195億ドルから2026年には346億6000万ドルに成長し、ジェネレーティブAIコンピューティングの市場規模は2022年の8億2000万ドルから2026年には109億9000万ドルに成長すると予測されています。 ジェネレーティブAIコンピューティングは、AIコンピューティング市場全体の4.2%から31.7%に成長する見込みです。

! 潜在的なトラックプレビュー:分散型コンピューティングパワー市場(パートI)

計算能力の経済的独占

AI GPUの生産はNVIDAが独占しており、非常に高価であり(最新のH100はチップあたり4万ドルで販売されています)、GPUはリリースされるとすぐにシリコンバレーの巨人に急襲され、これらのデバイスの一部は独自の新しいモデルのトレーニングに使用されます。 もう一つは、Google、Amazon、Microsoftのクラウドコンピューティングプラットフォームなど、サーバー、GPU、TPUなどの多数のコンピューティングリソースを使いこなすクラウドプラットフォームを通じて、AI開発者にリースされています。 コンピューティングパワーは巨人が独占する新たな資源となり、多くのAI関連開発者はマークアップなしでは専用GPUを買うことすらできず、最新の機器を利用するためにはAWSやMicrosoftのクラウドサーバーを借りるしかありません。 財務報告によると、この事業は非常に高い利益を上げており、AWSのクラウドサービスの粗利益率は61%、Microsoftの粗利益率は72%と高くなっています。

! 潜在的なトラックプレビュー:分散型コンピューティングパワー市場(パートI)

では、この中央集権的な権限と制御を受け入れ、コンピューティングリソースに利益の72%を支払う必要があるのでしょうか? Web2を独占する巨人は、次の時代を独占するのでしょうか?

分散型汎用人工知能の計算能力の問題

独占禁止法に関しては、通常、分散化が最適なソリューションであり、既存のプロジェクトから、DePINのストレージプロジェクトやRDNRなどのアイドルGPUを通じて、AIが必要とする大規模なコンピューティングパワーを実現するためにプロトコルを使用できますか? 答えはノーで、ドラゴンを倒すまでの道のりはそれほど単純ではなく、初期のプロジェクトは汎用人工知能のコンピューティングパワーのために特別に設計されたものではなく、実現不可能であり、コンピューティングパワーは少なくとも次の5つの課題に直面する必要があります。

  1. 作業の検証: 真にトラストレスなコンピューティング ネットワークを構築し、参加者に金銭的インセンティブを提供するには、ディープ ラーニングの計算作業が実際に実行されていることを確認する方法が必要です。 この問題の核心にあるのは、深層学習モデルの状態依存性です。 深層学習モデルでは、各層の入力は前の層の出力に依存します。 つまり、モデル内の 1 つのレイヤーだけを検証しても、その前のすべてのレイヤーを考慮することはできません。 各レイヤーの計算は、その前のすべてのレイヤーの結果に基づきます。 したがって、特定のポイント(特定のレイヤーなど)で行われた作業を検証するには、モデルの先頭からその特定のポイントまでのすべての作業を実行する必要があります。

2.市場:新興市場であるAIコンピューティングパワー市場は、コールドスタートの問題などの需要と供給のジレンマにさらされており、市場が成功裏に成長するためには、最初から需要と供給の流動性を大まかに一致させる必要があります。 ハッシュパワーの潜在的な供給量を獲得するためには、参加者にハッシュリソースと引き換えに明示的な報酬を提供する必要があります。 マーケットプレイスには、行われた計算作業を追跡し、対応する料金をタイムリーにプロバイダーに支払うメカニズムが必要です。 従来の市場では、仲介業者が管理やオンボーディングなどのタスクを処理し、最低支払い額を設定することで運用コストを削減します。 ただし、このアプローチは、市場を拡大する際によりコストがかかります。 経済的に効果的に捕捉できる供給はごく一部であり、市場が限られた供給しか捕捉・維持できず、それ以上成長できない閾値均衡状態になります。

3.ダウンタイム問題:ダウンタイム問題は、計算理論の基本的な問題であり、特定の計算タスクが有限時間で完了するか、または決して停止しないかを判断することが含まれます。 この問題は解決不可能であり、すべての計算タスクが有限時間内に停止するかどうかを予測できる普遍的なアルゴリズムはありません。 例えば、イーサリアムでは、スマートコントラクトの実行が同様のダウンタイムに直面しています。 つまり、スマートコントラクトの実行にどれだけのコンピューティングリソースが必要になるか、またはスマートコントラクトが妥当な時間内に完了するかどうかを事前に判断することは不可能です。

(深層学習のコンテキストでは、モデルとフレームワークが静的なグラフ構築から動的な構築と実行に切り替わるため、この問題はより複雑になります。 )

4.プライバシー:プライバシー意識の設計と開発は、プロジェクトチームにとって必須です。 公開されているデータセットに対して大量の機械学習研究を実行できますが、モデルのパフォーマンスを向上させ、特定のアプリケーションに適合させるためには、独自のユーザーデータでモデルを微調整する必要があることがよくあります。 この微調整プロセスには個人データの処理が含まれる場合があるため、プライバシーシールドの要件を考慮する必要があります。

5.並列化:これは現在のプロジェクトの実現可能性の重要な要素であり、ディープラーニングモデルは、独自のアーキテクチャと非常に低いレイテンシーを備えた大規模なハードウェアクラスターで並列にトレーニングされることがよくありますが、分散コンピューティングネットワークのGPUは、レイテンシーを導入するために頻繁なデータ交換を必要とし、最もパフォーマンスの低いGPUによって制限されます。 信頼性の低い、信頼性の低い計算電源の場合、ヘテロジニアス並列化をどうするかが解決しなければならない問題であり、現在実現可能な方法は、現在高い並列化の特性を持つスイッチトランスなどのトランスモデルによる並列化を実現することです。

解決策:分散型AGIコンピューティングパワー市場における現在の試みはまだ初期段階にありますが、モデルのトレーニングと推論において、分散型ネットワークのコンセンサス設計と分散型コンピューティングネットワークの実装プロセスを予備的に解決した2つのプロジェクトがあります。 以下では、GensynとTogetherを例に、分散型AGIコンピューティングパワー市場の設計手法と問題点を分析します。

再会

! 潜在的なトラックプレビュー:分散型コンピューティングパワー市場(パートI)

Gensynは、まだ構築段階にあるAGIコンピューティングパワーのマーケットプレイスであり、分散型ディープラーニングコンピューティングの複数の課題を解決し、今日のディープラーニングのコストを削減することを目的としています。 Gensynは基本的に、Polkadotネットワークに基づくレイヤー1プルーフオブステークプロトコルであり、計算用のアイドルGPUデバイスと引き換えに、スマートコントラクトを通じてソルバー(ソルバー)に直接報酬を与え、機械学習タスクを実行します。

さて、上記の質問に戻りますが、真にトラストレスなコンピューティングネットワークを構築するための核心は、これまでに行われた機械学習の作業を検証することです。 これは非常に複雑な問題であり、複雑性理論、ゲーム理論、暗号学、最適化の交差点でバランスを見つける必要があります。

Gensynは、ソルバーが完了した機械学習タスクの結果を提出するというシンプルなソリューションを提案しています。 これらの結果が正確であることを確認するために、別の独立したバリデーターが同じ作業を再試行します。 このメソッドは、1 つのバリデーターのみが再実行されるため、単一レプリケーションと呼ぶことができます。 これは、元の作業の正確性を検証するための追加の作業が 1 つだけあることを意味します。 ただし、作業を検証する担当者が元のジョブの要求者でない場合は、信頼の問題が残ります。 なぜなら、バリデーター自身が正直ではない可能性があり、彼らの仕事は検証される必要があるからです。 これは、作品を検証する人が元の作品の要求者ではない場合、その作品を検証するために別のバリデーターが必要になるという潜在的な問題につながります。 しかし、この新しいバリデーターは信頼できない可能性があるため、作業を検証するために別のバリデーターが必要であり、それは永遠に続き、無限の複製チェーンを形成する可能性があります。 ここでは、3つの重要な概念を紹介し、それらを織り交ぜて、無限連鎖問題を解決するための4つの役割参加システムを構築する必要があります。

確率的学習の証明: 勾配ベースの最適化プロセスのメタデータを使用して、作業完了の証明書を作成します。 特定のステージをレプリケートすることで、これらの証明書をすばやく検証し、作業がスケジュールどおりに完了したことを確認できます。

グラフベースのピンポイントプロトコル:マルチグラニュラリティのグラフベースのピナクルプロトコルと、クロスエバリュエーターの一貫した実行を使用します。 これにより、検証作業を再実行して比較し、一貫性を確保し、最終的にブロックチェーン自体で確認することができます。

Truebitスタイルのインセンティブゲーム:ステーキングとスラッシングを使用して、すべての経済的に健全な参加者が正直に行動し、意図したタスクを実行することを保証するインセンティブゲームを構築します。

コントリビューターシステムは、コミッター、ソルバー、バリデーター、内部告発者で構成されています。

提出者:

実行依頼者はシステムのエンド・ユーザーであり、計算されるタスクを提供し、完了した作業単位に対して支払います。

ソルバ:

ソルバーはシステムの主要なワーカーであり、モデルのトレーニングを実行し、バリデーターによってチェックされる証明を生成します。

検証:

検証器は、非決定論的学習プロセスを決定論的線形計算にリンクし、ソルバーの証明の一部を複製し、予想されるしきい値までの距離を比較するための鍵です。

内部告発者:

内部告発者は最後の砦であり、バリデーターの作業をチェックし、有利なボーナスの支払いを期待して異議を唱えます。

システムが動作している

このプロトコルは、4つの主要な参加者の役割をカバーする8つのフェーズで構成されるゲームシステムで動作するように設計されており、タスクの提出から最終検証までの完全なプロセスを完了するために使用されます。

  1. タスクの提出: タスクは、次の 3 つの特定の情報で構成されます。

*タスクとハイパーパラメータを記述するメタデータ。

  • モデルバイナリ (または基本スキーマ)
  • 一般に公開され、前処理されたトレーニングデータ。
  1. タスクを送信するために、送信者はタスクの詳細を機械可読形式で指定し、モデルバイナリ(または機械可読スキーマ)と前処理されたトレーニングデータのパブリックアクセス可能な場所とともにチェーンに送信します。 公開されたデータは、AWS S3などのシンプルなオブジェクトストアや、IPFS、Arweave、Subspaceなどの分散型ストレージに保存できます。

3.プロファイリング:分析プロセスは、証明を検証するための学習のためのベースライン距離のしきい値を決定します。 バリデーターは、定期的に分析タスクをスクレイピングし、学習証明比較のための変動しきい値を生成します。 閾値を生成するために、バリデーターは異なるランダムシードを使用して、トレーニングの一部を確定的に実行および再実行し、独自の証明を生成してチェックします。 このプロセス中に、バリデーターは、解を検証するための非決定論的な作業として使用できる全体的な予想距離のしきい値を設定します。

4.トレーニング:分析後、タスクはパブリックタスクプール(イーサリアムのMempoolと同様)に入ります。 タスクを実行するソルバーを選択し、タスクプールからタスクを削除します。 ソルバーは、送信者から送信されたメタデータと、提供されたモデルとトレーニング データに基づいてタスクを実行します。 また、学習タスクを実行する際、ソルバーは、検証者が次の最適化手順を可能な限り正確に再現できるように、学習プロセスからのメタデータ(パラメータを含む)を定期的にチェックして保存することで、学習の証明も生成します。

  1. プルーフの生成: ソルバーは、モデルの重みまたは更新と、それに対応するインデックスをトレーニングデータセットとともに定期的に保存し、重みの更新の生成に使用されるサンプルを識別します。 チェックポイントの頻度を調整して、保証性を高めたり、ストレージ・スペースを節約したりできます。 証明は「積み重ね」ることができ、証明は重みの初期化に使用される重みのランダムな分布から開始することも、独自の証明を使用して生成された事前トレーニング済みの重みから開始することもできます。 これにより、プロトコルは、より具体的なタスクに合わせて微調整できる、実績のある事前トレーニング済みのベースモデル(つまり、ベースモデル)のセットを構築できます。

  2. 証明の検証:タスクが完了すると、ソルバーはタスクをチェーンに登録し、バリデーターがアクセスできるように一般にアクセス可能な場所に学習の証明を表示します。 バリデーターは、共通タスクプールから検証タスクをプルし、計算作業を実行して証明の一部を再実行し、距離計算を実行します。 チェーンは(分析フェーズ中に計算されたしきい値とともに)結果の距離を使用して、検証が証明と一致するかどうかを判断します。

7.グラフベースのピンポイントチャレンジ:学習証明を検証した後、内部告発者はバリデータの作業をコピーして、検証自体が正しく実行されていることを確認できます。 内部告発者は、検証が誤って行われた(悪意があるか、悪意がない)と考える場合、契約定足数に異議を申し立てて報酬を受け取ることができます。 この報酬は、ソルバーやバリデーターからの入金(真に陽性の場合)、または宝くじ保管庫の賞金プール(偽陽性の場合)から得ることができ、仲裁はチェーン自体を使用して行われます。 内部告発者(バリデーター)は、適切な報酬が期待できる場合にのみ、その作業を検証し、その後異議を唱えます。 実際には、これは、内部告発者が他の活動(つまり、ライブデポジットとチャレンジ)で内部告発者の数に基づいてネットワークに参加および離脱することが期待されていることを意味します。 したがって、内部告発者に期待されるデフォルトの戦略は、他の内部告発者が少ないときにネットワークに参加し、デポジットを投稿し、アクティブなタスクをランダムに選択し、検証プロセスを開始することです。 最初のタスクが終わった後、彼らは別のランダムなアクティブなタスクを取得し、内部告発者の数が決定された支払いしきい値を超えるまで繰り返し、状況が再び逆転するまでネットワークを離れます(または、ハードウェアの能力に応じて、ネットワーク内の別の役割(バリデーターまたはソルバーに移動する可能性が高くなります)。

  1. 契約仲裁:バリデーターが内部告発者から異議を申し立てられた場合、バリデーターはチェーンとのプロセスに入り、争われているアクションやインプットがどこにあるかを確認し、最後にチェーンが最終的な基本操作を行い、異議申し立てが正当化されるかどうかを判断します。 内部告発者を正直で信頼できる存在に保ち、バリデーターのジレンマを克服するために、ここでは定期的な強制エラーとジャックポットペイアウトを紹介します。

  2. 決済:決済プロセス中、参加者は確率と確実性の確認の結果に基づいて支払われます。 以前の検証とチャレンジの結果に応じて、シナリオごとに異なる支払いがあります。 作業が正しく実行され、すべてのチェックに合格した場合、ソリューションプロバイダーとバリデーターは、実行されたアクションに基づいて報酬を受け取ります。

プロジェクトの簡単なレビュー

Gensynは、検証層とインセンティブ層で素晴らしいゲームシステムを設計しており、ネットワーク内の分岐点を見つけることでエラーをすばやく特定できますが、現在のシステムではまだ多くの詳細が欠落しています。 たとえば、閾値が高すぎず、報酬と罰が妥当であることを保証するためのパラメーターをどのように設定するか。 ゲームは、極端なケースとソルバーの計算能力の違いを考慮していますか? 現在の白書には異種並列演算の詳細な記述はなく、Gensynの実装はまだ難しくて長いようです。

Together.ai

Togetherは、大規模モデルのオープンソースに焦点を当て、分散型AIコンピューティングソリューションに取り組んでおり、誰もがどこでもAIにアクセスして使用できることを望んでいます。 厳密に言えば、Togetherはブロックチェーンプロジェクトではありませんが、このプロジェクトは分散型AGIコンピューティングネットワークのレイテンシー問題を事前に解決しています。 そのため、以下の記事ではTogetherのソリューションの分析のみを行い、プロジェクトの評価は行いません。

分散型ネットワークがデータセンターの100倍遅い場合、大規模なモデルをどのようにトレーニングし、推論できるのでしょうか?

分散化が取り除かれた場合、ネットワークに参加しているGPUデバイスの分布がどのようになるかを想像してみましょう。 これらのデバイスは、異なる大陸、異なる都市に分散され、相互に接続する必要があり、接続の遅延と帯域幅は異なります。 次の図に示すように、分散シナリオは、北米、ヨーロッパ、アジアに分散されたデバイスでシミュレートされ、デバイス間で帯域幅と遅延が異なります。 では、直列に接続するにはどうすればよいでしょうか。

! 潜在的なトラックプレビュー:分散型コンピューティングパワー市場(パートI)

分散トレーニング コンピューティング モデリング: 次の図は、複数のデバイスでの基本的なモデル トレーニングを示しており、通信タイプに関しては、前方アクティブ化、後方勾配、および横方向通信の 3 つの通信タイプがあります。

! 潜在的なトラックプレビュー:分散型コンピューティングパワー市場(パートI)

通信帯域幅と待機時間の組み合わせでは、マルチデバイスの場合の 3 種類の通信に対応するパイプライン並列処理とデータ並列処理の 2 つの形式の並列処理を考慮する必要があります。

パイプラインの並列処理では、モデルのすべての層がステージに分割され、各デバイスは、複数の Transformer ブロックなどの連続したレイヤーのシーケンスであるフェーズを処理します。 フォワードパッシングでは、アクティベーションは次のステージに渡されますが、バックワードパッシングでは、アクティベーションの勾配が前のステージに渡されます。

データの並列処理では、デバイスは異なるマイクロバッチの勾配を個別に計算しますが、これらの勾配を同期させるために通信します。

スケジュールの最適化:

分散型環境では、多くの場合、トレーニング プロセスはコミュニケーションによって制限されます。 スケジューリングアルゴリズムは、一般に、接続速度の速いデバイスに大量の通信を必要とするタスクを割り当て、タスク間の依存関係とネットワークの異種性を考慮して、特定のスケジューリング戦略のコストを最初にモデル化する必要があります。 ベースモデルのトレーニングにかかる複雑な通信コストを把握するために、Togetherは新しい式を提案し、グラフ理論によってコストモデルを2つのレベルに分解します。

※グラフ理論とは、グラフ(ネットワーク)の性質や構造を研究する数学の一分野です。 グラフは、頂点(ノード)とエッジ(ノードをつなぐ線)で構成されています。 グラフ理論の主な目的は、グラフの接続性、グラフの色、グラフのパスとループの性質など、グラフのさまざまな特性を研究することです。

  • 最初のレベルは、バランスの取れたグラフ分割です(グラフの頂点のセットを、サブセット間のエッジの数を最小限に抑えながら、等しいまたはほぼ等しいサイズのいくつかのサブセットに分割します。 このセグメンテーションでは、各サブセットがパーティションを表し、データ並列処理の通信コストに相当するパーティション間のエッジを最小化することで通信コストが削減されます。 ※2段階目は、マッチング・巡回セールスマン問題(マッチング・巡回セールスマン問題)は、グラフマッチング問題と巡回セールスマン問題の要素を組み合わせた組合せ最適化問題です。 グラフのマッチングの問題は、ある種のコストが最小化または最大化されるように、グラフ内で一致を見つけることです。 巡回セールスマン問題は、グラフ内のすべてのノードへの最短経路を見つけることです)、パイプライン並列処理の通信コストに対応します。

! 潜在的なトラックプレビュー:分散型コンピューティングパワー市場(パートI)

上の図は、実際の実装プロセスには複雑な計算式が含まれるため、プロセスの概略図です。 理解しやすいように、以下では図のプロセスを素人の言葉で説明し、詳細な実装プロセスはTogether公式サイトのドキュメントで自分で参照できます。

N 個のデバイスを持つデバイスセット D があり、それらの間の通信に不確定な遅延 (A マトリクス) と帯域幅 (B マトリクス) があるとします。 デバイスセットDに基づいて、まずバランスの取れたグラフセグメンテーションを生成します。 各分割またはデバイス グループ内のデバイスの数はほぼ同じであり、すべて同じパイプライン ステージを処理します。 これにより、データが並列化されるときに、デバイスのグループが同様の量の作業を実行するようになります。 (データの並列処理は、複数のデバイスが同じタスクを実行する場合であり、パイプライン処理ステージは、デバイスが特定の順序で異なるタスク手順を実行する場合です)。 通信の遅延と帯域幅に基づいて、デバイスのグループ間でデータを転送する「コスト」を数式で計算できます。 バランスの取れた各デバイス グループが組み合わされて、各ノードがパイプラインのステージを表し、エッジが 2 つのステージ間の通信コストを表す、完全に接続された大まかなグラフが生成されます。 通信コストを最小限に抑えるために、マッチングアルゴリズムを使用して、どのデバイスグループを連携させるかを決定します。

さらに最適化するために、この問題を開ループ巡回セールスマン問題(開ループとは、パスの原点に戻る必要がないことを意味します)としてモデル化して、すべてのデバイス間でデータを転送するための最適なパスを見つけることもできます。 最後に、Togetherは革新的なスケジューリングアルゴリズムを使用して、特定のコストモデルに最適な割り当て戦略を見つけ、通信コストを最小限に抑え、トレーニングスループットを最大化します。 実際の測定によると、このスケジューリング最適化の下でネットワークが100倍遅くなっても、エンドツーエンドのトレーニングスループットは約1.7〜2.3倍遅くなります。

通信圧縮の最適化:

! 潜在的なトラックプレビュー:分散型コンピューティングパワー市場(パートI)

通信圧縮の最適化のために、TogetherはAQ-SGDアルゴリズムを導入しています(詳細な計算プロセスについては、論文「Fine-tuning Language Models over Slow Networks using Activation Compression with Guarantees」を参照してください)。 AQ-SGDアルゴリズムは、低速ネットワークにおけるパイプライン並列学習の通信効率問題を解決するために設計された新しいアクティブ圧縮技術です。 AQ-SGDは、従来の活動値を直接圧縮する方法とは異なり、同じ学習サンプルの異なる期間における活動値の変化を圧縮することに重点を置いており、このユニークな方法は興味深い「自己実行型」のダイナミクスを導入し、学習が安定するにつれてアルゴリズムの性能が徐々に向上することが期待されます。 厳密な理論的分析の後、AQ-SGDアルゴリズムは、特定の技術的条件下で良好な収束率と有界誤差を持つ量子化関数を持っていることを証明しています。 このアルゴリズムは、エンドツーエンドのランタイムオーバーヘッドを追加することなく効率的に実装できますが、アクティブな値を格納するためにより多くのメモリとSSDが必要です。 AQ-SGDは、配列分類と言語モデリングデータセットの広範な実験的検証を通じて、収束性能を犠牲にすることなく、アクティビティ値を2〜4ビットに圧縮できます。 また、AQ-SGDは、最先端の勾配圧縮アルゴリズムと統合することで、モデル勾配、順方向活動値、逆勾配など、すべてのマシン間のデータ交換を低精度に圧縮する「エンドツーエンド通信圧縮」を実現することで、分散学習の通信効率を大幅に向上させることができます。 圧縮なしの集中型コンピューティングネットワーク(10Gbpsなど)のエンドツーエンドのトレーニングパフォーマンスと比較すると、現在のところ31%しか遅くありません。 スケジューリング最適化のデータと組み合わせると、中央集権的なコンピューティングパワーネットワークにはまだ一定のギャップがありますが、将来的には比較的大きな追いつくことが期待されています。

まとめ

AIの波がもたらした配当期間において、汎用人工知能コンピューティングパワー市場は、多くのコンピューティングパワー市場の中で最も大きな可能性を秘め、最も需要の高い市場であることは間違いありません。 ただし、開発の難易度、ハードウェア要件、および資本要件も最高です。 上記の2つのプロジェクトと合わせると、AGIコンピューティングパワー市場の実装にはまだ一定の距離があり、実際の分散型ネットワークは理想的な状況よりもはるかに複雑であり、クラウドの巨人と競争するには明らかに十分ではありません。 この記事を書いている時点では、初期段階(PPT段階)にあるいくつかのプロジェクトでは、より実用的な試みである、より難易度の低い推論段階や小さなモデルのトレーニングに焦点を当てるなど、いくつかの新しいエントリポイントを模索し始めていることも観察されました。

多くの課題に直面していますが、長期的には、AGIコンピューティングパワーの分散化とパーミッションレスの重要性が、少数の中央集権的な巨人に集中してはならないことが重要です。 なぜなら、人類は新しい「宗教」や新しい「教皇」を必要としていないし、ましてや高額な「会費」を支払う必要はないからだ。

参考文献

1.Gensyn Litepaper:

2.NeurIPS 2022:分散型トレーニングのためのコミュニケーションボトルネックの克服:

3.Fine-tuning Language Models over Slow Networks using Activation Compression with Guarantees:

4.機械学習コンピューティングプロトコルと私たちの未来

5.マイクロソフト:FY23 Q2決算発表:

  1. AIチケットを競う:BATとByte MeituanはGPUを競います。

  2. IDC:2022-2023グローバルコンピューティングパワーインデックス評価レポート:

  3. Guosheng Securitiesの大規模モデルトレーニングの見積もり:

  4. 情報の翼:コンピューティングパワーとAIの関係は? :

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • 共有
コメント
0/400
コメントなし
いつでもどこでも暗号資産取引
qrCode
スキャンしてGateアプリをダウンロード
コミュニティ
日本語
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)