現在、携帯電話のパフォーマンスを向上させるには、携帯電話システムによって少なくとも 8 つのチップ コアが調整される必要があり、このプロセスは大量の計算能力を消費します。異種リソース スケジューリングを採用すると、CPU、GPU、NPU を効率的に調整できます。 Gong Ti 氏によると、スケジューリング効率は 60% 以上向上する可能性があります。
携帯電話システムでは計算が可能であり、スケジューリングの最小単位をスレッドと呼びますが、従来のオペレーティング システムでは数万個のスレッドが同時に実行され、無効なスレッドが大量に発生します。これを考慮して、より軽い同時実行モデルを使用して同時操作を処理し、無効なスレッドの切り替えによる計算能力の消費を削減できます。 Gong Ti 氏によると、同時実行モデルによりタスク切り替えのオーバーヘッドの 50% を節約できるそうです。
大きなモデルを携帯電話に読み込むには何ステップかかりますか?
出典: Light Cone Intelligence
画像ソース: Unbounded AI によって生成
大型モデルが携帯電話に「突入」し、AIの戦いは「クラウド」から「携帯端末」まで燃え上がった。
「AIの時代、ファーウェイの盤古モデルは紅蒙エコロジーを助けるだろう。」 8月4日、ファーウェイ常務取締役、端末BGのCEO、スマートカーソリューションBUのCEOであるYu Chengdong氏は、盤古の基盤技術を通じてそれを紹介した。 Harmony OS モデル、Harmony OS がもたらす次世代のスマート ターミナル オペレーティング システムが登場します。
携帯電話で大きなモデルを使用することは新しいことではなく、以前は、ChatGPT、Wenxin Yiyan、Miaoya などのアプリやアプレットはすべて、モバイル端末上の AI アプリケーションのニーズを満たすためにクラウド コンピューティングの能力を使用していました。
**次のステップは、大きなモデルを携帯電話上で直接実行できるようにすることです。 **
今年の4月から5月にかけて、米国テクノロジーの3大巨人であるクアルコム、マイクロソフト、エヌビディア、最も注目を集めるAIスターであるOpenAI、そして国内AIの「ヘッドチーム」であるテンセント、バイドゥなどはすべて、AIの開発を加速させている。モバイル端末への取り組み AI大型モデルの軽量展開クアルコムは、(モバイル端末などのデータソースでコンピューティングサービスを提供する)インテリジェントエッジコンピューティング企業へ徐々に変革しつつあるとさえ発表した。
大手企業の強力な推進により、大規模モデルがクラウドからエンドに移行するという業界の傾向が非常に明確になりました。
なぜ大型モデルを携帯電話上で「実行」する必要があるのでしょうか?
大規模モデルの最大の特徴は、数百億、場合によっては数兆のパラメータを持つ「大きい」ことであり、大規模モデルをより適切に実行するために、コンピューティングパワークラスターが「1万枚のカード」レベルにアップグレードされました。さて、なぜ手のひらサイズの小さな携帯電話に大きなモデルを「詰め込む」必要があるのでしょうか?
大型モデルは、携帯電話ユーザーのエクスペリエンスにいくつかの改善をもたらします。例えば、ファーウェイの端末インテリジェントアシスタントであるXiaoyiは、音声プロンプトに従ってレストランを推奨するだけでなく、要約、情報検索、多言語翻訳などの情報処理も実行でき、数千語に及ぶ長い英語テキストをモバイルで処理できます。大規模なモデル機能を備えたインテリジェント アシスタントです。概要が生成され、中国語に翻訳することもできます。特に後者の点は、情報爆発の時代においても、学習や仕事の効率を向上させる上で依然として非常に価値があります。
さらに、ChatGPT などの AIGC アプリケーションには常にプライバシーとセキュリティに関する強い論争が伴いますが、完全にエンド側で実行されていれば、この問題は完全に回避できます。大きなモデルはエンド側で実行されるため、データはエンド側から出ません。さらに応答速度も速くなります。
** 一方で、携帯電話などのモバイル端末への大型モデルの需要はすでに非常に切迫しています。 **
大規模モデルの激動の傾向により、クラウドはコンピューティング能力だけでは需要に耐えられなくなりつつあります。クアルコムのシニアバイスプレジデント、アレックス・カトウジアン氏は最近、「コネクテッドデバイスとデータトラフィックの増加が加速し、重畳されたデータセンターのコストが上昇するにつれ、(当社にとって)すべてのコンテンツをクラウドに送信することは不可能だ」と率直に語った。
データ伝送によって消費されるネットワーク帯域幅、ストレージ、ハードウェアなどの大量のリソースを除けば、クラウドのコンピューティング能力だけでもすでに関連メーカーを圧倒しています。 ChatGPT はまだ推論段階にあり、毎月の計算能力コストは控えめに見積もっても約 1,000 万米ドルです。
最大の問題は「高い」ことではなく、「足りない」ことだ。
以前、OpenAI の創設者である Sam Altaman でさえ、GPU が不足していることを明らかにし、あまり多くの人に ChatGPT を使用してほしくないとさえ率直に述べていました。最近、一部の内部関係者は、大小のクラウド プロバイダーの大規模 H100 クラスターの容量が不足しつつあり、H100 の需要傾向は少なくとも 2024 年末まで続くのではないかと推測しています。 Nvidia H100 の現在の生産能力は、依然としてサプライ チェーンによって厳しく制限されています。
したがって、クラウドと端末が連携し、携帯電話やその他の端末の空きコンピューティング能力リソースを利用して、「集中型」のコンピューティング能力と「分散型」の需要との間の不一致を解決します。さらに重要なのは、限られた数の中央ノードと比較して、多数のモバイル端末は数千のシナリオに関わる「毛細血管」と呼ぶことができ、このことがこのエントリが大規模モデルのアプリケーション浸透を加速する鍵となることを決定します。
大きなモデルを「ポケット」に入れる方法は?
「従来の PC やサーバーと比較して、モバイル端末の最大の課題は、エクスペリエンスとエネルギー消費のバランスをどう取るかということです。これは、Hongmeng コア設計の最も重要な核心点の 1 つです。」 ファーウェイ端末ビジネス ソフトウェア部門社長 Gong Ti 氏、強調しました。
大規模なモデルは、特に携帯電話の既存のハードウェア構成に基づくと、大量のコンピューティング リソースとストレージ リソースを必要とし、効率を向上させ、エネルギー消費を削減するためにソフトウェア システムの調整が必要になります。
現在、携帯電話のパフォーマンスを向上させるには、携帯電話システムによって少なくとも 8 つのチップ コアが調整される必要があり、このプロセスは大量の計算能力を消費します。異種リソース スケジューリングを採用すると、CPU、GPU、NPU を効率的に調整できます。 Gong Ti 氏によると、スケジューリング効率は 60% 以上向上する可能性があります。
携帯電話システムでは計算が可能であり、スケジューリングの最小単位をスレッドと呼びますが、従来のオペレーティング システムでは数万個のスレッドが同時に実行され、無効なスレッドが大量に発生します。これを考慮して、より軽い同時実行モデルを使用して同時操作を処理し、無効なスレッドの切り替えによる計算能力の消費を削減できます。 Gong Ti 氏によると、同時実行モデルによりタスク切り替えのオーバーヘッドの 50% を節約できるそうです。
さらに、オペレーティング システムのタスク スケジューリングに関しても、これはスムーズなエクスペリエンスに影響を与える最も基本的な要素でもあり、公平なスケジューリングと比較して、動的優先スケジューリングはエネルギー消費を大幅に削減します。動的優先スケジューリングは、道路状況や交通の流れ、渋滞や遅延に応じて信号機の点灯状態を動的に調整できるインテリジェント交通システムに似ています。
ただし、大規模なモデルを携帯電話に展開して動作させるには、携帯電話のオペレーティング システムをアップグレードして改善するだけでは十分ではありません。
大規模モデルの予測がより正確になり、ネットワークがより深くなるにつれて、ニューラル ネットワークによって消費されるメモリ容量が中心的な問題になっています。同時にメモリ帯域の問題もあり、ネットワーク稼働中はメモリ、CPU、バッテリーの消耗が激しく、現在の携帯電話では耐え難い負担となっているのは間違いありません。
** したがって、携帯電話に展開する前に、大規模なモデルを圧縮して、推論コンピューティング能力の需要を削減する必要があります。ただし、元のパフォーマンスと精度が基本的に変わっていないことを確認することが重要です。 **
量子化は一般的で重要な圧縮操作であり、モデルが占有するメモリ空間を削減し、推論パフォーマンスを向上させることができます。要は、整数演算の方が浮動小数点演算よりも精度が高く、演算速度も速いため、浮動小数点演算モデルを整数演算モデルに変換することである。
現在、定量テクノロジーもブレークスルーを加速しています。サーバー上でトレーニングされたモデルは通常、32 ビット浮動小数点演算 (FP32) を使用しますが、携帯電話側では、クアルコムが FP32 モデルを量子化して INT4 モデルに圧縮し、メモリとコンピューティングのエネルギー効率を 64 向上させました。クアルコムの実装データによると、クアルコムの量子化知覚トレーニングを使用した後、多くの AIGC モデルは INT4 モデルに量子化でき、INT8 と比較してパフォーマンスが約 90%、エネルギー効率が約 60% 向上しました。
大規模モデル圧縮テクノロジーは、AI 大手がモバイル端末の戦場で勝つための重要な要素であることは間違いありません。これは、Nvidia が今年 2 月に、圧縮ラージ モデル技術を習得する人工知能スタートアップである OmniML を「静かに」買収した理由もある程度説明できます。
大型モデルでは端末ハードウェアのアップグレードが必要になります
「今年、携帯電話上で実行される 100 億個のパラメーターを備えた生成 AI モデルをサポートできるようになります。」 クアルコムの製品管理担当上級副社長兼 AI 責任者であるジアド・アスガー氏は最近、100 億対 15 個のパラメーターを持つモデルがサポートされると述べました。 10 億のパラメータでほとんどのデータ (AIGC の使用例) をカバーできます。端末がすでにこのパラメータ レベルをサポートできる場合、すべての計算を端末上で実行でき、携帯電話は真のパーソナル アシスタントになります。
しかし、現世代の主力携帯電話チップはパラメータレベル10億の大型モデルも搭載・実行可能であり、クアルコムは今年6月に開催されたコンピュータビジョンのトップ学会であるCVPRにおいて、Androidシステム上で動作する大型モデルのデモンストレーションに成功した。年ですが、パラメータはわずか 15 億です。
パラメータは10倍近くに跳ね上がり、携帯端末に向かう大型モデルはすでに「アクセル」を踏んでしまっており、それに対応するには携帯電話をアップグレードする必要がある。
**携帯電話ハードウェアには、AI アクセラレータとメモリの革新が早急に必要です。 **
まず、より大きなパラメーターを持つ大規模なモデルは、モデル パラメーターと中間結果を保存するために、より大きなメモリとストレージ スペースを必要とします。これには、モバイル端末のメモリ チップ容量とメモリ インターフェイス帯域幅をアップグレードする必要があります。
第 2 に、パラメータが大きくなると、必然的に、入力データを処理して結果を出力するために、より強力なコンピューティング機能と推論機能が必要になります。
携帯電話チップ上の AI アクセラレータ (さまざまな NPU IP など) はほぼ標準ですが、その設計は基本的に前世代の畳み込みニューラル ネットワーク設計向けであり、完全に大規模モデル向けではありません。
大規模なモデルに適応するために、AI アクセラレータはより大きなメモリ アクセス帯域幅を備え、メモリ アクセスの待ち時間を短縮する必要があります。これには、AI アクセラレータのインターフェイスにいくつかの変更 (メモリ インターフェイスにさらに多くのピンを割り当てるなど) が必要であり、AI アクセラレータのメモリ アクセス要件を満たすために、オンチップ データ相互接続にも対応する変更も必要になります。
クアルコムが「年内に100億パラメータの携帯電話を稼働させる」と言える重要な理由の一つは、クアルコム史上最速かつ最先端のAIエンジンを搭載した第2世代Snapdragon 8プロセッサを搭載していることだ。 AIの性能は4.35倍に向上し、エネルギー効率は60%向上しました。
**もちろん、クラウドであっても、超大規模パラメータ モデルのトレーニングと推論には、メモリの壁 + 計算能力の壁 + 通信の壁 + チューニングの壁 + デプロイメントの壁という 5 つの壁を突破する必要があり、携帯電話でもそうする必要があります。層ごとに突破していきます。 **
しかし、「知能」から「人工知能」まで、携帯電話にとってはチャンスが課題を上回ります。
「家電製品に対するイノベーションサイクルの影響はより重要であり、業界を景気サイクルの影響から脱却させる可能性さえある。」グローリーターミナルCEOのZhao Ming氏は、現在のスマートフォン業界はイノベーションサイクルの新たな段階にあると判断した。 AI と 5G+ によって開始されました。