作者: ジェイソン・パーロウ出典: Zdnet *画像の出典: Unbounded AI ツールによって生成*> MediaTek は、クラウドベースの処理を行わずにモバイル デバイス上で生成 AI タスクを直接実行するように設計された Meta の Lllama 2 LLM と連携しています。これを行うことにはいくつかの利点がありますが、それに伴う問題もあります。生成人工知能は、OpenAI の ChatGPT と Google の Bard チャット システム、および Stable Diffusion や DALL-E などの画像生成システムを利用した、最も注目されている新興テクノロジーの 1 つです。ただし、これらのツールはクラウド データ センターで数百の GPU を使用して各クエリに必要な計算を実行するため、それでもある程度制限があります。しかし、いつか、AI が生成したタスクをモバイル デバイス上で直接実行できるようになるでしょう。または、コネクテッドカーやリビングルーム、ベッドルーム、キッチンで、Amazon Echo、Google Home、Apple HomePod などのスマート スピーカーを通じて実行することもできます。MediaTek は、この未来は私たちが思っているよりも近いと信じています。本日、台湾に拠点を置く半導体企業である同社は、Metaと提携して、ソーシャル巨人のLllama 2 LLMと同社の最新世代APUおよびNeuroPilotソフトウェア開発プラットフォームを組み合わせて、外部処理に依存せずに生成AIオンデバイスタスクを実行すると発表した。もちろん、これには問題があります。この組み合わせではデータセンターが完全に廃止されるわけではありません。 LLM データセットのサイズ (データセットに含まれるパラメータの数) とストレージ システムに必要なパフォーマンスにより、はるかに小規模ではあるものの、依然としてデータ センターが必要です。たとえば、Llama 2 の「小規模」データセットには 70 億個のパラメータ (約 13 GB) があり、いくつかの初歩的な生成 AI 機能に適しています。ただし、720 億のパラメータというより大きなバージョンでは、高度なデータ圧縮技術を使用したとしても、今日のスマートフォンの実用的な能力を超える大量のストレージが必要になります。今後数年間で、開発中の LLM のサイズは Llama 2 や GPT-4 の 10 ~ 100 倍になり、ストレージ要件は数百ギガバイト以上になるでしょう。これをスマートフォンに保存し、データベースのパフォーマンスに十分な IOPS を確保するのは困難ですが、高速フラッシュと数テラバイトの RAM を備えた専用のキャッシュ デバイスには当てはまりません。そのため、Llama 2 を使用すると、負荷の高いコンピューティングを行わずに、単一のラック ユニットでモバイル デバイスにサービスを提供するように最適化されたデバイスをホストできるようになりました。電話ではありませんが、とにかく印象的です。MediaTek は、Llama 2 ベースの AI アプリケーションが、今年末までに市場に投入される予定の次世代フラッグシップ SoC を搭載したスマートフォン上で起動されることを期待しています。オンデバイスの生成 AI がこれらのデータセットにアクセスするには、モバイル通信事業者は低遅延のエッジ ネットワーク、つまり 5G タワーに迅速に接続する小規模なデータセンター/機器クローゼットに依存する必要があります。これらのデータセンターは通信事業者のネットワーク上に直接配置されるため、スマートフォン上で実行される LLM はパラメータ データにアクセスする前に複数のネットワーク「ホップ」を通過する必要がありません。MediaTek などの特殊なプロセッサを搭載したデバイス上で AI ワークロードを実行することに加えて、ドメイン固有の LLM を「制約のあるデバイス エッジ」シナリオでマイクロ データ センター内のこれらのキャッシュ デバイスと混合することもでき、アプリケーション ワークロードに近づけることができます。では、オンデバイスの生成 AI を使用する利点は何でしょうか?* **待ち時間の短縮:** データはデバイス上で処理されるため、特にパラメーター データセットの頻繁にアクセスされる部分にローカライズされたキャッシュ方法が使用されている場合、応答時間が大幅に短縮されます。* **データ プライバシーの向上:** データをデバイス上に保持することにより、データ (チャットの会話やユーザーが送信したトレーニングなど) はデータ センター経由ではなく、モデル データを通じてのみ送信されます。* **帯域幅効率の向上:** 現在、生成 AI タスクでは、ユーザーの会話内のすべてのデータをデータ センターに送受信する必要があります。ローカル処理では、大量のデータがデバイス上で処理されます。* **運用回復力の向上: **オンデバイスで生成することにより、特にデバイスに十分な大きさのパラメータ キャッシュがある場合、ネットワークが中断された場合でもシステムは動作を継続できます。* **エネルギー効率:** データ センターは、多くの計算集約型リソースを必要とせず、デバイスからデータ センターへのデータ転送にもそれほど多くのエネルギーを必要としません。ただし、これらの利点を実現するには、ワークロードを分割し、他の負荷分散技術を使用して、集中化されたデータセンターから計算コストとネットワークのオーバーヘッドを軽減する必要がある場合があります。高速接続のエッジ データ センターの継続的なニーズ (計算量とエネルギー要件は大幅に削減されていますが) に加えて、別の疑問もあります。それは、今日のハードウェアで LLM をどの程度強力に実行できるかということです。デバイス上のデータはネットワーク上で傍受される心配は少ないですが、適切に管理されていない場合、ローカル デバイス上の機密データが侵入されるセキュリティ リスクも高まり、モデル データの更新や分散された多数のデータの維持が必要になります。エッジ キャッシュ デバイス 一貫性も課題です。最後に、コストの問題があります。これらの小規模なエッジ データ センターの費用は誰が支払うのでしょうか。エッジ ネットワークは現在、エクイニクスなどのエッジ サービス プロバイダーによって採用されており、Netflix や Apple の iTunes などのサービスにはエッジ ネットワークが必要ですが、AT&T、T-Mobile、Verizon などのモバイル ネットワーク オペレーターは従来、エッジ ネットワークを必要としていませんでした。 OpenAI/Microsoft、Google、Meta などの生成 AI サービス プロバイダーも同様の取り決めを行う必要があります。オンデバイスの生成 AI については検討すべきことがたくさんありますが、ハイテク企業がそれについて検討していることは明らかです。 5 年以内に、デバイス上のスマート アシスタントが自分で考えるようになるかもしれません。人工知能をポケットに入れる準備はできていますか?それは、大方の予想よりもはるかに早くやって来ます。
MediaTek: クラウド処理に依存せず、モバイル側で生成 AI タスクの時代が到来する
作者: ジェイソン・パーロウ
出典: Zdnet
生成人工知能は、OpenAI の ChatGPT と Google の Bard チャット システム、および Stable Diffusion や DALL-E などの画像生成システムを利用した、最も注目されている新興テクノロジーの 1 つです。ただし、これらのツールはクラウド データ センターで数百の GPU を使用して各クエリに必要な計算を実行するため、それでもある程度制限があります。
しかし、いつか、AI が生成したタスクをモバイル デバイス上で直接実行できるようになるでしょう。または、コネクテッドカーやリビングルーム、ベッドルーム、キッチンで、Amazon Echo、Google Home、Apple HomePod などのスマート スピーカーを通じて実行することもできます。
MediaTek は、この未来は私たちが思っているよりも近いと信じています。本日、台湾に拠点を置く半導体企業である同社は、Metaと提携して、ソーシャル巨人のLllama 2 LLMと同社の最新世代APUおよびNeuroPilotソフトウェア開発プラットフォームを組み合わせて、外部処理に依存せずに生成AIオンデバイスタスクを実行すると発表した。
もちろん、これには問題があります。この組み合わせではデータセンターが完全に廃止されるわけではありません。 LLM データセットのサイズ (データセットに含まれるパラメータの数) とストレージ システムに必要なパフォーマンスにより、はるかに小規模ではあるものの、依然としてデータ センターが必要です。
たとえば、Llama 2 の「小規模」データセットには 70 億個のパラメータ (約 13 GB) があり、いくつかの初歩的な生成 AI 機能に適しています。ただし、720 億のパラメータというより大きなバージョンでは、高度なデータ圧縮技術を使用したとしても、今日のスマートフォンの実用的な能力を超える大量のストレージが必要になります。今後数年間で、開発中の LLM のサイズは Llama 2 や GPT-4 の 10 ~ 100 倍になり、ストレージ要件は数百ギガバイト以上になるでしょう。
これをスマートフォンに保存し、データベースのパフォーマンスに十分な IOPS を確保するのは困難ですが、高速フラッシュと数テラバイトの RAM を備えた専用のキャッシュ デバイスには当てはまりません。そのため、Llama 2 を使用すると、負荷の高いコンピューティングを行わずに、単一のラック ユニットでモバイル デバイスにサービスを提供するように最適化されたデバイスをホストできるようになりました。電話ではありませんが、とにかく印象的です。
MediaTek は、Llama 2 ベースの AI アプリケーションが、今年末までに市場に投入される予定の次世代フラッグシップ SoC を搭載したスマートフォン上で起動されることを期待しています。
オンデバイスの生成 AI がこれらのデータセットにアクセスするには、モバイル通信事業者は低遅延のエッジ ネットワーク、つまり 5G タワーに迅速に接続する小規模なデータセンター/機器クローゼットに依存する必要があります。これらのデータセンターは通信事業者のネットワーク上に直接配置されるため、スマートフォン上で実行される LLM はパラメータ データにアクセスする前に複数のネットワーク「ホップ」を通過する必要がありません。
MediaTek などの特殊なプロセッサを搭載したデバイス上で AI ワークロードを実行することに加えて、ドメイン固有の LLM を「制約のあるデバイス エッジ」シナリオでマイクロ データ センター内のこれらのキャッシュ デバイスと混合することもでき、アプリケーション ワークロードに近づけることができます。
では、オンデバイスの生成 AI を使用する利点は何でしょうか?
ただし、これらの利点を実現するには、ワークロードを分割し、他の負荷分散技術を使用して、集中化されたデータセンターから計算コストとネットワークのオーバーヘッドを軽減する必要がある場合があります。
高速接続のエッジ データ センターの継続的なニーズ (計算量とエネルギー要件は大幅に削減されていますが) に加えて、別の疑問もあります。それは、今日のハードウェアで LLM をどの程度強力に実行できるかということです。デバイス上のデータはネットワーク上で傍受される心配は少ないですが、適切に管理されていない場合、ローカル デバイス上の機密データが侵入されるセキュリティ リスクも高まり、モデル データの更新や分散された多数のデータの維持が必要になります。エッジ キャッシュ デバイス 一貫性も課題です。
最後に、コストの問題があります。これらの小規模なエッジ データ センターの費用は誰が支払うのでしょうか。エッジ ネットワークは現在、エクイニクスなどのエッジ サービス プロバイダーによって採用されており、Netflix や Apple の iTunes などのサービスにはエッジ ネットワークが必要ですが、AT&T、T-Mobile、Verizon などのモバイル ネットワーク オペレーターは従来、エッジ ネットワークを必要としていませんでした。 OpenAI/Microsoft、Google、Meta などの生成 AI サービス プロバイダーも同様の取り決めを行う必要があります。
オンデバイスの生成 AI については検討すべきことがたくさんありますが、ハイテク企業がそれについて検討していることは明らかです。 5 年以内に、デバイス上のスマート アシスタントが自分で考えるようになるかもしれません。人工知能をポケットに入れる準備はできていますか?それは、大方の予想よりもはるかに早くやって来ます。