MediaTek: クラウド処理に依存せず、モバイル側で生成 AI タスクの時代が到来する

2023-08-23 06:47:40

作者: ジェイソン・パーロウ

出典: Zdnet

画像の出典: Unbounded AI ツールによって生成

MediaTek は、クラウドベースの処理を行わずにモバイルデバイス上で生成 AI タスクを直接実行するように設計された Meta の Lllama 2 LLM と連携しています。これを行うことにはいくつかの利点がありますが、それに伴う問題もあります。

生成人工知能は、OpenAI の ChatGPT と Google の Bard チャットシステム、および Stable Diffusion や DALL-E などの画像生成システムを利用した、最も注目されている新興テクノロジーの 1 つです。ただし、これらのツールはクラウドデータセンターで数百の GPU を使用して各クエリに必要な計算を実行するため、それでもある程度制限があります。

しかし、いつか、AI が生成したタスクをモバイルデバイス上で直接実行できるようになるでしょう。または、コネクテッドカーやリビングルーム、ベッドルーム、キッチンで、Amazon Echo、Google Home、Apple HomePod などのスマートスピーカーを通じて実行することもできます。

MediaTek は、この未来は私たちが思っているよりも近いと信じています。本日、台湾に拠点を置く半導体企業である同社は、Metaと提携して、ソーシャル巨人のLllama 2 LLMと同社の最新世代APUおよびNeuroPilotソフトウェア開発プラットフォームを組み合わせて、外部処理に依存せずに生成AIオンデバイスタスクを実行すると発表した。

もちろん、これには問題があります。この組み合わせではデータセンターが完全に廃止されるわけではありません。 LLM データセットのサイズ (データセットに含まれるパラメータの数) とストレージシステムに必要なパフォーマンスにより、はるかに小規模ではあるものの、依然としてデータセンターが必要です。

たとえば、Llama 2 の「小規模」データセットには 70 億個のパラメータ (約 13 GB) があり、いくつかの初歩的な生成 AI 機能に適しています。ただし、720 億のパラメータというより大きなバージョンでは、高度なデータ圧縮技術を使用したとしても、今日のスマートフォンの実用的な能力を超える大量のストレージが必要になります。今後数年間で、開発中の LLM のサイズは Llama 2 や GPT-4 の 10 ～ 100 倍になり、ストレージ要件は数百ギガバイト以上になるでしょう。

これをスマートフォンに保存し、データベースのパフォーマンスに十分な IOPS を確保するのは困難ですが、高速フラッシュと数テラバイトの RAM を備えた専用のキャッシュデバイスには当てはまりません。そのため、Llama 2 を使用すると、負荷の高いコンピューティングを行わずに、単一のラックユニットでモバイルデバイスにサービスを提供するように最適化されたデバイスをホストできるようになりました。電話ではありませんが、とにかく印象的です。

MediaTek は、Llama 2 ベースの AI アプリケーションが、今年末までに市場に投入される予定の次世代フラッグシップ SoC を搭載したスマートフォン上で起動されることを期待しています。

オンデバイスの生成 AI がこれらのデータセットにアクセスするには、モバイル通信事業者は低遅延のエッジネットワーク、つまり 5G タワーに迅速に接続する小規模なデータセンター/機器クローゼットに依存する必要があります。これらのデータセンターは通信事業者のネットワーク上に直接配置されるため、スマートフォン上で実行される LLM はパラメータデータにアクセスする前に複数のネットワーク「ホップ」を通過する必要がありません。

MediaTek などの特殊なプロセッサを搭載したデバイス上で AI ワークロードを実行することに加えて、ドメイン固有の LLM を「制約のあるデバイスエッジ」シナリオでマイクロデータセンター内のこれらのキャッシュデバイスと混合することもでき、アプリケーションワークロードに近づけることができます。

では、オンデバイスの生成 AI を使用する利点は何でしょうか?

待ち時間の短縮: データはデバイス上で処理されるため、特にパラメーターデータセットの頻繁にアクセスされる部分にローカライズされたキャッシュ方法が使用されている場合、応答時間が大幅に短縮されます。
データプライバシーの向上: データをデバイス上に保持することにより、データ (チャットの会話やユーザーが送信したトレーニングなど) はデータセンター経由ではなく、モデルデータを通じてのみ送信されます。
帯域幅効率の向上: 現在、生成 AI タスクでは、ユーザーの会話内のすべてのデータをデータセンターに送受信する必要があります。ローカル処理では、大量のデータがデバイス上で処理されます。
**運用回復力の向上: **オンデバイスで生成することにより、特にデバイスに十分な大きさのパラメータキャッシュがある場合、ネットワークが中断された場合でもシステムは動作を継続できます。
エネルギー効率: データセンターは、多くの計算集約型リソースを必要とせず、デバイスからデータセンターへのデータ転送にもそれほど多くのエネルギーを必要としません。

ただし、これらの利点を実現するには、ワークロードを分割し、他の負荷分散技術を使用して、集中化されたデータセンターから計算コストとネットワークのオーバーヘッドを軽減する必要がある場合があります。

高速接続のエッジデータセンターの継続的なニーズ (計算量とエネルギー要件は大幅に削減されていますが) に加えて、別の疑問もあります。それは、今日のハードウェアで LLM をどの程度強力に実行できるかということです。デバイス上のデータはネットワーク上で傍受される心配は少ないですが、適切に管理されていない場合、ローカルデバイス上の機密データが侵入されるセキュリティリスクも高まり、モデルデータの更新や分散された多数のデータの維持が必要になります。エッジキャッシュデバイス一貫性も課題です。

最後に、コストの問題があります。これらの小規模なエッジデータセンターの費用は誰が支払うのでしょうか。エッジネットワークは現在、エクイニクスなどのエッジサービスプロバイダーによって採用されており、Netflix や Apple の iTunes などのサービスにはエッジネットワークが必要ですが、AT&T、T-Mobile、Verizon などのモバイルネットワークオペレーターは従来、エッジネットワークを必要としていませんでした。 OpenAI/Microsoft、Google、Meta などの生成 AI サービスプロバイダーも同様の取り決めを行う必要があります。

オンデバイスの生成 AI については検討すべきことがたくさんありますが、ハイテク企業がそれについて検討していることは明らかです。 5 年以内に、デバイス上のスマートアシスタントが自分で考えるようになるかもしれません。人工知能をポケットに入れる準備はできていますか?それは、大方の予想よりもはるかに早くやって来ます。

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。

報酬
いいね
コメント
共有

0/400

コメントなし

トピック
Altcoin Season Update
35737 人気度
Trump Pressures Powell
3085 人気度
ETH Breaks $3600
3926 人気度
4Gate 2025 Q2 Report Released
38481 人気度
5Gate Derivatives Volume Hits New High
16209 人気度
6CPI Data Incoming
30393 人気度
7Join Gate VIP to Win MacBook
30113 人気度
8MicroStrategy Buys More Bitcoin
2441 人気度
9BTC Hits New High
94074 人気度
10My Gate Moments
26666 人気度

ピン

サイトマップ