ビッグモデルを巡る携帯電話メーカーの新たな物語

2023-08-16 02:28:43

著者｜呉京静

編集｜栗

出典：Jiazi Guangnian

Xiaomiの大型モデルは、雷軍氏の2023年の年次講演中に公の場でデビューした。

Lei Jun 氏は、多くのインターネットプラットフォームとは異なり、Xiaomi の大型モデルの重要な画期的な方向性は、携帯電話側でスムーズに動作できる 軽量でローカル展開 であると述べました。

同氏は、現在、13億パラメータ規模のMiLM1.3Bモデルが携帯電話上で実行されており、その効果はクラウドコンピューティングにおける60億パラメータの大規模モデルの結果に匹敵すると述べた。彼が投稿した成績表では、CMMLU 中国評価のさまざまなトピックにおいて、Xiaomi の大型エンドツーサイドモデルが Zhipu AI の ChatGLM2-6B モデルよりも優れたパフォーマンスを示し、Baichuan Intelligent の大型モデル Baichuan-13B とのスコア差が示されています。約5分くらいでした。

(出典: シャオミ)

以前、Xiaomi が開発した大規模な事前トレーニング言語モデル MiLM-6B/1.3B は、コードホスティングプラットフォームである GitHub に上陸し、C の一般リストで 10 位にランクされ、同じパラメーターの大きさで 1 位にランクされ、中国の大型モデルベンチマーク「CMMLU」で「MiLM-6B」が第1位となった。

もちろん、これらのテストリストの次元はすべて公開されているため、多くの大規模モデル企業がテスト課題に応じてスコアを付けることは困難ではないため、この評価結果は参考としてのみ使用でき、意味するものではありません。結果が本当に素晴らしいということ。

同時に雷軍氏は、Xiao AiがXiaomiの大型モデルの最初のアプリケーションビジネスとして新たなアップグレードを受け、正式に招待テストを開始したことも発表した。

これは、今年4月の新しい大型モデルチームの発表以来、Xiaomiが4か月で達成した段階的な大型モデルの成果です。

Xiaomi の実践は、大規模モデルの実装にどのような新しい考え方をもたらしますか?新しいテクノロジーの反復に依存する携帯電話メーカーにとって、それは何を意味するのでしょうか?

1. Xiaomi は汎用の大型モデルを製造しておらず、コアチームは約 30 人

Xiaomi は大規模モデル路線の合理派に属しており、パラメーターのスケールを追求せず、汎用的な大規模モデルを作成しません。 **

決算会見の初めに、Xiaomi Groupの社長Lu Weibing氏は、Xiaomiは大規模モデルを積極的に採用し、その方向性は製品とビジネスを深く統合することであり、OpenAIのような汎用の大規模モデルは作らないと述べた。。

Shenran の以前のレポートによると、Xiaomi グループの AI ラボのディレクターである Wang Bin 博士は、Xiaomi は単独で ChatGPT のような製品をリリースするつもりはなく、最終的には自社開発の大型モデルが製品によって世に出されるだろうと述べていました。関連政府は数千万人民元レベルを投資する。 **

同氏は、「大型モデルに関しては、我々は合理的な派に属している。シャオミには応用シナリオにおいて優位性があり、我々は大型モデルとシナリオの組み合わせにおいて大きなチャンスがあると考えている」と語った。

同氏は、ChatGPTが誕生する前に、Xiaomiは大規模なモデルの社内研究開発と適用を行っていたことを明らかにし、その際には、事前トレーニング+下流タスクの監視と微調整を使用して、パラメータースケールを使用して人間と機械の対話を実行していたことを明らかにしました。 28億から30億。これは主に、現在呼ばれているような汎用の大規模モデルではなく、事前トレーニングされたベースモデルに基づいて対話データを微調整することによって実現されます。

公開情報によると、Xiaomiの大規模モデルチームの現在の責任者は、AI音声の方向性の専門家であるLuan Jianであり、技術委員会の副委員長でAI研究所の所長であるWang Binに直属しています。大規模なモデルチーム全体には約 30 人がいます。

Luan Jian 氏は、インテリジェント音声ロボット「Microsoft Xiaoice」のチーフ音声サイエンティストおよび音声チームリーダーを務め、東芝 (中国) 研究所の研究員、マイクロソフト (中国) 工程院の上級音声科学者でもありました。 Luan Jian 氏は Xiaomi に入社後、音声生成、NLP などのチームを歴任し、Xiao Ai などの製品への関連テクノロジーの実装を担当しました。ワン・ビン氏は2018年にシャオミに入社し、2019年からAI研究所を担当しており、シャオミに入社する前は、中国科学院情報工学研究所で研究員および博士指導教員を務めており、30年近くの研究経験がある。情報検索と自然言語処理の分野での経験。

この大規模モデルはシャオミの AI チームにも依存しており、雷軍氏は 7 年間と 6 回の拡張を経て、シャオミの AI チームは 3,000 名を超え、CV、NLP、AI イメージング、自動運転、ロボット工学などをカバーしていると述べました。フィールドです。

(出典: シャオミ)

2. Google、Qualcomm、Huawei が続々と参入

Xiaomi に加えて、大規模なモデルを携帯電話上で実行できるようにすることは、多くのテクノロジー企業の現在の主要な目標です。

テクノロジー企業は大規模モデルの可能性を想像しています。WPS、グラファイトドキュメント、または電子メールを開いたとしても、書き込みなどのコマンドを入力する限り、携帯電話はローカル機能を呼び出して完全な記事または電子メールを生成できます。携帯電話上では、すべてのアプリがいつでもローカルの大規模モデルを呼び出して、仕事の処理や生活上の問題の解決に役立てることができます。携帯電話上の人々とさまざまなアプリの間のインタラクションは、もはや頻繁なクリックではなく、インテリジェントに呼び出すことができます。声で。

多くの企業は、大規模なモデルを携帯電話上でローカルに実行することをより実用的かつ経済的にするために、モデルのサイズを圧縮しようとしています。 GoogleがPaLM2を発表した今年5月のGoogle I/Oカンファレンスでは、サイズに応じて小型から大型までGecko、Otter、Bison、Unicornの順に4つの仕様に分けられ、その中で最小のGecko缶が登場した。高速であり、1 秒あたり 20 個のトークン (およそ 16 または 17 ワードに相当) を処理でき、携帯電話のオフライン実行もサポートします。しかし当時、Googleはこのモデルがどの携帯電話に使用されるかについては明らかにしなかった。

現時点で具体的な成果をあげているのはクアルコムだ。今年3月の2023MWCで、クアルコムは第2世代Snapdragon 8を搭載したスマートフォン上で、10億を超えるパラメータを持つ文勝グラフモデルである安定拡散を実行した。デモンストレーションでは、スタッフが安定拡散を使用して、インターネット接続なしで Android スマートフォン上で画像を生成しました。プロセス全体には 15 秒かかりました。

6 月に開催されたコンピュータービジョン学会のトップカンファレンス CVPR で、クアルコムは、Android スマートフォン上で 15 億パラメータ規模で実行される ControlNet モデルをデモンストレーションしましたが、描画時間はわずか 11.26 秒でした。 Qualcomm の製品管理担当上級副社長兼 AI 責任者である Ziad Asghar 氏は次のように述べています。 **技術的には、10 億を超えるパラメータを持つこれらの大型モデルを携帯電話に移行するには 1 か月もかかりません。 **

最新の動きとしては、クアルコムがメタ社との協力を発表し、スマートフォン、PC、AR/VRヘッドマウントディスプレイデバイス、自動車、その他のデバイス上で、ネットワークを介さずにクアルコムのSnapdragonチップをベースにしたLlama 2モデルに基づくアプリケーションやアプリケーションを探索することを発表した。仕える。クアルコムによると、クラウドベースの LLM と比較して、Llama 2 などの大規模な言語モデルをデバイス上でローカルに実行すると、コストが低くパフォーマンスが向上するだけでなく、オンラインサービス** に接続する必要がなく、サービスもよりパーソナライズされ、より効率的で、安全でよりプライベートです。

Appleは大規模モデルのアクションを正式に発表していないが、デバイス側でも大規模モデルの上陸を模索している。「Financial Times」の報道によると、Apple は iPhone や iPad で効率的に実行できるように 大規模な言語モデルを圧縮するエンジニアや研究者を全面採用しており、主に担当するチームはマシンインテリジェンスとニューラルデザイン ( MIND)チーム。

現在、Github 上で人気のオープンソースモデル MLC LLM プロジェクトは、ローカルデプロイメントをサポートしており、割り当てを慎重に計画し、モデルパラメーターをアクティブに圧縮することでメモリの制約を解決し、iPhone などのさまざまなハードウェアデバイス上で AI モデルを実行できます。このプロジェクトは、CMU 助教授、OctoML CTO Chen Tianqi およびその他の研究者によって共同開発され、チームは AI モデルを効率的に展開するための基盤として Machine Learning Compilation (MLC) テクノロジーを使用しています。 MLC-LLM がオンラインになってから 2 日も経たないうちに、GitHub 上のスターの数は 1,000 に近づきました。誰かが iPhone の機内モードで大規模な言語モデルをローカルで実行するテストをしました。

大型モデルをデバイス側でローカルに展開でき、オフラインで実行できることを重視する外資系GoogleやQualcommとは異なり、国内携帯電話メーカーは現状、大型モデルを携帯電話の音声アシスタントや既存の画像検索機能に展開することを優先している。このアップグレードは、大規模なモデルを使用するために、より多くのクラウド機能を呼び出すことです。

今回、Xiaomiは音声アシスタントXiao Aiに大型モデルを採用した。しかし、Xiaomiのエンドツーエンド大型モデルに関する関連情報は公開されていないため、今後のXiaomi大型モデルの開発経路を正確に判断することは不可能である。 Lei Jun氏が強調したローカル展開と軽量化の方向性から判断すると、Xiaomiは将来、携帯電話上で大型モデルをオフラインで実行しようとする可能性がある。

ファーウェイも携帯電話に大規模モデルを実装しようとしているが、依然として携帯電話の音声アシスタントと画像検索シーンに焦点が当てられている。 4月初めにファーウェイが新たに発表した携帯電話P60では、スマート画像検索の新機能の背後にマルチモーダル大規模モデル技術があり、その過程で携帯電話側でモデルが小型化された。最近、ファーウェイの新しくアップグレードされた端末インテリジェントアシスタントXiaoyiも、大型モデルに基づいてエクスペリエンスが最適化されており、音声プロンプトに従ってレストランを推奨したり、要約などの新しい機能を実行したりできます。

OPPO と vivo もこの方向に取り組んでおり、8 月 13 日、OPPO は、AndesGPT をベースにした新しい Xiaobu Assistant の体験が間もなく開始されることを発表しました。データからは、Xiaobu Assistant が大型モデルの機能を統合した後、対話やコピーライティングの効果が高まり、文章力などが強化されます。 AndesGPT は、OPPO Andes Intelligent Cloud Team によって作成されたハイブリッドクラウドアーキテクチャに基づく生成大規模言語モデルです。

携帯電話メーカーにとって、ローカル展開であろうとクラウド機能の活用であろうと、大型モデルは携帯電話にとって見逃せない新たなチャンスです。

3. 大きなモデルは携帯電話上で動作しますが、重要な問題はどこにありますか?

大規模なモデルを携帯電話上で実行するのは簡単な作業ではありません。

コンピューティング能力が主な問題です。携帯電話でラージモデルを利用するには、クラウドの計算能力だけでなく端末の計算能力も必要となり、リソース消費量が大きいため、1回の通話にかかるコストが高くなります。 Alphabet の会長である John Hennessy は、大規模な言語モデルを使用する場合の検索コストは、以前のキーワード検索コストの 10 倍であるとかつて述べました。昨年、Google の検索クエリは 3 兆 3,000 億件あり、1 件あたりのコストは約 5 分の 1 セントでした。ウォール街のアナリストは、Google が検索クエリの半分を処理するために大規模な言語モデルを使用し、各クエリが約 50 語の答えを提供する場合**、Google は 2024 年までに支出が 60 億ドル増加する可能性があると予測しています。 **

(出典:ロイター通信)

従来のコンピューティングがメインフレームとクライアントからクラウドとエッジ端末の組み合わせに進化したのと同じように、携帯電話で大規模なモデルを実行する場合も同様のコストの問題に直面しています。同じモードで、端末側で大規模なモデルを実行するには、AI ワークロードをクラウドとエッジ端末間で分散および調整できるようにするハイブリッド AI アーキテクチャも必要です**。これにより、携帯電話メーカーはエッジ端末のコンピューティング能力を利用できるようになります。コストを削減するため。このコストを考慮して、大規模なモデルをローカルに展開できます。

また、携帯電話はみんなの私物であり、データが生成される場所であり、ローカルに大量のプライベートデータも保存されており、ローカル展開が実現できれば、セキュリティやプライバシーの面で個人を保護することができます。。

これにより、2 番目の問題が生じます。大規模なモデルを実行するために、より多くのエンドサイド機能を使用したい場合、携帯電話の消費電力を非常に低く抑えながら、同時にモデルの効率を高めるにはどうすればよいでしょうか?

クアルコムはかつて、大規模なモデルを携帯電話などのローカルデバイスに展開するための重要な機能は、クアルコム AI モデル拡張ツールキット (AIMET)、クアルコム AI エンジン、および次のようなクアルコム関連テクノロジーを含む、ハードウェアとソフトウェアのクアルコムのフルスタック AI 最適化にあると述べました。 AI ソフトウェアスタックはモデルのボリュームを圧縮し、推論を加速し、実行時の遅延と電力消費を削減できます。クアルコムのグローバル副社長でクアルコムAI研究責任者の侯吉磊氏は、クアルコムの高効率AI研究開発の重要な部分は全体的なモデル効率の研究であり、その目的はAIモデルを多方向に削減することであるとかつて述べた。ハードウェア上で効率的に実行できるようにします。

単一モデルの圧縮は、小さな困難ではありません。一部のモデル圧縮では大規模モデルのパフォーマンスが低下しますが、一部の技術的方法では可逆圧縮を実現できますが、そのすべてでさまざまなツールを使用してさまざまな方向でエンジニアリングを試みる必要があります。

これらの主要なソフトウェアおよびハードウェア機能は、携帯電話メーカーにとって大きな課題です。現在、多くの携帯電話メーカーが携帯電話で大型モデルを実行するための第一歩を踏み出しました。次に、より経済的かつ効率的に、より優れた大型モデルを各携帯電話に組み込む方法は、より難しく、より重要なステップです。

冒険はまだ始まったばかりです。

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。