この軍拡競争に参加している Terminus の CTO 華賢生氏も、大規模なモデルと状況を打開するための答えについて、彼自身の冷静な考えを語った。以下は、華賢生氏と AI Technology Review との会話の記録である。 AI Technology Review による抜粋は次のとおりです。
1. 視点 1: 大規模モデルは知能の出現の終わりではありません
大型モデルの「インテリジェントな出現」からわずか 1 年で、物理世界と情報の生産方法は革命的な変化を遂げ、より広い都市空間にマッピングされ、必然的に新たなイノベーションをもたらすことになります。この点に関して、華賢生氏は AI テクノロジーのレビューについて話したときに、「大型モデルは確かに大きな進歩を遂げましたが、大型モデルについて迷信を持たないでください。限界があります。」と率直に言いました。
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
インタビュー丨大きなモデルを信じないでください、この段階のイノベーションはまだ「インタラクティブ」です
**出典:**AI テクノロジーのレビュー
著者: Huang Nan、編集者: Chen Caixian
『流浪の地球』では「反逆者」とされるMOSSは、Tinderプロジェクトに合わせて作られたデジタルライフだ。それは非常に賢く、人間の道徳、哲学、科学、芸術などの知識を超えた能力を持ち、最適解を見つけ出し、最短時間で「最も正しい」決断を下すことができる、完璧な知性です。
現在、技術変革にはビッグモデルが用いられ、限られた範囲内での「産業」や「分野」への実装にほぼ絶対的な可能性をもたらしており、新たなAI実用化の物語の中で、人々は積極的あるいは受動的にその熱狂に参加することになる。資源競争中盤。
人間を永遠に正気でいるのは贅沢なことだ。 MOSS以前の人類文明が破壊と再生の歴史を経験したように、私たちも大型模型上陸の謝肉祭から技術的合理性への回帰が急務となっている。
この軍拡競争に参加している Terminus の CTO 華賢生氏も、大規模なモデルと状況を打開するための答えについて、彼自身の冷静な考えを語った。以下は、華賢生氏と AI Technology Review との会話の記録である。 AI Technology Review による抜粋は次のとおりです。
1. 視点 1: 大規模モデルは知能の出現の終わりではありません
大型モデルの「インテリジェントな出現」からわずか 1 年で、物理世界と情報の生産方法は革命的な変化を遂げ、より広い都市空間にマッピングされ、必然的に新たなイノベーションをもたらすことになります。この点に関して、華賢生氏は AI テクノロジーのレビューについて話したときに、「大型モデルは確かに大きな進歩を遂げましたが、大型モデルについて迷信を持たないでください。限界があります。」と率直に言いました。
Hua Xiansheng 氏の回想によると、昨年 ChatGPT が登場した後、彼はそれに注目し、初めて試してみました。確かに大きな進歩であることは間違いなく、その大幅な能力の向上には驚かされる一方、正直、想像していたほど強力ではなく、十分ではないということも感じました。
「ディープラーニングが最初に誕生したとき、誰もがディープラーニングですべての問題を解決できると考えました。ディープラーニングは、十分に複雑なモデルと十分なデータを使用して、現実世界のさまざまな問題のモデルを構築できます。しかし、実際の戦闘では、実際には、より深くまで掘り下げる必要があります。問題は、今日の大きなモデルでもこのルールは変わっていませんが、** 業界の問題を解決するには、依然として現場に深く入り込んで、対応するプロセスやデータなどを理解する必要があります。**」 Huaシアンシェン氏は言及した。
現在、Terminus の超スマートキャンパスでは、ソフトロボットは大型モデルの時代の MOSS のような存在となっています。パークの大きなスクリーンに隠れており、パークのことを知り尽くしており、道を聞いたり、必要な情報を入手したり、操作を行ったりすることができます。人間と機械の共存の背後には、人間、IoT デバイス、都市の間で高度なインテリジェンスを実現するための大規模モデルと IoT ハードウェアのセマンティックな調整があります。
それでは、AIoTが大きなモデルと出会ったとき、どのような火花が衝突するのでしょうか? Hua Xiansheng 氏は次のように考えています。AI は AIoT の魂であり、IoT はその「手足」のような認識と制御であり、もちろん、その「本体」の物理的基盤、つまりコンピューティング能力リソースも含まれます。 。
LLM (大規模言語モデル) の出現により、AI 機能はより一般的な目標に一歩近づきました。まず、大規模言語モデルを AIoT システムの対話型インターフェイスとして直接使用できる。第二に、AIoT データは本質的にマルチモーダルであり、マルチモーダルな大規模モデルは、これまで「AI + ルール」によって解決する必要があった多くの問題を解決すると期待されています。
Hua Xiansheng 氏の目では、AIoT の大規模モデルに関しては、主に 2 つのルートがあると考えています。1 つ目は、AI が過去に大規模なモデルで行ったことをアップグレードして再度実行することであり、これはほとんどの人が行っていることです。本当の意味での大規模な AIoT モデル。AIoT のマルチモーダルな異種データが実際に使用され**、大規模なモデルに組み込まれます。 「しかし、この種の実際のAIoTモデルは将来すぐに登場するかもしれないし、あるいは長い時間がかかるかもしれない。」とHua Xiansheng氏は語った。
現段階で AIoT 業界で使用されている大型モデルは、彼の意見ではまだ最初の技術的ルートにあり、言語または言語と視覚に基づいた「疑似」AIoT 大型モデルです。
「疑似」AIoT 大規模モデルが登場する前は、AIoT デバイス間の接続とコラボレーションは、人間の専門家によって事前に定義されたルールに完全に基づいていました。これらのルールは固定されており、不完全で、自己進化するものではなく、直接理解して従うことができない場合があります。人間による指示。しかし、大規模なモデルを使用すると、非常に多様なコンテキスト (季節、時間、キャラクター、指示など) に従ってオブジェクト間の接続と調整のルールを自動的かつ動的に構築でき、適応的で多様で詳細な、統合されたインテリジェントなシーン エクスペリエンスを提供できます。人間の指示で。
華賢生氏はインタビューで「どのルートにせよ、最も典型的なグローバルAIoTモデルはまだ登場していない**」と述べた。
2. 視点 2: 立体認識、正確な制御、AIoT 大型モデルの先史時代の力を解き放つ
実際の AIoT モデルにはどのような機能が必要ですか? Hua Xiansheng 氏は、AIoT と他の業界には 2 つの大きな違いがあると考えています。まず、異種データが多いこと、天気、気温、湿度、電力、降水量などのさまざまなデータを多数のセンサーが収集し、情報が豊富であること、第二に、IoT デバイスは単なるセンシングデバイスではなく、環境を逆に制御することもできます。 より豊かな認識次元とより強力な行動力こそが、AIoT モデルが持つべきものです。
AIoT分野の活性化の話に戻りますが、多くの制限がある一般的なモデルに依存するだけではそれを達成することは困難です。したがって、AIoT 大規模モデルは、次のいくつかの特性を満たす必要があります。
まず、プロ意識。それは専門的であり、現場でより専門的な関連問題を解決できなければなりません。今日の大型モデルは強力に見えますが、公園内で使用できる十分な専門知識がありません。
2 番目に、信頼性。モデルは、関心のあるシーンをよく理解する必要があり、一方では新しい知識を導入することで十分に理解する必要がありますが、第二に、出力結果を「錯覚」せずに信頼性の高いものにするためのいくつかの制約方法も必要です。 「深刻なナンセンス」の。
3 番目は、パフォーマンスとコストのバランスです。トレーニングコストの観点から、特に大規模な汎用モデルは通常のスタートアップ企業では購入できません。第二に、推論中にユーザー数や訪問数が多すぎると、大規模モデルのサービスも失敗します。したがって、単純化されたモデルを選択することをお勧めします。私の懸念を解決し、ある程度の常識を備えている限り、それがすべてを知っている必要はありません。
4 番目に、** システムは ** を通過します。この大規模なモデルは知識を持っているだけでなく、リアルタイムの情報を取得するために公園のシステムと深く結合する必要があり、認可を前提としてリアルタイムで公園を対抗制御できます。
最近注目を集めている具現化インテリジェンス技術について、華賢生氏はインタビューの中で次のように述べています。 私たちが提案した AIoT 大型モデルは、既存の大型モデル技術を具現化したものです。 AIoT デバイスは、私たちの手や足であるだけでなく、目や耳でもあります。現時点では、インタラクションとシーンの連携に重点を置いており、将来的には知覚と制御を大規模なモデルに置き換える予定です。特に、当社のスーパー IoT デバイスとロボットは、それ自体が身体化されたインテリジェンスの表現であり、シームレスに統合されたサーバー側の機能 (IoT とモックアップ) とロボット側の機能 (センシング、計画、動作、対話) によってサポートされていますが、Terminus のロボットは身体化知能とは、ロボット自体の直接的な能力だけではなく、「機械と環境の連携」を身体化した知能のことです。
3. 視点 3: 着陸の難しさ、AIoT 大型モデルのマルチモーダルな課題
AIoT大型モデルの実装の難しさについて、華賢生氏は、その難しさには主にいくつかの側面があると考えており、前述の専門性、信頼性、パフォーマンスとコストのバランス、システム統合を満たすことに加えて、実装には本格的な実装も必要となります。 -時間パフォーマンス:実際に動作する AIoT システムであるため、これははるかに高くなります; さらに、その機能の進化には、大規模なモデル自体の更新だけでなく、データの蓄積、メモリの反復などが含まれます。一般に**、AIoT 大規模モデルの実装における最大の困難はマルチモーダル**にあります。
長期的には、おそらくテキスト/画像を中心に、他の IoT データを中心に合わせて、IoT データを統合された方法で AIoT モデルに統合することが可能であり、これが必要とされています。しかし、AIoT データの異質性とマルチモダリティのため、さまざまな種類のデータを統合して効果的に利用するには、データの表現と調整に関する課題を克服する必要があります。
まずデータ表現ですが、各種センサーデータをどのような形でモデリングするのか、シーケンス入力として参照テキストを使用するのか、マトリックス入力として参照画像を使用するのか、それとも新たなモデリング形式にするのか。この点に関しては、学界も産業界もまだ結論が出ていません。
また、データアライメントの観点から言えば、言語モデルは言語から学習して人間が理解できる言語を生成しますが、AIoT分野ではラベルや情報アノテーションのないデータが多く、そのコンテキストのほとんどがラベルや情報アノテーションを持たないデータが存在します。明示的なセマンティクスを持たない。セマンティクスとデータを一致させることは不可能であり、そのため、それによって生成されたデータと情報が理解できなくなります。AIoT データと自然言語の間のセマンティクスの整合性を確立するには、再処理する必要があります。これらのデータに対する意味。
4. 視点 4: AGI を実現するには大規模モデルだけが方法ではない、「モデル + システム」が正しい解決策
AIoTをはじめとするさまざまな分野でAIが直面する困難を前に、本当の意味でのAGIをどう実現するか。 Hua Xiansheng 氏は、現在 3 つの可能性があると考えています。
AIoT分野を例に挙げると、Hua Xiansheng氏は、ラージ言語モデル自体がAIoTの拡張であり、**はラージ言語モデルを強力な理解能力を備えた「頭脳」として使用し、システムを通じてAIoTデバイスを接続します。それを「目」、「鼻」、「耳」、「手」、「足」と一致させることで、複数の知覚、分析、意思決定、制御能力を備え、より強力な知能を実現します **。 「モデル+システム」がどんどん活用され、より多くのデータが蓄積されると、マルチモーダルかつ異種データの「大統合」AIoTモデルを真に実現することが可能になります。