This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
ロボット ChatGPT が登場: 大きなモデルが現実世界に参入、DeepMind の強力なブレークスルー
私たちは、インターネット上の言語と画像を習得した後、その大きなモデルが最終的に現実世界に登場することを知っており、「身体化された知性」が次の発展の方向となるはずです。
追加のデータやトレーニングを必要とせずに、複雑な指示の代わりに単純な自然言語を使用して、大きなモデルをロボットに接続し、追加のデータやトレーニングを行わずに、特定のアクション プランを作成するこのビジョンは、良さそうに見えますが、少し遠いように思えます。結局のところ、ロボット工学の分野は難しいことで有名です。
しかし、AIは私たちが思っているよりも早く進化しています。
今週の金曜日、Google DeepMind は、ロボット制御用の世界初のビジョン・言語・アクション (VLA) モデルである RT-2 の発売を発表しました。
複雑な命令が使用されなくなったので、ChatGPT のようにロボットを直接操作できるようになりました。
ロボットにテイラー・スウィフトにコーラの缶を与えるように指示してください:
ChatGPT などの大規模な言語モデルの開発は、ロボット分野に革命を引き起こしており、Google はロボットに最先端の言語モデルをインストールし、ついに人工頭脳を実現しました。
DeepMind が最近提出した論文の中で、研究者らは、RT-2 モデルは、Bard などの大規模言語モデルの研究の進歩を利用し、ロボット データと組み合わせて、ネットワーク データとロボット データに基づいてトレーニングされると述べています。英語以外の言語での説明も理解できます。
**RT-2はどのように実装されますか? **
DeepMind の RT-2 を分解すると、Robotic Transformer、つまりロボットのトランスフォーマー モデルとして読み込まれます。
ロボットが人間の言葉を理解し、SF映画のように生存能力を示すのは簡単なことではない。仮想環境と比較すると、現実の物理世界は複雑で無秩序であり、通常、ロボットが人間に代わっていくつかの単純なことを行うには複雑な指示が必要です。代わりに、人間は本能的に何をすべきかを知っています。
以前はロボットのトレーニングに長い時間がかかり、研究者はさまざまなタスクに対するソリューションを個別に構築する必要がありましたが、RT-2 のパワーにより、ロボットはより多くの情報を自ら分析し、次に何をすべきかを推測できるようになりました。
RT-2 は、ビジョン言語モデル (VLM) に基づいて構築され、新しい概念であるビジョン言語アクション (VLA) モデルを作成します。このモデルは、ネットワークとロボットのデータから学習し、この知識を組み合わせて、ロボットが実行できる一般的な命令に変換します。コントロール。このモデルは、疲れた人にはどの飲み物が最適か (エナジードリンク) といった思考連鎖の手がかりを使用することもできました。
実際、Google は昨年の初めにこのロボットの RT-1 バージョンを発表しました。必要な事前トレーニング済みモデルは 1 つだけで、RT-1 はさまざまな感覚入力 (視覚、テキストなど) から命令を生成できます。 ) 複数のタスクを実行します。タスクの種類。
事前トレーニング済みモデルとして、自己教師あり学習を適切に構築するには、当然ながら大量のデータが必要です。 RT-2 は RT-1 をベースに構築されており、オフィスやキッチン環境で 13 台のロボットによって 17 か月にわたって収集された RT-1 デモンストレーション データを使用します。
DeepMind 作成された VLA モデル
RT-2 は VLM に基づいて構築されていると前述しました。VLM モデルは Web スケール データでトレーニングされており、視覚的な質問応答、画像キャプション、オブジェクト認識などのタスクを実行するために使用できます。さらに、研究者らは、RT-2 のバックボーンとして、以前に提案された 2 つの VLM モデル PaLI-X (Pathways Language and Image model) と PaLM-E (Pathways Language model Embodied) に適応的な調整を行い、これらのモデル The Vision -Language-Movement バージョンは RT-2-PaLI-X および RT-2-PaLM-E と呼ばれます。
視覚言語モデルがロボットを制御できるようにするには、やはり動作を制御する必要があります。この研究では、非常にシンプルなアプローチを採用しました。ロボットの動作を別の言語であるテキスト トークンで表現し、Web スケールのビジョン言語データセットを使用してトレーニングしました。
ロボットのモーション エンコーディングは、Brohan らが RT-1 モデルに対して提案した離散化手法に基づいています。
以下の図に示すように、この研究ではロボットの動作をテキスト文字列として表現します。テキスト文字列は、「1 128 91 241 5 101 127 217」などのロボット動作のトークン番号のシーケンスとすることができます。
アクションはテキスト文字列として表現されるため、ロボットは文字列コマンドと同じくらい簡単にアクション コマンドを実行できます。この表現を使用すると、既存の視覚言語モデルを直接微調整し、視覚言語行動モデルに変換できます。
推論中、テキスト トークンはロボットのアクションに分解され、閉ループ制御が実現されます。
実験中
研究者らは、RT-2 モデルに対して一連の定性的および定量的な実験を実行しました。
以下の図は、意味の理解と基本的な推論に関する RT-2 のパフォーマンスを示しています。たとえば、「イチゴを正しいボウルに入れる」というタスクの場合、RT-2 はイチゴとボウルの表現を理解する必要があるだけでなく、シーンのコンテキストでイチゴを適切なボウルに配置する必要があることを推論する必要もあります。似たような果物を一緒に。テーブルから落ちそうなバッグを拾うというタスクでは、RT-2 は 2 つのバッグの間の曖昧さをなくし、不安定な位置にある物体を識別するためにバッグの物理的特性を理解する必要があります。
これらのシナリオでテストされたすべてのインタラクションは、ロボット データでは一度も見られたことがないことに注意してください。
ChatGPT と同様に、このような機能が大規模に適用されれば、世界は大きく変わると予想されます。しかし、GoogleはRT-2ロボットをすぐに適用する計画はなく、研究者らは人間の音声を理解できるこれらのロボットが能力を実証するレベルにとどまることはないと信じているとだけ述べた。
言語モデルが組み込まれたロボットを想像してみてください。倉庫に置いたり、薬を取りに行ったり、洗濯物をたたんだり、食洗機から物を取り出したり、家の周りを片付けたりするホームアシスタントとしても使用できます。
**身体化された知性は、私たちからそれほど遠くないところにありますか? **
最近、身体化された知能は、多くの研究者が研究している方向性です。今月、スタンフォード大学のリー・フェイフェイ・チームは、大規模な言語モデルと視覚言語モデルを通じて、AI が 3D 空間で分析および計画を立て、ロボットの動作をガイドできるという新しい成果を実証しました。
大型モデルの分野では、まだまだ大きな出来事が起きようとしていることがわかります。
参考内容: