ロボット ChatGPT が登場: 大きなモデルが現実世界に参入、DeepMind の強力なブレークスルー

2023-07-30 01:28:43

ロボットにコマンドを送信するのがかつてないほど簡単になりました。

私たちは、インターネット上の言語と画像を習得した後、その大きなモデルが最終的に現実世界に登場することを知っており、「身体化された知性」が次の発展の方向となるはずです。

追加のデータやトレーニングを必要とせずに、複雑な指示の代わりに単純な自然言語を使用して、大きなモデルをロボットに接続し、追加のデータやトレーニングを行わずに、特定のアクションプランを作成するこのビジョンは、良さそうに見えますが、少し遠いように思えます。結局のところ、ロボット工学の分野は難しいことで有名です。

しかし、AIは私たちが思っているよりも早く進化しています。

今週の金曜日、Google DeepMind は、ロボット制御用の世界初のビジョン・言語・アクション (VLA) モデルである RT-2 の発売を発表しました。

複雑な命令が使用されなくなったので、ChatGPT のようにロボットを直接操作できるようになりました。

RT-2 はどの程度インテリジェントですか? DeepMindの研究者らはロボットアームを見せ、AIに「絶滅した動物」を選ぶように指示すると、アームが伸び、爪が開いて落ち、恐竜の人形を掴んだ。

それ以前は、ロボットは見たことのない物体を確実に理解することはできず、ましてや「絶滅した動物」と「プラスチック製の恐竜の人形」を結びつけるようなことを推論することはできなかった。

ロボットにテイラー・スウィフトにコーラの缶を与えるように指示してください:

このロボットが真のファンであることがわかり、これは人間にとって朗報です。

ChatGPT などの大規模な言語モデルの開発は、ロボット分野に革命を引き起こしており、Google はロボットに最先端の言語モデルをインストールし、ついに人工頭脳を実現しました。

DeepMind が最近提出した論文の中で、研究者らは、RT-2 モデルは、Bard などの大規模言語モデルの研究の進歩を利用し、ロボットデータと組み合わせて、ネットワークデータとロボットデータに基づいてトレーニングされると述べています。英語以外の言語での説明も理解できます。

Google幹部らは、RT-2はロボットの構築とプログラムの方法において飛躍的な進歩を遂げたと述べている。「この変更により、研究計画全体を再考する必要がありました」と、Google の DeepMind ロボット工学担当ディレクターの Vincent Vanhoucke 氏は言います。「私が以前にやったことの多くは全く役に立たなかった。」

RT-2はどのように実装されますか?

DeepMind の RT-2 を分解すると、Robotic Transformer、つまりロボットのトランスフォーマーモデルとして読み込まれます。

ロボットが人間の言葉を理解し、SF映画のように生存能力を示すのは簡単なことではない。仮想環境と比較すると、現実の物理世界は複雑で無秩序であり、通常、ロボットが人間に代わっていくつかの単純なことを行うには複雑な指示が必要です。代わりに、人間は本能的に何をすべきかを知っています。

以前はロボットのトレーニングに長い時間がかかり、研究者はさまざまなタスクに対するソリューションを個別に構築する必要がありましたが、RT-2 のパワーにより、ロボットはより多くの情報を自ら分析し、次に何をすべきかを推測できるようになりました。

RT-2 は、ビジョン言語モデル (VLM) に基づいて構築され、新しい概念であるビジョン言語アクション (VLA) モデルを作成します。このモデルは、ネットワークとロボットのデータから学習し、この知識を組み合わせて、ロボットが実行できる一般的な命令に変換します。コントロール。このモデルは、疲れた人にはどの飲み物が最適か (エナジードリンク) といった思考連鎖の手がかりを使用することもできました。

RT-2 アーキテクチャとトレーニングプロセス

実際、Google は昨年の初めにこのロボットの RT-1 バージョンを発表しました。必要な事前トレーニング済みモデルは 1 つだけで、RT-1 はさまざまな感覚入力 (視覚、テキストなど) から命令を生成できます。 ) 複数のタスクを実行します。タスクの種類。

事前トレーニング済みモデルとして、自己教師あり学習を適切に構築するには、当然ながら大量のデータが必要です。 RT-2 は RT-1 をベースに構築されており、オフィスやキッチン環境で 13 台のロボットによって 17 か月にわたって収集された RT-1 デモンストレーションデータを使用します。

DeepMind 作成された VLA モデル

RT-2 は VLM に基づいて構築されていると前述しました。VLM モデルは Web スケールデータでトレーニングされており、視覚的な質問応答、画像キャプション、オブジェクト認識などのタスクを実行するために使用できます。さらに、研究者らは、RT-2 のバックボーンとして、以前に提案された 2 つの VLM モデル PaLI-X (Pathways Language and Image model) と PaLM-E (Pathways Language model Embodied) に適応的な調整を行い、これらのモデル The Vision -Language-Movement バージョンは RT-2-PaLI-X および RT-2-PaLM-E と呼ばれます。

視覚言語モデルがロボットを制御できるようにするには、やはり動作を制御する必要があります。この研究では、非常にシンプルなアプローチを採用しました。ロボットの動作を別の言語であるテキストトークンで表現し、Web スケールのビジョン言語データセットを使用してトレーニングしました。

ロボットのモーションエンコーディングは、Brohan らが RT-1 モデルに対して提案した離散化手法に基づいています。

以下の図に示すように、この研究ではロボットの動作をテキスト文字列として表現します。テキスト文字列は、「1 128 91 241 5 101 127 217」などのロボット動作のトークン番号のシーケンスとすることができます。

この文字列は、ロボットが現在のエピソードを継続しているか終了しているかを示すフラグで始まり、その後、ロボットはエンドエフェクターの位置と回転を変更し、ロボットのグリッパーなどのコマンドを指示に従って変更します。

アクションはテキスト文字列として表現されるため、ロボットは文字列コマンドと同じくらい簡単にアクションコマンドを実行できます。この表現を使用すると、既存の視覚言語モデルを直接微調整し、視覚言語行動モデルに変換できます。

推論中、テキストトークンはロボットのアクションに分解され、閉ループ制御が実現されます。

実験中

研究者らは、RT-2 モデルに対して一連の定性的および定量的な実験を実行しました。

以下の図は、意味の理解と基本的な推論に関する RT-2 のパフォーマンスを示しています。たとえば、「イチゴを正しいボウルに入れる」というタスクの場合、RT-2 はイチゴとボウルの表現を理解する必要があるだけでなく、シーンのコンテキストでイチゴを適切なボウルに配置する必要があることを推論する必要もあります。似たような果物を一緒に。テーブルから落ちそうなバッグを拾うというタスクでは、RT-2 は 2 つのバッグの間の曖昧さをなくし、不安定な位置にある物体を識別するためにバッグの物理的特性を理解する必要があります。

これらのシナリオでテストされたすべてのインタラクションは、ロボットデータでは一度も見られたことがないことに注意してください。

以下の図は、RT-2 モデルが 4 つのベンチマークで以前の RT-1 およびビジョン事前トレーニング (VC-1) ベースラインよりも優れていることを示しています。

RT-2 は、元のタスクでのロボットのパフォーマンスを維持し、これまでに見たことのないシナリオでのロボットのパフォーマンスを RT-1 の 32% から 62% に向上させます。

一連の結果は、ビジョン言語モデル (VLM) を強力なビジョン言語アクション (VLA) モデルに変換でき、VLM の事前トレーニングとロボットデータを組み合わせることでロボットを直接制御できることを示しています。

ChatGPT と同様に、このような機能が大規模に適用されれば、世界は大きく変わると予想されます。しかし、GoogleはRT-2ロボットをすぐに適用する計画はなく、研究者らは人間の音声を理解できるこれらのロボットが能力を実証するレベルにとどまることはないと信じているとだけ述べた。

言語モデルが組み込まれたロボットを想像してみてください。倉庫に置いたり、薬を取りに行ったり、洗濯物をたたんだり、食洗機から物を取り出したり、家の周りを片付けたりするホームアシスタントとしても使用できます。

それは人間の環境でのロボットの使用への扉を実際に開く可能性があり、手作業を必要とするすべての方向を引き継ぐことができます。つまり、ChatGPT の仕事への影響を予測することに関する以前の OpenAI レポートでは、大規模モデルでは不可能な部分でした。影響がカバーされるようになりました。

身体化された知性は、私たちからそれほど遠くないところにありますか？

最近、身体化された知能は、多くの研究者が研究している方向性です。今月、スタンフォード大学のリー・フェイフェイ・チームは、大規模な言語モデルと視覚言語モデルを通じて、AI が 3D 空間で分析および計画を立て、ロボットの動作をガイドできるという新しい成果を実証しました。

Zhihui Jun氏の汎用人型ロボット新興企業「Agibot」は昨夜ビデオを公開したが、このビデオでは大規模な言語モデルに基づくロボットの自動プログラミングとタスク実行機能も実証された。

8月には、Zhihui Jun氏の会社が最近の成果を外部に発表する予定だ。

大型モデルの分野では、まだまだ大きな出来事が起きようとしていることがわかります。

参考内容：

原文表示

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.