This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Google の AGI ロボットの大規模な動き: 54 人のチームが 7 か月間抑制、強力な一般化と強力な推論、DeepMind と Google Brain の合併後の新たな成果
元のソース: Qubit
爆発的な ビッグ モデルは、Google の DeepMind の ロボット 研究を再構築しています。
最新の成果の 1 つはロボット プロジェクト RT-2 です。このプロジェクトは構築に 7 か月かかり、インターネットで人気になりました。
人間の言葉で命令するだけで、目の前の小さな男はロボットアームを振り、考えて「主人の仕事」を完了することができます。
ポップ歌手テイラー・スウィフトに水をあげたり、スターチームのロゴを特定したりするのと同じです。
ネチズンの言葉を借りれば、この能力を過小評価しないでください。これは「絶滅した動物」から「プラスチック恐竜」への論理的な飛躍です。
さらに「恐ろしい」のは、思考の連鎖と組み合わせる必要がある「疲れた人に飲み物を選ぶ」という多段階推論問題を、命令を聞いた瞬間に簡単に解決してしまうことです。 、小さな手は真っすぐにレッドブルに向かうでしょう、ただ賢くなりすぎないでください。
一部のネチズンはこれを読んで嘆きました。
マルチモーダル大型モデルをロボット アームに接続します
RT-2 (Robotic Transformer 2) と呼ばれるこのロボット プロジェクトは、昨年末にリリースされた RT-1 の「進化版」です。
他のロボット研究と比較したRT-2の主な利点は、「人間の言葉」を理解できるだけでなく、「人間の言葉」を推論してロボットが理解できる命令に変換し、段階的にタスクを完了できることです。 。
具体的には、シンボル理解 (シンボル理解)、推論 (推論)、人間認識 (人間認識) という 3 つの主要な機能があります。
1 つ目の能力は「記号理解」で、大規模モデルの事前トレーニングの知識をロボットがこれまで見たことのないデータに直接拡張できます。例えば、ロボットのデータベースには「レッドブル」は存在しませんが、大型モデルの知識から「レッドブル」の姿を理解・把握し、物体を扱うことができます。
2 番目の能力は「推論」で、これは RT-2 の 核心的な利点でもあり、ロボットが数学、視覚的推論、多言語理解の 3 つの主要なスキルを習得する必要があります。
スキル 1 (数学 論理的推論のコマンドを含む)、「バナナを 2+1 の合計に入れる」:
では、これら 3 つの能力はどのように実現されるのでしょうか?
簡単に言うと、ビジュアル・テキスト・マルチモーダル・ラージ・モデル(VLM)の「推論」「認識」「数学」の能力と、ロボットの操作能力を組み合わせることです。
例えば、回転角度や配置する座標点などのデータを「ある位置に配置する」というテキストに変換します。
このように、視覚言語データセット内のロボットデータを学習用に活用すると同時に、推論の過程で元のテキスト命令をロボットデータに再変換することで、一連の動作を実現します。ロボットを制御するように。
そう、単純で失礼なのだ(手動犬頭)
この研究では、チームは主に、50 億と 550 億の PaLI-X、30 億の PaLI、および 12 を含む Google の一連の基本的な大規模モデルに基づいて「アップグレード」しました。億 PaLM-E。
大規模モデル自体の能力を向上させるために、研究者らは最近人気の思考連鎖、ベクトルデータベース、無勾配アーキテクチャなどを利用して多大な努力を払ってきました。
この一連の操作により、RT-2 は昨年発売された RT-1 に比べて多くの新たなメリットを得ることができます。
具体的な実験結果を見てみましょう。
RT-1 の最大 3 倍のパフォーマンス
RT-2は、前世代のロボットモデルRT-1のデータを学習に使用します(つまり、データは変更されていませんが、方法が異なります)。
データは、オフィス内に設置されたキッチン環境で 13 台のロボットを使用して 17 か月にわたって収集されました。
実際のテスト (合計 6,000 回) では、作成者は RT-2 にこれまでに見たことのない多くのオブジェクトを与え、タスクを完了するためにデータの微調整を超えた意味の理解を RT-2 が実行することを要求しました。
結果はすべて非常にうまくいきました。
文字、国旗、キャラクターなどの単純な認識から、人形による陸生動物の認識、色の違うものを選択する、さらにはテーブルから落ちそうなお菓子を拾うなどの複雑なコマンドも含まれています。
前述したように、2 つのバリアントは、それぞれ 120 億のパラメータを備えた PaLM-E と 550 億のパラメータを備えた PaLI-X でトレーニングされています。
RT-2 のさまざまな設定が汎化結果にどのような影響を与えるかをよりよく理解するために、著者は 2 つの評価カテゴリを設計しました。
まず、モデル サイズの点で、RT-2 PaLI-X バリアントのみがトレーニングに 50 億のパラメーターと 550 億のパラメーターを使用します。
2 つ目はトレーニング方法で、モデルを最初からトレーニングする方法、微調整する方法、共同で微調整する方法を採用します。
最終結果は、VLM の事前トレーニングされた重みの重要性とモデルの汎化能力がモデルのサイズに応じて増加する傾向があることを示しています。
最後に、RT-2 PaLM-E バリアントは、単一のニューラル ネットワーク内で LLM、VLM、およびロボット コントローラーとして機能できるビジョン言語アクション モデルであるため、RT-2 は制御された思考連鎖推論も実行できます。
以下の図に示す 5 つの推論タスク (特に最後のタスクは非常に興味深い: ハンマーに代わるアイテムを選択する) のうち、コマンドを受け取った後に自然言語ステップを出力し、その後、特定のアクション トークンを与えます。
## もう一つ
Google が 大型モデルのロボット研究に重点を置いているのは「根拠がない」わけではないようです。
ここ 2 日間で、コロンビア大学と共著した「ロボット操作スキルの習得に役立つ大規模モデルの使用」に関する論文も非常に人気になりました。
少し前の李飛飛チームの身体化された知能の成果を思い出させると、ロボットを駆動するために大型モデルを使用することが研究トレンドになり、非常に有望な進歩の波が見られたと言えます。
この研究の方向性についてどのようなことを期待していますか?
プロジェクトアドレス:
参考リンク:
[1]
[2]
[3]
[4]