7 月 29 日、ニューヨーク タイムズの記者は、Google Lab で Google の最新の RT-2 モデル駆動ロボットを率先して視察しました。
片腕のロボットがテーブルの前に立っています。テーブルの上には、ライオン、クジラ、恐竜の 3 つのプラスチック製の置物が置かれています。技術者がロボットに「絶滅した動物を拾え」と命令すると、ロボットは一瞬うなり声を上げ、その後腕を伸ばし、前足を広げて倒れた。恐竜を捕まえました。
それは知性の閃きです。
ニューヨーク・タイムズ紙は、「先週まで、このデモンストレーションは不可能だった。ロボットは、これまで見たことのない物体を確実に操作することはできず、『絶滅した動物』から『プラスチック恐竜』に移行するという目標を確実に達成することはできない。論理的な飛躍だ」と評した。 」
**まだデモの段階であり、Google はこれを大規模にリリースしたり、すぐに商品化する予定はありませんが、このデモは、大規模なモデルがロボットにもたらす可能性のある機会を少しだけ示すには十分でした。 **
大型モデルの時代が到来する前は、人間は通常、特定のおもちゃを掴むなどのタスクごとに最適化されたロボットを訓練していましたが、これには十分な量のデータが必要で、ロボットがあらゆる角度からさまざまな条件下でそのおもちゃを正確に識別できるようにしていました。ライトを点灯させておもちゃを掴むと成功です。ロボットにおもちゃを掴むというタスクがあることを認識させるには、ロボットがそれを解決するようにプログラムする必要があります。
大規模モデルのインテリジェンスと一般化機能により、人々はこれらの問題を解決し、汎用ロボットに向けて移行する夜明けを見ることができます。
Robotic Transformer 2 と呼ばれる Google の新しい RT-2 モデルは、モデルのベースとして Transformer アーキテクチャを使用しています。
2018年に提案されたTransformerアーキテクチャは、現在世界中で普及している大規模言語モデル(LLM)の下層基盤ですが、実はTransformerはアーキテクチャとして大規模言語モデルだけでなくTrainでも利用可能です。他の種類のデータについては。今年の 3 月には、Google は当時世界最大のビジュアル言語モデル (VLM) である PaLM-E をリリースしました。
大規模言語モデルでは、言語はベクトルとしてエンコードされ、人間がモデルに大量のコーパスを提供することで、人間が次の文で通常何を言うかを予測して、言語の答えを生成できます。
視覚言語モデルでは、モデルが画像情報を言語に似たベクトルにエンコードできるため、モデルがテキストと画像を同じ方法で「理解」できるようになります。研究者らは、大量のコーパスと画像を視覚言語モデルに提供し、視覚的な質問応答、画像のキャプション、オブジェクト認識などのタスクを実行できるようにしました。
画像も言語も比較的容易に大量のデータを入手できます。したがって、モデルは驚くべき結果を達成するのが簡単です。
ただし、Transformer アーキテクチャを使用してロボットの動作を生成するには、大きな困難があります。 「ロボットの動きに関連するデータは非常に高価です。」清華大学学際情報研究所の徐華哲助教授はギーク・パーク氏にこう語った。移動データはすべてボットのアクティブ データから取得されます。
**たとえば、コーヒーを注ぐロボットの動作を研究したいのですが、ロボットに実行させるコードを記述するか、ロボットに実行させる他のメソッドを使用するかにかかわらず、ロボットが実際にこの操作を 1 回実行する必要があります。このデータを取得するには。 ** したがって、ロボットのデータや言語や絵の規模や大きさは全く異なります。 」
**Google が研究したロボット Transformer モデル RT-1 の第一世代では、Google は初めてこのような課題に取り組み、視覚言語アクション モデルを構築しようとしました。 **
このようなモデルを構築するために、Google は 13 台のロボットを使用し、構築されたキッチン環境での 700 以上のタスクに関するロボットのアクティブ データで構成されるデータ セットを収集するのに 17 か月を費やしました。
データセットは 3 つの次元を同時に記録します。
その時点では良好な実験結果が得られましたが、データセット内のデータ量をさらに増やすことは非常に困難であると考えられます。
画像出典:Google AI紹介ビデオ
**RT-2 の革新的な点は、RT-2 が前述の視覚言語モデル (VLM) PaLM-E と別の視覚言語モデル PaLI-X をベースとして使用していることです。純粋な視覚言語モデルをネットワーク レベルのデータとして渡すことができます。データ量が十分に多く、十分な結果が得られるため、学習を行いますが、微調整段階ではロボットの動作データを加えて微調整を行います(co-finetuning)。 **
このように、ロボットは、大量のデータに基づいて学習された常識システムを初めて備えているのと同じであり、まだバナナを把握することはできませんが、すでにバナナを認識し、バナナが果物の一種であることさえ知っています。たべる。
微調整の段階では、現実世界でバナナを見た後、ロボットがどのようにバナナを掴むのかという知識を追加することで、ロボットはさまざまな照明や角度の下でバナナを認識するだけでなく、バナナを掴む能力も獲得します。能力。
このようにして、Transformer アーキテクチャでロボットをトレーニングするために必要なデータが大幅に削減されます。
RT-2は、RT-1のトレーニング段階で使用した視覚・言語・ロボット動作のデータセットをそのまま微調整段階で利用します。 Google が提供したデータによると、元々トレーニング データに含まれていたアイテムを取得する場合、RT-2 は RT-1 と同様にパフォーマンスを発揮します。そして「常識脳」のおかげで、見たことのないアイテムを掴む際の成功率がRT-1の32%から62%に上昇しました。
「これがこの大型模型の美しさです。」徐華哲氏は、「2 つの物体の材質が似ている、サイズが似ている、その他の理由により、分解することはできません。」と述べました。 」
学術的には、RT-2 が示す強力な一般化により、ロボットのトレーニング データが不十分であるという問題が解決される可能性があります。 **これに加えて、RT-2 の直感的な衝撃は依然としてそのインテリジェントな側面からもたらされます。 **
研究者らが「ハンマーとして使えるもの」を拾えるようにしたいという実験では、ロボットは積み上げられた物の中から石を拾い上げ、疲れたレッドブルに差し出された飲み物を拾うように頼まれたところ、アイテムの山の中で選択されています。
このようなスキルは、大規模なモデルをトレーニングするときに「思考の連鎖」を導入する研究者の能力から生まれます。このような複数セグメントの意味論的推論は、従来のロボット模倣学習研究では達成することが非常に困難です。
ただし、自然言語を使用してロボットと対話することは、RT-2 のオリジナルのアイデアではありません。
これまでのロボット研究では、研究者はタスクの要件をロボットが理解できるコードに変換する必要があり、同時に問題が発生した場合にはロボットの動作を修正するためのコードを記述する必要があり、プロセス全体で複数の対話が必要で非効率でした。 。 **そして、すでに非常にインテリジェントな対話ロボットを手に入れたので、次の自然なステップは、ロボットに自然言語で人間と対話させることです。 **
Googleの研究科学者カロル・ハウスマン氏は、「私たちは約2年前にこれらの言語モデルに取り組み始めましたが、その中に豊富な知識があることに気づき、それをロボットに接続し始めました。」
ただし、大きなモデルをロボットの心として使用することには、独自の困難があります。最も重要な問題の 1 つは、グラウンディングの問題、つまり、通常は比較的制約が少ない大規模モデルの応答を、ロボットの動作を駆動する命令にどのように変換するかという問題です。
** 2022 年、Google は Say-can モデルを開始しました。 **モデルは、その名前が示すように、ロボットの動作を支援するために 2 つの考慮事項を使用します。最初の考慮事項は、言うことです。このモデルは、自然言語と人間の対話を通じて取得されたタスクを分解し、現在のアクションに最適なものを見つけることができる Google の大規模言語モデル PaLM モデルと結合されています。もう 1 つの考慮事項は、次のとおりです。このモデルは、計算するアルゴリズム 現在のロボットがこのタスクを正常に実行できる確率を求めます。この2つを考慮してロボットは動きます。
たとえば、ロボットに「牛乳がこぼれてしまったので、手伝ってもらえますか?」と言うと、ロボットはまず言語モデルを通じてタスクを計画します。現時点では、最も合理的な方法は、清掃員を見つけてから清掃員を見つけることです。スポンジだけで拭き取れます。すると、ロボットはアルゴリズムを通じて、ロボットとして掃除機を見つけることに成功する確率は非常に低く、自分で拭いてくれるスポンジを見つける確率が高いことを計算します。慎重に検討した結果、ロボットはミルクを拭くためのスポンジを探すという行動を選択します。
画像出典:Saycan紹介動画
このような 2 層のモデル アーキテクチャでは、ロボットが正常に実行できるアクションは事前に設計されていますが、大規模な言語モデルはロボットが適切なタスク プランを選択するのに役立つだけです。このようなモデルでは、ロボットはすでに強い知性を示しています。
**ただし、外見上は効果が似ているように見えますが、RT-2 は異なる道をたどります。学習中、モデルは視覚、言語、ロボットの動作の 3 種類のデータを同時に学習します。RT-2 モデルは、タスク分解を行ってからタスク操作を実行するのではなく、自然言語入力後にタスクを実行します。モデルの操作を通じてアクションを直接生成します。 **
「2 層構造は私がやりたいことと似ています。まず、これを行うための最初のステップ、あれを行うための 2 番目のステップを考え、次にこれらの戦略を 1 つずつ実行します。」と Xu Huazhe 教授は言いました。 「エンドツーエンドの構造は似ています。だから、最初のステップと 2 番目のステップについては特に考えず、ただ実行しました。」後者の例は、携帯電話で毎日入力したりチャットしたりすることにたとえられます。 . 文字入力やチャットをするとき、私たちは普段あまり真剣に考えていませんが、筋肉がどう動くかを考えながら、入力する言葉を考えて、直接入力します。
「2つの異なるルートや異なる方法が、唯一の正しい方法であるとはまだ証明されていない」とXu Huazhe氏は述べた。ただし、RT-2 の優れたパフォーマンスにより、入出力の技術的な方向性を引き継ぐことができるモデルを検討する価値はありそうです。
「この変化(RT-2の優れた性能)のせいで、私たちは研究計画全体を再考する必要がありました」とGoogleのDeepMindのロボット工学担当ディレクターのVincent Vanhoucke氏は語った。 「私が以前にやったことの多くは全く役に立たなかった。」
Google の RT-2 ロボットは完璧ではありません。ニューヨーク・タイムズの記者が目撃した実際のデモンストレーションでは、レモンソーダの缶の味を誤認した(「オレンジ」と言っていた)。また別の時には、テーブルの上にある果物は何かと尋ねると、ロボットは「白」と答えました(実際はバナナでした)。 Googleの広報担当者は、Wi-Fiが一時的に中断されたため、ボットはキャッシュされた回答を使用して以前のテスターからの質問に答えたと説明した。
**さらに、ロボットのトレーニングに大規模なモデルを使用すると、必然的にコストの問題に直面します。 **現時点では、Google のロボットが推論や判断を行う場合、データをクラウドに送信する必要があり、複数の TPU が一緒に計算し、その結果をロボットに送り返し、ロボットが操作を実行します。このような計算は非常にコストがかかることが想像できます。
Google の DeepMind のロボット工学担当ディレクター、Vincent Vanhoucke 氏は、新しい研究により人間の環境でロボットが使用される可能性が開かれると信じています。研究者らは、言語モデルが組み込まれたロボットが倉庫や医療業界、さらには産業に導入される可能性があると考えています。ホームアシスタントは、洗濯物をたたむ、食洗機から物を取り出す、家の周りを片付けるのを手伝います。
「工場を開設し、ロボットを使用する必要がある場合、成功率は非常に高くなければなりません。ロボットを購入した後、ロボットのメンテナンスや機能の改善に多くの人員が必要になるとは言いたくありません。 Xu Huazhe教授は、「ホームシーンでのロボットは別の状況になる可能性があります。ホームシーンでの一部のタスクの成功率要件はそれほど高くないからです。 「例えば、服をたたむのはあまり得意ではありません。あなたの目には、この任務は失敗に終わりましたが、あなたに大きな影響はありません。」
人工知能の 3 人の巨人の 1 人であるヤン リークン (Yaan Lecun) は、何度も強調されてきた有名な主張を持っています。「人工知能は十分に賢くない」ということです。テーブルを片付けたり食器を食洗機に入れることは、どんな子供でもすぐに覚えられますが、ロボットにはそれができません。
これは現在のロボット研究にも当てはまるかもしれませんが、不完全な GPT-3 が業界に大規模モデル開発の方向性を示したのと同じように、おそらく今日の不完全な RT-2 もまた、ロボットが家庭に入り込み、私たちのアシスタントになってください。
10k 人気度
12k 人気度
41k 人気度
29k 人気度
676 人気度
98k 人気度
27k 人気度
26k 人気度
7k 人気度
15k 人気度
Google の RT-2 はロボットにとって GPT-3 の瞬間でしょうか?
7 月 29 日、ニューヨーク タイムズの記者は、Google Lab で Google の最新の RT-2 モデル駆動ロボットを率先して視察しました。
片腕のロボットがテーブルの前に立っています。テーブルの上には、ライオン、クジラ、恐竜の 3 つのプラスチック製の置物が置かれています。技術者がロボットに「絶滅した動物を拾え」と命令すると、ロボットは一瞬うなり声を上げ、その後腕を伸ばし、前足を広げて倒れた。恐竜を捕まえました。
それは知性の閃きです。
ニューヨーク・タイムズ紙は、「先週まで、このデモンストレーションは不可能だった。ロボットは、これまで見たことのない物体を確実に操作することはできず、『絶滅した動物』から『プラスチック恐竜』に移行するという目標を確実に達成することはできない。論理的な飛躍だ」と評した。 」
**まだデモの段階であり、Google はこれを大規模にリリースしたり、すぐに商品化する予定はありませんが、このデモは、大規模なモデルがロボットにもたらす可能性のある機会を少しだけ示すには十分でした。 **
大型モデルの時代が到来する前は、人間は通常、特定のおもちゃを掴むなどのタスクごとに最適化されたロボットを訓練していましたが、これには十分な量のデータが必要で、ロボットがあらゆる角度からさまざまな条件下でそのおもちゃを正確に識別できるようにしていました。ライトを点灯させておもちゃを掴むと成功です。ロボットにおもちゃを掴むというタスクがあることを認識させるには、ロボットがそれを解決するようにプログラムする必要があります。
大規模モデルのインテリジェンスと一般化機能により、人々はこれらの問題を解決し、汎用ロボットに向けて移行する夜明けを見ることができます。
Transformer をロボットに適用します
Robotic Transformer 2 と呼ばれる Google の新しい RT-2 モデルは、モデルのベースとして Transformer アーキテクチャを使用しています。
2018年に提案されたTransformerアーキテクチャは、現在世界中で普及している大規模言語モデル(LLM)の下層基盤ですが、実はTransformerはアーキテクチャとして大規模言語モデルだけでなくTrainでも利用可能です。他の種類のデータについては。今年の 3 月には、Google は当時世界最大のビジュアル言語モデル (VLM) である PaLM-E をリリースしました。
大規模言語モデルでは、言語はベクトルとしてエンコードされ、人間がモデルに大量のコーパスを提供することで、人間が次の文で通常何を言うかを予測して、言語の答えを生成できます。
視覚言語モデルでは、モデルが画像情報を言語に似たベクトルにエンコードできるため、モデルがテキストと画像を同じ方法で「理解」できるようになります。研究者らは、大量のコーパスと画像を視覚言語モデルに提供し、視覚的な質問応答、画像のキャプション、オブジェクト認識などのタスクを実行できるようにしました。
画像も言語も比較的容易に大量のデータを入手できます。したがって、モデルは驚くべき結果を達成するのが簡単です。
ただし、Transformer アーキテクチャを使用してロボットの動作を生成するには、大きな困難があります。 「ロボットの動きに関連するデータは非常に高価です。」清華大学学際情報研究所の徐華哲助教授はギーク・パーク氏にこう語った。移動データはすべてボットのアクティブ データから取得されます。
**たとえば、コーヒーを注ぐロボットの動作を研究したいのですが、ロボットに実行させるコードを記述するか、ロボットに実行させる他のメソッドを使用するかにかかわらず、ロボットが実際にこの操作を 1 回実行する必要があります。このデータを取得するには。 ** したがって、ロボットのデータや言語や絵の規模や大きさは全く異なります。 」
**Google が研究したロボット Transformer モデル RT-1 の第一世代では、Google は初めてこのような課題に取り組み、視覚言語アクション モデルを構築しようとしました。 **
このようなモデルを構築するために、Google は 13 台のロボットを使用し、構築されたキッチン環境での 700 以上のタスクに関するロボットのアクティブ データで構成されるデータ セットを収集するのに 17 か月を費やしました。
データセットは 3 つの次元を同時に記録します。
その時点では良好な実験結果が得られましたが、データセット内のデータ量をさらに増やすことは非常に困難であると考えられます。
**RT-2 の革新的な点は、RT-2 が前述の視覚言語モデル (VLM) PaLM-E と別の視覚言語モデル PaLI-X をベースとして使用していることです。純粋な視覚言語モデルをネットワーク レベルのデータとして渡すことができます。データ量が十分に多く、十分な結果が得られるため、学習を行いますが、微調整段階ではロボットの動作データを加えて微調整を行います(co-finetuning)。 **
このように、ロボットは、大量のデータに基づいて学習された常識システムを初めて備えているのと同じであり、まだバナナを把握することはできませんが、すでにバナナを認識し、バナナが果物の一種であることさえ知っています。たべる。
微調整の段階では、現実世界でバナナを見た後、ロボットがどのようにバナナを掴むのかという知識を追加することで、ロボットはさまざまな照明や角度の下でバナナを認識するだけでなく、バナナを掴む能力も獲得します。能力。
このようにして、Transformer アーキテクチャでロボットをトレーニングするために必要なデータが大幅に削減されます。
RT-2は、RT-1のトレーニング段階で使用した視覚・言語・ロボット動作のデータセットをそのまま微調整段階で利用します。 Google が提供したデータによると、元々トレーニング データに含まれていたアイテムを取得する場合、RT-2 は RT-1 と同様にパフォーマンスを発揮します。そして「常識脳」のおかげで、見たことのないアイテムを掴む際の成功率がRT-1の32%から62%に上昇しました。
「これがこの大型模型の美しさです。」徐華哲氏は、「2 つの物体の材質が似ている、サイズが似ている、その他の理由により、分解することはできません。」と述べました。 」
自然言語を使用したロボットとの対話の未来
学術的には、RT-2 が示す強力な一般化により、ロボットのトレーニング データが不十分であるという問題が解決される可能性があります。 **これに加えて、RT-2 の直感的な衝撃は依然としてそのインテリジェントな側面からもたらされます。 **
研究者らが「ハンマーとして使えるもの」を拾えるようにしたいという実験では、ロボットは積み上げられた物の中から石を拾い上げ、疲れたレッドブルに差し出された飲み物を拾うように頼まれたところ、アイテムの山の中で選択されています。
このようなスキルは、大規模なモデルをトレーニングするときに「思考の連鎖」を導入する研究者の能力から生まれます。このような複数セグメントの意味論的推論は、従来のロボット模倣学習研究では達成することが非常に困難です。
ただし、自然言語を使用してロボットと対話することは、RT-2 のオリジナルのアイデアではありません。
これまでのロボット研究では、研究者はタスクの要件をロボットが理解できるコードに変換する必要があり、同時に問題が発生した場合にはロボットの動作を修正するためのコードを記述する必要があり、プロセス全体で複数の対話が必要で非効率でした。 。 **そして、すでに非常にインテリジェントな対話ロボットを手に入れたので、次の自然なステップは、ロボットに自然言語で人間と対話させることです。 **
Googleの研究科学者カロル・ハウスマン氏は、「私たちは約2年前にこれらの言語モデルに取り組み始めましたが、その中に豊富な知識があることに気づき、それをロボットに接続し始めました。」
ただし、大きなモデルをロボットの心として使用することには、独自の困難があります。最も重要な問題の 1 つは、グラウンディングの問題、つまり、通常は比較的制約が少ない大規模モデルの応答を、ロボットの動作を駆動する命令にどのように変換するかという問題です。
** 2022 年、Google は Say-can モデルを開始しました。 **モデルは、その名前が示すように、ロボットの動作を支援するために 2 つの考慮事項を使用します。最初の考慮事項は、言うことです。このモデルは、自然言語と人間の対話を通じて取得されたタスクを分解し、現在のアクションに最適なものを見つけることができる Google の大規模言語モデル PaLM モデルと結合されています。もう 1 つの考慮事項は、次のとおりです。このモデルは、計算するアルゴリズム 現在のロボットがこのタスクを正常に実行できる確率を求めます。この2つを考慮してロボットは動きます。
たとえば、ロボットに「牛乳がこぼれてしまったので、手伝ってもらえますか?」と言うと、ロボットはまず言語モデルを通じてタスクを計画します。現時点では、最も合理的な方法は、清掃員を見つけてから清掃員を見つけることです。スポンジだけで拭き取れます。すると、ロボットはアルゴリズムを通じて、ロボットとして掃除機を見つけることに成功する確率は非常に低く、自分で拭いてくれるスポンジを見つける確率が高いことを計算します。慎重に検討した結果、ロボットはミルクを拭くためのスポンジを探すという行動を選択します。
このような 2 層のモデル アーキテクチャでは、ロボットが正常に実行できるアクションは事前に設計されていますが、大規模な言語モデルはロボットが適切なタスク プランを選択するのに役立つだけです。このようなモデルでは、ロボットはすでに強い知性を示しています。
**ただし、外見上は効果が似ているように見えますが、RT-2 は異なる道をたどります。学習中、モデルは視覚、言語、ロボットの動作の 3 種類のデータを同時に学習します。RT-2 モデルは、タスク分解を行ってからタスク操作を実行するのではなく、自然言語入力後にタスクを実行します。モデルの操作を通じてアクションを直接生成します。 **
「2 層構造は私がやりたいことと似ています。まず、これを行うための最初のステップ、あれを行うための 2 番目のステップを考え、次にこれらの戦略を 1 つずつ実行します。」と Xu Huazhe 教授は言いました。 「エンドツーエンドの構造は似ています。だから、最初のステップと 2 番目のステップについては特に考えず、ただ実行しました。」後者の例は、携帯電話で毎日入力したりチャットしたりすることにたとえられます。 . 文字入力やチャットをするとき、私たちは普段あまり真剣に考えていませんが、筋肉がどう動くかを考えながら、入力する言葉を考えて、直接入力します。
「2つの異なるルートや異なる方法が、唯一の正しい方法であるとはまだ証明されていない」とXu Huazhe氏は述べた。ただし、RT-2 の優れたパフォーマンスにより、入出力の技術的な方向性を引き継ぐことができるモデルを検討する価値はありそうです。
「この変化(RT-2の優れた性能)のせいで、私たちは研究計画全体を再考する必要がありました」とGoogleのDeepMindのロボット工学担当ディレクターのVincent Vanhoucke氏は語った。 「私が以前にやったことの多くは全く役に立たなかった。」
**RT-2 はロボットの GPT3 モーメントですか? **
Google の RT-2 ロボットは完璧ではありません。ニューヨーク・タイムズの記者が目撃した実際のデモンストレーションでは、レモンソーダの缶の味を誤認した(「オレンジ」と言っていた)。また別の時には、テーブルの上にある果物は何かと尋ねると、ロボットは「白」と答えました(実際はバナナでした)。 Googleの広報担当者は、Wi-Fiが一時的に中断されたため、ボットはキャッシュされた回答を使用して以前のテスターからの質問に答えたと説明した。
**さらに、ロボットのトレーニングに大規模なモデルを使用すると、必然的にコストの問題に直面します。 **現時点では、Google のロボットが推論や判断を行う場合、データをクラウドに送信する必要があり、複数の TPU が一緒に計算し、その結果をロボットに送り返し、ロボットが操作を実行します。このような計算は非常にコストがかかることが想像できます。
Google の DeepMind のロボット工学担当ディレクター、Vincent Vanhoucke 氏は、新しい研究により人間の環境でロボットが使用される可能性が開かれると信じています。研究者らは、言語モデルが組み込まれたロボットが倉庫や医療業界、さらには産業に導入される可能性があると考えています。ホームアシスタントは、洗濯物をたたむ、食洗機から物を取り出す、家の周りを片付けるのを手伝います。
「工場を開設し、ロボットを使用する必要がある場合、成功率は非常に高くなければなりません。ロボットを購入した後、ロボットのメンテナンスや機能の改善に多くの人員が必要になるとは言いたくありません。 Xu Huazhe教授は、「ホームシーンでのロボットは別の状況になる可能性があります。ホームシーンでの一部のタスクの成功率要件はそれほど高くないからです。 「例えば、服をたたむのはあまり得意ではありません。あなたの目には、この任務は失敗に終わりましたが、あなたに大きな影響はありません。」
人工知能の 3 人の巨人の 1 人であるヤン リークン (Yaan Lecun) は、何度も強調されてきた有名な主張を持っています。「人工知能は十分に賢くない」ということです。テーブルを片付けたり食器を食洗機に入れることは、どんな子供でもすぐに覚えられますが、ロボットにはそれができません。
これは現在のロボット研究にも当てはまるかもしれませんが、不完全な GPT-3 が業界に大規模モデル開発の方向性を示したのと同じように、おそらく今日の不完全な RT-2 もまた、ロボットが家庭に入り込み、私たちのアシスタントになってください。