**オリジナルマシンハート****編集者:張銭、陳平**GPT-4と強化学習の組み合わせにより、ロボティクスの未来はどのようになるのでしょうか?学習に関しては、GPT-4は手ごわい学生です。 大量の人間のデータを消化した後、さまざまな知識を習得し、チャットで数学者Tao Zhexuanにさえ影響を与えました。同時に、それは優秀な教師になり、本の知識を教えるだけでなく、ロボットにペンを回すように教えています。 ユーレカと名付けられたロボットは、Nvidia、ペンシルベニア大学、カリフォルニア工科大学、テキサス大学オースティン校の研究でした。 本研究では、大規模な言語モデルと強化学習の結果を組み合わせたもので、報酬関数の改良にはGPT-4を用い、ロボットコントローラの学習には強化学習を用います。GPT-4のコード記述機能により、ユーレカは優れた報酬関数設計機能を備えており、その自己生成報酬は、タスクの83%で人間の専門家の報酬よりも優れています。 この機能により、ロボットは、ペンを回す、引き出しやキャビネットを開く、ボールを投げてキャッチしたりドリブルしたり、はさみを操作するなど、以前は簡単ではなかった多くのタスクを実行できます。 ただし、当面は、これはすべて仮想環境で行われます。   さらに、Eurekaは、報酬関数をガイドおよび調整するために、人間のオペレーターからの自然言語フィードバックを組み込んだ新しいタイプのコンテキスト内RLHFを実装しました。 ロボット工学エンジニアに強力な補助機能を提供し、エンジニアが複雑なモーション動作を設計するのに役立ちます。 NVIDIAのシニアAIサイエンティストであり、論文の著者の1人であるJim Fanは、この研究を「物理シミュレーターAPI空間のボイジャー」に例えました。 この研究は完全にオープンソースであり、オープンソースのアドレスは次のとおりです。 論文リンク:プロジェクトリンク:コードリンク:**論文概要**大規模言語モデル(LLM)は、ロボットタスク(GoogleのSayCan、RT-2ボットなど)の高レベルのセマンティックプランニングに優れていますが、ペン回しなどの複雑で低レベルの運用タスクの学習に使用できるかどうかは未解決の問題です。 既存の試みでは、タスクプロンプトを作成したり、単純なスキルのみを学習したりするために、多くのドメインの専門知識が必要であり、人間レベルの柔軟性からはほど遠いものです。 *グーグルのRT-2ロボット*一方、強化学習(RL)は、柔軟性や他の多くの側面(ルービックキューブを再生するOpenAIのマニピュレータなど)で印象的な結果を達成していますが、人間の設計者は、目的の動作の学習信号を正確に体系化して提供する報酬関数を慎重に構築する必要があります。 多くの現実世界の強化学習タスクは、学習に使用するのが難しいまばらな報酬しか提供しないため、プログレッシブ学習信号を提供するために実際に報酬形成が必要です。 報酬関数は非常に重要ですが、設計が難しいことで有名です。 最近の調査によると、調査対象の強化学習研究者と実践者の92%が、報酬を設計する際に人間による試行錯誤を行ったと述べ、89%が最適ではなく予期しない行動につながる報酬を設計したと述べています。報酬の設計が非常に重要であることを考えると、GPT-4などの最先端のコーディングLLMを使用してユニバーサル報酬プログラミングアルゴリズムを開発することは可能でしょうか。 これらのLLMは、コーディング、ゼロショット生成、およびコンテキスト内学習に優れており、プログラミングエージェントのパフォーマンスを大幅に向上させました。 理想的には、この報酬設計アルゴリズムは、幅広いタスクに拡張でき、人間の監督なしで退屈な試行錯誤プロセスを自動化し、安全性と一貫性を確保するために人間の監督と互換性がある人間レベルの報酬生成機能を備えている必要があります。この論文では、LLM駆動の報酬設計アルゴリズムEUREKA(Evolution-Driven Universal REward Kit for Agent)を提案する。 このアルゴリズムは、次のことを実現します。 報酬設計のパフォーマンスは、10種類のロボット形態(四足歩行、クワッドコプター、二足歩行、マニピュレーター、およびいくつかの器用な手、図1を参照)を含む29の異なるオープンソースRL環境で人間レベルに達します。 タスク固有のプロンプトや報酬テンプレートがない場合、EUREKAの自己生成報酬は、タスクの83%で人間の専門家の報酬を上回り、平均52%の正規化の改善を達成しました。 2.以前は手動報酬エンジニアリングでは達成できなかった器用な操作タスクを解決します。 たとえば、ペンの回転の問題では、5本の指しかない手が、事前に設定された回転構成に従ってペンをすばやく回転させ、できるだけ多くのサイクルを回転させる必要があります。 EUREKAとコースワークを組み合わせることで、研究者は、シミュレートされた擬人化された「シャドウハンド」ですばやくペンを回す操作を初めて実証しました(図1の下部を参照)。3.この論文は、さまざまな形式の人間の入力に基づいて、より効率的で人間に合わせた報酬関数を生成できる、ヒューマンフィードバック(RLHF)に基づく強化学習のための新しい勾配のないコンテキスト学習手法を提供します。 この論文は、EUREKAが既存の人間の報酬関数から利益を得て改善できることを示しています。 同様に、研究者たちは、微妙な人間の好みを捉えるのに役立つ報酬関数の設計を支援するために、人間のテキストフィードバックを使用するEUREKAの能力を実証しました。LLM支援報酬設計を使用した以前のL2R作業とは異なり、EUREKAにはタスク固有のプロンプト、報酬テンプレート、およびいくつかの例がありません。 実験では、EUREKAは、自由形式の表現力豊かな報酬プログラムを生成および改良する能力により、L2Rよりも大幅に優れたパフォーマンスを示しました。EUREKAの汎用性は、コンテキストとしてのコンテキスト、進化的検索、報酬反射という3つの主要なアルゴリズム設計の選択肢によるものです。まず、環境のソースコードをコンテキストとして使用することにより、EUREKAはバックボーンコーディングLLM(GPT-4)のゼロサンプルから実行可能な報酬関数を生成できます。 その後、EUREKAは、進化的検索を実行し、報酬候補バッチを繰り返し提案し、LLMコンテキストウィンドウで最も有望な報酬を改良することにより、報酬の質を大幅に向上させます。 このコンテキスト内の改善は、自動でターゲットを絞った報酬編集を可能にする戦略トレーニング統計に基づく報酬品質のテキスト要約である報酬リフレクションによって達成されます。図3は、ユーレカゼロサンプル報酬の例と、最適化中に蓄積された改善を示しています。 EUREKAが報酬検索を最大限に拡張できるようにするために、EUREKAはIsaacGymでGPUアクセラレーションによる分散強化学習を使用して中間報酬を評価し、ポリシー学習速度を最大3桁向上させ、計算量の増加に応じて自然にスケーリングする幅広いアルゴリズムにします。 これを図 2 に示します。 研究者は、LLMベースの報酬設計に関するさらなる研究を促進するために、すべてのヒント、環境、および生成された報酬関数をオープンソース化することを約束します。 **メソッドの紹介**EUREKAは報酬アルゴリズムを自律的に書くことができます、それがどのように実装されるか、次にそれを見てみましょう。EUREKAは3つのアルゴリズムコンポーネントで構成されています:1)環境をコンテキストとして使用するため、実行可能な報酬のゼロショット生成をサポートします。 2)進化的探索、報酬候補の繰り返し提案と改良。 3)報酬の反映ときめ細かな報酬改善のサポート。**コンテキストとしての環境**この記事では、元の環境コードをコンテキストとして直接指定することをお勧めします。 最小限の指示で、EUREKAはサンプルゼロでさまざまな環境で報酬を生成できます。 EUREKA出力の例を図3に示します。 EUREKAは、提供された環境コード内の既存の観測変数(指先の位置など)を巧みに組み合わせ、環境固有のプロンプトエンジニアリングや報酬テンプレートなしで有効な報酬コードを生成します。ただし、最初の試行では、結果として得られる報酬が常に実行可能であるとは限らず、実行可能であっても最適ではない可能性があります。 これは、単一サンプル報酬生成の準最適性を効果的に克服する方法の問題を提起しますか? **進化的探索**次に、進化的探索が上記の準最適解の問題をどのように解決するかについて説明します。 これらは、各反復でEUREKAがLLMのいくつかの独立した出力をサンプリングするように完成されています(アルゴリズム1の5行目)。 各反復は独立かつ均一であるため、反復内のすべての報酬関数のエラーの確率は、サンプルサイズが大きくなるにつれて指数関数的に減少します。  **報酬の反映**より複雑でターゲットを絞った報酬分析を提供するために、この記事では、テキスト内のポリシートレーニングのダイナミクスを要約するための自動フィードバックを構築することを提案します。 具体的には、EUREKA 報酬関数が報酬プログラム内の個々のコンポーネント (図 3 の報酬コンポーネントなど) を必要とすることを考慮して、この記事では、トレーニングプロセス全体を通じて中間ポリシーチェックポイントですべての報酬コンポーネントのスカラー値を追跡します。この報酬反映プロセスの構築は簡単ですが、報酬最適化アルゴリズムの依存関係のために重要です。 つまり、報酬関数が有効かどうかは、RL アルゴリズムの特定の選択に影響され、特定のハイパーパラメーターの違いに対して同じオプティマイザの下でも、同じ報酬が大きく異なる動作をする可能性があります。 RL アルゴリズムが個々の報酬コンポーネントを最適化する方法を詳しく説明することで、報酬の反映により、EUREKA はよりターゲットを絞った報酬の編集を生成し、報酬関数を合成して、固定 RL アルゴリズムをより適切に処理できます。 **実験**実験的な部分では、報酬関数を生成する機能、新しいタスクを解決する機能、さまざまな人間の入力を統合する機能など、ユーレカの包括的な評価を提供します。実験環境には、10の異なるロボットと29のタスクが含まれ、そのうち29はIsaacGymシミュレーターによって実装されています。 この実験では、IsaacGym(Isaac)の9つのプリミティブ環境を使用して、四足歩行、二足歩行、クワッドコプター、マニピュレーターからロボットの器用な手まで、さまざまなロボットフォームをカバーしています。 さらに、この記事では、Dexterityベンチマークから20のタスクを組み込むことにより、評価の深さを保証します。 ユーレカは超人レベルの報酬関数を生成することができます。 29のタスクのうち、ユーレカによって与えられた報酬関数は、タスクの83%で専門家が書いた報酬よりも優れたパフォーマンスを発揮し、平均52%改善しました。 特に、ユーレカは高次元の器用さベンチマーク環境でより大きな利益を達成しました。 ユーレカは報酬検索を進化させることができるため、報酬は時間の経過とともに向上します。 ユーレカは、大規模な報酬検索と詳細な報酬反映フィードバックを組み合わせることで、徐々により良い報酬を生み出し、最終的には人間のレベルを超えます。 ユーレカは新しい報酬を生み出すこともできます。 この論文は、すべてのアイザックタスクにおけるユーレカ報酬と人間の報酬の相関関係を計算することにより、ユーレカ報酬の新規性を評価します。 図に示すように、ユーレカは主に相関の弱い報酬関数を生成し、人間の報酬関数を凌駕します。 さらに、この論文では、タスクが難しいほど、ユーレカの報酬の関連性が低くなることも観察されています。 場合によっては、ユーレカの報酬は人間の報酬と負の相関関係にありますが、人間の報酬よりも大幅に優れたパフォーマンスを発揮します。想要实现机器人的灵巧手能够不停的转笔,需要操作程序有尽可能多的循环。本文通过以下方式解决此任务:(1) ペンをランダムなターゲット構成にリダイレクトする報酬関数を生成するようにユーレカに指示し、(2)ユーレカ報酬を使用してこの事前トレーニング済みの戦略を微調整して、目的のペンシーケンス回転構成を実現します。 示されているように、ユーレカは戦略にすばやく適応し、多くのサイクルを連続して回転させることに成功しました。 対照的に、事前にトレーニングされた戦略もゼロから学習した戦略も、1サイクルでスピンを完了することはできません。 この論文では、人間の報酬関数の初期化から始めることがユーレカにとって有益であるかどうかについても検討します。 示されているように、ユーレカは人間の報酬の質に関係なく、人間の報酬を改善し、その恩恵を受けています。 ユーレカはまた、人間のフィードバックに基づいて報酬を変更し、エージェントをより安全で人間のような行動に段階的に導くことができるRLHFを実装しました。 この例は、ユーレカがヒューマノイドロボットに直立して動作するように教え、以前の自動報酬反射を置き換える人間のフィードバックを提供する方法を示しています。 *ヒューマノイドロボットはユーレカで走る歩行を学習します*詳細については、原著論文をご参照ください。
GPT-4では、ロボットはペンを回してクルミをプレートすることを学びました
オリジナルマシンハート
編集者:張銭、陳平
GPT-4と強化学習の組み合わせにより、ロボティクスの未来はどのようになるのでしょうか?
学習に関しては、GPT-4は手ごわい学生です。 大量の人間のデータを消化した後、さまざまな知識を習得し、チャットで数学者Tao Zhexuanにさえ影響を与えました。
同時に、それは優秀な教師になり、本の知識を教えるだけでなく、ロボットにペンを回すように教えています。
GPT-4のコード記述機能により、ユーレカは優れた報酬関数設計機能を備えており、その自己生成報酬は、タスクの83%で人間の専門家の報酬よりも優れています。 この機能により、ロボットは、ペンを回す、引き出しやキャビネットを開く、ボールを投げてキャッチしたりドリブルしたり、はさみを操作するなど、以前は簡単ではなかった多くのタスクを実行できます。 ただし、当面は、これはすべて仮想環境で行われます。
プロジェクトリンク:
コードリンク:
論文概要
大規模言語モデル(LLM)は、ロボットタスク(GoogleのSayCan、RT-2ボットなど)の高レベルのセマンティックプランニングに優れていますが、ペン回しなどの複雑で低レベルの運用タスクの学習に使用できるかどうかは未解決の問題です。 既存の試みでは、タスクプロンプトを作成したり、単純なスキルのみを学習したりするために、多くのドメインの専門知識が必要であり、人間レベルの柔軟性からはほど遠いものです。
一方、強化学習(RL)は、柔軟性や他の多くの側面(ルービックキューブを再生するOpenAIのマニピュレータなど)で印象的な結果を達成していますが、人間の設計者は、目的の動作の学習信号を正確に体系化して提供する報酬関数を慎重に構築する必要があります。 多くの現実世界の強化学習タスクは、学習に使用するのが難しいまばらな報酬しか提供しないため、プログレッシブ学習信号を提供するために実際に報酬形成が必要です。 報酬関数は非常に重要ですが、設計が難しいことで有名です。 最近の調査によると、調査対象の強化学習研究者と実践者の92%が、報酬を設計する際に人間による試行錯誤を行ったと述べ、89%が最適ではなく予期しない行動につながる報酬を設計したと述べています。
報酬の設計が非常に重要であることを考えると、GPT-4などの最先端のコーディングLLMを使用してユニバーサル報酬プログラミングアルゴリズムを開発することは可能でしょうか。 これらのLLMは、コーディング、ゼロショット生成、およびコンテキスト内学習に優れており、プログラミングエージェントのパフォーマンスを大幅に向上させました。 理想的には、この報酬設計アルゴリズムは、幅広いタスクに拡張でき、人間の監督なしで退屈な試行錯誤プロセスを自動化し、安全性と一貫性を確保するために人間の監督と互換性がある人間レベルの報酬生成機能を備えている必要があります。
この論文では、LLM駆動の報酬設計アルゴリズムEUREKA(Evolution-Driven Universal REward Kit for Agent)を提案する。 このアルゴリズムは、次のことを実現します。
報酬設計のパフォーマンスは、10種類のロボット形態(四足歩行、クワッドコプター、二足歩行、マニピュレーター、およびいくつかの器用な手、図1を参照)を含む29の異なるオープンソースRL環境で人間レベルに達します。 タスク固有のプロンプトや報酬テンプレートがない場合、EUREKAの自己生成報酬は、タスクの83%で人間の専門家の報酬を上回り、平均52%の正規化の改善を達成しました。
3.この論文は、さまざまな形式の人間の入力に基づいて、より効率的で人間に合わせた報酬関数を生成できる、ヒューマンフィードバック(RLHF)に基づく強化学習のための新しい勾配のないコンテキスト学習手法を提供します。 この論文は、EUREKAが既存の人間の報酬関数から利益を得て改善できることを示しています。 同様に、研究者たちは、微妙な人間の好みを捉えるのに役立つ報酬関数の設計を支援するために、人間のテキストフィードバックを使用するEUREKAの能力を実証しました。
LLM支援報酬設計を使用した以前のL2R作業とは異なり、EUREKAにはタスク固有のプロンプト、報酬テンプレート、およびいくつかの例がありません。 実験では、EUREKAは、自由形式の表現力豊かな報酬プログラムを生成および改良する能力により、L2Rよりも大幅に優れたパフォーマンスを示しました。
EUREKAの汎用性は、コンテキストとしてのコンテキスト、進化的検索、報酬反射という3つの主要なアルゴリズム設計の選択肢によるものです。
まず、環境のソースコードをコンテキストとして使用することにより、EUREKAはバックボーンコーディングLLM(GPT-4)のゼロサンプルから実行可能な報酬関数を生成できます。 その後、EUREKAは、進化的検索を実行し、報酬候補バッチを繰り返し提案し、LLMコンテキストウィンドウで最も有望な報酬を改良することにより、報酬の質を大幅に向上させます。 このコンテキスト内の改善は、自動でターゲットを絞った報酬編集を可能にする戦略トレーニング統計に基づく報酬品質のテキスト要約である報酬リフレクションによって達成されます。
図3は、ユーレカゼロサンプル報酬の例と、最適化中に蓄積された改善を示しています。 EUREKAが報酬検索を最大限に拡張できるようにするために、EUREKAはIsaacGymでGPUアクセラレーションによる分散強化学習を使用して中間報酬を評価し、ポリシー学習速度を最大3桁向上させ、計算量の増加に応じて自然にスケーリングする幅広いアルゴリズムにします。
EUREKAは報酬アルゴリズムを自律的に書くことができます、それがどのように実装されるか、次にそれを見てみましょう。
EUREKAは3つのアルゴリズムコンポーネントで構成されています:1)環境をコンテキストとして使用するため、実行可能な報酬のゼロショット生成をサポートします。 2)進化的探索、報酬候補の繰り返し提案と改良。 3)報酬の反映ときめ細かな報酬改善のサポート。
コンテキストとしての環境
この記事では、元の環境コードをコンテキストとして直接指定することをお勧めします。 最小限の指示で、EUREKAはサンプルゼロでさまざまな環境で報酬を生成できます。 EUREKA出力の例を図3に示します。 EUREKAは、提供された環境コード内の既存の観測変数(指先の位置など)を巧みに組み合わせ、環境固有のプロンプトエンジニアリングや報酬テンプレートなしで有効な報酬コードを生成します。
ただし、最初の試行では、結果として得られる報酬が常に実行可能であるとは限らず、実行可能であっても最適ではない可能性があります。 これは、単一サンプル報酬生成の準最適性を効果的に克服する方法の問題を提起しますか?
次に、進化的探索が上記の準最適解の問題をどのように解決するかについて説明します。 これらは、各反復でEUREKAがLLMのいくつかの独立した出力をサンプリングするように完成されています(アルゴリズム1の5行目)。 各反復は独立かつ均一であるため、反復内のすべての報酬関数のエラーの確率は、サンプルサイズが大きくなるにつれて指数関数的に減少します。
より複雑でターゲットを絞った報酬分析を提供するために、この記事では、テキスト内のポリシートレーニングのダイナミクスを要約するための自動フィードバックを構築することを提案します。 具体的には、EUREKA 報酬関数が報酬プログラム内の個々のコンポーネント (図 3 の報酬コンポーネントなど) を必要とすることを考慮して、この記事では、トレーニングプロセス全体を通じて中間ポリシーチェックポイントですべての報酬コンポーネントのスカラー値を追跡します。
この報酬反映プロセスの構築は簡単ですが、報酬最適化アルゴリズムの依存関係のために重要です。 つまり、報酬関数が有効かどうかは、RL アルゴリズムの特定の選択に影響され、特定のハイパーパラメーターの違いに対して同じオプティマイザの下でも、同じ報酬が大きく異なる動作をする可能性があります。 RL アルゴリズムが個々の報酬コンポーネントを最適化する方法を詳しく説明することで、報酬の反映により、EUREKA はよりターゲットを絞った報酬の編集を生成し、報酬関数を合成して、固定 RL アルゴリズムをより適切に処理できます。
実験的な部分では、報酬関数を生成する機能、新しいタスクを解決する機能、さまざまな人間の入力を統合する機能など、ユーレカの包括的な評価を提供します。
実験環境には、10の異なるロボットと29のタスクが含まれ、そのうち29はIsaacGymシミュレーターによって実装されています。 この実験では、IsaacGym(Isaac)の9つのプリミティブ環境を使用して、四足歩行、二足歩行、クワッドコプター、マニピュレーターからロボットの器用な手まで、さまざまなロボットフォームをカバーしています。 さらに、この記事では、Dexterityベンチマークから20のタスクを組み込むことにより、評価の深さを保証します。
詳細については、原著論文をご参照ください。