単一の GPU で数千の環境と 800 万ステップのシミュレーションを実行するのにかかる時間はわずか 3 秒です。スタンフォード大学が開発したスーパー ゲーム エンジン

現段階では、AI エージェントは全能であるように見え、ゲームをしたり人間の真似をしてさまざまなタスクを完了したりします。これらのエージェントは基本的に複雑な環境で訓練されています。それだけでなく、学習タスクがより複雑になるにつれて、シミュレートされた環境の複雑さも増加し、それによってシミュレートされた環境のコストが増加します。

スーパーコンピューティング規模のリソースを備えた企業や機関であっても、使えるエージェントのトレーニングが完了するまでに数日かかる場合があります。

これにより、この分野の進歩が妨げられ、高度な AI エージェントをトレーニングする実用性が低下します。環境シミュレーションの高コストに対処するために、最近の研究活動ではシミュレーターが根本的に再設計され、エージェントのトレーニングの効率が向上しました。これらの作品は、単一のシミュレーター エンジン内で多数の独立した環境 (トレーニング インスタンス) を同時に実行するバッチ シミュレーションのアイデアを共有しています。

この論文では、スタンフォード大学およびその他の機関の研究者**が、単一の GPU 上で数千の環境を並行して実行できる、Madrona と呼ばれる強化学習ゲーム エンジンを提案し、エージェントのトレーニング時間を数時間から数時間に短縮しました。 *。

* 紙のアドレス: ※紙面ホームページ:

具体的には、Madrona は、単一の GPU 上で数千の環境インスタンスを同時に実行し、非常に高いスループット (1 秒あたり数百万の集計ステップ) で実装できる学習環境を作成するために設計された研究用ゲーム エンジンです。 Madrona の目標は、研究者がさまざまなタスク用に新しい高性能環境を簡単に作成できるようにし、それによって AI エージェントのトレーニングを桁違いに高速化することです。

マドロナには次の機能があります。

  • GPU バッチ シミュレーション: 単一の GPU で数千の環境を実行できます。
  • エンティティ コンポーネント システム (ECS) アーキテクチャ。
  • PyTorch と簡単に相互運用可能。

マドロナ環境の例:

上で述べたように、この調査では ECS 設計原則が利用されており、具体的なプロセスは次のとおりです。

研究者らは Madrona フレームワークを使用して複数の学習環境を実装し、オープンソースの CPU ベースラインと比較して GPU で 2 ~ 3 桁の高速化、および 32 プロセッサで実行される強力なベースラインと比較して 2 ~ 3 桁の高速化を示しました。 -スレッド CPU 5 ~ 33 回。さらに、この研究では OpenAI の「かくれんぼ 3D」環境もフレームワークに実装されており、各シミュレーション ステップで剛体物理学とレイ トレーシングが実行され、単一の GPU で 1 秒あたり 190 万ステップを超える速度を達成しました。

著者の一人であるスタンフォード大学コンピューターサイエンス准教授のケイヴォン・ファタハリアン氏は、複数のエージェントがプレイできる料理ゲームであるオーバークックでは、マドロナゲームエンジンの助けを借りて、800万の環境ステップをシミュレートするのにかかる時間は長かったと述べた。 1時間から3秒に短縮されました。

現在、Madrona ではゲーム ロジックを作成するために C++ が必要です。 Madrona はビジュアライゼーション レンダリング サポートのみを提供し、数千の環境を同時にシミュレートできますが、ビジュアライザーは一度に 1 つの環境しか表示できません。

**Madrona をベースにした環境シミュレータとは何ですか? **

Madrona 自体は RL 環境シミュレーターではなく、ゲーム エンジンまたはフレームワークです。これにより、開発者は独自の新しい環境シミュレーターを実装しやすくなり、GPU 上でバッチ シミュレーションを実行し、シミュレーション出力を学習コードと緊密に結合することで高いパフォーマンスを実現できます。

以下は、Madrona に基づいた環境シミュレーターの一部です。

マドローナ エスケープ ルーム

Madrona Escape Room は、Madrona の ECS API と物理およびレンダリング機能を使用するシンプルな 3D 環境です。この単純なタスクでは、エージェントは赤いボタンを押し、他の色のボックスを押して一連の部屋を移動する方法を学習する必要があります。

過剰調理された AI

Overcooked AI 環境は、共同ビデオ ゲーム ベースのマルチエージェント学習環境 (マルチプレイヤー共同クッキング ゲーム) であり、ここでは高スループットの Madrona 書き換えで書き換えられています。

ソース:

かくれんぼ

2019 年 9 月、OpenAI エージェントはかくれんぼの攻防戦を仕掛け、独自のルーチンとアンチルーチンを作成しました。ここでは、Madrona を使用して「かくれんぼ」環境が再現されています。

ハナビ

Hanabi は、Madrona ゲーム エンジンと協力的な Dec-POMDP に基づいた Hanabi カード ゲームの実装です。この環境は DeepMind の Hanabi 環境に基づいており、MAPPO 実装の一部をサポートしています。

カートポール

Cartpole は、Madrona ゲーム エンジン上に構築されたジム実装と同じダイナミクスを備えた典型的な RL トレーニング環境です。

GitHub アドレス:

Overcooked クッキング ゲーム: 1 分で最高のエージェントをトレーニング

数千のキッチンで過剰調理: 1 分以内にトップパフォーマンスのエージェントをトレーニング

この論文の著者の一人であるスタンフォード大学の学部生、ビディプタ・サーカー氏は、料理ゲーム「Overcooked」をプレイできるようにエージェントを訓練するプロセスを詳述したブログを書いた。 Overcooked は、マルチエージェントによる共同研究のベンチマークとしても機能する人気の料理ゲームです。

Sarkar 氏の RL 研究では、仮想環境のシミュレーションにかかるコストが高いことが、常にエージェントのトレーニングにおける大きな障害となっていました。

Overcooked 料理ゲームの場合、Overcooked の狭い部屋のレイアウト (下) で安定した平衡戦略に収束するエージェントのペアをトレーニングするには、約 800 万のゲーム ステップが必要です。 Overcooked のオープンソース実装は Python で書かれており、8 コア AMD CPU 上で 1 秒あたり 2000 ステップで実行されるため、必要なエージェント エクスペリエンスの生成には 1 時間以上かかります。

対照的に、トレーニングに必要な他のすべての操作 (800 万すべてのシミュレーション ステップのポリシー推論、ポリシー トレーニングの逆伝播を含む) の実行には、NVIDIA A40 GPU で 1 分未満かかります。明らかに、Overcooked エージェントのトレーニングは、Overcooked 環境シミュレーターの速度によって制限されます。

Overcooked がシンプルな環境であることを考えると、シミュレーション速度で苦労するのは愚かなことのように思えます。そこで Sarkar は、Overcooked 環境シミュレーションの速度を改善できるかどうかを確認しようとしましたが、それには Madrona ゲーム エンジンの使用が必要でした。

Madrona ゲーム エンジンを使用することで、Sarkar は元の Overcooked Python 実装をプラグアンドプレイの GPU アクセラレーションで置き換えることができます。 1,000 のオーバークック環境を並行してシミュレーションする場合、GPU アクセラレーション実装により、A40 GPU で 1 秒あたり 350 万ステップのエクスペリエンスを生成できます。

その結果、800 万の環境ステップをシミュレートする時間が 1 時間から 3 秒に短縮され、A40 GPU を使用してポリシーをわずか 1 分でトレーニングできるようになりました。

シミュレータの速度により、Overcooked で広範なハイパーパラメータ スイープを実行するための新たな可能性が開かれ、特に、以前は 1 つのポリシーをトレーニングするのに必要だった時間内に複数のポリシーをトレーニングできる可能性が広がります。

最終的に、Sarkar 氏は、Overcooked を Madrona に移植する方が、PyTorch、Taichi Lang、Direct CUDA C++ などの GPU アクセラレーション環境を作成するための既存の代替手段よりもはるかにスムーズなプロセスであることに気づきました。

ブログの詳細:

参考リンク:

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • 共有
コメント
0/400
コメントなし
いつでもどこでも暗号資産取引
qrCode
スキャンしてGateアプリをダウンロード
コミュニティ
日本語
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)