単一の GPU で数千の環境と 800 万ステップのシミュレーションを実行するのにかかる時間はわずか 3 秒です。スタンフォード大学が開発したスーパーゲームエンジン

2023-08-08 09:06:36

現段階では、AI エージェントは全能であるように見え、ゲームをしたり人間の真似をしてさまざまなタスクを完了したりします。これらのエージェントは基本的に複雑な環境で訓練されています。それだけでなく、学習タスクがより複雑になるにつれて、シミュレートされた環境の複雑さも増加し、それによってシミュレートされた環境のコストが増加します。

スーパーコンピューティング規模のリソースを備えた企業や機関であっても、使えるエージェントのトレーニングが完了するまでに数日かかる場合があります。

これにより、この分野の進歩が妨げられ、高度な AI エージェントをトレーニングする実用性が低下します。環境シミュレーションの高コストに対処するために、最近の研究活動ではシミュレーターが根本的に再設計され、エージェントのトレーニングの効率が向上しました。これらの作品は、単一のシミュレーターエンジン内で多数の独立した環境 (トレーニングインスタンス) を同時に実行するバッチシミュレーションのアイデアを共有しています。

この論文では、スタンフォード大学およびその他の機関の研究者**が、単一の GPU 上で数千の環境を並行して実行できる、Madrona と呼ばれる強化学習ゲームエンジンを提案し、エージェントのトレーニング時間を数時間から数時間に短縮しました。 *。

* 紙のアドレス: ※紙面ホームページ：

具体的には、Madrona は、単一の GPU 上で数千の環境インスタンスを同時に実行し、非常に高いスループット (1 秒あたり数百万の集計ステップ) で実装できる学習環境を作成するために設計された研究用ゲームエンジンです。 Madrona の目標は、研究者がさまざまなタスク用に新しい高性能環境を簡単に作成できるようにし、それによって AI エージェントのトレーニングを桁違いに高速化することです。

マドロナには次の機能があります。

GPU バッチシミュレーション: 単一の GPU で数千の環境を実行できます。
エンティティコンポーネントシステム (ECS) アーキテクチャ。
PyTorch と簡単に相互運用可能。

マドロナ環境の例:

上で述べたように、この調査では ECS 設計原則が利用されており、具体的なプロセスは次のとおりです。

研究者らは Madrona フレームワークを使用して複数の学習環境を実装し、オープンソースの CPU ベースラインと比較して GPU で 2 ～ 3 桁の高速化、および 32 プロセッサで実行される強力なベースラインと比較して 2 ～ 3 桁の高速化を示しました。 -スレッド CPU 5 ～ 33 回。さらに、この研究では OpenAI の「かくれんぼ 3D」環境もフレームワークに実装されており、各シミュレーションステップで剛体物理学とレイトレーシングが実行され、単一の GPU で 1 秒あたり 190 万ステップを超える速度を達成しました。

著者の一人であるスタンフォード大学コンピューターサイエンス准教授のケイヴォン・ファタハリアン氏は、複数のエージェントがプレイできる料理ゲームであるオーバークックでは、マドロナゲームエンジンの助けを借りて、800万の環境ステップをシミュレートするのにかかる時間は長かったと述べた。 1時間から3秒に短縮されました。

現在、Madrona ではゲームロジックを作成するために C++ が必要です。 Madrona はビジュアライゼーションレンダリングサポートのみを提供し、数千の環境を同時にシミュレートできますが、ビジュアライザーは一度に 1 つの環境しか表示できません。

**Madrona をベースにした環境シミュレータとは何ですか? **

Madrona 自体は RL 環境シミュレーターではなく、ゲームエンジンまたはフレームワークです。これにより、開発者は独自の新しい環境シミュレーターを実装しやすくなり、GPU 上でバッチシミュレーションを実行し、シミュレーション出力を学習コードと緊密に結合することで高いパフォーマンスを実現できます。

以下は、Madrona に基づいた環境シミュレーターの一部です。

マドローナエスケープルーム

Madrona Escape Room は、Madrona の ECS API と物理およびレンダリング機能を使用するシンプルな 3D 環境です。この単純なタスクでは、エージェントは赤いボタンを押し、他の色のボックスを押して一連の部屋を移動する方法を学習する必要があります。

過剰調理された AI

Overcooked AI 環境は、共同ビデオゲームベースのマルチエージェント学習環境 (マルチプレイヤー共同クッキングゲーム) であり、ここでは高スループットの Madrona 書き換えで書き換えられています。

ソース：

かくれんぼ

2019 年 9 月、OpenAI エージェントはかくれんぼの攻防戦を仕掛け、独自のルーチンとアンチルーチンを作成しました。ここでは、Madrona を使用して「かくれんぼ」環境が再現されています。

ハナビ

Hanabi は、Madrona ゲームエンジンと協力的な Dec-POMDP に基づいた Hanabi カードゲームの実装です。この環境は DeepMind の Hanabi 環境に基づいており、MAPPO 実装の一部をサポートしています。

カートポール

Cartpole は、Madrona ゲームエンジン上に構築されたジム実装と同じダイナミクスを備えた典型的な RL トレーニング環境です。

GitHub アドレス:

Overcooked クッキングゲーム: 1 分で最高のエージェントをトレーニング

数千のキッチンで過剰調理: 1 分以内にトップパフォーマンスのエージェントをトレーニング

この論文の著者の一人であるスタンフォード大学の学部生、ビディプタ・サーカー氏は、料理ゲーム「Overcooked」をプレイできるようにエージェントを訓練するプロセスを詳述したブログを書いた。 Overcooked は、マルチエージェントによる共同研究のベンチマークとしても機能する人気の料理ゲームです。

Sarkar 氏の RL 研究では、仮想環境のシミュレーションにかかるコストが高いことが、常にエージェントのトレーニングにおける大きな障害となっていました。

Overcooked 料理ゲームの場合、Overcooked の狭い部屋のレイアウト (下) で安定した平衡戦略に収束するエージェントのペアをトレーニングするには、約 800 万のゲームステップが必要です。 Overcooked のオープンソース実装は Python で書かれており、8 コア AMD CPU 上で 1 秒あたり 2000 ステップで実行されるため、必要なエージェントエクスペリエンスの生成には 1 時間以上かかります。

対照的に、トレーニングに必要な他のすべての操作 (800 万すべてのシミュレーションステップのポリシー推論、ポリシートレーニングの逆伝播を含む) の実行には、NVIDIA A40 GPU で 1 分未満かかります。明らかに、Overcooked エージェントのトレーニングは、Overcooked 環境シミュレーターの速度によって制限されます。

Overcooked がシンプルな環境であることを考えると、シミュレーション速度で苦労するのは愚かなことのように思えます。そこで Sarkar は、Overcooked 環境シミュレーションの速度を改善できるかどうかを確認しようとしましたが、それには Madrona ゲームエンジンの使用が必要でした。

Madrona ゲームエンジンを使用することで、Sarkar は元の Overcooked Python 実装をプラグアンドプレイの GPU アクセラレーションで置き換えることができます。 1,000 のオーバークック環境を並行してシミュレーションする場合、GPU アクセラレーション実装により、A40 GPU で 1 秒あたり 350 万ステップのエクスペリエンスを生成できます。

その結果、800 万の環境ステップをシミュレートする時間が 1 時間から 3 秒に短縮され、A40 GPU を使用してポリシーをわずか 1 分でトレーニングできるようになりました。

シミュレータの速度により、Overcooked で広範なハイパーパラメータスイープを実行するための新たな可能性が開かれ、特に、以前は 1 つのポリシーをトレーニングするのに必要だった時間内に複数のポリシーをトレーニングできる可能性が広がります。

最終的に、Sarkar 氏は、Overcooked を Madrona に移植する方が、PyTorch、Taichi Lang、Direct CUDA C++ などの GPU アクセラレーション環境を作成するための既存の代替手段よりもはるかにスムーズなプロセスであることに気づきました。

ブログの詳細:

参考リンク:

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。

報酬
いいね
コメント
共有

0/400

コメントなし

トピック
Gate 2025 Q2 Report Released
10k 人気度
Gate Derivatives Volume Hits New High
13k 人気度
CPI Data Incoming
41k 人気度
4Join Gate VIP to Win MacBook
29k 人気度
5MicroStrategy Buys More Bitcoin
676 人気度
6BTC Hits New High
98k 人気度
7My Gate Moments
27k 人気度
8VIP Exclusive Airdrop Carnival
26k 人気度
9Fed June Meeting Minutes
7k 人気度
10Gate Alpha Trading Share
15k 人気度

ピン

サイトマップ

単一の GPU で数千の環境と 800 万ステップのシミュレーションを実行するのにかかる時間はわずか 3 秒です。スタンフォード大学が開発したスーパー ゲーム エンジン

単一の GPU で数千の環境と 800 万ステップのシミュレーションを実行するのにかかる時間はわずか 3 秒です。スタンフォード大学が開発したスーパーゲームエンジン