Pada tahap ini, agen AI tampak mahakuasa, bermain game dan meniru manusia untuk menyelesaikan berbagai tugas, dan agen ini pada dasarnya dilatih di lingkungan yang kompleks. Tidak hanya itu, karena tugas pembelajaran menjadi lebih kompleks, kompleksitas lingkungan yang disimulasikan juga meningkat, sehingga meningkatkan biaya lingkungan yang disimulasikan.
Bahkan untuk perusahaan dan institusi dengan sumber daya berskala superkomputer, pelatihan agen yang dapat digunakan dapat memakan waktu berhari-hari untuk diselesaikan.
Ini menghambat kemajuan di lapangan dan mengurangi kepraktisan pelatihan agen AI tingkat lanjut. Untuk mengatasi tingginya biaya simulasi lingkungan, upaya penelitian baru-baru ini telah mendesain ulang simulator secara mendasar untuk mencapai efisiensi yang lebih besar saat melatih agen. Karya-karya ini berbagi ide tentang simulasi batch, yang merupakan eksekusi simultan dari banyak lingkungan independen (contoh pelatihan) dalam satu mesin simulator.
Dalam makalah ini, para peneliti dari Stanford University dan institusi lainnya,** mereka mengusulkan mesin game pembelajaran penguatan yang disebut Madrona, yang dapat menjalankan ribuan lingkungan secara paralel pada satu GPU, mengurangi waktu pelatihan agen dari jam ke jam. menit* *.
* Alamat kertas:
Beranda kertas:
Secara khusus, Madrona adalah mesin permainan riset yang dirancang untuk menciptakan lingkungan pembelajaran yang dapat menjalankan ribuan instance lingkungan secara bersamaan pada satu GPU, dan pada penerapan throughput yang sangat tinggi (jutaan langkah agregasi per detik). Tujuan Madrona adalah untuk memudahkan para peneliti menciptakan lingkungan berkinerja tinggi baru untuk berbagai tugas, sehingga mempercepat pelatihan agen AI dengan urutan besarnya.
Madrona memiliki ciri-ciri sebagai berikut:
Simulasi batch GPU: ribuan lingkungan dapat berjalan pada satu GPU;
Arsitektur Sistem Komponen Entitas (ECS);
Mudah dioperasikan dengan PyTorch.
Contoh lingkungan Madrona:
Seperti yang telah kami sebutkan di atas, studi ini menggunakan prinsip desain ECS, dan proses spesifiknya adalah sebagai berikut:
Dengan menggunakan kerangka kerja Madrona, para peneliti mengimplementasikan beberapa lingkungan pembelajaran, menunjukkan peningkatan dua hingga tiga kali lipat pada GPU dibandingkan dengan baseline CPU sumber terbuka, dan peningkatan kecepatan dibandingkan dengan baseline kuat yang berjalan pada CPU 32-thread. . Selain itu, penelitian ini juga mengimplementasikan lingkungan "petak umpet 3D" OpenAI dalam kerangka kerja, dan setiap langkah simulasi melakukan fisika benda tegar dan penelusuran sinar, mencapai kecepatan lebih dari 1,9 juta langkah per detik pada satu GPU.
Salah satu penulis, Kayvon Fatahalian, seorang profesor ilmu komputer di Universitas Stanford, mengatakan bahwa di Overcooked, permainan memasak untuk dimainkan oleh banyak agen, dengan bantuan mesin permainan Madrona, waktu untuk mensimulasikan 8 juta langkah lingkungan adalah dipersingkat dari satu jam menjadi tiga detik.
Saat ini, Madrona membutuhkan C++ untuk menulis logika game. Madrona hanya menyediakan dukungan rendering visualisasi, dan meskipun dapat mensimulasikan ribuan lingkungan secara bersamaan, visualisator hanya dapat melihat satu lingkungan pada satu waktu.
** Apa saja simulator lingkungan berdasarkan Madrona? **
Madrona sendiri bukanlah simulator lingkungan RL, melainkan engine atau framework game. Ini memudahkan pengembang untuk mengimplementasikan simulator lingkungan baru mereka sendiri, mencapai kinerja tinggi dengan menjalankan simulasi batch pada GPU dan menggabungkan keluaran simulasi dengan kode pembelajaran.
Di bawah ini adalah beberapa simulator lingkungan berdasarkan Madrona.
Ruang Pelarian Madrona
Madrona Escape Room adalah lingkungan 3D sederhana yang menggunakan API ECS Madrona serta kemampuan fisika dan rendering. Dalam tugas sederhana ini, agen harus belajar menekan tombol merah dan mendorong kotak warna lain untuk bergerak melalui serangkaian ruangan.
AI yang terlalu matang
Lingkungan AI Overcooked, lingkungan pembelajaran multi-agen berbasis video game kolaboratif (game memasak kolaboratif multipemain), di sini ditulis ulang dalam penulisan ulang Madrona dengan throughput tinggi.
Sumber:
Petak umpet
Pada bulan September 2019, agen OpenAI melakukan pertempuran ofensif dan defensif petak umpet, menciptakan rutinitas dan anti-rutinitasnya sendiri. Lingkungan "Hide and Seek" direproduksi di sini menggunakan Madrona.
Hanabi
Hanabi merupakan implementasi dari permainan kartu Hanabi berbasis mesin permainan Madrona dan koperasi Dec-POMDP. Lingkungan didasarkan pada lingkungan Hanabi DeepMind dan mendukung bagian dari implementasi MAPPO.
Cartpole
Cartpole adalah lingkungan pelatihan RL yang khas dengan dinamika yang sama dengan implementasi gym yang dibangun di atas mesin game Madrona.
Alamat GitHub:
Game memasak matang: latih agen terbaik sebentar lagi
Terlalu matang di Ribuan Dapur: Melatih Agen Berkinerja Tinggi dalam waktu kurang dari satu menit
Sarjana Stanford Bidipta Sarkar, salah satu penulis makalah, menulis blog yang merinci proses pelatihan agen untuk memainkan game memasak Overcooked. Overcooked adalah game memasak populer yang juga berfungsi sebagai tolok ukur untuk penelitian multiagen kolaboratif.
Dalam penelitian RL Sarkar, tingginya biaya simulasi lingkungan virtual selalu menjadi kendala utama bagi agen pelatihan baginya.
Dalam kasus game memasak Overcooked, sekitar 8 juta langkah game diperlukan untuk melatih sepasang agen yang menyatu dengan strategi keseimbangan yang stabil dalam tata letak ruangan sempit Overcooked (di bawah). Implementasi open-source Overcooked ditulis dengan Python dan berjalan pada 2000 langkah per detik pada CPU AMD 8-core, sehingga menghasilkan pengalaman agen yang diperlukan membutuhkan waktu lebih dari 1 jam.
Sebaliknya, melakukan semua operasi lain yang diperlukan untuk pelatihan (termasuk inferensi kebijakan untuk semua 8 juta langkah simulasi, backpropagation untuk pelatihan kebijakan) memerlukan waktu kurang dari 1 menit pada GPU NVIDIA A40. Jelas, melatih agen Overcooked dibatasi oleh kecepatan simulator lingkungan Overcooked.
Mempertimbangkan Overcooked adalah lingkungan yang sederhana, tampaknya konyol berjuang dengan kecepatan simulasi. Jadi Sarkar mencoba melihat apakah kecepatan simulasi lingkungan Overcooked dapat ditingkatkan, yang membutuhkan penggunaan mesin game Madrona.
Dengan menggunakan mesin game Madrona, Sarkar mendapatkan pengganti yang dipercepat GPU plug-and-play dari implementasi Python Overcooked asli. Saat mensimulasikan 1000 lingkungan Overcooked secara paralel, implementasi yang dipercepat GPU dapat menghasilkan pengalaman 3,5 juta langkah per detik pada GPU A40.
Hasilnya, waktu untuk mensimulasikan 8 juta langkah lingkungan berkurang dari 1 jam menjadi 3 detik, memungkinkan kebijakan dilatih hanya dalam 1 menit menggunakan GPU A40.
Kecepatan simulator membuka kemungkinan baru untuk melakukan sapuan hyperparameter ekstensif di Overcooked, terutama kemungkinan melatih beberapa kebijakan dalam waktu yang sebelumnya diperlukan untuk melatih satu kebijakan.
Pada akhirnya, Sarkar menyadari bahwa mem-porting Overcooked ke Madrona adalah proses yang jauh lebih lancar daripada alternatif yang ada untuk menciptakan lingkungan yang dipercepat GPU seperti PyTorch, Taichi Lang, Direct CUDA C++.
Detail blog:
Tautan Referensi:
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
Satu GPU hanya membutuhkan waktu 3 detik untuk menjalankan ribuan lingkungan dan 8 juta langkah simulasi Stanford telah mengembangkan mesin game super
Pada tahap ini, agen AI tampak mahakuasa, bermain game dan meniru manusia untuk menyelesaikan berbagai tugas, dan agen ini pada dasarnya dilatih di lingkungan yang kompleks. Tidak hanya itu, karena tugas pembelajaran menjadi lebih kompleks, kompleksitas lingkungan yang disimulasikan juga meningkat, sehingga meningkatkan biaya lingkungan yang disimulasikan.
Bahkan untuk perusahaan dan institusi dengan sumber daya berskala superkomputer, pelatihan agen yang dapat digunakan dapat memakan waktu berhari-hari untuk diselesaikan.
Ini menghambat kemajuan di lapangan dan mengurangi kepraktisan pelatihan agen AI tingkat lanjut. Untuk mengatasi tingginya biaya simulasi lingkungan, upaya penelitian baru-baru ini telah mendesain ulang simulator secara mendasar untuk mencapai efisiensi yang lebih besar saat melatih agen. Karya-karya ini berbagi ide tentang simulasi batch, yang merupakan eksekusi simultan dari banyak lingkungan independen (contoh pelatihan) dalam satu mesin simulator.
Dalam makalah ini, para peneliti dari Stanford University dan institusi lainnya,** mereka mengusulkan mesin game pembelajaran penguatan yang disebut Madrona, yang dapat menjalankan ribuan lingkungan secara paralel pada satu GPU, mengurangi waktu pelatihan agen dari jam ke jam. menit* *.
Secara khusus, Madrona adalah mesin permainan riset yang dirancang untuk menciptakan lingkungan pembelajaran yang dapat menjalankan ribuan instance lingkungan secara bersamaan pada satu GPU, dan pada penerapan throughput yang sangat tinggi (jutaan langkah agregasi per detik). Tujuan Madrona adalah untuk memudahkan para peneliti menciptakan lingkungan berkinerja tinggi baru untuk berbagai tugas, sehingga mempercepat pelatihan agen AI dengan urutan besarnya.
Madrona memiliki ciri-ciri sebagai berikut:
Salah satu penulis, Kayvon Fatahalian, seorang profesor ilmu komputer di Universitas Stanford, mengatakan bahwa di Overcooked, permainan memasak untuk dimainkan oleh banyak agen, dengan bantuan mesin permainan Madrona, waktu untuk mensimulasikan 8 juta langkah lingkungan adalah dipersingkat dari satu jam menjadi tiga detik.
** Apa saja simulator lingkungan berdasarkan Madrona? **
Madrona sendiri bukanlah simulator lingkungan RL, melainkan engine atau framework game. Ini memudahkan pengembang untuk mengimplementasikan simulator lingkungan baru mereka sendiri, mencapai kinerja tinggi dengan menjalankan simulasi batch pada GPU dan menggabungkan keluaran simulasi dengan kode pembelajaran.
Di bawah ini adalah beberapa simulator lingkungan berdasarkan Madrona.
Ruang Pelarian Madrona
Madrona Escape Room adalah lingkungan 3D sederhana yang menggunakan API ECS Madrona serta kemampuan fisika dan rendering. Dalam tugas sederhana ini, agen harus belajar menekan tombol merah dan mendorong kotak warna lain untuk bergerak melalui serangkaian ruangan.
Lingkungan AI Overcooked, lingkungan pembelajaran multi-agen berbasis video game kolaboratif (game memasak kolaboratif multipemain), di sini ditulis ulang dalam penulisan ulang Madrona dengan throughput tinggi.
Petak umpet
Pada bulan September 2019, agen OpenAI melakukan pertempuran ofensif dan defensif petak umpet, menciptakan rutinitas dan anti-rutinitasnya sendiri. Lingkungan "Hide and Seek" direproduksi di sini menggunakan Madrona.
Hanabi merupakan implementasi dari permainan kartu Hanabi berbasis mesin permainan Madrona dan koperasi Dec-POMDP. Lingkungan didasarkan pada lingkungan Hanabi DeepMind dan mendukung bagian dari implementasi MAPPO.
Cartpole adalah lingkungan pelatihan RL yang khas dengan dinamika yang sama dengan implementasi gym yang dibangun di atas mesin game Madrona.
Alamat GitHub:
Game memasak matang: latih agen terbaik sebentar lagi
Terlalu matang di Ribuan Dapur: Melatih Agen Berkinerja Tinggi dalam waktu kurang dari satu menit
Sarjana Stanford Bidipta Sarkar, salah satu penulis makalah, menulis blog yang merinci proses pelatihan agen untuk memainkan game memasak Overcooked. Overcooked adalah game memasak populer yang juga berfungsi sebagai tolok ukur untuk penelitian multiagen kolaboratif.
Dalam kasus game memasak Overcooked, sekitar 8 juta langkah game diperlukan untuk melatih sepasang agen yang menyatu dengan strategi keseimbangan yang stabil dalam tata letak ruangan sempit Overcooked (di bawah). Implementasi open-source Overcooked ditulis dengan Python dan berjalan pada 2000 langkah per detik pada CPU AMD 8-core, sehingga menghasilkan pengalaman agen yang diperlukan membutuhkan waktu lebih dari 1 jam.
Mempertimbangkan Overcooked adalah lingkungan yang sederhana, tampaknya konyol berjuang dengan kecepatan simulasi. Jadi Sarkar mencoba melihat apakah kecepatan simulasi lingkungan Overcooked dapat ditingkatkan, yang membutuhkan penggunaan mesin game Madrona.
Dengan menggunakan mesin game Madrona, Sarkar mendapatkan pengganti yang dipercepat GPU plug-and-play dari implementasi Python Overcooked asli. Saat mensimulasikan 1000 lingkungan Overcooked secara paralel, implementasi yang dipercepat GPU dapat menghasilkan pengalaman 3,5 juta langkah per detik pada GPU A40.
Hasilnya, waktu untuk mensimulasikan 8 juta langkah lingkungan berkurang dari 1 jam menjadi 3 detik, memungkinkan kebijakan dilatih hanya dalam 1 menit menggunakan GPU A40.
Kecepatan simulator membuka kemungkinan baru untuk melakukan sapuan hyperparameter ekstensif di Overcooked, terutama kemungkinan melatih beberapa kebijakan dalam waktu yang sebelumnya diperlukan untuk melatih satu kebijakan.
Pada akhirnya, Sarkar menyadari bahwa mem-porting Overcooked ke Madrona adalah proses yang jauh lebih lancar daripada alternatif yang ada untuk menciptakan lingkungan yang dipercepat GPU seperti PyTorch, Taichi Lang, Direct CUDA C++.
Detail blog:
Tautan Referensi: