Bu aşamada, AI ajanları her şeye kadir, oyun oynayan ve çeşitli görevleri tamamlamak için insanları taklit eden gibi görünüyor ve bu ajanlar temel olarak karmaşık ortamlarda eğitiliyor. Sadece bu da değil, öğrenme görevi daha karmaşık hale geldikçe simüle edilen ortamın karmaşıklığı da artmakta ve böylece simüle edilen ortamın maliyeti artmaktadır.
Süper bilgi işlem ölçeğinde kaynaklara sahip şirketler ve kurumlar için bile kullanılabilir bir aracının eğitiminin tamamlanması günler alabilir.
Bu, alandaki ilerlemeyi engeller ve gelişmiş yapay zeka aracılarını eğitmenin pratikliğini azaltır. Ortam simülasyonunun yüksek maliyetini ele almak için, son araştırma çabaları, aracıları eğitirken daha fazla verimlilik elde etmek için temel olarak simülatörleri yeniden tasarladı. Bu çalışmalar, birçok bağımsız ortamın (eğitim örnekleri) tek bir simülatör motoru içinde eşzamanlı olarak yürütülmesi olan toplu simülasyon fikrini paylaşıyor.
Bu makalede, Stanford Üniversitesi ve diğer kurumlardan araştırmacılar**, tek bir GPU üzerinde binlerce ortamı paralel olarak çalıştırabilen ve aracıların eğitim süresini saatlerden saatlere indiren Madrona adında bir pekiştirmeli öğrenme oyun motoru önerdiler. *.
* Bildiri adresi:
Kağıt ana sayfası:
Özellikle Madrona, binlerce ortam örneğini aynı anda tek bir GPU üzerinde ve çok yüksek verimlilikte (saniyede milyonlarca toplama adımı) çalıştırabilen öğrenme ortamları oluşturmak için tasarlanmış bir araştırma oyun motorudur. Madrona'nın amacı, araştırmacıların çeşitli görevler için yeni yüksek performanslı ortamlar oluşturmasını kolaylaştırmak ve böylece AI temsilcilerinin eğitimini büyük ölçüde hızlandırmaktır.
Madrona aşağıdaki özelliklere sahiptir:
GPU toplu simülasyonu: binlerce ortam tek bir GPU üzerinde çalışabilir;
Varlık Bileşen Sistemi (ECS) mimarisi;
PyTorch ile kolayca birlikte çalışabilir.
Örnek Madrona ortamı:
Yukarıda belirttiğimiz gibi, çalışma ECS tasarım ilkelerini kullanmıştır ve spesifik süreç aşağıdaki gibidir:
Araştırmacılar, Madrona çerçevesini kullanarak çoklu öğrenme ortamları uyguladılar ve açık kaynaklı bir CPU temeli ile karşılaştırıldığında GPU'larda iki ila üç büyüklük sırası ve 32 iş parçacıklı bir CPU üzerinde çalışan güçlü bir temel ile karşılaştırıldığında hız artışları gösterdiler. . Buna ek olarak araştırma, çerçevede OpenAI'nin "3D saklambaç" ortamını da uyguladı ve her simülasyon adımı, katı cisim fiziği ve ışın izleme uygulayarak tek bir GPU'da saniyede 1,9 milyon adımın üzerinde bir hıza ulaştı.
Yazarlardan biri, Stanford Üniversitesi'nde bilgisayar bilimi doçenti olan Kayvon Fatahalian, birden fazla ajanın oynayabileceği bir yemek pişirme oyunu olan Overcooked'da Madrona oyun motorunun yardımıyla 8 milyon çevresel adımı simüle etme zamanının geldiğini söyledi. bir saatten üç saniyeye indirildi.
Şu anda Madrona, oyun mantığı yazmak için C++ gerektiriyor. Madrona yalnızca görselleştirme oluşturma desteği sağlar ve aynı anda binlerce ortamı simüle edebilirken, görselleştirici aynı anda yalnızca bir ortamı görüntüleyebilir.
**Madrona'ya dayalı çevre simülatörleri nelerdir? **
Madrona'nın kendisi bir RL ortam simülatörü değil, bir oyun motoru veya çerçevesidir. GPU üzerinde toplu simülasyonlar çalıştırarak ve simülasyon çıktısını öğrenme koduyla sıkı bir şekilde birleştirerek yüksek performans elde ederek geliştiricilerin kendi yeni ortam simülatörlerini uygulamalarını kolaylaştırır.
Aşağıda, Madrona'ya dayalı bazı çevre simülatörleri bulunmaktadır.
Madrona Kaçış Odası
Madrona Escape Room, Madrona'nın ECS API'sinin yanı sıra fizik ve işleme yeteneklerini kullanan basit bir 3B ortamdır. Bu basit görevde temsilci, bir dizi oda arasında hareket etmek için kırmızı bir düğmeye basmayı ve diğer renkteki kutuları itmeyi öğrenmelidir.
Aşırı Pişmiş Yapay Zeka
İşbirlikçi bir video oyunu tabanlı çok aracılı öğrenme ortamı (çok oyunculu işbirlikçi yemek pişirme oyunu) olan Overcooked AI ortamı, burada yüksek verimli bir Madrona yeniden yazımı ile yeniden yazıldı.
Kaynak:
Saklambaç
Eylül 2019'da OpenAI temsilcisi, kendi rutinlerini ve anti-rutinlerini yaratarak saklambaçlı bir saldırı ve savunma savaşı düzenledi. "Saklambaç" ortamı burada Madrona kullanılarak yeniden üretilmiştir.
Hanabi
Hanabi, Madrona oyun motoru ve işbirlikçi Dec-POMDP tabanlı Hanabi kart oyununun bir uygulamasıdır. Ortam, DeepMind'in Hanabi ortamına dayalıdır ve MAPPO uygulamasının bir bölümünü destekler.
Kart direği
Cartpole, Madrona oyun motorunun üzerine inşa edilmiş bir spor salonu uygulamasıyla aynı dinamiklere sahip tipik bir RL eğitim ortamıdır.
GitHub adresi:
Fazla pişmiş yemek pişirme oyunu: En iyi ajanı bir dakikada eğitin
Binlerce Mutfakta Fazla Pişirildi: Bir Dakikadan Kısa Sürede En İyi Performansa Sahip Temsilcileri Eğitmek
Gazetenin yazarlarından biri olan Stanford mezunu Bidipta Sarkar, bir ajanın Overcooked yemek pişirme oyununu oynaması için eğitim sürecini detaylandıran bir blog yazdı. Overcooked, işbirlikçi çok aracılı araştırma için bir ölçüt görevi gören popüler bir yemek pişirme oyunudur.
Sarkar'ın RL araştırmasında, sanal ortamları simüle etmenin yüksek maliyeti, onun için temsilcileri eğitmenin önünde her zaman büyük bir engel olmuştur.
Overcooked yemek pişirme oyunu söz konusu olduğunda, Overcooked dar oda düzeninde (aşağıda) istikrarlı bir denge stratejisine yaklaşan bir çift ajanı eğitmek için yaklaşık 8 milyon oyun adımı gerekir. Overcooked'ın açık kaynak uygulaması Python'da yazılmıştır ve 8 çekirdekli bir AMD CPU'da saniyede 2000 adımda çalışır, bu nedenle gerekli aracı deneyiminin oluşturulması 1 saatten fazla sürer.
Buna karşılık, eğitim için gereken diğer tüm işlemleri gerçekleştirmek (8 milyon simülasyon adımının tamamı için ilke çıkarımı, ilke eğitimi için geri yayılım dahil) NVIDIA A40 GPU'da 1 dakikadan az sürer. Açıkçası, Overcooked ajanlarının eğitimi, Overcooked ortam simülatörünün hızıyla sınırlıdır.
Overcooked'un basit bir ortam olduğu düşünüldüğünde, simülasyon hızıyla uğraşmak aptalca görünüyor. Böylece Sarkar, Madrona oyun motorunun kullanılmasını gerektiren Overcooked ortam simülasyonunun hızının iyileştirilip iyileştirilemeyeceğini görmeye çalıştı.
Madrona oyun motorunu kullanan Sarkar, orijinal Overcooked Python uygulamasının tak ve çalıştır GPU hızlandırmalı bir yerine geçer. 1000 Overcooked ortamını paralel olarak simüle ederken, GPU hızlandırmalı uygulama, bir A40 GPU'da saniyede 3,5 milyon adımlık deneyim üretebilir.
Sonuç olarak, 8 milyon ortam adımını simüle etme süresi 1 saatten 3 saniyeye düşürülerek, bir A40 GPU kullanılarak bir politikanın 1 dakika gibi kısa bir sürede eğitilmesi sağlandı.
Simülatörün hızı, Overcooked'da kapsamlı hiperparametre taramaları gerçekleştirmek için yeni olanaklar, özellikle de daha önce tek bir ilkeyi eğitmek için gerekli olan sürede birden çok ilkeyi eğitme olasılığı sunar.
Sonunda Sarkar, Overcooked'u Madrona'ya taşımanın PyTorch, Taichi Lang, Direct CUDA C++ gibi GPU hızlandırmalı ortamlar oluşturmak için mevcut alternatiflerden çok daha sorunsuz bir süreç olduğunu fark etti.
Blog ayrıntıları:
Referans linki:
View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Tek bir GPU'nun binlerce ortamı ve 8 milyon adımlık simülasyonu çalıştırması sadece 3 saniye sürüyor.Stanford bir süper oyun motoru geliştirdi
Bu aşamada, AI ajanları her şeye kadir, oyun oynayan ve çeşitli görevleri tamamlamak için insanları taklit eden gibi görünüyor ve bu ajanlar temel olarak karmaşık ortamlarda eğitiliyor. Sadece bu da değil, öğrenme görevi daha karmaşık hale geldikçe simüle edilen ortamın karmaşıklığı da artmakta ve böylece simüle edilen ortamın maliyeti artmaktadır.
Süper bilgi işlem ölçeğinde kaynaklara sahip şirketler ve kurumlar için bile kullanılabilir bir aracının eğitiminin tamamlanması günler alabilir.
Bu, alandaki ilerlemeyi engeller ve gelişmiş yapay zeka aracılarını eğitmenin pratikliğini azaltır. Ortam simülasyonunun yüksek maliyetini ele almak için, son araştırma çabaları, aracıları eğitirken daha fazla verimlilik elde etmek için temel olarak simülatörleri yeniden tasarladı. Bu çalışmalar, birçok bağımsız ortamın (eğitim örnekleri) tek bir simülatör motoru içinde eşzamanlı olarak yürütülmesi olan toplu simülasyon fikrini paylaşıyor.
Bu makalede, Stanford Üniversitesi ve diğer kurumlardan araştırmacılar**, tek bir GPU üzerinde binlerce ortamı paralel olarak çalıştırabilen ve aracıların eğitim süresini saatlerden saatlere indiren Madrona adında bir pekiştirmeli öğrenme oyun motoru önerdiler. *.
Özellikle Madrona, binlerce ortam örneğini aynı anda tek bir GPU üzerinde ve çok yüksek verimlilikte (saniyede milyonlarca toplama adımı) çalıştırabilen öğrenme ortamları oluşturmak için tasarlanmış bir araştırma oyun motorudur. Madrona'nın amacı, araştırmacıların çeşitli görevler için yeni yüksek performanslı ortamlar oluşturmasını kolaylaştırmak ve böylece AI temsilcilerinin eğitimini büyük ölçüde hızlandırmaktır.
Madrona aşağıdaki özelliklere sahiptir:
Yazarlardan biri, Stanford Üniversitesi'nde bilgisayar bilimi doçenti olan Kayvon Fatahalian, birden fazla ajanın oynayabileceği bir yemek pişirme oyunu olan Overcooked'da Madrona oyun motorunun yardımıyla 8 milyon çevresel adımı simüle etme zamanının geldiğini söyledi. bir saatten üç saniyeye indirildi.
**Madrona'ya dayalı çevre simülatörleri nelerdir? **
Madrona'nın kendisi bir RL ortam simülatörü değil, bir oyun motoru veya çerçevesidir. GPU üzerinde toplu simülasyonlar çalıştırarak ve simülasyon çıktısını öğrenme koduyla sıkı bir şekilde birleştirerek yüksek performans elde ederek geliştiricilerin kendi yeni ortam simülatörlerini uygulamalarını kolaylaştırır.
Aşağıda, Madrona'ya dayalı bazı çevre simülatörleri bulunmaktadır.
Madrona Kaçış Odası
Madrona Escape Room, Madrona'nın ECS API'sinin yanı sıra fizik ve işleme yeteneklerini kullanan basit bir 3B ortamdır. Bu basit görevde temsilci, bir dizi oda arasında hareket etmek için kırmızı bir düğmeye basmayı ve diğer renkteki kutuları itmeyi öğrenmelidir.
İşbirlikçi bir video oyunu tabanlı çok aracılı öğrenme ortamı (çok oyunculu işbirlikçi yemek pişirme oyunu) olan Overcooked AI ortamı, burada yüksek verimli bir Madrona yeniden yazımı ile yeniden yazıldı.
Saklambaç
Eylül 2019'da OpenAI temsilcisi, kendi rutinlerini ve anti-rutinlerini yaratarak saklambaçlı bir saldırı ve savunma savaşı düzenledi. "Saklambaç" ortamı burada Madrona kullanılarak yeniden üretilmiştir.
Hanabi, Madrona oyun motoru ve işbirlikçi Dec-POMDP tabanlı Hanabi kart oyununun bir uygulamasıdır. Ortam, DeepMind'in Hanabi ortamına dayalıdır ve MAPPO uygulamasının bir bölümünü destekler.
Cartpole, Madrona oyun motorunun üzerine inşa edilmiş bir spor salonu uygulamasıyla aynı dinamiklere sahip tipik bir RL eğitim ortamıdır.
GitHub adresi:
Fazla pişmiş yemek pişirme oyunu: En iyi ajanı bir dakikada eğitin
Binlerce Mutfakta Fazla Pişirildi: Bir Dakikadan Kısa Sürede En İyi Performansa Sahip Temsilcileri Eğitmek
Gazetenin yazarlarından biri olan Stanford mezunu Bidipta Sarkar, bir ajanın Overcooked yemek pişirme oyununu oynaması için eğitim sürecini detaylandıran bir blog yazdı. Overcooked, işbirlikçi çok aracılı araştırma için bir ölçüt görevi gören popüler bir yemek pişirme oyunudur.
Overcooked yemek pişirme oyunu söz konusu olduğunda, Overcooked dar oda düzeninde (aşağıda) istikrarlı bir denge stratejisine yaklaşan bir çift ajanı eğitmek için yaklaşık 8 milyon oyun adımı gerekir. Overcooked'ın açık kaynak uygulaması Python'da yazılmıştır ve 8 çekirdekli bir AMD CPU'da saniyede 2000 adımda çalışır, bu nedenle gerekli aracı deneyiminin oluşturulması 1 saatten fazla sürer.
Overcooked'un basit bir ortam olduğu düşünüldüğünde, simülasyon hızıyla uğraşmak aptalca görünüyor. Böylece Sarkar, Madrona oyun motorunun kullanılmasını gerektiren Overcooked ortam simülasyonunun hızının iyileştirilip iyileştirilemeyeceğini görmeye çalıştı.
Madrona oyun motorunu kullanan Sarkar, orijinal Overcooked Python uygulamasının tak ve çalıştır GPU hızlandırmalı bir yerine geçer. 1000 Overcooked ortamını paralel olarak simüle ederken, GPU hızlandırmalı uygulama, bir A40 GPU'da saniyede 3,5 milyon adımlık deneyim üretebilir.
Sonuç olarak, 8 milyon ortam adımını simüle etme süresi 1 saatten 3 saniyeye düşürülerek, bir A40 GPU kullanılarak bir politikanın 1 dakika gibi kısa bir sürede eğitilmesi sağlandı.
Simülatörün hızı, Overcooked'da kapsamlı hiperparametre taramaları gerçekleştirmek için yeni olanaklar, özellikle de daha önce tek bir ilkeyi eğitmek için gerekli olan sürede birden çok ilkeyi eğitme olasılığı sunar.
Sonunda Sarkar, Overcooked'u Madrona'ya taşımanın PyTorch, Taichi Lang, Direct CUDA C++ gibi GPU hızlandırmalı ortamlar oluşturmak için mevcut alternatiflerden çok daha sorunsuz bir süreç olduğunu fark etti.
Blog ayrıntıları:
Referans linki: