GPT-4 ve pekiştirmeli öğrenmenin birleşimiyle robotiğin geleceği nasıl görünecek?
Öğrenme söz konusu olduğunda, GPT-4 zorlu bir öğrencidir. Büyük miktarda insan verisini sindirdikten sonra, çeşitli bilgilerde ustalaştı ve hatta matematikçi Tao Zhexuan'a sohbette ilham verdi.
Aynı zamanda mükemmel bir öğretmen haline geldi ve sadece kitap bilgisi öğretmekle kalmıyor, aynı zamanda robotlara kalem çevirmeyi de öğretiyor.
Eureka adlı robot, Nvidia, Pennsylvania Üniversitesi, California Teknoloji Enstitüsü ve Austin'deki Texas Üniversitesi'nden bir çalışmaydı. Bu çalışma, büyük dil modellerinin ve pekiştirmeli öğrenmenin sonuçlarını birleştirir: GPT-4, ödül işlevini iyileştirmek için kullanılır ve robot denetleyicisini eğitmek için pekiştirmeli öğrenme kullanılır.
GPT-4'ün kod yazma yeteneği ile Eureka, mükemmel ödül işlevi tasarım yeteneklerine sahiptir ve kendi kendine oluşturulan ödülleri, görevlerin %83'ünde insan uzmanlarınkinden daha üstündür. Bu yetenek, robotun kalemleri çevirmek, çekmeceleri ve dolapları açmak, yakalamak için top atmak ve top sürmek, makas kullanmak gibi daha önce yapılması kolay olmayan birçok görevi yerine getirmesini sağlar. Şimdilik, tüm bunlar sanal bir ortamda yapılıyor.
Buna ek olarak, Eureka, ödül işlevlerini yönlendirmek ve hizalamak için insan operatörlerden gelen doğal dil geri bildirimlerini içeren yeni bir bağlam içi RLHF türü uyguladı. Mühendislerin karmaşık hareket davranışları tasarlamasına yardımcı olmak için robotik mühendislerine güçlü yardımcı işlevler sağlayabilir. NVIDIA'da kıdemli bir AI bilim adamı ve makalenin yazarlarından biri olan Jim Fan, çalışmayı "fizik simülatörü API alanındaki Voyager'a" benzetti.
Bu çalışmanın tamamen açık kaynak kodlu olduğunu ve açık kaynak adresinin şu şekilde olduğunu belirtmekte fayda var:
Kağıt Bağlantısı:
Proje Linki:
Kod bağlantısı:
Kağıda Genel Bakış
Büyük Dil Modelleri (LLM'ler), robotik görevlerin (Google'ın SayCan, RT-2 botları gibi) üst düzey anlamsal planlamasında mükemmeldir, ancak kalem çevirme gibi karmaşık, düşük seviyeli operasyonel görevleri öğrenmek için kullanılıp kullanılamayacakları açık bir soru olmaya devam etmektedir. Mevcut girişimler, görev istemleri oluşturmak veya insan düzeyinde esneklikten uzak, yalnızca basit becerileri öğrenmek için çok fazla alan uzmanlığı gerektirir.
Google'ın RT-2 robotu
Öte yandan pekiştirmeli öğrenme (RL), esneklik ve diğer birçok açıdan (OpenAI'nin Rubik Küpü oynayan manipülatörü gibi) etkileyici sonuçlar elde etti, ancak insan tasarımcıların istenen davranış için öğrenme sinyallerini doğru bir şekilde kodlayan ve sağlayan ödül işlevlerini dikkatli bir şekilde oluşturmasını gerektirir. Gerçek dünyadaki birçok pekiştirmeli öğrenme görevi, öğrenme için kullanılması zor olan yalnızca seyrek ödüller sağladığından, aşamalı öğrenme sinyalleri sağlamak için pratikte ödül şekillendirmeye ihtiyaç vardır. Ödül işlevi çok önemli olmasına rağmen, tasarlanması çok zordur. Yakın zamanda yapılan bir anket, ankete katılan pekiştirmeli öğrenme araştırmacılarının ve uygulayıcılarının %92'sinin ödülleri tasarlarken insan deneme yanılma yaptıklarını ve %89'unun yetersiz ve beklenmedik davranışlara yol açacak ödüller tasarladıklarını söylediğini ortaya koydu.
Ödül tasarımının bu kadar önemli olduğu göz önüne alındığında, GPT-4 gibi son teknoloji kodlama LLM'lerini kullanarak evrensel bir ödül programlama algoritması geliştirmek mümkün mü diye sormadan edemiyoruz. Bu LLM'ler kodlama, sıfır atış oluşturma ve bağlam içi öğrenmede mükemmeldir ve programlama aracılarının performansını büyük ölçüde geliştirmiştir. İdeal olarak, bu ödül tasarım algoritması, çok çeşitli görevlere ölçeklenebilen, insan gözetimi olmadan sıkıcı deneme yanılma süreçlerini otomatikleştirebilen ve güvenlik ve tutarlılığı sağlamak için insan denetimiyle uyumlu olabilen insan düzeyinde ödül üretme yeteneklerine sahip olmalıdır.
Bu makale, LLM güdümlü bir ödül tasarım algoritması olan EUREKA (Evrim Odaklı Temsilci için Evrensel Dönüşüm Kiti) önermektedir. Algoritma aşağıdakileri başarır:
Ödül tasarımının performansı, 10 farklı robot formu (dört ayaklı, quadcopter, iki ayaklı, manipülatör ve birkaç hünerli el, bkz. Şekil 1) içeren 29 farklı açık kaynaklı RL ortamında insan seviyesine ulaşır. Göreve özel istemler veya ödül şablonları olmadan, EUREKA'nın kendi ürettiği ödüller, görevlerin %83'ünde insan uzmanların ödüllerinden daha iyi performans gösterdi ve ortalama %52'lik bir normalleşme iyileştirmesi sağladı.
2. Daha önce manuel ödül mühendisliği ile elde edilemeyen hünerli operasyon görevlerini çözün. Örneğin, yalnızca beş parmağı olan bir elin kalemi önceden ayarlanmış bir döndürme yapılandırmasına göre hızlı bir şekilde döndürmesi ve mümkün olduğunca çok döngüyü döndürmesi gereken kalem döndürme problemini ele alalım. Araştırmacılar, EUREKA'yı kurslarla birleştirerek, ilk kez simüle edilmiş bir antropomorfik "Gölge El" üzerinde hızlı bir kalem dönüşünün çalışmasını gösterdiler (Şekil 1'in altına bakın).
Bu makale, çeşitli insan girdisi biçimlerine dayalı olarak daha verimli ve insanla uyumlu ödül işlevleri üretebilen, insan geri bildirimine (RLHF) dayalı pekiştirmeli öğrenme için yeni bir gradyansız bağlam öğrenme yöntemi sunmaktadır. Makale, EUREKA'nın mevcut insan ödül işlevlerinden yararlanabileceğini ve bunları geliştirebileceğini göstermektedir. Benzer şekilde, araştırmacılar EUREKA'nın, ince insan tercihlerini yakalamaya yardımcı olan ödül işlevlerinin tasarlanmasına yardımcı olmak için insan metinsel geri bildirimini kullanma yeteneğini gösterdiler.
LLM destekli ödül tasarımını kullanan önceki L2R çalışmasının aksine, EUREKA'nın göreve özel istemleri, ödül şablonları ve birkaç örneği yoktur. Deneyde EUREKA, serbest biçimli, etkileyici ödül programları oluşturma ve iyileştirme yeteneği nedeniyle L2R'den önemli ölçüde daha iyi performans gösterdi.
EUREKA'nın çok yönlülüğü, üç temel algoritma tasarım seçeneğinden kaynaklanmaktadır: bağlam olarak bağlam, evrimsel arama ve ödül yansıması.
İlk olarak, ortam kaynak kodunu bağlam olarak kullanarak EUREKA, omurga kodlama LLM'deki (GPT-4) sıfır örnekten yürütülebilir ödül işlevleri oluşturabilir. EUREKA daha sonra evrimsel aramalar yaparak, yinelemeli olarak ödül adayı gruplarını önererek ve LLM bağlam penceresinde en umut verici ödülleri iyileştirerek ödüllerin kalitesini büyük ölçüde artırır. Bağlamdaki bu iyileştirme, otomatik ve hedefli ödül düzenlemeyi mümkün kılan strateji eğitimi istatistiklerine dayalı, ödül kalitesinde bir metin özeti olan ödül yansıması yoluyla elde edilir.
ŞEKIL 3, EUREKA SIFIR ÖRNEK ÖDÜLÜNÜN BIR ÖRNEĞINI VE OPTIMIZASYON SIRASINDA BIRIKEN IYILEŞTIRMELERI GÖSTERMEKTEDIR. EUREKA'nın ödül aramasını maksimum potansiyeline ölçeklendirebilmesini sağlamak için EUREKA, ara ödülleri değerlendirmek için IsaacGym'de GPU hızlandırmalı dağıtılmış pekiştirmeli öğrenmeyi kullanır, bu da politika öğrenme hızında üç büyüklük sırasına kadar iyileşme sağlar ve bu da EUREKA'yı hesaplama miktarı arttıkça doğal olarak ölçeklenen geniş bir algoritma haline getirir.
Bu, Şekil 2'de gösterilmiştir. Araştırmacılar, LLM tabanlı ödül tasarımı hakkında daha fazla araştırmayı kolaylaştırmak için tüm ipuçlarını, ortamları ve oluşturulan ödül işlevlerini açık kaynaklı hale getirmeye kararlıdır.
Yönteme giriş
EUREKA ödül algoritmasını otonom olarak yazabilir, nasıl uygulanır, sonra bakalım.
EUREKA üç algoritmik bileşenden oluşur: 1) ortamı bağlam olarak kullanmak, böylece yürütülebilir ödüllerin sıfır atışla oluşturulmasını desteklemek; 2) evrimsel araştırma, yinelemeli olarak ödül adayları önermek ve iyileştirmek; 3) Yansımayı ödüllendirin ve ince taneli ödül gelişimini destekleyin.
Bağlam olarak çevre
Bu makalede, özgün ortam kodunun doğrudan bağlam olarak sağlanması önerilir. EUREKA, yalnızca minimum talimatlarla sıfır örnekle farklı ortamlarda ödüller üretebilir. EUREKA çıktısının bir örneği Şekil 3'te gösterilmektedir. EUREKA, mevcut gözlem değişkenlerini (örneğin, parmak ucu konumu) sağlanan ortam kodunda ustalıkla birleştirir ve geçerli bir ödül kodu üretir - tümü ortama özgü herhangi bir istem mühendisliği veya ödül şablonu olmadan.
Bununla birlikte, ilk denemede, ortaya çıkan ödül her zaman uygulanabilir olmayabilir ve öyle olsa bile, yetersiz olabilir. Bu, tek örneklemli ödül üretiminin yetersizliğinin etkili bir şekilde nasıl üstesinden gelineceği sorusunu gündeme getiriyor.
Evrimsel Arayış
Daha sonra, makale, evrimsel araştırmanın yukarıda bahsedilen optimal olmayan çözümlerin sorunlarını nasıl çözdüğünü açıklamaktadır. Her yinelemede EUREKA, LLM'nin birkaç bağımsız çıktısını örnekleyecek şekilde mükemmelleştirilir (algoritma 1'deki satır 5). Her yineleme bağımsız ve homojen olduğundan, yinelemedeki tüm ödül işlevlerinde hata olasılığı, örneklem büyüklüğü arttıkça katlanarak azalır.
Ödül Yansıması
Daha karmaşık ve hedefli ödül analizi sağlamak için bu makale, metindeki politika eğitimi dinamiklerini özetlemek için otomatik geri bildirim oluşturmayı önermektedir. Özellikle, EUREKA ödül fonksiyonunun ödül programında (Şekil 3'teki ödül bileşeni gibi) bireysel bileşenler gerektirdiğini göz önünde bulundurarak, bu makale, eğitim süreci boyunca ara politika kontrol noktalarındaki tüm ödül bileşenlerinin skaler değerlerini izlemektedir.
Bu ödül yansıtma sürecini oluşturmak basittir, ancak ödül optimizasyon algoritmasının bağımlılığı nedeniyle önemlidir. Yani, ödül fonksiyonunun geçerli olup olmadığı, RL algoritmasının özel seçiminden etkilenir ve aynı ödül, belirli bir hiper parametre farkı için aynı optimize edici altında bile çok farklı davranabilir. RL algoritmasının bireysel ödül bileşenlerini nasıl optimize ettiğini detaylandırarak, ödül yansıması, EUREKA'nın daha hedefli ödül düzenlemeleri üretmesini ve sabit RL algoritmasıyla daha iyi çalışmak için ödül işlevlerini sentezlemesini sağlar.
Deney
Deneysel kısım, ödül işlevleri oluşturma yeteneği, yeni görevleri çözme yeteneği ve çeşitli insan girdilerini entegre etme yeteneği dahil olmak üzere Eureka'nın kapsamlı bir değerlendirmesini sağlar.
Deney ortamı, 10'u IsaacGym simülatörü tarafından uygulanan 29 farklı robot ve 29 görev içerir. Deney, dört ayaklı, iki ayaklı, quadcopter, manipülatörden robotik hünerli ele kadar çeşitli robot formlarını kapsayan IsaacGym'den (Isaac) 9 ilkel ortam kullanıyor. Ek olarak, bu makale Dexterity karşılaştırmasından 20 görevi dahil ederek değerlendirmenin derinliğini sağlar.
Eureka, insanüstü düzeyde bir ödül işlevi üretebilir. 29 görevden Eureka tarafından verilen ödül işlevi, görevlerin %83'ünde uzman tarafından yazılan ödüllerden daha iyi performans gösterdi ve ortalama %52 arttı. Özellikle Eureka, yüksek boyutlu bir Dexterity kıyaslama ortamında daha fazla fayda elde etti.
Eureka, ödüllerin zaman içinde iyileşmesi için ödül aramayı geliştirebilir. Eureka, büyük ölçekli ödül aramalarını ve ayrıntılı ödül yansıtma geri bildirimlerini birleştirerek giderek daha iyi ödüller üretir ve sonunda insan seviyelerini aşar.
Eureka ayrıca yeni ödüller de üretebilir. Bu makale, tüm Isaac görevlerinde Eureka ödülleri ile insan ödülleri arasındaki korelasyonu hesaplayarak Eureka ödüllerinin yeniliğini değerlendirmektedir. Şekilde gösterildiği gibi, Eureka esas olarak insan ödül işlevlerinden daha iyi performans gösteren, zayıf ilişkili ödül işlevleri üretir. Buna ek olarak, makale ayrıca görev ne kadar zorsa, Eureka ödülünün o kadar az alakalı olduğunu da gözlemliyor. Bazı durumlarda, Eureka ödülleri insan ödülleriyle negatif korelasyona bile sahiptir, ancak insan ödüllerinden önemli ölçüde daha iyi performans gösterir.
想要实现机器人的灵巧手能够不停的转笔,需要操作程序有尽可能多的循环。本文通过以下方式解决此任务:(1) Eureka'ya, kalemleri rastgele bir hedef yapılandırmasına yönlendiren bir ödül işlevi oluşturmasını söyleyin ve ardından (2) istenen kalem dizisi döndürme yapılandırmasını elde etmek için bu önceden eğitilmiş stratejiye Eureka Rewards ile ince ayar yapın. Gösterildiği gibi, Eureka ince ayar stratejiye hızla adapte oldu ve arka arkaya birçok döngüyü başarıyla döndürdü. Buna karşılık, ne önceden eğitilmiş ne de sıfırdan öğrenilmiş stratejiler tek bir döngüde bir dönüşü tamamlayamaz.
Bu makale aynı zamanda insan ödül işlevinin başlatılmasıyla başlamanın Eureka için faydalı olup olmadığını da incelemektedir. Gösterildiği gibi, Eureka, insan ödüllerinin kalitesinden bağımsız olarak insan ödüllerini geliştirir ve bunlardan yararlanır.
Eureka ayrıca, temsilcilere daha güvenli ve daha insan benzeri davranışlar yoluyla adım adım rehberlik etmek için insan geri bildirimlerine dayalı olarak ödülleri değiştirebilen RLHF'yi de uyguladı. Örnek, Eureka'nın insansı bir robota, önceki otomatik ödül yansımasının yerini alan bazı insan geri bildirimleriyle dik koşmayı nasıl öğrettiğini gösteriyor.
İnsansı robot, Eureka ile koşu yürüyüşünü öğreniyor
Daha fazla bilgi için lütfen orijinal makaleye bakın.
View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
GPT-4 ile robot, kalem ve tabak cevizleri çevirmeyi öğrendi
Orijinal Makine Kalbi
Editör: Zhang Qian, Chen Ping
GPT-4 ve pekiştirmeli öğrenmenin birleşimiyle robotiğin geleceği nasıl görünecek?
Öğrenme söz konusu olduğunda, GPT-4 zorlu bir öğrencidir. Büyük miktarda insan verisini sindirdikten sonra, çeşitli bilgilerde ustalaştı ve hatta matematikçi Tao Zhexuan'a sohbette ilham verdi.
Aynı zamanda mükemmel bir öğretmen haline geldi ve sadece kitap bilgisi öğretmekle kalmıyor, aynı zamanda robotlara kalem çevirmeyi de öğretiyor.
GPT-4'ün kod yazma yeteneği ile Eureka, mükemmel ödül işlevi tasarım yeteneklerine sahiptir ve kendi kendine oluşturulan ödülleri, görevlerin %83'ünde insan uzmanlarınkinden daha üstündür. Bu yetenek, robotun kalemleri çevirmek, çekmeceleri ve dolapları açmak, yakalamak için top atmak ve top sürmek, makas kullanmak gibi daha önce yapılması kolay olmayan birçok görevi yerine getirmesini sağlar. Şimdilik, tüm bunlar sanal bir ortamda yapılıyor.
Proje Linki:
Kod bağlantısı:
Kağıda Genel Bakış
Büyük Dil Modelleri (LLM'ler), robotik görevlerin (Google'ın SayCan, RT-2 botları gibi) üst düzey anlamsal planlamasında mükemmeldir, ancak kalem çevirme gibi karmaşık, düşük seviyeli operasyonel görevleri öğrenmek için kullanılıp kullanılamayacakları açık bir soru olmaya devam etmektedir. Mevcut girişimler, görev istemleri oluşturmak veya insan düzeyinde esneklikten uzak, yalnızca basit becerileri öğrenmek için çok fazla alan uzmanlığı gerektirir.
Öte yandan pekiştirmeli öğrenme (RL), esneklik ve diğer birçok açıdan (OpenAI'nin Rubik Küpü oynayan manipülatörü gibi) etkileyici sonuçlar elde etti, ancak insan tasarımcıların istenen davranış için öğrenme sinyallerini doğru bir şekilde kodlayan ve sağlayan ödül işlevlerini dikkatli bir şekilde oluşturmasını gerektirir. Gerçek dünyadaki birçok pekiştirmeli öğrenme görevi, öğrenme için kullanılması zor olan yalnızca seyrek ödüller sağladığından, aşamalı öğrenme sinyalleri sağlamak için pratikte ödül şekillendirmeye ihtiyaç vardır. Ödül işlevi çok önemli olmasına rağmen, tasarlanması çok zordur. Yakın zamanda yapılan bir anket, ankete katılan pekiştirmeli öğrenme araştırmacılarının ve uygulayıcılarının %92'sinin ödülleri tasarlarken insan deneme yanılma yaptıklarını ve %89'unun yetersiz ve beklenmedik davranışlara yol açacak ödüller tasarladıklarını söylediğini ortaya koydu.
Ödül tasarımının bu kadar önemli olduğu göz önüne alındığında, GPT-4 gibi son teknoloji kodlama LLM'lerini kullanarak evrensel bir ödül programlama algoritması geliştirmek mümkün mü diye sormadan edemiyoruz. Bu LLM'ler kodlama, sıfır atış oluşturma ve bağlam içi öğrenmede mükemmeldir ve programlama aracılarının performansını büyük ölçüde geliştirmiştir. İdeal olarak, bu ödül tasarım algoritması, çok çeşitli görevlere ölçeklenebilen, insan gözetimi olmadan sıkıcı deneme yanılma süreçlerini otomatikleştirebilen ve güvenlik ve tutarlılığı sağlamak için insan denetimiyle uyumlu olabilen insan düzeyinde ödül üretme yeteneklerine sahip olmalıdır.
Bu makale, LLM güdümlü bir ödül tasarım algoritması olan EUREKA (Evrim Odaklı Temsilci için Evrensel Dönüşüm Kiti) önermektedir. Algoritma aşağıdakileri başarır:
Ödül tasarımının performansı, 10 farklı robot formu (dört ayaklı, quadcopter, iki ayaklı, manipülatör ve birkaç hünerli el, bkz. Şekil 1) içeren 29 farklı açık kaynaklı RL ortamında insan seviyesine ulaşır. Göreve özel istemler veya ödül şablonları olmadan, EUREKA'nın kendi ürettiği ödüller, görevlerin %83'ünde insan uzmanların ödüllerinden daha iyi performans gösterdi ve ortalama %52'lik bir normalleşme iyileştirmesi sağladı.
LLM destekli ödül tasarımını kullanan önceki L2R çalışmasının aksine, EUREKA'nın göreve özel istemleri, ödül şablonları ve birkaç örneği yoktur. Deneyde EUREKA, serbest biçimli, etkileyici ödül programları oluşturma ve iyileştirme yeteneği nedeniyle L2R'den önemli ölçüde daha iyi performans gösterdi.
EUREKA'nın çok yönlülüğü, üç temel algoritma tasarım seçeneğinden kaynaklanmaktadır: bağlam olarak bağlam, evrimsel arama ve ödül yansıması.
İlk olarak, ortam kaynak kodunu bağlam olarak kullanarak EUREKA, omurga kodlama LLM'deki (GPT-4) sıfır örnekten yürütülebilir ödül işlevleri oluşturabilir. EUREKA daha sonra evrimsel aramalar yaparak, yinelemeli olarak ödül adayı gruplarını önererek ve LLM bağlam penceresinde en umut verici ödülleri iyileştirerek ödüllerin kalitesini büyük ölçüde artırır. Bağlamdaki bu iyileştirme, otomatik ve hedefli ödül düzenlemeyi mümkün kılan strateji eğitimi istatistiklerine dayalı, ödül kalitesinde bir metin özeti olan ödül yansıması yoluyla elde edilir.
ŞEKIL 3, EUREKA SIFIR ÖRNEK ÖDÜLÜNÜN BIR ÖRNEĞINI VE OPTIMIZASYON SIRASINDA BIRIKEN IYILEŞTIRMELERI GÖSTERMEKTEDIR. EUREKA'nın ödül aramasını maksimum potansiyeline ölçeklendirebilmesini sağlamak için EUREKA, ara ödülleri değerlendirmek için IsaacGym'de GPU hızlandırmalı dağıtılmış pekiştirmeli öğrenmeyi kullanır, bu da politika öğrenme hızında üç büyüklük sırasına kadar iyileşme sağlar ve bu da EUREKA'yı hesaplama miktarı arttıkça doğal olarak ölçeklenen geniş bir algoritma haline getirir.
EUREKA ödül algoritmasını otonom olarak yazabilir, nasıl uygulanır, sonra bakalım.
EUREKA üç algoritmik bileşenden oluşur: 1) ortamı bağlam olarak kullanmak, böylece yürütülebilir ödüllerin sıfır atışla oluşturulmasını desteklemek; 2) evrimsel araştırma, yinelemeli olarak ödül adayları önermek ve iyileştirmek; 3) Yansımayı ödüllendirin ve ince taneli ödül gelişimini destekleyin.
Bağlam olarak çevre
Bu makalede, özgün ortam kodunun doğrudan bağlam olarak sağlanması önerilir. EUREKA, yalnızca minimum talimatlarla sıfır örnekle farklı ortamlarda ödüller üretebilir. EUREKA çıktısının bir örneği Şekil 3'te gösterilmektedir. EUREKA, mevcut gözlem değişkenlerini (örneğin, parmak ucu konumu) sağlanan ortam kodunda ustalıkla birleştirir ve geçerli bir ödül kodu üretir - tümü ortama özgü herhangi bir istem mühendisliği veya ödül şablonu olmadan.
Bununla birlikte, ilk denemede, ortaya çıkan ödül her zaman uygulanabilir olmayabilir ve öyle olsa bile, yetersiz olabilir. Bu, tek örneklemli ödül üretiminin yetersizliğinin etkili bir şekilde nasıl üstesinden gelineceği sorusunu gündeme getiriyor.
Daha sonra, makale, evrimsel araştırmanın yukarıda bahsedilen optimal olmayan çözümlerin sorunlarını nasıl çözdüğünü açıklamaktadır. Her yinelemede EUREKA, LLM'nin birkaç bağımsız çıktısını örnekleyecek şekilde mükemmelleştirilir (algoritma 1'deki satır 5). Her yineleme bağımsız ve homojen olduğundan, yinelemedeki tüm ödül işlevlerinde hata olasılığı, örneklem büyüklüğü arttıkça katlanarak azalır.
Daha karmaşık ve hedefli ödül analizi sağlamak için bu makale, metindeki politika eğitimi dinamiklerini özetlemek için otomatik geri bildirim oluşturmayı önermektedir. Özellikle, EUREKA ödül fonksiyonunun ödül programında (Şekil 3'teki ödül bileşeni gibi) bireysel bileşenler gerektirdiğini göz önünde bulundurarak, bu makale, eğitim süreci boyunca ara politika kontrol noktalarındaki tüm ödül bileşenlerinin skaler değerlerini izlemektedir.
Bu ödül yansıtma sürecini oluşturmak basittir, ancak ödül optimizasyon algoritmasının bağımlılığı nedeniyle önemlidir. Yani, ödül fonksiyonunun geçerli olup olmadığı, RL algoritmasının özel seçiminden etkilenir ve aynı ödül, belirli bir hiper parametre farkı için aynı optimize edici altında bile çok farklı davranabilir. RL algoritmasının bireysel ödül bileşenlerini nasıl optimize ettiğini detaylandırarak, ödül yansıması, EUREKA'nın daha hedefli ödül düzenlemeleri üretmesini ve sabit RL algoritmasıyla daha iyi çalışmak için ödül işlevlerini sentezlemesini sağlar.
Deneysel kısım, ödül işlevleri oluşturma yeteneği, yeni görevleri çözme yeteneği ve çeşitli insan girdilerini entegre etme yeteneği dahil olmak üzere Eureka'nın kapsamlı bir değerlendirmesini sağlar.
Deney ortamı, 10'u IsaacGym simülatörü tarafından uygulanan 29 farklı robot ve 29 görev içerir. Deney, dört ayaklı, iki ayaklı, quadcopter, manipülatörden robotik hünerli ele kadar çeşitli robot formlarını kapsayan IsaacGym'den (Isaac) 9 ilkel ortam kullanıyor. Ek olarak, bu makale Dexterity karşılaştırmasından 20 görevi dahil ederek değerlendirmenin derinliğini sağlar.
Daha fazla bilgi için lütfen orijinal makaleye bakın.