2 yıl sürdü, Meta en güçlü "evrensel robot zekasını" yaratmak için CMU ile işbirliği yaptı! Çayı ve kaseleri silen bir general, 100'den fazla bilinmeyen görevi kolayca genelleştirir.

**Kaynak:**Xinzhiyuan

**Kılavuz: ** "Evrensel robot zekası" yolunda Google, RT-2 ile popüler oldu. Şimdi, Meta ve CMU ekipleri tarafından yapımı 2 yıl süren RoboAgent, 12 karmaşık beceriyi gerçekleştirmek için az miktarda veri kullanıyor ve çay pişirmekten masayı silmeye kadar her şeyi yapabiliyor.

Patlayıcı model, "evrensel robotik ajanlar" araştırmasını yeniden şekillendiriyor.

Bir süre önce Google DeepMind, yapımı 7 ay süren, matematiksel olarak akıl yürütebilen ve yıldızları tanımlayabilen RT-2 projesini başlattı ve internette popüler oldu.

Google'a ek olarak, Meta ve CMU'dan araştırmacılar tarihteki en güçlü genel amaçlı robot ajanı "RoboAgent"ı oluşturmak için 2 yıl harcadılar.

Aradaki fark, RoboAgent'ın yalnızca 7500 yörünge üzerinde eğitilmiş olmasıdır.

Spesifik olarak, RoboAgent, pişirme, eşya toplama, çay servisi, mutfağı temizleme vb. gibi 38 görevde 12 farklı karmaşık beceri uyguladı.

Hatta yeteneği 100 bilinmeyen senaryoya genelleştirilebilir.

Salona çıkarsanız mutfağa inebilirsiniz denilebilir.

İlginç bir şekilde, ne kadar müdahale ederseniz edin, RoboAgent yine de görevi tamamlamayı başarıyor.

RoboAgent başka ne yapabilir?

Pişirme, çay servisi, masayı temizleme

Her şeyden önce RoboAgent, çekmeceleri sorunsuz bir şekilde açıp kapatabilir.

Yoğurt açıldığında neredeyse devrilse de temelde hareketin bağlantısında herhangi bir gecikme yaşanmadı ve itme ve çekme hareketi sorunsuz bir şekilde tamamlandı.

Çekmecelere ek olarak RoboAgent, mikrodalga fırının kapısını kolayca açıp kapatabilir.

Ama bir insan gibi kolu tutmak yerine, kulpla kapı arasındaki boşluğa sıkıştı ve mikrodalga kapağını kuvvetle açıp kapadı.

Benzer şekilde, RoboAgent, şişelerin ve tenekelerin kapaklarıyla karşı karşıya kaldığında, kapakları doğru bir şekilde tutabilir, açabilir ve kapatabilir - asla dağınık olmaz.

Ancak mutfakta kapalı baharat kavanozlarına ek olarak, şarap ve Laoganma pişirme vb. Gibi vidalarının açılması gereken bazı kavanozlar da vardır.

Neyse ki, çeşitli al ve yerleştir görevleri için, RoboAgent temelde endişelenecek bir şey değildir.

Videoda, RoboAgent çekmeceden bir şeyler alıyor ya da fincanlara çay poşetleri koyuyor, mikrodalgayı açıp kaseleri koyuyor vs. Gösterilen şey, RoboAgent'ın çay yapmak ve yemek ısıtmak gibi görevlerde yer alan eylem serilerini anlayabildiğidir.

Yukarıdaki dokuz eylemi düzenlemek ve birleştirmek temel olarak mutfaktaki bir dizi görevi kapsayabilir.

Örnekler, pişirmeye hazırlanmak, mutfağı temizlemek, çorba servis etmek, çay yapmak, çatal bıçakları saklamak ve daha fazlasını içerir.

Pişirmeye hazırlanırken ilk adım çekmeceyi açmak ve içindeki tereyağını bulmaktır. Bulduğunuzda tereyağını doğrama tahtasına koyun ve son olarak çekmeceyi kapatın.

Görünüşe göre RoboAgent'ın eylem dizisinin mantıksal sırası gerçek hayat sahnesine çok yakın.

Ancak RoboAgent hala insanlar kadar esnek değil.İnsanların bir eliyle tereyağını tutup diğer eliyle çekmeceyi kapatabilen iki eli olduğundan bahsetmiyorum bile. Tek elle bile, bir insan çekmeceyi yana doğru iterken tereyağını tutabilir. Ancak RoboAgent yalnızca önce yağı koyabilir ve ardından çekmeceyi kapatabilir.

O kadar esnek görünmüyor.

Mutfağı temizlerken, RoboAgent ayrıca dört adım atıyor:

Önce çekmeceyi, sonra mikrodalgayı kapatın. Ardından yandan bir havlu çıkarın ve son olarak doğrama tahtasını silin.

Çorbayı servis etmek için RoboAgent önce mikrodalgayı açar, ardından kaseyi mikrodalgadan çıkarır. Sonra kaseyi masaya koyun ve son olarak mikrodalgayı kapatın.

Ancak RoboAgent'ın buradaki performansı o kadar güven verici değil.

Sadece tanıtım videosundaki kasenin boş olduğu söylenebilir.RoboAgent'ın gerçekte gıda dolu kaseyi almasına gerçekten izin verilirse, gıdanın topladığı anda tüm yere dağılacağı tahmin edilmektedir. yukarı

Ancak, RoboAgent çay yapmak için kullanışlıdır:

Önce demliğin kapağını kaldırın, poşet çayı içeriden çıkarın, poşet çayı hassas bir şekilde bardağa bırakın ve son olarak kapağı kaldırıp tekrar demliğin üzerine koyun.

Ama mükemmel çaya bir adım daha yakın: su dökün. Yoksa RoboAgent bizi çay kokulu hava içmeye mi davet ediyor?

Yukarıda bahsedilen RoboAgent'ın performansına bakıldığında, görevlerin çoğu sorunsuz bir şekilde tamamlanabilse de, yine de tek elin olması çok sakıncalıdır.

Umarım Meta ve CMU, RoboAgent'a daha fazla el verebilir, böylece aynı anda birkaç şeyi yapabilir ve verimliliği büyük ölçüde artırabilir.

Bir "evrensel robot ajanı" oluşturmak 2 yıl sürdü

Meta ve CMU araştırmacıları, RoboAgent'ın gerçekten genel amaçlı bir robotik ajan haline gelebileceğini umuyor.

Son 2 yıldır projeyi sürekli ilerletiyorlar. RoboAgent, çok yönlü bir araştırma koleksiyonudur ve aynı zamanda gelecekte daha fazla araştırma yönü için başlangıç noktasıdır.

"Evrensel robot etmenlerinin" geliştirilmesinde, araştırmacılar birçok yeni genelleştirilebilir robot öğrenme projesinden ilham almıştır.

Şu anda, genel bir robot temsilcisine giden yolda, çözülmesi gereken iki ana problem var.

** Biri neden-sonuç ikilemi. **

Farklı ortamlarda rastgele nesneleri manipüle edebilen bir robota sahip olmak, onlarca yıldır uzak ve iddialı bir hedef olmuştur. Bu kısmen, bu tür etmenleri eğitmek için veri setlerinin eksikliğinden, fakat aynı zamanda bu tür verileri üretebilen genel etmenlerin eksikliğinden kaynaklanmaktadır.

İkincisi, kısır döngüden kurtulmaktır. **

Bu kısır döngüden çıkmak için araştırma, etkili bir paradigma geliştirmeye odaklanır.

Gerçekçi bir veri bütçesi ile birden fazla beceri edinebilen ve bunları çeşitli bilinmeyen durumlara genelleyebilen genel bir aracı sağlayabilir.

Kağıt adresi:

Girişe göre RoboAgent, aşağıdaki modüler ve telafi edilebilir öğeler üzerine kurulmuştur:

-RoboPen:

Emtia donanımları ile oluşturulan dağıtık robot altyapısı uzun süre kesintisiz çalışabilmektedir.

- RoboHive:

Simülasyon ve Gerçek Dünya Operasyonlarında Robot Öğrenimi için Birleşik Bir Çerçeve.

- RoboSet: Farklı sahnelerdeki günlük nesnelerin çeşitli becerilerini temsil eden yüksek kaliteli bir veri kümesi.

- MT-ACT:

Dilsel Koşullu Çoklu Görevde Çevrimdışı Taklit Öğrenimi için Verimli Bir Çerçeve. Mevcut robotik deneyimine dayalı olarak çeşitli anlamsal büyütme kümeleri oluşturarak çevrimdışı veri kümelerini çoğaltır ve bir veri bütçesi dahilinde yüksek performanslı ilkeleri kurtarmak için verimli bir eylem gösterimi ile yeni bir ilke mimarisi kullanır.

Eylem bloğu, yeni yapı MT-ACT

Genel işletim politikalarını öğrenmek için, robotların çeşitli beceriler ve çevresel değişiklikler de dahil olmak üzere zengin ve çeşitli deneyimlere maruz kalması gerekir.

Bununla birlikte, bu kadar kapsamlı bir veri kümesini toplamanın operasyonel maliyetleri ve pratik zorlukları, veri kümesinin genel boyutunu sınırlar.

Araştırmacılar, sınırlı bir veri bütçesiyle etkili çok görevli aracıları öğrenebilen bir paradigma geliştirerek bu sınırlamaları ele almayı hedefliyor.

Aşağıdaki şekilde gösterildiği gibi Meta ve CMU ekipleri, Çok Görevli Eylem Parçalama Transformatörü (Çok Görev Eylem Parçalama Transformatörü) olan MT-ACT'yi önerdi.

Bu yöntem 2 aşamadan oluşur:

Aşama 1: Anlamsal İyileştirme

RoboAgent, RoboSet (MT-ACT) veri kümesinin semantik bir büyütmesini oluşturarak mevcut temel modellerden dünya önceliklerini enjekte eder.

Ortaya çıkan veri seti, hiçbir insan/robot maliyeti olmadan robotun deneyimini dünyadaki öncekilerle çoğaltır.

Araştırmacılar daha sonra SAM'ı hedef nesneyi şekil, renk ve doku farklılıklarıyla farklı nesnelere bölmek ve anlamsal olarak geliştirmek için kullandılar.

Aşama 2: Etkin Politika Temsili

Ortaya çıkan veri kümesi, çok çeşitli beceriler, görevler ve senaryolar içeren çok modludur.

Eylem gruplandırmasını çoklu görev ayarlarına uyarlayan araştırmacılar, düşük veri bütçesi ayarlarında aşırı uyumdan kaçınırken yüksek düzeyde çok modlu veri kümelerini alabilen yeni ve verimli bir ilke temsili olan MT-ACT'yi geliştirdiler.

MT-ACT stratejisinin çeşitli bileşenleri aşağıdadır.

RoboSet Veri Kümesi

Çalışmanın amacı, araştırmacıların kendilerini donmuş, önceden toplanmış küçük ama çeşitli bir veri kümesiyle sınırladıkları, veri açısından verimli bir robotik öğrenme paradigması oluşturmaktı.

Davranışsal çeşitliliği yakalamak için araştırmacılar ayrıca farklı mutfak senaryolarında farklı görevlere farklı beceriler uyguladılar.

Bu projede, RoboSet (MT-ACT) veri seti, insan teleoperasyonu tarafından toplanan 7500 yörüngeden oluşmaktadır.

Veri kümesi, birden çok görevi ve senaryoyu kapsayan 12 beceri içerir.

Aşağıdaki şekil, veri setindeki becerilerin dağılımını göstermektedir.

Yaygın olarak kullanılan "al ve yerleştir" becerisi, veri kümesinin %40'ını oluştururken, silme, kapatma gibi zengin temas becerileri ve mafsallı nesneleri içeren beceriler (flip-open, flip-close) da dahildir.

Araştırmacılar, tüm veri setini çeşitli günlük nesneleri içeren 4 farklı mutfak sahnesinde topladı.

Ek olarak ekip, sahnenin her bir örneğini nesnenin farklı varyasyonlarıyla değiştirerek, her yeteneğin birden çok hedef nesneye ve sahne örneğine ulaşmasına izin verdi.

Veri Artırma

Toplanan veri kümeleri, sahne ve nesne çeşitliliği ihtiyacını karşılayamadığından, araştırmacılar, her bir yörüngedeki manipülasyon davranışını korurken çevrimdışı olarak farklı değişen sahneler ekleyerek veri kümesini genişletiyor.

Araştırmacılar, segmentasyon ve iç boyama modellerindeki son gelişmelere dayanarak, sahneleri yapılandırılmış bir şekilde değiştirmek için internet verilerinden gerçek dünyadaki semantik öncelikleri damıtıyorlar.

MT-ACT Mimarisi

MT-ACT'nin ilke mimarisi, çok modlu çok görevli robot veri kümelerini işlemek için yeterli kapasiteye sahip bir Transformer modeli olarak tasarlanmıştır.

Araştırmacılar, çok modlu verileri yakalamak için, eylem dizilerini gizli stil yerleştirmeleri z olarak kodlayan bir CVAE ekleyerek önceki çalışmaları takip eder.

Çoklu görev verilerini modellemek için, göreve özel bir tanımın gömme T'sini öğrenen önceden eğitilmiş bir dil kodlayıcı kullanıyoruz.

Bileşik hata problemini azaltmak için, ilerideki H adımlarındaki eylemler her zaman adımında tahmin edilir ve belirli bir zaman adımında tahmin edilen örtüşen eylemlerin zamansal yumuşatılmasıyla gerçekleştirilir.

Ek olarak, araştırmacılar sahne değişikliklerine karşı sağlamlığı artırmak için MT-ACT stratejisine 4 kamera açısıyla çalışma alanının dört farklı görüntüsünü sağladı.

Ardından, görüntü belirteçlerinin dil talimatlarına güvenilir bir şekilde odaklanabilmesini sağlamak için FiLM tabanlı bir koşullandırma yöntemi kullanılır, böylece bir sahnede birden çok görev olduğunda MT-ACT stratejisi görevleri karıştırmaz.

Kodlanmış belirteçler, sabit konum katıştırma ile Transformer politika kod çözücüsüne girecek ve son olarak bir sonraki eylem bloğunu (H eylemleri) çıkaracaktır.

Yürütme zamanında araştırmacı, geçerli zaman adımında tahmin edilen tüm örtüşen işlemlerin ortalamasını alır (H > 1 olduğunda, eylem blokları çakışır) ve sonuçta ortaya çıkan ortalama eylemi yürütür.

Az miktarda veri, Google RT-1'i yakalayın

MT-ACT stratejisi gerçek dünyada nasıl bir performans sergiliyor?

Araştırmacılar, önerilen çerçevenin örneklem verimliliğini ve farklı senaryolarda aracının genelliğini deneysel olarak değerlendirdi.

Aşağıdaki şekil, MT-ACT stratejisini yaygın olarak kullanılan taklit öğrenme mimarileriyle karşılaştırır.

Araştırmacılar yalnızca L1 genelleştirmesinin sonuçlarını çizdiler çünkü bu, diğer birçok taklit öğrenme algoritması tarafından kullanılan standart ayardır.

Şekilden de görülebileceği gibi, yalnızca bir sonraki adımın davranışını simüle eden tüm yöntemler (alt yörüngeler yerine) düşük performans gösterir.

Bu yöntemler arasında araştırmacılar, eylem kümelemeye (BeT) dayalı yöntemin çoklu görev ortamında çok daha kötü performans gösterdiğini bulmuşlardır.

Ayrıca, büyük miktarda veri gerektiren RT1 gibi yöntemler, çalışmada kullanılan düşük veri rejimi nedeniyle bu ortamda iyi performans göstermez.

Buna karşılık, MT-ACT stratejisi, tüm temel yöntemlerden önemli ölçüde daha iyi performans gösteren alt yörüngeleri modellemek için eylem incelemesini kullanır.

Şekil 7 (sağ alt), çoklu genelleme seviyelerindeki (L1, l2 ve L3) tüm yöntemlerin sonuçlarını gösterir.

Ayrıca araştırmacılar genelleme sonuçlarını her etkinlik için ayrı ayrı raporlamaktadır. Şekil 8'den, her anlam geliştirme yönteminin, her etkinliğin performansını olumlu yönde etkilediğini görebiliriz.

Son olarak, araştırmacılar, eylem temsil bloklarının boyutu, plastisite ve sağlamlık gibi farklı tasarımlar kullanarak mimariyi de incelediler.

Referanslar:

roboset/

ek.html

View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Reward
  • Comment
  • Share
Comment
0/400
No comments
Trade Crypto Anywhere Anytime
qrCode
Scan to download Gate app
Community
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)