CMU Tsinghua MIT, dünyanın ilk Ajan sonsuz akışını patlattı ve robot "007" fazla mesai yapmayı ve kendi kendine öğrenmeyi bırakamaz! Somutlaşmış zeka devrim yaratıyor

Makale kaynağı: Yeni Zhiyuan

Editör: Aeneas'ın uykusu geldi

Son zamanlarda, CMU/MIT/Tsinghua/Umass tarafından önerilen dünyanın ilk üretken robot ajanı olan RoboGen, sonsuz veri üretebilir ve robotların 7/24 kesintisiz eğitim almasına izin verebilir. Robotik için AIGC gerçekten de geleceğin yoludur.

Dünyanın ilk üretken bot ajanı piyasaya sürüldü!

Uzun bir süredir, büyük ölçekli İnternet verileri üzerinde eğitilebilen dil veya görme modelleriyle karşılaştırıldığında, robotları eğitmek için strateji modeli, dinamik fiziksel etkileşim bilgisine sahip veriler gerektirir ve bu verilerin eksikliği her zaman somutlaşmış zekanın gelişimindeki en büyük darboğaz olmuştur.

Son zamanlarda, CMU, Tsinghua Üniversitesi, MIT, UMass ve diğer kurumlardan araştırmacılar yeni bir RoboGen ajanı önerdiler.

Büyük dil modellerinde ve üretken modellerde yer alan büyük ölçekli bilgiler, gerçekçi simüle edilmiş dünyalar tarafından sağlanan fiziksel bilgilerle birleştiğinde, çeşitli görevler, senaryolar ve öğretim verileri "sınırsız" olarak oluşturulabilir ve robot 7/24 tam olarak eğitilebilir.

Şu anda, ağdaki yüksek kaliteli, gerçek dünya tokenleri hızla tükeniyor. Dünya çapında yapay zekayı eğitmek için kullanılan veriler tükeniyor.

Derin öğrenmenin babası Hinton, "Teknoloji şirketleri, önümüzdeki 18 ay içinde GPT-4'ten 100 kat daha fazla bilgi işlem gücüne sahip yeni modeller eğitiyor" dedi. Model parametreleri daha büyük ve bilgi işlem gücü talebi çok büyük, ancak veriler nerede?

Aç modeller karşısında, AI sentezi cevaptır.

Adres:

Proje Ana Sayfası:

Açık Kaynak Adresi:

Özellikle, MIT-IBM'in baş bilim adamı Gan Chuang liderliğindeki bir araştırma ekibi, üretken yapay zeka ve farklılaştırılabilir fizik simülasyonlarının desteğiyle, ajanların sorunları çözmelerine ve robotları kendi başlarına eğitmelerine olanak tanıyan bir "öner-üret-öğren" döngüsü önerdi.

Her şeyden önce, ajan bu beceriyi geliştirmemiz gerektiğini önerdi.

Daha sonra simüle edilmiş bir ortam oluşturmak için uygun ortamı, yapılandırmayı ve beceri öğrenme kılavuzunu oluşturur.

Son olarak, temsilci önerilen üst düzey görevi alt görevlere ayıracak, en iyi öğrenme yöntemini seçecek ve ardından stratejiyi öğrenecek ve önerilen becerilerde ustalaşacaktır.

Tüm sürecin neredeyse hiç insan denetimi gerektirmediğini ve görev sayısının sınırsız olduğunu belirtmekte fayda var!

Bu gişe rekorları kıran çalışma için, NVIDIA'da kıdemli bir bilim adamı olan Jim Fan da iletti.

Şimdi, robot bir dizi patlatma işlemini öğrendi -

Eşyalarınızı bir dolaba koyun:

Bir kase çorbayı mikrodalgada pişirin:

Kahve demlemek için kolu çekin:

Ters taklalar ve daha fazlasının yanı sıra:

Simüle edilmiş ortam, çeşitli beceri öğreniminin anahtarı

Robotik araştırmalarındaki çok yıllık ikilem, robotlara fabrika dışı ortamlarda çalışma ve insanlar için çok çeşitli görevleri yerine getirme becerilerinin nasıl verileceğidir.

Son yıllarda, robotlara sıvı manipülasyonu, nesneleri fırlatma, futbol oynama, parkur ve daha fazlası gibi çeşitli karmaşık beceriler öğrettik, ancak bu beceriler silo halindedir, kısa bir görüş alanına sahiptir ve insan tarafından tasarlanmış görev tanımları ve eğitim denetimi gerektirir.

Gerçek dünya veri toplama maliyetli ve zahmetli olduğundan, bu beceriler uygun alanda rastgele simülasyonlarda eğitilir ve daha sonra gerçek dünyada dağıtılır.

Simüle edilmiş ortamların, gerçek dünyadaki araştırma ve veri toplamaya göre, düşük seviyeli bir duruma ayrıcalıklı erişim ve sınırsız keşif fırsatları sağlama gibi birçok avantajı vardır; Büyük ölçüde paralel hesaplamayı destekler ve veri toplama hızı önemli ölçüde hızlandırılır; Botların kapalı döngü stratejileri ve hata düzeltme yetenekleri geliştirmesine olanak tanır.

Bununla birlikte, simüle edilmiş bir ortam oluşturmak, bir dizi sıkıcı görev gerektirir (görevleri tasarlamak, ilgili ve anlamsal olarak anlamlı varlıkları seçmek, mantıklı senaryo düzenleri ve yapılandırmaları oluşturmak, ödül veya kayıp işlevleri gibi eğitim denetimini formüle etmek). Simüle edilmiş dünyada bile, robot beceri öğreniminin ölçeklenebilirliği büyük ölçüde sınırlıdır.

Bu nedenle araştırmacılar, simüle edilmiş robot becerilerinin öğrenilmesindeki ilerlemeleri temel ve üretken modellerdeki en son gelişmelerle birleştiren bir "üretken simülasyon" paradigması önermektedir.

Son teknoloji ürünü temel modellerin üretim yeteneklerinden yararlanan üretken simülasyonlar, simülasyondaki çeşitli robot becerileri için gereken tüm aşamalar için bilgi üretebilir.

En son temel modellerdeki kapsamlı kodlama bilgisi sayesinde, bu şekilde oluşturulan senaryo ve görev verileri, gerçek dünya senaryolarının dağılımına çok benzer olabilir.

Buna ek olarak, bu modeller, etki alanına özgü ilke öğrenme yöntemleriyle sorunsuz bir şekilde işlenebilen ayrıştırılmış düşük düzeyli alt görevler sağlayabilir ve bu da çeşitli becerilerin ve senaryoların kapalı döngü gösterimleriyle sonuçlanır.

RoboGen Süreci

RoboGen, robotların 7/24 çeşitli becerileri öğrenmesini sağlayan ve 4 aşamadan oluşan tam otomatik bir süreçtir:

  1. Görev önerisi;

  2. Sahne oluşturma;

  3. Denetimli üretim eğitimi;

  4. Üretilen bilgileri beceri öğrenimi için kullanın.

En son temel modellerin yerleşik sağduyu ve üretim yeteneklerinden yararlanan RoboGen, görevlerin, senaryoların ve eğitim denetiminin oluşturulmasını otomatikleştirerek robotlar için geniş ölçekte çok becerili öğrenmeyi mümkün kılabilir.

Görev Önerisi

Bu aşamada, RoboGen üst düzey görevler önerebilir, ilgili ortamı oluşturabilir, üst düzey hedefleri düşük seviyeli alt görevlere ayırabilir ve ardından alt becerileri sırayla öğrenebilir.

İlk olarak, RoboGen robotun öğrenmesi için anlamlı, çeşitli, üst düzey görevler üretir.

Araştırmacı, belirli bir robot tipi ve havuzdan rastgele nesne örnekleri kullanarak sistemi başlatır. Sağlanan robot ve örnek nesne bilgileri daha sonra LLM'ye girilir.

Bu örnekleme süreci, üretim görevlerinin çeşitliliğini sağlar.

Örneğin, dört ayaklı bir robot gibi bacaklı bir robot, çeşitli motor beceriler kazanabilirken, bir robotik kol manipülatörü, eşleştirildiğinde, farklı örnekleme nesneleriyle çeşitli manipülasyon görevlerini gerçekleştirme potansiyeline sahiptir.

Araştırmacılar, mevcut süreçte sorgulama yapmak için GPT-4'ü kullandılar. Bunu, bir makine bağlamında RoboGen'in ayrıntılarının yanı sıra nesnelerin manipülasyonu ile ilgili görevlerin bir açıklaması takip eder.

Başlatma için kullanılan nesneler, fırınlar, mikrodalga fırınlar, su sebilleri, dizüstü bilgisayarlar, bulaşık makineleri vb. gibi ev sahnelerinde yaygın olan eklemli ve eklemsiz nesneler de dahil olmak üzere önceden tanımlanmış bir listeden örneklenir.

GPT-4, büyük internet veri kümeleri üzerinde eğitildiğinden, bu nesnelerin uygunluğu, onlarla nasıl etkileşime girileceği ve hangi anlamlı görevlerle ilişkilendirilebilecekleri konusunda zengin bir anlayışa sahiptir.

Örneğin, örneklenen mafsallı nesne bir mikrodalga fırınsa, burada bağlantı 0 kapıyı bağlayan döner bağlantıdır ve bağlantı 1 zamanlayıcı düğmesini kontrol eden başka bir döner bağlantıdır, GPT-4 bir görev döndürür - "Robot kol mikrodalga fırına bir kase çorba koyar, kapıyı kapatır ve mikrodalga zamanlayıcıyı a süresini ısıtacak şekilde ayarlar".

Oluşturulan görev için gerekli olan diğer nesneler, bir kase çorba a ve bağlantı 0 (mikrodalga kapısını açmak için), bağlantı 1 (zamanlayıcıyı ayarlamak için), bağlantı 0 (kapıya) ve bağlantı 1 (zamanlayıcı düğmesi).

Eklemli nesneler için, PartNetMobility tek yüksek kaliteli eklemli nesne veri kümesi olduğundan ve zaten çok çeşitli eklemli varlıkları kapsadığından, görevler örneklenen varlıklara dayalı olarak oluşturulur.

Farklı örneklenmiş nesneleri ve örnekleri tekrar tekrar sorgulayarak, çeşitli işlemler ve hareket görevleri oluşturulabilir.

Sahne Oluşturma

Bir görev verildiğinde, o görevi tamamlama becerilerini öğrenmek için ilgili simülasyon senaryosunu oluşturmaya devam edebilirsiniz.

Resimde gösterildiği gibi, sahne bileşenleri ve konfigürasyonları görev tanımına göre oluşturulur ve nesne varlıkları alınır veya oluşturulur, bunlar daha sonra simülasyon sahnesiyle doldurulur.

Sahne bileşenleri ve konfigürasyonları şu öğelerden oluşur: sahneye doldurulacak ilgili varlık için bir sorgu, fiziksel parametreleri (boyut gibi), yapılandırma (ilk eklem açısı gibi) ve varlığın genel uzamsal yapılandırması.

Araştırmacılar, önceki adımda oluşturulan görev için gerekli nesne varlıklarına ek olarak, oluşturulan sahnenin karmaşıklığını ve çeşitliliğini artırmak için, gerçek sahnenin nesne dağılımına benzerken, GPT-4'ten görev semantiğiyle ilgili nesneler için ek sorgular döndürmesini de istedi.

Örneğin, "Dolabı aç, oyuncağı içine koy ve kapat" görevi için ortaya çıkan sahne ayrıca bir oturma odası paspası, bir lamba, bir kitap ve bir ofis koltuğu içerecektir.

### Eğitim Denetimli Nesil

İlgili becerileri kazanmak için, beceri öğreniminin denetlenmesi gerekir.

RoboGen, uzun görevleri planlamak ve daha kısa alt görevlere bölmek için önce GPT-4'ü sorgulayacaktır.

Temel bir varsayım, bir görev yeterince kısa alt görevlere bölündüğünde, her bir alt görevin pekiştirmeli öğrenme, hareket planlama, yörünge optimizasyonu vb. gibi mevcut algoritmalar tarafından güvenilir bir şekilde çözülebileceğidir.

Ayrıştırmadan sonra RoboGen, her bir alt görevi çözmek için uygun algoritmayı seçmek için GPT-4'ü sorgular.

RoboGen'e birkaç farklı öğrenme algoritması entegre edilmiştir: pekiştirmeli öğrenme, evrimsel stratejiler, gradyan tabanlı yörünge optimizasyonu ve hareket planlama ile eylem başlatma.

Her biri, hamuru hedef şekle sokmak gibi yumuşak gövdeleri içeren ince taneli manipülasyon görevlerini öğrenmek için daha uygun olan gradyan tabanlı yörünge optimizasyonu gibi farklı görevler için uygundur.

Hareket planlama ile birlikte eylem başlatma, çarpışmasız bir yol üzerinden hedef nesneye yaklaşmak gibi görevleri çözerken daha güvenilirdir.

Pekiştirmeli öğrenme ve evrimsel stratejiler, bacak hareketleri gibi diğer sahne bileşenleriyle sürekli etkileşimi içeren temas açısından zengin görevler için veya istenen eylemin bir fırının düğmesini çevirmek gibi ayrı bir uç efektör pozu ile basitçe parametreleştirilemediği durumlar için daha uygundur.

Özetle, GPT-4, oluşturulan alt görevlere göre çevrimiçi olarak hangi algoritmanın kullanılacağını seçer.

Ardından, robot için bir simülasyon senaryosu oluşturmanın ve becerileri öğrenmelerine izin vermenin zamanı geldi.

Robot kasayı açmayı öğreniyor

Örneğin, RoboGen robottan bir masa lambasının yönünü ayarlamak gibi çok hassas bir görevi öğrenmesini isteyecektir.

İlginç bir şekilde, bu sahnede yerde bilgisayar monitörleri gibi kırılgan nesneler var.

Robotun çevresel tanıma yeteneğinin harika bir testi olduğu söylenebilir.

Bunun için RoboGen, sahne yapılandırması, görev ayrıştırma ve denetim dahil olmak üzere çok ayrıntılı işlem kodu üretir:

Ayrıca, robotun kasanın içindekileri çıkarması gibi tamamlanması için birçok adım gerektiren görevler de eğitilecektir.

Bu, kapının açılması, alınması, indirilmesi, kapatılması ve diğer işlemleri içerir ve bu sırada mobilyalarla çarpışmayı önlemeye çalışmak da gereklidir.

RoboGen tarafından verilen kod aşağıdaki gibidir:

Ya da örneğin, Boston Dynamics'te küçük bir alanda karşılaşılabilecek insansı bir robotun yerinde dönmesi.

Kod şu şekildedir:

Deneysel Sonuçlar

- Görev Çeşitliliği

Tablo 1'de gösterildiği gibi, RoboGen, önceki tüm kıyaslamalara kıyasla en düşük öz BLEU ve gömme benzerliğine ulaşır. Başka bir deyişle, RoboGen oluşturma görevlerinin çeşitliliği, yapay olarak yapılmış beceri öğrenme kıyaslamalarından ve veri kümelerinden daha yüksektir!

- Senaryo Etkinliği

Şekil 4'te gösterildiği gibi, boyut doğrulamasının kaldırılması, Objaverse ve PartNetMobility'deki nesnelerin boyutu ile gerçek dünyadaki gerçek boyut arasındaki büyük tutarsızlık nedeniyle BLIP-2 puanlarında keskin bir düşüşe neden olur. Ek olarak, nesne doğrulaması olmayan BLIP-2 de daha düşük bir puana ve daha büyük bir varyansa sahipti.

Buna karşılık, RoboGen'deki doğrulama adımı, nesne seçiminin etkinliğini önemli ölçüde artırabilir.

- Eğitim Talimatlarının Etkinliği

Şekil 3'te gösterildiği gibi, robot, dört uzun menzilli görevde RoboGen tarafından oluşturulan eğitim rehberliğine (yani görev ayrıştırma ve ödül işlevi) dayalı becerileri öğrenir.

Sonuçlar, robotun ilgili görevleri tamamlama becerilerini başarıyla öğrendiğini göstermektedir. Başka bir deyişle, otomatik olarak oluşturulan eğitim koçları, anlamlı ve faydalı beceriler elde etmede etkilidir.

- Beceri Öğrenme

Tablo 2'deki sonuçlar, öğrenme algoritması seçimine izin vermenin, görevi tamamlama performansını artırmak için faydalı olduğunu göstermektedir. Yalnızca RL kullanırsanız, çoğu görev için beceri öğreniminde başarısız olursunuz.

-Sistem

Şekil 1'de gösterildiği gibi, RoboGen, sert/eklem nesne manipülasyonu, hareket ve yumuşak vücut manipülasyonu dahil olmak üzere beceri öğrenimi için çeşitli görevler oluşturabilir.

Şekil 3 ayrıca RoboGen'in makul bir ayrıştırma tarzında uzun menzilli operasyon becerileri sağlayabildiğini göstermektedir.

Yazar Tanıtımı

Yufei Wang, Carnegie Mellon Üniversitesi Robotik Enstitüsü'nde üçüncü sınıf doktora öğrencisidir ve burada Prof. Zackory Erickson ve Prof. David Held tarafından denetlenmektedir.

Daha önce, Aralık 2020'de Prof. David Held'in gözetiminde CMU'dan bilgisayar bilimleri alanında yüksek lisans derecesini ve Temmuz 2019'da Pekin Üniversitesi Yuanpei Koleji'nden Prof. Bin Dong'un gözetiminde veri bilimi alanında lisans derecesini aldı.

Zhou Xian, Carnegie Mellon Üniversitesi Robotik Enstitüsü'nde Katerina Fragkiadaki'nin gözetiminde doktora öğrencisidir. Araştırma ilgi alanları robotik, bilgisayarla görme ve dünya modeli öğrenimidir.

CMU'ya katılmadan önce, lisans derecesini Singapur'daki Nanyang Teknoloji Üniversitesi'nde Pham Quang Cuong ve I-Ming Chen'in gözetiminde tamamladı. Ayrıca Meta AI, Akshara Rai ve MIT-IBM AI Lab'da Chuang Gan'ın akıl hocalığı altında staj yaptı.

Şu anda araştırması, ölçeklenebilir robot öğrenimi için birleşik bir nöral strateji ve simülasyon altyapısı oluşturmaya odaklanmaktadır.

Buna ek olarak, Tsinghua Yao Ban'dan Chen Feng de var.

Ekip lideri Gan Chuang, şu anda IBM'in baş bilim adamı ve Massachusetts Üniversitesi'nde yardımcı doçent ve Akademisyen Yao Chizhi'nin öğrencisi. Doktorası sırasında Tsinghua Özel Ödülü, Microsoft Scholar ve Baidu Scholar'ı kazandı. Araştırmaları Amazon Araştırma Ödülü, Sony Fakülte Ödülü, Cisco Fakülte Ödülü, Microsoft Accelerate Foundation Modelleri Araştırma Programı ve diğerleri tarafından finanse edilmiştir.

Kaynaklar:

View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Reward
  • Comment
  • Repost
  • Share
Comment
0/400
No comments
Trade Crypto Anywhere Anytime
qrCode
Scan to download Gate app
Community
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)