Google'ın RT-2'si, robotlar için GPT-3 anı mı?

Question

29 Temmuz'da, New York Times'tan bir muhabir, Google Lab'da Google'ın en yeni RT-2 model güdümlü robotunu görme konusunda başı çekti.

Tek kollu bir robot bir masanın önünde duruyor. Masanın üzerinde üç plastik figür oturuyor: bir aslan, bir balina ve bir dinozor. Mühendis robota şu komutu verdi: "Soyu tükenmiş hayvanları topla." Robot bir an vızıldadı, sonra kollarını uzattı, pençelerini açtı ve yere düştü. Dinozoru yakaladı.

Bu bir zeka parıltısı.

New York Times, "Geçen haftaya kadar bu gösteri imkansızdı. Robotlar daha önce hiç görmedikleri nesneleri güvenilir bir şekilde manipüle edemezler ve kesinlikle "sönmüş hayvanlardan" "plastik dinozorlara" geçme hedefine ulaşamazlar. "

**Henüz demo aşamasındayken ve Google daha büyük bir sürüm çıkarmayı veya hemen ticarileştirmeyi planlamasa da, demo, büyük modellerin robotlara getirebileceği fırsatlara küçük bir göz atmak için yeterliydi. **

Büyük modeller çağının gelmesinden önce, insanlar, robotun bu oyuncağı her açıdan ve çeşitli açılardan doğru bir şekilde tanımlayabilmesi için yeterli miktarda veri gerektiren belirli bir oyuncağı kavramak gibi genellikle her görev için optimize edilmiş robotları eğitti. ışıklar ve oyuncağı kavrayın. başarı. Robotun oyuncağı kapma görevi olduğunu fark etmesi için, robotun bunu çözecek şekilde programlanması gerekir.

Büyük modelin zekası ve genelleme yetenekleri, insanların bu sorunları çözmenin ve evrensel robotlara doğru ilerlemenin şafağını görmelerini sağlar.

Transformer'ı robota uygulayın

Google'ın Robotic Transformer 2 adlı yeni RT-2 modeli, modelinin temeli olarak Transformer mimarisini kullanıyor.

2018'de önerilen Transformer mimarisi, şu anda tüm dünyada popüler olan büyük dil modelinin (LLM) alt tabanıdır, ancak aslında bir mimari olarak Transformer, yalnızca büyük dil modellerinde değil, Tren'de de kullanılabilir. diğer veri türlerinde. Bu yılın Mart ayı gibi erken bir tarihte Google, o zamanlar dünyanın en büyük görsel dil modeli (VLM) olan PaLM-E'yi piyasaya sürdü.

Büyük dil modelinde, dil bir vektör olarak kodlanır ve insanlar model için büyük miktarda korpus sağlar, böylece model, bir dil yanıtı oluşturmak için insanların genellikle bir sonraki cümlede ne söylediğini tahmin edebilir.

Görsel dil modelinde model, görüntü bilgisini dil benzeri bir vektöre kodlayarak modelin metni "anlamasına" ve görüntüleri aynı şekilde "anlamasına" olanak tanır. Araştırmacılar, görsel dil modeline büyük miktarda derlem ve görüntü sağlayarak, görsel soru yanıtlama, görsellere altyazı ekleme ve nesne tanıma gibi görevleri gerçekleştirmesini sağladı.

Hem görüntüler hem de dil, büyük miktarda veri elde etmek için nispeten kolaydır. Bu nedenle, modelin harika sonuçlar elde etmesi kolaydır.

Ancak, robot davranışı oluşturmak için Transformer mimarisini kullanmanın büyük bir zorluğu vardır. Tsinghua Üniversitesi Disiplinlerarası Bilgi Enstitüsü'nde yardımcı doçent olan Profesör Xu Huazhe, Geek Park'a "Robot hareketleriyle ilgili veriler çok pahalı." hareket verilerinin tümü, botlar için Etkin verilerden gelir.

**Örneğin, kahve koyan bir robotun eylemini incelemek istiyorum. Robotun yürütmesi için kod yazması veya robotun yürütmesi için başka yöntemler kullanması fark etmez, robotun bu işlemi bir kez gerçekleştirmesi gerekir. bu verileri almak için. ** Bu nedenle, robotun verilerinin ölçeği ve büyüklüğü ile dili ve resimleri tamamen farklıdır. "

**Google tarafından araştırılan ilk nesil robot Transformer modeli RT-1'de Google, görsel dil eylem modeli oluşturmaya çalışırken ilk kez böyle bir meydan okuma açtı. **

Google, böyle bir model oluşturmak için 13 robot kullandı ve inşa edilmiş bir mutfak ortamında 700'den fazla görevde robotların aktif verilerinden oluşan bir veri seti toplamak için 17 ay harcadı.

Veri kümesi aynı anda üç boyutu kaydeder:

Görme - robot görevleri yerine getirirken kamera verileri;
Dil - doğal dilde açıklanan görev metni;
ve robot hareketi - robot eli bir görevi gerçekleştirdiğinde xyz ekseni ve sapma verileri vb.

O dönemde iyi deneysel sonuçlar elde edilmiş olsa da veri setindeki veri miktarını daha fazla artırmanın çok zor olacağı düşünülebilir.

Görüntü kaynağı: Google AI tanıtım videosu

**RT-2'nin yeniliği, RT-2'nin yukarıda bahsedilen görsel dil modeli (VLM) PaLM-E'yi ve başka bir görsel dil modeli PaLI-X'i temel olarak kullanmasıdır - saf bir görsel dil modeli iletilebilir Ağ düzeyindeki veriler eğitilir, çünkü veri miktarı yeterince büyüktür ve yeterince iyi sonuçlar elde edilebilir.İnce ayar aşamasında, robotun hareket verileri buna eklenir ve birlikte ince ayar yapılır (co-finetuning). **

Bu şekilde, robot, ilk önce devasa veriler üzerinde öğrenilen bir sağduyu sistemine sahip olmakla eşdeğerdir - henüz muzu kavrayamasa da, muzu zaten tanıyabilir ve hatta muzun bir tür meyve olduğunu bile bilir. yemek için.

İnce ayar aşamasında, robotun muzu gerçek dünyada gördükten sonra nasıl kavradığı bilgisi de eklenerek, robot muzu çeşitli ışık ve açılar altında tanımanın yanı sıra muzu kavrama yeteneğine de sahip olur. yetenek.

Bu sayede robotu Transformer mimarisi ile eğitmek için gereken veriler önemli ölçüde azaltılır.

RT-2, ince ayar aşamasında RT-1'in eğitim aşamasında kullanılan görüş/dil/robot eylemi veri setini doğrudan kullanır. Google tarafından verilen veriler, eğitim verilerinde orijinal olarak görünen öğeleri kaparken RT-2'nin RT-1 kadar iyi performans gösterdiğini gösteriyor. Ve "sağduyulu beyin" sayesinde, daha önce görülmemiş öğeleri kaparken, başarı oranı RT-1'in %32'sinden %62'ye yükseldi.

"Bu, büyük modelin güzelliği." Xu Huazhe, "İki nesnenin malzeme bakımından benzer olduğunu fark ettiği için veya boyut olarak benzer oldukları için veya başka nedenlerle parçalarına ayıramazsınız. Başarı kavrama oranı arttı.Yeterince öğrendikten sonra bazı yetenekler ortaya çıkacak.”

Robotlarla doğal dil kullanarak etkileşim kurmanın geleceği

Akademik olarak, RT-2 tarafından sergilenen güçlü genelleme, yetersiz robot eğitim verileri sorununu çözebilir. **Buna ek olarak, RT-2'nin sezgisel şoku yine de akıllı tarafından geliyor. **

Araştırmacıların "çekiç olarak kullanılabilecek bir şeyi" alabilmesini istediği deneylerde, robot bir nesne yığınından bir kaya aldı ve yorgun bir Red Bull'a sunulan bir içeceği alması istendiğinde. öğe yığınında seçilir.

Bu beceri, araştırmacının büyük modelleri eğitirken bir "düşünce zinciri" oluşturma becerisinden gelir. Bu tür çok parçalı semantik muhakeme, geleneksel robot taklidi öğrenme araştırmalarında elde edilmesi çok zordur.

Ancak robotlarla etkileşime geçmek için doğal dili kullanmak, RT-2'nin orijinal bir fikri değil.

Geçmişteki robotik araştırmalarında, araştırmacıların her zaman görev gereksinimlerini robotların anlaması için kodlara dönüştürmesi gerekiyordu. Aynı zamanda, bir sorun oluştuğunda, robotların davranışını düzeltmek için de kodlar yazmaları gerekiyordu. Tüm süreç birden fazla etkileşim gerektiriyordu ve verimsizdi. . **Artık zaten çok akıllı bir diyalog robotumuz olduğuna göre, bir sonraki doğal adım, robotun insanlarla doğal dilde etkileşime girmesine izin vermek. **

Google araştırma uzmanı Karol Hausman, "Yaklaşık iki yıl önce bu dil modelleri üzerinde çalışmaya başladık ve daha sonra içlerinde zengin bir bilgi birikimi olduğunu fark ettik, bu yüzden onları robotlara bağlamaya başladık" diyor.

Ancak, büyük bir modeli robotun zihni olarak kullanmanın da kendine has zorlukları vardır. En önemli sorunlardan biri, temellendirme sorunudur, yani, genellikle nispeten sınırsız olan büyük modelin yanıtının, robotun eylemlerini yönlendiren talimatlara nasıl dönüştürüleceğidir.

** 2022'de Google, Say-can modelini piyasaya sürdü. **Modeller, adından da anlaşılacağı gibi, robotun hareket etmesine yardımcı olmak için iki yönlü hususlar kullanır. Model, doğal dil ve insan etkileşimi yoluyla elde edilen görevleri ayrıştırabilen ve mevcut eylem için en uygun olanı bulabilen Google'ın büyük dil modeli PaLM modeli ile birleştirilmiştir; başka bir husus, can'dır. Mevcut robotun bu görevi başarıyla gerçekleştirme olasılığını bulun. Robot bu iki hususa göre hareket eder.

Örneğin robota "Sütüm döküldü yardımcı olur musunuz?" deyin robot önce dil modeli üzerinden işini planlayacaktır. kendi başına silmek için sünger. Daha sonra robot, bir robot olarak başarılı bir şekilde bir temizleyici bulma olasılığının çok düşük ve kendi kendine silmek için bir sünger bulma olasılığının yüksek olduğunu bir algoritma aracılığıyla hesaplayacaktır. İki kez düşündükten sonra, robot sütü silmek için bir sünger arama eylemini seçecektir.

Görüntü kaynağı: Saycan tanıtım videosu

Böyle iki katmanlı bir model mimarisinde, robotun başarılı bir şekilde yapabileceği eylemler önceden tasarlanmış olsa da, büyük dil modeli robotun yalnızca uygun bir görev planı seçmesine yardımcı olabilir. Böyle bir modelde, robot zaten güçlü bir zeka duygusu sergilemiştir.

**Ancak, etki dışarıdan benzer görünse de, RT-2 farklı bir yol izler. Eğitim sırasında, model aynı anda üç tür görme, dil ve robot davranışı verisini öğrenir.RT-2 modeli önce görev ayrıştırmasını gerçekleştirmez ve ardından görev işlemlerini gerçekleştirir, ancak doğal dil girdisinden sonra modelin çalışması yoluyla doğrudan eylemler üretir. **

"İki katmanlı yapı benim yapmak istediğim şeye benziyor. Önce bunu yapmak için ilk adımı, bunu yapmak için ikinci adımı düşünürüm ve sonra bu stratejileri birer birer uygularım." Profesör Xu Huazhe, "Ve uçtan uca yapı benzer, bu yüzden ilk adımı ve ikinci adımı gerçekten düşünmedim, o yüzden yaptım. .Genellikle yazarken ve sohbet ederken bunu ciddiye almayız.Kasların nasıl hareket etmesi gerektiğini düşünün, ancak yazılacak kelimeleri düşünün ve bunları doğrudan yazın.

Xu Huazhe, "İki farklı rota veya farklı yöntem henüz tek doğru yol olduğunu kanıtlamadı." dedi. Bununla birlikte, RT-2'nin mükemmel performansı nedeniyle, girdi ve çıktının teknik yönünü devralabilen bir model keşfedilmeye değer görünüyor.

Google'ın DeepMind robotik direktörü Vincent Vanhoucke, "Bu değişiklik nedeniyle (RT-2'nin mükemmel performansı), tüm araştırma planımızı yeniden düşünmek zorunda kaldık" dedi. "Daha önce yaptığım birçok şey tamamen işe yaramaz."

RT-2, robotlar için GPT3 anı mı?

Google'ın RT-2 robotu mükemmel değil. Bir New York Times muhabirinin tanık olduğu gerçek bir gösteride, bir kutu limonlu gazozun ("portakal" diyerek) tadını yanlış tanımladı. Başka bir sefer, masada hangi meyvenin olduğu sorulduğunda robot "beyaz" yanıtını verdi (aslında bir muzdu). Bir Google sözcüsü, botun Wi-Fi kısa bir süreliğine kesintiye uğradığı için önceki test kullanıcılarından gelen soruları yanıtlamak için önbelleğe alınmış yanıtları kullandığını açıkladı.

**Ayrıca, robotları eğitmek için büyük modeller kullanmak, kaçınılmaz olarak maliyet sorunlarıyla karşı karşıya kalacaktır. **Şu anda, Google'ın robotları muhakeme ve muhakeme yaparken, verileri buluta iletmeleri gerekiyor ve birden çok TPU birlikte hesap yapacak ve ardından sonuçları robota geri gönderecek ve robot işlemi gerçekleştirecek. Bu tür hesaplamaların çok pahalı olduğu düşünülebilir.

Google'ın DeepMind robotik direktörü Vincent Vanhoucke, yeni araştırmanın robotların insan ortamlarında kullanılmasına kapı açtığına inanıyor -- araştırmacılar, yerleşik dil modellerine sahip robotların depolara girebileceğine inanıyor, Tıp endüstrisinde ve hatta çamaşırları katlamaya, bulaşık makinesinden bulaşıkları çıkarmaya ve evin etrafını toplamaya yardımcı olan bir ev asistanı.

"Eğer bir fabrika açarsanız ve robot kullanmanız gerekiyorsa, başarı oranı çok yüksek olmalıdır. Bir robot satın aldıktan sonra, robotun bakımını yapmak ve robotun yaptığı şeyleri geliştirmek için çok sayıda insana ihtiyacınız olduğunu söylemek istemezsiniz." robot iyi çalışmıyor. O zaman bu Maliyet çok yüksek." Profesör Xu Huazhe, "Ev sahnesindeki robotlar başka bir durum olabilir, çünkü ev sahnesindeki bazı görevler için başarı oranı gereksinimleri o kadar yüksek olmayabilir. Örneğin, kıyafetleri katlamak, katlamak o kadar iyi değil, belki sizin gözünüzde bu görev başarısız oldu ama sizin üzerinizde çok büyük bir etkisi olmayacaktır.”

Yapay zekanın üç devinden biri olan Yang Likun'un (Yaan Lecun) birçok kez üzerinde durulan ünlü bir iddiası vardır: yapay zeka yeterince akıllı değildir. Herhangi bir çocuk masayı toplamayı ve bulaşıkları bulaşık makinesine koymayı çabucak öğrenebilir, ancak bir robot bunu yapamaz.

Bu, mevcut robot araştırmaları için doğru olabilir, ancak kusurlu GPT-3'ün endüstriye büyük ölçekli model geliştirme yönünü göstermesi gibi, belki de bugünün kusurlu RT-2'si de robotların evlere girdiği ve evlere girdiği bir gelecek çağın kapılarını aralayacaktır. asistanlarımız olun.

View Original

Google'ın RT-2'si, robotlar için GPT-3 anı mı?

Transformer'ı robota uygulayın

Robotlarla doğal dil kullanarak etkileşim kurmanın geleceği

**RT-2, robotlar için GPT3 anı mı? **

RT-2, robotlar için GPT3 anı mı?