Google'ın AGI robot büyük hamlesi: 54 kişilik ekip 7 ay geride kaldı, güçlü genelleme ve güçlü muhakeme, DeepMind ve Google Brain'in birleşmesinden sonra yeni sonuçlar
Patlayıcı büyük model, Google'ın DeepMind'ın robot araştırmasını yeniden şekillendiriyor.
En son başarılardan biri, yapımı 7 ay süren ve internette popüler hale gelen robot projesi RT-2'dir:
Ne kadar etkili?
Sadece insan dilinde bir emir verin ve önündeki küçük adam robotik kolunu sallayabilir, düşünebilir ve "ustanın görevini" tamamlayabilir.
Pop şarkıcısı Taylor Swift'e su vermek ya da bir yıldız takımın logosunu belirlemek gibi:
Hatta aktif olarak düşünebilir ve "soyu tükenmiş hayvanları toplamasına" izin verebilir ve aslanların, balinaların ve dinozorların üç plastik oyuncağından dinozorları doğru bir şekilde seçebilir.
Netizenlerin sözleriyle, bu yeteneği hafife almayın Bu, "soyu tükenmiş hayvanlardan" "plastik dinozorlara" mantıklı bir sıçramadır.
Daha da "ürkütücü" olan şey, düşünce zinciriyle birleştirilmesi gereken "çok aşamalı muhakeme problemini** "yorgun bir insan için içecek seçme" sorununu, emir duyulur duyulmaz kolayca çözebilmesidir. , küçük el doğrudan Red Bull'a gidecek, Sadece çok akıllı olma.
Bazı netizenler okuduktan sonra ağıt yaktı:
Sabırsızlıkla, insanlar için bulaşık yıkamaya (manuel dog head) ilerleyin
Google DeepMind başarısının 54 araştırmacı tarafından ortaklaşa üretildiği ve öncesinde ve sonrasında 7 ay sürdüğü ve sonunda gördüğümüz "çok kolay" hale geldiği anlaşılmaktadır.
New York Times'a göre Google DeepMind Robotik Direktörü Vincent Vanhoucke, büyük modellerin departmanlarının araştırma yönünü tamamen değiştirdiğine inanıyor:
Bu (büyük model) değişiklik nedeniyle, tüm araştırma projesini yeniden düşünmek zorunda kaldık.
Daha önce incelediğimiz birçok şey tamamen başarısız oldu.
Peki, RT-2 ne tür etkiler elde edebilir ve bu araştırma tam olarak ne hakkındadır?
Çok modlu büyük modeli robotik kola takın
RT-2 (Robotic Transformer 2) adlı robot projesi, geçen yılın sonunda piyasaya sürülen RT-1'in "evrimsel bir versiyonu".
Diğer robot araştırmalarıyla karşılaştırıldığında, RT-2'nin temel avantajı, yalnızca "insan sözlerini" anlaması değil, aynı zamanda "insan sözcükleri" hakkında akıl yürütmesi ve görevleri aşamalı olarak tamamlamak için bunları robotların anlayabileceği talimatlara dönüştürmesidir. .
Spesifik olarak, üç ana yeteneğe sahiptir - sembol anlama (Sembol anlama), akıl yürütme (Muhakeme) ve insan tanıma (İnsan tanıma).
İlk yetenek, büyük model ön eğitimi bilgisini doğrudan robotun daha önce hiç görmediği verilere genişletebilen "sembolik anlama" dır. Örneğin robot veritabanında "Red Bull" olmamasına rağmen büyük modelin bilgisinden "Red Bull"un görünüşünü anlayıp kavrayabiliyor ve nesneleri işleyebiliyor.
İkinci yetenek, aynı zamanda RT-2'nin temel avantajı olan ve robotun üç ana matematik, görsel akıl yürütme ve çok dilli anlama becerisinde uzmanlaşmasını gerektiren "akıl yürütme"dir.
İkinci Beceri, Görsel Akıl Yürütme, "Çilekleri doğru kaseye koyun" gibi:
3. Beceri, çok dilli anlama, talimatları İngilizce olmadan bile tamamlayabilir, örneğin İspanyolca olarak "bir grup öğeden en belirgin olanı seçmesini" emredebilir:
Üçüncü yetenek, insan davranışını doğru bir şekilde tanıyan ve anlayan insan tanımadır.Başlangıçta görülen "Taylor Swift'e su verme" örneği, yetenek gösterilerinden biridir.
Peki bu üç yetenek nasıl gerçekleşir?
Basitçe ifade etmek gerekirse, görsel-metin çok modlu büyük modelin (VLM) "akıl yürütme", "tanıma" ve "matematik" yeteneklerini robotların çalışma yetenekleriyle birleştirmektir.
Bunu başarmak için araştırmacılar, görsel-metin büyük modeline (VLM) doğrudan "robot eylem modu" adı verilen bir mod ekleyerek onu görsel-metin-eylem büyük modeline (VLA) dönüştürdüler.
Ardından, orijinal çok özel robot eylem verileri bir metin belirtecine dönüştürülür.
Örneğin, dönme derecesi ve yerleştirilecek koordinat noktası gibi veriler "belirli bir konuma koy" metnine dönüştürülür.
Bu sayede robot verileri eğitim için görsel-dil veri setinde de kullanılabilir.Aynı zamanda akıl yürütme sürecinde orijinal metin talimatları robot verisine dönüştürülerek bir dizi işlemin gerçekleştirilmesi sağlanır. robotu kontrol etmek gibi.
Doğru, bu kadar basit ve kaba (manuel köpek kafası)
Bu araştırmada, ekip temel olarak Google'ın 5 milyar ve 55 milyar PaLI-X, 3 milyar PaLI ve 12 dahil olmak üzere bir dizi temel büyük ölçekli modeline dayalı olarak "yükseltildi". milyar PaLM-E.
Araştırmacılar, büyük modelin kendi yeteneğini geliştirmek için son zamanlarda popüler olan düşünme zincirini, vektör veri tabanını ve gradyansız mimarileri kullanarak çok çaba sarf ettiler.
Bu operasyon serisi, RT-2'ye geçen yıl piyasaya sürülen RT-1'e kıyasla birçok yeni avantaj da sağlıyor.
Spesifik deneysel sonuçlara bir göz atalım.
RT-1'in performansının üç katına kadar
RT-2, eğitim için önceki nesil robot modeli RT-1'in verilerini kullanır (yani veriler değişmemiştir, ancak yöntem farklıdır).
Veriler 17 aylık bir sürede ofiste kurulan mutfak ortamında 13 robot kullanılarak toplanmıştır.
Gerçek testte (toplam 6.000 kez), yazar RT-2'ye daha önce görülmemiş birçok nesne verdi ve RT-2'nin görevi tamamlamak için ince ayar verilerinin ötesinde anlamsal anlama gerçekleştirmesini gerektirdi.
Sonuçların hepsi oldukça iyi yapılır:
Harflerin, ulusal bayrakların ve karakterlerin basit bir şekilde tanınması, oyuncak bebeklerden karasal hayvanların tanınması, farklı renkte olanın seçilmesi ve hatta masadan düşmek üzere olan atıştırmalıkların alınması gibi karmaşık komutlar dahil.
Sembol anlama, muhakeme ve insan tanıma olmak üzere üç alt bölüm yeteneği açısından, RT-2'nin iki çeşidi, 3 kata kadar performansla RT-1'den ve başka bir görsel ön eğitim yöntemi VC-1'den çok daha iyidir. .
Daha önce bahsedildiği gibi, iki varyant sırasıyla 12 milyar parametreli PaLM-E ve 55 milyar parametreli PaLI-X üzerinde eğitilmiştir.
Spesifik genelleme yeteneği değerlendirmesi açısından, çoklu temel modellerle çok kategorili alt bölümleme testleri yoluyla, RT-2'nin performansının yaklaşık 2 kat iyileştirildiği bulundu.
(Ne yazık ki, diğer ekiplerin en son LLM tabanlı robotik yöntemleriyle karşılaştırmasını görmedik)
RT-2'nin farklı ayarlarının genelleme sonuçlarını nasıl etkilediğini daha iyi anlamak için yazar iki değerlendirme kategorisi tasarladı:
Birincisi, model boyutu açısından yalnızca RT-2 PaLI-X varyantı, eğitim için 5 milyar parametre ve 55 milyar parametre kullanır;
İkincisi, modeli sıfırdan ince ayara karşı işbirlikçi ince ayara karşı eğitme yöntemini benimseyen eğitim yöntemidir.
Nihai sonuçlar, VLM önceden eğitilmiş ağırlıkların öneminin ve modelin genelleme yeteneğinin model boyutuyla birlikte artma eğiliminde olduğunu göstermektedir.
Ek olarak, yazarlar RT-2'yi açık kaynak dil tablosu kıyaslamasında da değerlendiriyor ve sonuçlar simüle edilmiş kıyaslamada SOTA sonuçlarına ulaştığını gösteriyor (önceden %90'a karşı %77).
Son olarak, RT-2 PaLM-E varyantı, tek bir sinir ağında LLM, VLM ve robot denetleyicisi olarak hareket edebilen bir görüntü-dil-eylem modeli olduğundan, RT-2 ayrıca kontrollü düşünce zinciri muhakemesi gerçekleştirebilir.
Aşağıdaki şekilde gösterilen beş muhakeme görevi arasında (özellikle sonuncusu çok ilginç: çekicin yerini alabilecek bir öğe seçin), komutu aldıktan sonra doğal dil adımlarının çıktısını alacak ve ardından belirli eylem belirtecini verecektir.
Son olarak, özet olarak, bu son RT-2 modeli, makinenin daha önce hiç görmediği farklı sahnelere daha iyi uygulanabilmesinin yanı sıra daha iyi genelleme yeteneğine sahiptir; aynı zamanda, büyük bir modelin nimetiyle, ayrıca muhakeme gibi bazı zor yeni yeteneklerde de ustalaştı.
Bir şey daha
Google'ın büyük modeller üzerinde robotik araştırmalarına odaklanması "temelsiz" görünmüyor.
Sadece son iki gün içinde, Columbia Üniversitesi ile birlikte yazılan "Daha Fazla Robot Çalıştırma Becerisi Edinmeye Yardımcı Olmak İçin Büyük Modelleri Kullanma" konulu bir makale de çok popüler oldu:
Bu makale, robotun yalnızca büyük modele iyi uyum sağlamasına izin vermekle kalmayan, aynı zamanda orijinal robotun temel çalıştırma ve kontrol yeteneklerini de koruyan yeni bir çerçeve önermektedir:
RT-2'den farklı olarak, bu proje açık kaynak olmuştur:
Büyük modelin tüm robot departmanının yükseltilmesinde kullanıldığı doğrudur.
Li Feifei'nin ekibinin kısa bir süre önceki somutlaşmış zeka başarılarını anımsatan, robotları sürmek için büyük modeller kullanmanın bir araştırma trendi haline geldiği ve çok umut verici bir ilerleme dalgası gördüğümüz söylenebilir.
Bu araştırma yönü için beklentileriniz nelerdir?
proje adresi:
Referans bağlantısı:
[1]
[2]
[3]
[4]
View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Google'ın AGI robot büyük hamlesi: 54 kişilik ekip 7 ay geride kaldı, güçlü genelleme ve güçlü muhakeme, DeepMind ve Google Brain'in birleşmesinden sonra yeni sonuçlar
Orijinal kaynak: Qubit
Patlayıcı büyük model, Google'ın DeepMind'ın robot araştırmasını yeniden şekillendiriyor.
En son başarılardan biri, yapımı 7 ay süren ve internette popüler hale gelen robot projesi RT-2'dir:
Sadece insan dilinde bir emir verin ve önündeki küçük adam robotik kolunu sallayabilir, düşünebilir ve "ustanın görevini" tamamlayabilir.
Pop şarkıcısı Taylor Swift'e su vermek ya da bir yıldız takımın logosunu belirlemek gibi:
Netizenlerin sözleriyle, bu yeteneği hafife almayın Bu, "soyu tükenmiş hayvanlardan" "plastik dinozorlara" mantıklı bir sıçramadır.
Daha da "ürkütücü" olan şey, düşünce zinciriyle birleştirilmesi gereken "çok aşamalı muhakeme problemini** "yorgun bir insan için içecek seçme" sorununu, emir duyulur duyulmaz kolayca çözebilmesidir. , küçük el doğrudan Red Bull'a gidecek, Sadece çok akıllı olma.
Bazı netizenler okuduktan sonra ağıt yaktı:
Çok modlu büyük modeli robotik kola takın
RT-2 (Robotic Transformer 2) adlı robot projesi, geçen yılın sonunda piyasaya sürülen RT-1'in "evrimsel bir versiyonu".
Diğer robot araştırmalarıyla karşılaştırıldığında, RT-2'nin temel avantajı, yalnızca "insan sözlerini" anlaması değil, aynı zamanda "insan sözcükleri" hakkında akıl yürütmesi ve görevleri aşamalı olarak tamamlamak için bunları robotların anlayabileceği talimatlara dönüştürmesidir. .
Spesifik olarak, üç ana yeteneğe sahiptir - sembol anlama (Sembol anlama), akıl yürütme (Muhakeme) ve insan tanıma (İnsan tanıma).
İlk yetenek, büyük model ön eğitimi bilgisini doğrudan robotun daha önce hiç görmediği verilere genişletebilen "sembolik anlama" dır. Örneğin robot veritabanında "Red Bull" olmamasına rağmen büyük modelin bilgisinden "Red Bull"un görünüşünü anlayıp kavrayabiliyor ve nesneleri işleyebiliyor.
İkinci yetenek, aynı zamanda RT-2'nin temel avantajı olan ve robotun üç ana matematik, görsel akıl yürütme ve çok dilli anlama becerisinde uzmanlaşmasını gerektiren "akıl yürütme"dir.
Beceri 1, matematiksel mantıksal muhakeme "muzu 2+1'in toplamına koy" komutunu da içeren:
Peki bu üç yetenek nasıl gerçekleşir?
Basitçe ifade etmek gerekirse, görsel-metin çok modlu büyük modelin (VLM) "akıl yürütme", "tanıma" ve "matematik" yeteneklerini robotların çalışma yetenekleriyle birleştirmektir.
Örneğin, dönme derecesi ve yerleştirilecek koordinat noktası gibi veriler "belirli bir konuma koy" metnine dönüştürülür.
Bu sayede robot verileri eğitim için görsel-dil veri setinde de kullanılabilir.Aynı zamanda akıl yürütme sürecinde orijinal metin talimatları robot verisine dönüştürülerek bir dizi işlemin gerçekleştirilmesi sağlanır. robotu kontrol etmek gibi.
Doğru, bu kadar basit ve kaba (manuel köpek kafası)
Bu araştırmada, ekip temel olarak Google'ın 5 milyar ve 55 milyar PaLI-X, 3 milyar PaLI ve 12 dahil olmak üzere bir dizi temel büyük ölçekli modeline dayalı olarak "yükseltildi". milyar PaLM-E.
Araştırmacılar, büyük modelin kendi yeteneğini geliştirmek için son zamanlarda popüler olan düşünme zincirini, vektör veri tabanını ve gradyansız mimarileri kullanarak çok çaba sarf ettiler.
Bu operasyon serisi, RT-2'ye geçen yıl piyasaya sürülen RT-1'e kıyasla birçok yeni avantaj da sağlıyor.
Spesifik deneysel sonuçlara bir göz atalım.
RT-1'in performansının üç katına kadar
RT-2, eğitim için önceki nesil robot modeli RT-1'in verilerini kullanır (yani veriler değişmemiştir, ancak yöntem farklıdır).
Veriler 17 aylık bir sürede ofiste kurulan mutfak ortamında 13 robot kullanılarak toplanmıştır.
Gerçek testte (toplam 6.000 kez), yazar RT-2'ye daha önce görülmemiş birçok nesne verdi ve RT-2'nin görevi tamamlamak için ince ayar verilerinin ötesinde anlamsal anlama gerçekleştirmesini gerektirdi.
Sonuçların hepsi oldukça iyi yapılır:
Harflerin, ulusal bayrakların ve karakterlerin basit bir şekilde tanınması, oyuncak bebeklerden karasal hayvanların tanınması, farklı renkte olanın seçilmesi ve hatta masadan düşmek üzere olan atıştırmalıkların alınması gibi karmaşık komutlar dahil.
Daha önce bahsedildiği gibi, iki varyant sırasıyla 12 milyar parametreli PaLM-E ve 55 milyar parametreli PaLI-X üzerinde eğitilmiştir.
RT-2'nin farklı ayarlarının genelleme sonuçlarını nasıl etkilediğini daha iyi anlamak için yazar iki değerlendirme kategorisi tasarladı:
Birincisi, model boyutu açısından yalnızca RT-2 PaLI-X varyantı, eğitim için 5 milyar parametre ve 55 milyar parametre kullanır;
İkincisi, modeli sıfırdan ince ayara karşı işbirlikçi ince ayara karşı eğitme yöntemini benimseyen eğitim yöntemidir.
Nihai sonuçlar, VLM önceden eğitilmiş ağırlıkların öneminin ve modelin genelleme yeteneğinin model boyutuyla birlikte artma eğiliminde olduğunu göstermektedir.
Son olarak, RT-2 PaLM-E varyantı, tek bir sinir ağında LLM, VLM ve robot denetleyicisi olarak hareket edebilen bir görüntü-dil-eylem modeli olduğundan, RT-2 ayrıca kontrollü düşünce zinciri muhakemesi gerçekleştirebilir.
Aşağıdaki şekilde gösterilen beş muhakeme görevi arasında (özellikle sonuncusu çok ilginç: çekicin yerini alabilecek bir öğe seçin), komutu aldıktan sonra doğal dil adımlarının çıktısını alacak ve ardından belirli eylem belirtecini verecektir.
Bir şey daha
Google'ın büyük modeller üzerinde robotik araştırmalarına odaklanması "temelsiz" görünmüyor.
Sadece son iki gün içinde, Columbia Üniversitesi ile birlikte yazılan "Daha Fazla Robot Çalıştırma Becerisi Edinmeye Yardımcı Olmak İçin Büyük Modelleri Kullanma" konulu bir makale de çok popüler oldu:
Li Feifei'nin ekibinin kısa bir süre önceki somutlaşmış zeka başarılarını anımsatan, robotları sürmek için büyük modeller kullanmanın bir araştırma trendi haline geldiği ve çok umut verici bir ilerleme dalgası gördüğümüz söylenebilir.
Bu araştırma yönü için beklentileriniz nelerdir?
proje adresi:
Referans bağlantısı:
[1]
[2]
[3]
[4]