Orangutanlar "Minecraft" oynamayı öğreniyor, yöntem aslında GPT-4 akıllı vücut ile aynı mı?

Question

Orijinal kaynak: Xinzhiyuan![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-817f1b7fd1-dd1a6f-1c6801) Görsel kaynağı: Unbounded AI‌ tarafından oluşturulduBu oyuncunun ustaca "Minecraft" oynadığını ve atıştırmalıkları toplayabildiğini ve kolaylıkla blokları kırabildiğini unutmayın.Kamera döner dönmez oyuncunun gerçek kimliğinin bir orangutan olduğunu keşfettik!Evet, bu Ape Initiative'in insan dışı bir biyolojik sinir ağı deneyi.Deneyin kahramanı Kanzi, 42 yaşında bir bonobo.Eğitimden sonra çeşitli beceriler öğrendi, köyler, çöl tapınakları ve alt diyardaki portallar gibi zorlu ortamlara meydan okudu ve sonuna kadar gelenekleri temizledi.Yapay zeka uzmanları, orangutan eğitmenlerine beceri öğrenmeyi öğretme sürecinin, insanların yapay zekaya Minecraft oynamayı öğretme sürecine benzer olduğunu keşfetti; bağlamsal pekiştirmeli öğrenme, RLHF, taklit öğrenme, ders öğrenme vb.## **Orangutanlar Minecraft oynamayı öğrendiğinde**Ape Initiative'den bir bonobo olan Kanzi, dünyanın en zeki orangutanlarından biri, İngilizce biliyor ve dokunmatik ekran kullanıyor.Ape Initiative'de Kanzi, "Minecraft" ile hızlı bir şekilde çalışmaya başlamasının temelini atmış olabilecek çeşitli elektronik dokunmatik ekranlara erişebilir.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-3b1cd0d717-dd1a6f-1c6801) İnsanlar Kanzi Minecraft'ı ilk kez gösterdiğinde, ekranın önüne oturur oturmaz yeşil bir ok buldu ve ardından parmağını hedefe doğru kaydırdı.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-b8adf23fc2-dd1a6f-1c6801) ### **Üç Beceri Öğrenin**Birkaç saniye içinde Kanzi, Minecraft'ta nasıl hareket edeceğini anladı.Daha sonra ödül toplamayı da öğrendi.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-adf467c768-dd1a6f-1c6801) Her ödül toplandığında, fıstık, üzüm ve elma gibi atıştırmalıklarla ödüllendirilecektir.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-174f8cc831-dd1a6f-1c6801) Kanzi'nin operasyonu giderek daha yetenekli hale geliyor.Hedef okla aynı yeşil silindir olan engelleri tanır ve ödülleri toplarken bunlardan kaçınır.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-d15213ebd5-dd1a6f-1c6801) Elbette Kanzi de zorluklarla karşılaşacaktır. Daha önce hiç görmediği kırma aletiyle büyük blokları kırmayı gerektiriyordu.Kanzi'nin sıkıştığını gören insanlar, istenen araç düğmelerine işaret ederek yardım etmeye başladı. Ancak Kanzi okuduktan sonra hala anlayamamıştı.İnsanlar tahta blokları aletlerle kırarak bunu kendileri yapmak zorundaydı. Kanzi izledikten sonra düşünceli oldu.Bekleyen herkesin gözünde o da aynısını yaptı.Düğmeye bastıktan sonra tahta bloğu parçaladı. İnsanlar bir anda tezahüratlara boğuldu.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-f6b5082eab-dd1a6f-1c6801) Şimdi, Kanzi'nin beceri ağacında iki şey var: atıştırmalıkları toplamak ve blokları kırmak.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-d060b9e587-dd1a6f-1c6801) Personel, mağara becerilerini öğrenirken, Kanzi'nin kırmaya çalıştığı tahta bloktan kayıp düşerse, Kanzi'nin öylece uzaklaşacağını keşfetti. Bu nedenle, insanlar bunun için özel olarak bir görevi özelleştirdiler——Koleksiyonunu ve parçalama becerilerini kanıtlamak için elmas duvarlarla dolu bir mağarada tahta blokları parçalayın.Mağarada her şey yolundaydı, ancak Kanzi'nin bir sorunu vardı: köşeye sıkıştı. Bu zamanda, yardım eli uzatmak için insanlara ihtiyaç vardır.Sonunda Kanzi, son duvarı kırarak mağaranın dibine ulaştı.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-d1d3d35671-dd1a6f-1c6801) Kalabalıktan tezahüratlar yükseldi ve Kanzi personele beşlik çaktı.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-abdf6e6a54-dd1a6f-1c6801) ### **Hile Yapılmış İnsanlar**Sonra ilginç bir şey geldi: personel bir insan oyuncuyu Kanzi ile oyunu oynamaya davet etti, tabii ki o Kanzi'nin kimliğini bilmiyordu.Personel, oyuncunun kendisiyle oyunu oynayan kişinin bir insan olmadığını fark etmesinin ne kadar sürdüğünü görmek niyetindedir.İlk başta bu küçük kardeş, rakibin hareket hızının inanılmaz derecede yavaş olduğunu hissetti.Gözlerinin önüne Kanzi'nin resmi gelince küçük kardeş korktu ve irkildi.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-f301cf8384-dd1a6f-1c6801)## **Labirentten çık**"Minecraft" oynadıktan sonra Kanzi giderek daha cesur hale geldi.Kanzi ne zaman bir ödül toplasa, insanlar onun davranışını tezahürat şeklinde onaylayacak ve başarısız olursa, eğitmen de onu alkış ve tezahüratla oyuna devam etmesi için teşvik edecek.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-cba51defa7-dd1a6f-1c6801) Şu anda, yeraltı labirentinin haritasının kilidini açmayı öğrendi:![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-36bde9ea64-dd1a6f-1c6801) Önünüzdeki engelleri yıkın:![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-5c85364070-dd1a6f-1c6801) Ametisti bulun:![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-0cf19e0192-dd1a6f-1c6801) Kanzi sıkıştığında yürüyüşe çıkar ve yanına bir sopa koyar.Ne yazık ki başarısız olsa bile, Kanzi kendini yenilemek için düğmeye basacaktır.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-5fbb28924d-dd1a6f-1c6801) Son seviye, çatallarla dolu büyük bir labirenttir.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-f612834435-dd1a6f-1c6801) Labirentten çıkmakta geciktiği için Kanzi endişelendi ve dalla birlikte bağırmaya başladı ya da öfkeyle dalı kırdı.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-1a083c00e0-dd1a6f-1c6801) Sonunda sakinleşti ve seviyeyi kırmaya devam etti ve labirentten çıktı.Hemen alkışlar ve tezahüratlar Kanzi'yi çevreledi.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-1b46b0b748-dd1a6f-1c6801) Görünüşe göre "Benim Dünyam" bir bonobo olan Kanzi tarafından oynandı.**Orangutanlara öğretmekle yapay zekayı öğretmek arasındaki benzerlikler**Bir bonobonun ustalıkla bir video oyunu oynamasını izlemek biraz garip ve tekinsiz gelebilir.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-6aafab8128-dd1a6f-1c6801) Nvidia Kıdemli Bilim Adamı Jim Fan bu konuda yorum yaptı -Kanzi ve ataları Minecraft'ı hayatlarında hiç görmemiş olsalar da, elektronik ekranlarda görüntülenen Minecraft'ın dokularına ve fiziğine hızla uyum sağladı.Bu da maruz kaldıkları ve yaşadıkları doğal ortamdan çok farklıdır. Bu genelleme düzeyi, bugüne kadarki en güçlü görme modellerini çok aşıyor.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-6ee39c6559-dd1a6f-1c6801) Hayvanları Minecraft oynamaları için eğitme teknikleri, esasen yapay zekayı eğitme ilkeleriyle aynıdır:**- Bağlama Dayalı Takviyeli Öğrenme:**Kanzi, oyunda belirgin bir dönüm noktasına ulaştığında, bir meyve veya fıstık alır ve bu da onu oyundaki kurallara uyması için motive eder.**- RLHF:**Kanzi, insan dilinden anlamaz, ancak eğitmenlerinin onu desteklediğini görebilir ve ara sıra yanıt verebilir. Eğitim ekibinden gelen alkışlar, Kanzi'ye doğru yolda olduğuna dair güçlü bir işaret verdi.**- Taklit ederek öğrenme:**Eğitmen, Kanzi'ye görevi nasıl tamamlayacağını gösterdikten sonra ilgili işlemin anlamını hemen kavradı. Sunumun etkisi, yalnızca ödülleri kullanma stratejisinin çok ötesine geçer.**- Müfredat öğrenimi:**Eğitmen ve Kanzi çok basit bir ortamla başlar ve yavaş yavaş Kanzi'ye kontrol becerilerini öğretir. Son olarak, Kanzi karmaşık mağaralar, labirentler ve ağlar arasında seyahat edebiliyor.Bununla da kalmıyor, benzer eğitim teknikleriyle bile hayvanın görsel sistemi çok kısa bir süre içinde yeni bir ortamı tanıyıp uyum sağlayabiliyorken, yapay zeka görüş modeli daha fazla zaman ve eğitim maliyeti gerektirecek ve genellikle elde edilmesi zor İdeal etki.Bir kez daha Moravec'in paradoksunun uçurumuna düşüyoruz:Yapay zeka, insan yeteneklerine ters davranır. Düşünmeme veya içgüdüsel olarak düşündüğümüz düşük seviyeli zeka faaliyetlerinde (algı ve motor kontrol gibi) yapay zeka korkunçtur. Ancak muhakeme ve soyutlama gerektiren (mantıksal muhakeme ve dil anlama gibi) ileri düzey zeki faaliyetlerde yapay zeka, insanı kolaylıkla geçebilmektedir.Bu, tam olarak bu deneyde sunulan sonuçlara karşılık gelir:En iyi yapay zekamız (GPT-4) dili anlamada insan düzeyine yakın, ancak algılama ve tanımada hayvanların çok gerisinde.**Netizen: Görünüşe göre orangutanlar oyun oynarken sinirleniyor**###Hem Kanzi hem de LLM'ler Minecraft oynayabilir, ancak Kanzi'nin öğrenme şekli ile LLM'ler arasında farkında olmamız gereken göz ardı edilemez bir fark vardır.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-3faa1a4b33-dd1a6f-1c6801) Kanzi'nin mükemmel öğrenme yeteneğiyle karşılaşan netizenler numara yapmaya başladı.Bazı insanlar 6 yıl sonra dünyanın maymunlar gezegeni için bir savaş olacağını tahmin ediyor...![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-3b013ba983-dd1a6f-1c6801) Ya da bir orangutan kola içer ve insan toplumuyla bütünleşir...![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-3202fced5e-dd1a6f-1c6801) Boss Ma bile vurularak Musk'ın "maymun versiyonuna" dönüştürüldü.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-2480e7eb17-dd1a6f-1c6801) Ayrıca Kanzi'nin bir oyuncunun öfkesine sahip ilk insan olmayan kişi olduğu ve bundan memnun olduğu söyleniyor.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-715705d4a7-dd1a6f-1c6801) "Kanzi'nin kendi oyun kanalı olsaydı, dürüstçe izlerdim."![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-e2175d6681-dd1a6f-1c6801) "Oyun oynamak söz konusu olduğunda insanlarla bonobolar arasında pek bir fark yok. Hepimiz belirli görevleri yerine getirmek ve hedefleri tamamlamak için ödüllerle motive oluyoruz, tek fark ödüllerin gerçek içeriği.""Minecraft'ta, Kanzi'nin elmas madenciliği ödülleri daha acil ve ham (yiyecek), oysa bizim elmas madenciliği ödüllerimiz daha gecikmeli ve oyunla ilgili. Her neyse, biraz çılgınca."![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-869b21f3c0-dd1a6f-1c6801) Önce GPT "Minecraft" oynamayı öğrendi ve şimdi bonobolar da oynayabiliyor, bu da insanların Neuralink'i kullanmanın geleceğini dört gözle beklemelerine neden oluyor.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-dfb0403770-dd1a6f-1c6801) **Jim Fan, yapay zeka ajanlarına Minecraft oynamayı öğretiyor**İnsanlar, AI'ya Minecraft oynamayı öğretme konusunda zaten çok fazla ileri düzey deneyim biriktirdiler.Bu yılın Mayıs ayı gibi erken bir tarihte Jim Fan ekibi, Nvidia'nın yapay zeka aracısını GPT-4'e bağladı ve yepyeni bir yapay zeka aracısı Voyager'ı yarattı.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-ef88be9204-dd1a6f-1c6801) Voyager yalnızca performansta AutoGPT'den daha iyi performans göstermekle kalmaz, aynı zamanda oyundaki tüm sahnede ömür boyu öğrenmeyi gerçekleştirebilir!İnsan müdahalesi olmadan "Minecraft" a hükmetmek için bağımsız olarak kod yazabilir.Voyager'ın ortaya çıkmasından sonra genel yapay zeka AGI'ye bir adım daha yaklaştığımız söylenebilir.**Gerçek Dijital Yaşam**GPT-4'e eriştikten sonra, Voyager'ın insanlar için hiç endişelenmesine gerek yok ve tamamen kendi kendini yetiştiriyor.Sadece kazma, ev inşa etme, toplama ve avlanma gibi temel hayatta kalma becerilerinde ustalaşmakla kalmadı, aynı zamanda kendi kendine açık keşif yapmayı da öğrendi.Kendi başına hareket ederek, farklı seviyelerde zırhlarla donatılmış, Şanghay'ı engellemek için kalkanlar ve hayvanları barındırmak için çitler kullanarak eşyalarını ve ekipmanını sürekli genişletiyor.Büyük dil modellerinin ortaya çıkışı, cisimleştirilmiş etmenlerin inşasına yeni olanaklar getirmiştir. Çünkü LLM tabanlı ajan, tutarlı bir eylem planı veya yürütülebilir strateji oluşturmak için önceden eğitilmiş modelde yer alan dünya bilgisini kullanabilir.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-9cf172f309-dd1a6f-1c6801) Jim Fan: Bu fikre BabyAGI/AutoGPT'den önce sahiptik ve en iyi gradyansız mimariyi bulmak için çok zaman harcadıkAjanda GPT-4'ün tanıtılması, ajanın ömür boyu öğrenememe kusurundan kurtulmasına olanak tanıyan yeni bir paradigma (gradyan inişinden ziyade kod yürütme yoluyla "eğitim") açar.OpenAI bilim adamı Karpathy de bunu övdü: Bu, gelişmiş beceriler için "gradyansız bir mimari". Burada LLM, prefrontal kortekse eşdeğerdir ve alt düzey mayın avcısı API'si kod yoluyla oluşturulur.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-f16c34102d-dd1a6f-1c6801) **3 temel bileşen**Voyager'ı etkili bir yaşam boyu öğrenme ajanı yapmak için Nvidia, Caltech ve diğer kurumlardan ekipler 3 temel bileşen önerdi:**1. Programı iyileştirmek için oyun geri bildirimini, yürütme hatalarını ve kendi kendini doğrulamayı birleştiren yinelemeli bir bilgi istemi mekanizması****2. Karmaşık davranışları depolamak ve almak için bir beceri kodu tabanı****3. Aracının keşfini en üst düzeye çıkaran otomatikleştirilmiş bir eğitim**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-acd05c2cfc-dd1a6f-1c6801) İlk olarak Voyager, belirli bir hedefe ulaşmak için bir program yazmak üzere popüler bir Minecraft Java API'sini (Mineflayer) kullanmaya çalışacak.Oyun ortamı geri bildirimi ve Java uygulama hataları (varsa), GPT-4'ün programı geliştirmesine yardımcı olacaktır.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-680a7324c1-dd1a6f-1c6801)> Sol: Çevresel geri bildirim. GPT-4, çubuğu yapmadan önce 2 tahtaya daha ihtiyacı olduğunu fark eder.> Sağ: Yürütme hatası. GPT-4, Minecraft'ta "Acacia" baltası olmadığı için "Acacia" baltası değil tahta balta yapması gerektiğini fark etti.Aracının mevcut durumunu ve görevini sağlayarak, GPT-4 programa görevi tamamlayıp tamamlamadığını bildirir.Ayrıca, görev başarısız olursa, GPT-4 ayrıca eleştiri sunacak ve görevin nasıl tamamlanacağını önerecektir.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-ce8a34628a-dd1a6f-1c6801) kendini doğrulamaİkincisi, Voyager, başarılı prosedürleri bir vektör veri tabanında depolayarak kademeli olarak bir beceri bankası oluşturur. Her program kendi docstring'ini gömerek alınabilir.Karmaşık beceriler, basit beceriler birleştirilerek sentezlenir, bu da Voyager'ın yeteneklerinin zaman içinde hızla gelişmesine ve yıkıcı amneziyi hafifletmesine olanak tanır.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-e021d2bee3-dd1a6f-1c6801)> Yukarı: Beceri ekleyin. Her beceri, gelecekte benzer durumlarda alınabilen, açıklamasının bir gömülmesiyle dizine eklenir.> Alt: Becerileri alın. Otomatik müfredat tarafından önerilen yeni bir görevle karşılaşıldığında, bir sorgulama yapılır ve ilgili ilk 5 beceri belirlenir.Üçüncüsü, otomatik bir müfredat aracının mevcut beceri düzeyine ve dünya durumuna dayalı olarak uygun keşif görevleri önerir.Örneğin kendini orman yerine çölde bulursa demir yerine kum ve kaktüs toplamayı öğren. Dersler, "mümkün olduğu kadar çeşitli keşfetme" hedefine dayalı olarak GPT-4 tarafından oluşturulur.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-f55d31b096-dd1a6f-1c6801) otomatik kursHayat boyu öğrenebilen ilk LLM odaklı somut zeka olarak, Voyager'ın eğitim süreci ile orangutan eğitim süreci arasındaki benzerlikler bize çok ilham verebilir.Referanslar: