Yapay zeka ne ürettiğini anlayabilir mi? GPT-4 ve Midjourney üzerinde yapılan deneylerden sonra birisi davayı çözdü

Question

Makale kaynağı: Makinenin Kalbiedit: büyük tabak tavuk, yumurta sosu> "Anlama" olmadan "yaratma" olamaz.![](https://appserversrc.8btc.cn/886188AC950B2D808EFEBF7B16AE4F27/1699088713/Frj5XEx_RLitHEYwOR5CssjlqHEX.png) *Görüntü kaynağı: Sınırsız Yapay Zeka tarafından oluşturulmuştur*ChatGPT'den GPT4'e, DALL・E 2/3'ten Midjourney'e kadar, üretken yapay zeka benzeri görülmemiş bir küresel ilgi gördü. Yapay zekanın potansiyeli çok büyük, ancak büyük zeka da korku ve endişeye neden olabilir. Son zamanlarda, bu konuda şiddetli bir tartışma yaşandı. İlk olarak, Turing kazananları "itişti" ve ardından Andrew Ng katıldı.Dil ve görme alanında, günümüzün üretken modelleri birkaç saniye içinde çıkarılabilir ve yılların beceri ve bilgisine sahip uzmanlara bile meydan okuyabilir. Bu, modellerin insan zekasını aştığı iddiası için zorlayıcı bir motivasyon sağlıyor gibi görünüyor. Bununla birlikte, modelin çıktısında genellikle temel anlama hataları olduğuna dikkat etmek de önemlidir.Bu şekilde, bir paradoks ortaya çıkıyor gibi görünüyor: Bu modellerin görünüşte insanüstü yeteneklerini, çoğu insanın düzeltebileceği temel hatalarla nasıl uzlaştırabiliriz?Son zamanlarda, Washington Üniversitesi ve Allen Yapay Zeka Enstitüsü, bu paradoksu incelemek için ortaklaşa bir makale yayınladı.![](https://appserversrc.8btc.cn/FpX4d1rJntUgGSw_gBBuHxgGsGPX) Adres:Bu makale, bu olgunun, günümüzün üretken modellerindeki yetenek konfigürasyonunun insan zekası konfigürasyonundan sapması nedeniyle ortaya çıktığını savunmaktadır. Bu makale, üretken yapay zekanın paradoksal hipotezini önermekte ve test etmektedir: üretken modeller, bu kaliteli çıktıyı üretme yeteneğini anlama yeteneğini atlayan bir süreç olan uzman benzeri sonuçları doğrudan çıkarmak için eğitilmiştir. Bununla birlikte, insanlar için bu çok farklıdır ve temel anlayış genellikle uzman düzeyinde çıktı yetenekleri için bir ön koşuldur.Bu makalede, araştırmacılar bu hipotezi kontrollü deneylerle test ediyor ve üretken modelin metin ve görüntü üretme ve anlama yeteneğini analiz ediyor. Bu yazıda öncelikle üretici modellerin kavramsallaştırılmasının "anlaşılmasından" iki açıdan bahsedeceğiz:* 1) Bir üretim görevi verildiğinde, modelin aynı görevin diskriminant versiyonunda doğru yanıtı ne ölçüde seçebildiği;* 2) Doğru oluşturulmuş bir yanıt verildiğinde, modelin içeriği ve bu yanıtla ilgili soruları ne ölçüde yanıtlayabileceği. Bu, seçici ve sorgulayıcı olmak üzere iki deney düzeneği ile sonuçlanır.Araştırmacılar, seçici değerlendirmede, modelin genellikle üretim görevi ortamında insanlardan daha iyi veya daha iyi performans gösterdiğini, ancak ayrımcı (anlama) ortamında, modelin insanlardan daha az performans gösterdiğini buldular. Daha ileri analizler, GPT-4 ile karşılaştırıldığında, insan ayırt etme yeteneğinin üretken yetenekle daha yakından ilişkili olduğunu ve insan ayırt etme yeteneğinin çekişmeli girdilere karşı daha sağlam olduğunu ve görev zorluğunun artmasıyla model ile insan ayırt etme yeteneği arasındaki boşluğun arttığını göstermektedir.Benzer şekilde, sorgulayıcı değerlendirmelerde, modeller farklı görevlerde yüksek kaliteli çıktılar üretebilirken, araştırmacılar modellerin bu çıktılarla ilgili soruları yanıtlarken sıklıkla hata yaptığını ve modelin kavrayışının yine insanlarınkinden daha düşük olduğunu gözlemlemişlerdir. Bu makalede, model eğitim hedefleri, girdilerin boyutu ve doğası dahil olmak üzere kapasite yapılandırması açısından üretken modeller ve insanlar arasındaki farklılığın bir dizi olası nedeni tartışılmaktadır.Bu araştırmanın önemi, her şeyden önce, insan deneyiminden elde edilen mevcut zeka kavramlarının YZ'ye genellenemeyebileceği anlamına gelir ve YZ'nin yetenekleri birçok yönden insan zekasını taklit ediyor veya aşıyor gibi görünse de, yetenekleri temelde insanlardan beklenen kalıplardan farklı olabilir. Öte yandan, bu makalenin bulguları, insan zekası ve bilişi hakkında fikir edinmek için üretken modelleri incelerken dikkatli olunmasını önermektedir, çünkü görünüşte uzman düzeyinde insan benzeri çıktılar insan olmayan mekanizmaları gizleyebilir. Sonuç olarak, üretken yapay zeka paradoksu, insanları modelleri paralel bir antitez olarak değil, insan zekasının ilginç bir antitezi olarak incelemeye teşvik ediyor."Üretken yapay zeka paradoksu, yapay zeka modellerinin kendilerinin tam olarak anlayamayacağı içerikler oluşturabileceğine dair ilginç bir fikri vurguluyor. Bu, yapay zekanın anlayışının ve güçlü üretken yeteneklerinin sınırlamalarının ardındaki potansiyel sorunları gündeme getiriyor." Netizenler dedi.![](https://appserversrc.8btc.cn/Fm7pO0ct1pT3ENFgSqZgauWjdNNw)   ## **Üretken Yapay Zeka Paradoksu Nedir**  Üretken yapay zeka paradoksuna ve bunu test etmek için deneysel tasarıma bakarak başlayalım.![](https://appserversrc.8btc.cn/FmhVyTSB8JioRLI95KhTkAXJMf5A) *Şekil 1: Dil ve vizyondaki üretken yapay zeka, yüksek kaliteli sonuçlar üretebilir. Bununla birlikte, paradoksal olarak, model bu kalıpların seçici (A, C) veya sorgulayıcı (B, D) bir anlayışını göstermekte güçlük çekmektedir. *Üretken modeller, genellikle edinilmesi daha zor olan insan zekasının aksine, üretken yetenekler edinmede kavramadan daha etkili görünmektedir.Bu hipotezi test etmek için, paradoksun çeşitli yönlerinin operasyonel bir tanımı gereklidir. Birincisi, belirli bir model ve görev t için, temel olarak insan zekası ile, yeteneği anlamaktan "daha etkili" olmanın ne anlama geldiği. Araştırmacılar, üretim ve anlama için bazı performans göstergeleri olarak g ve u'yu kullanarak, üretken AI paradoksu hipotezini şu şekilde resmileştirdiler:![](https://appserversrc.8btc.cn/Fvp6z1bdmtv-GHGupI571K0D8fiw) Basitçe söylemek gerekirse, bir t görevi için, eğer insan üretici performansı g modelle aynıysa, o zaman insan anlama performansı modelden önemli ölçüde daha yüksek olacaktır (makul bir ε altında > ε). Başka bir deyişle, model, araştırmacıların benzer şekilde güçlü üretken yeteneklere sahip insanlardan beklediğinden daha kötü bir performans sergiledi.Üretimin operasyonel tanımı basittir: bir görev girdisi (soru/istem) verildiğinde, üretim tamamen bu girdiyi karşılamak için gözlemlenebilir içerik oluşturmakla ilgilidir. Sonuç olarak, performans g (örneğin, stil, doğruluk, tercih) otomatik olarak veya insanlar tarafından değerlendirilebilir. Anlama, birkaç gözlemlenebilir çıktı ile tanımlanmasa da, etkileri açıkça tanımlanarak test edilebilir:1. Seçici değerlendirme. Model, bir yanıt üretebilecek belirli bir görev için aynı görevin ayrımcı bir versiyonunda sağlanan aday kümesinden ne ölçüde doğru bir yanıt seçebilir? Yaygın bir örnek, dil modellerinde insan anlayışını ve doğal dil anlayışını test etmenin en yaygın yollarından biri olan çoktan seçmeli yanıtlardır. (Şekil 1, sütun A, C)2. Soruya dayalı değerlendirme. Model, belirli bir üretilen model çıktısının içeriği ve uygunluğu hakkındaki soruları ne ölçüde doğru bir şekilde yanıtlayabilir? Bu, eğitimde sözlü sınava benzer. (Şekil 1, sütun B, D).Bu anlayış tanımları, "üretken yapay zeka paradoksunu" değerlendirmek için bir plan sağlar ve araştırmacıların Hipotez 1'in farklı kalıplar, görevler ve modeller arasında geçerli olup olmadığını test etmelerine olanak tanır.  ## Modeller oluşturulabildiğinde ayrımcılık yapılabilir mi? **  İlk olarak, araştırmacılar, modelin dil ve görsel modlarda üretme ve anlama yeteneğini değerlendirmek için seçici değerlendirmede üretken görevin ve ayrımcı görevin varyantlarının yan yana performans analizini gerçekleştirdiler. Bu kuşağı ve ayrımcılık performansını insanlarla karşılaştırdılar.Aşağıdaki Şekil 2, GPT-3.5, GPT-4 ve insanların üretim ve ayrımcılık performansını karşılaştırmaktadır. 13 veri kümesinin 10'unda, alt hipotez 1'i destekleyen en az bir model olduğunu, üretim açısından insanlardan daha iyi ancak insanlardan daha az ayrımcı modellere sahip olduğunu görebilirsiniz. 13 veri kümesinden 7 veri kümesi, her iki model için de alt hipotez 1'i desteklemektedir.![](https://appserversrc.8btc.cn/Fo1PsqIi-GHyNYkr3Ydj6dU_r0lC) İnsanlardan görsel modeller gibi ayrıntılı görüntüler üretmesini beklemek gerçekçi değildir ve ortalama bir insan Midjourney gibi modellerin stilistik kalitesiyle eşleşemez, bu nedenle insanların daha düşük üretken performansa sahip olduğu varsayılır. Sadece modelin üretme ve ayırt etme doğruluğu, insanların ayırt etme doğruluğu ile karşılaştırılır. Dil alanına benzer şekilde, Şekil 3, CLIP ve OpenCLIP'in de diskriminant performansı açısından insanlardan daha az doğru olduğunu göstermektedir. İnsanların daha az üretme yeteneğine sahip olduğu varsayılmaktadır, bu da alt hipotez 1 ile tutarlıdır: Vision AI, üretim açısından insan ortalamasının üzerindedir, ancak anlayış açısından insanların gerisinde kalmaktadır.![](https://appserversrc.8btc.cn/Ftpy7pu3_t4-mbeDfTq8jLXRWZxD) Şekil 4 (solda), GPT-4'ü insanlarla karşılaştırmalı olarak göstermektedir. Buna bakıldığında, cevaplar uzun ve zorlu olduğunda, örneğin uzun bir belgeyi özetlemek gibi, modelin ayrımcı görevde en fazla hatayı yapma eğiliminde olduğu görülebilir. **İnsanlar, aksine, değişen zorluk derecelerindeki görevlerde sürekli olarak yüksek bir doğruluk oranını koruyabilirler.Şekil 4 (sağda), OpenCLIP'in farklı zorluk seviyelerinde insanlara kıyasla diskriminant performansını göstermektedir. Birlikte ele alındığında, bu sonuçlar, insanların zorlu veya düşmanca örnekler karşısında bile doğru cevabı ayırt etme yeteneğini vurgulamaktadır, ancak bu yetenek dil modellerinde o kadar güçlü değildir. Bu tutarsızlık, bu modellerin gerçekten ne kadar iyi anlaşıldığına dair soruları gündeme getiriyor.![](https://appserversrc.8btc.cn/Fn6ptJJYnqmdCsVa0AYaIhpfgwBF) Şekil 5, dikkate değer bir eğilimi göstermektedir: değerlendiriciler, insan tarafından oluşturulan yanıtlar yerine GPT-4 yanıtlarını tercih etme eğilimindedir.![](https://appserversrc.8btc.cn/FqryMtoaUeoLZvTHEKUHdcMX4szq)   ## Model ürettiği sonuçları anlıyor mu? **  Önceki bölüm, modellerin genellikle doğru cevaplar üretmede iyi olduğunu, ancak ayrımcılık görevinde insanların gerisinde kaldığını gösterdi. Şimdi, soruya dayalı değerlendirmelerde, araştırmacılar, modelin üretilen içeriğin anlamlı bir şekilde anlaşıldığını ne ölçüde gösterebileceğini araştırmak için modele doğrudan üretilen içerik hakkında sorular soruyorlar - ki bu insanların gücüdür.![](https://appserversrc.8btc.cn/Fho2w3W3iisqzkVZsOD330WpurNL) Şekil 6 (solda) dil modalitesinin sonuçlarını göstermektedir. Model nesilde üstün olsa da, nesliyle ilgili soruları yanıtlarken genellikle hata yapar ve bu da modelin anlamada hata yaptığını gösterir. Bir insanın bu tür bir metni aynı hızda veya ölçekte üretemeyeceğini varsayarsak, soru modelin kendisinin çıktısıyla ilgili olsa da, insan kalite güvencesinin doğruluğu modele kıyasla sürekli olarak yüksek olmuştur. Alt hipotez 2'de açıklandığı gibi, araştırmacılar insanların kendi oluşturdukları metinlerde daha yüksek doğruluk elde etmelerini bekliyorlar. Aynı zamanda, bu çalışmadaki insanların uzman olmadığı ve modelin çıktısı kadar karmaşık bir metin üretmenin büyük bir zorluk olabileceği belirtilebilir.Sonuç olarak, araştırmacılar, modelin bir insan uzmanıyla karşılaştırılması durumunda, insan uzmanın bu tür soruları mükemmele yakın bir doğrulukla yanıtlaması muhtemel olduğundan, ürettikleri içeriği anlamadaki performans boşluğunun genişleyeceğini umuyorlar.Şekil 6 (sağda) görsel modda bir sorunun sonuçlarını göstermektedir. Gördüğünüz gibi, görüntü anlama modelleri, oluşturulan görüntülerdeki öğelerle ilgili basit soruları yanıtlarken doğruluk açısından hala insanlarla karşılaştırılamaz. Aynı zamanda, görüntü oluşturma SOTA modelleri, görüntü üretme kalitesi ve hızı açısından çoğu sıradan insanı geride bırakıyor (sıradan insanların benzer gerçekçi görüntüler üretmesinin zor olması bekleniyor), bu da görsel yapay zekanın üretim (daha güçlü) ve anlayış (daha zayıf) açısından insanların nispeten çok gerisinde olduğunu gösteriyor. Şaşırtıcı bir şekilde, basit modeller ve insanlar arasında, büyüleyici bir görsel anlayışa sahip olan ancak yine de oluşturulan görüntülerle ilgili basit soruları yanıtlamakta zorlanan gelişmiş çok modlu LLM'lere (yani Bard ve BingChat) kıyasla daha küçük bir performans farkı vardır.