Resim kaynağı: Unbounded AI aracı tarafından oluşturulmuştur
Bu yılın Mart ayında OpenAI, ChatGPT'nin arkasındaki GPT-3.5'ten daha güçlü muhakeme, hesaplama ve mantık yetenekleri getiren ve aynı zamanda evrensel kullanımda bir artışı tetikleyen GPT-4 büyük modelini piyasaya sürdü. Araştırmacıların, geliştiricilerin ve tasarımcıların çeşitli alanlarda kullanılması sürecinde, "GPT-4 en önde gelen büyük modeldir" kabul edilen bir sonuç haline gelmiş görünüyor.
Ancak, 7 Ağustos'ta Massachusetts Institute of Technology'den mezun olan ve şu anda Dyania Health'in CTO'su olan Konstantine Arkoudas, yakın zamanda "GPT-4 Can't Reason" (GPT-4 Can't Reason) başlıklı bir ön baskı yazdı ( Henüz hakemli bilimsel dergilerde yayınlanmamış bilimsel literatürdeki Taslak makalelere atıfta bulunulması, sektörde bir kargaşaya neden oldu.
Rapor, GPT-4'ün GPT 3.5'e kıyasla genel anlamda önemli gelişmelere sahip olduğunu belirtmektedir. Ancak, etkileyici iyileştirmeler elde etmesine rağmen, GPT-4'ün çıkarım yetenekleri konusunda oldukça şüpheci olmak için iyi nedenler var. Bu makale, muhakemenin doğasını tartışıyor, NLP topluluğundaki muhakeme problemlerinin mevcut formülasyonunu ve LLM muhakeme performansını değerlendirmenin mevcut yolunu eleştiriyor ve GPT-4'e dayalı 21 farklı muhakeme probleminden oluşan bir koleksiyonu paylaşıyor.
Nihai sonuç: **Ara sıra analitik parlaklığın parlamasına rağmen, GPT-4 şu anda tamamen muhakeme yeteneğinden yoksundur. **
Kağıt adresi:
Bir kelime binlerce dalgayı harekete geçirdi.GPT-4'ün sadece birkaç dakika önce bir oyun kodu oluşturması mantıklı değil mi?
**Çıkarım nedir? **
Aslında, bu yılın Ocak ayının başında, makalenin yazarı Konstantine Arkoudas, Medium platformunda ChatGPT'nin gayri resmi bir değerlendirmesini paylaştı.Değerlendirme, geleneksel NLU, halk fiziği, bilgi alma, zihin kuramı, uzamsal akıl yürütme, basit mantıksal akıl yürütme ve matematik.
adres:
O dönemde varılan ana sonuçlar şunlardı: ChatGPT çığır açan bir atılımdır; LLM tabanlı sistemler sadece "rastgele papağanlar" değildir, aynı zamanda gerçek soyutlamalar oluşturur ve yaratıcılık gösterebilir; Bu tür sistemler, yukarıda belirtilenlere rağmen pek çok Heyecan verici yeni uygulama getirecektir. Başarılar, bu sistemler çıkarım yeteneklerinde ciddi şekilde sınırlı kalır.
Ona göre, GPT-4'ün yükseltilmiş versiyonu bugün hala aynı ve hatta hiçbir muhakeme yeteneği bile yok.
Gazetede Konstantine Arkoudas, "LLM'nin muhakeme yeteneğine sahip olup olmadığı" konusundaki endüstri tartışmasının uzun süredir devam ettiğine dikkat çekti.
Bir yandan LLM destek grubudur. Büyük modellerin iyi muhakeme yeteneğine ilişkin tahminleri genellikle değişen "yasalara" dayanır ve Konstantine Arkoudas, bu sözde "yasaların" aslında dayanıksız ampirik kanıtlar, çok sayıda sorgulanabilir modelleme varsayımı, Muğlak kavramları anlama (LLM) olduğunu öne sürer. özellikler) ve hatta büyük bir külliyatta bir sonraki belirteç tahmini için çapraz entropi kaybını en aza indirmenin genel amaçlı bir çıkarım motoru sağladığına dair biraz dogmatik inanç.
Öte yandan, LLM şüphecileri var. Kesin argümanlara sahip olma eğilimindedirler, ancak bu argümanlar çoğunlukla geçmiş deneyime ve analize dayanır ve biraz belirsizdir (örneğin, LLM'de dünyanın nasıl çalıştığına dair dahili bir model olan bir "dünya modeli" yoktur).
Bu iki düşünceye dayanarak, Konstantine Arkoudas, güvenilir sağlam LLM çıkarımlarının akla yatkınlığı için en ikna edici önsel (geçmiş deneyim ve analiz) değerlendirmelerin hesaplama karmaşıklığının sonuçları olduğunu savunuyor. Çıkarım hesaplama açısından çok zor bir problemdir. Aslında, genel durumda (birinci dereceden veya daha yüksek dereceden mantık) algoritmik olarak karar verilemez.
Konstantine Arkoudas'a göre, "Ne kadar büyük, ne kadar geniş ve zeki olursa olsun herhangi bir LLM, keyfi çıkarım problemlerini çözemez. Bu, model genelliğini belirten makine öğrenimindeki ünlü "bedava öğle yemeği yok" teoremi ile tutarlıdır. Benzer bir ters ilişki performans ve performans arasında".
Bu nedenle, "GPT-4'ün muhakeme yeteneğine sahip olup olmadığını" doğrulamak için yapılacak ilk şey, muhakeme yani muhakeme nedir kavramı ile muhakeme kabiliyetini belirlemek için kullanılan spesifik yöntemi birleştirmektir.
Akıl yürütmenin tanımıyla ilgili olarak Konstantine Arkoudas, "akıl yürütme, doğru yanıtı vicdansız yollarla almak değil, doğru yanıtı doğru nedenle almaktır" dedi.
Daha doğrusu akıl yürütme, bir argüman oluşturma ve daha da önemlisi onu kanıtlama sürecidir. Bir argüman, bir sonuçtan (deyim yerindeyse argümanın sonucu) ve sonucun türetildiği bir dizi öncülden oluşur. Önermeler, yalnızca geçici olarak da olsa, bir tartışmanın amaçları doğrultusunda verilmiş kabul edilen bilgileri temsil eder. Sonuçlar ve öncüller genellikle, doğru ya da yanlış olabilen, ancak diyagramlar gibi diğer simgelerle de temsil edilebilen, doğal dilin ya da sembolik mantığın sembolleriyle ifade edilen bildirim cümleleridir. S'deki tüm cümleler doğruysa, o zaman p doğrudur, bu durumda argümanın geçerli olduğu söylenir.
Metodolojiye gelince, Konstantine Arkoudas'ın makalede benimsediği değerlendirme, bir külliyat veya bir külliyat setine dayanmamaktadır. Bunun yerine, GPT-4'ün geniş bir alanda 21 basit muhakeme problemindeki performansının ayrıntılı bir nitel analizini sunar; bunların çoğu sıfırdan yazılırken geri kalanı (Wason'un seçim görevi gibi) manuel olarak ayarlanmıştır. Modelin bunları tanımlamasının zorluğu da veri kirliliğinden kaçınmaktır.
GPT-4 mantığını test sorularıyla doğrulayın
Buna dayanarak Konstantine Arkoudas, GPT-4 hakkında çok boyutlu sorular sordu ve çıktısına göre ayrıntılı bir analiz yaptı.
GPT-4'ün özelliklerinden dolayı bazen aynı "" kullanılmasının bile farklı çalıştırmalarda farklı yanıtlar alabileceğini belirtmekte fayda var.
Ardından doğrulama başlar (aşağıdaki tüm test süreleri, 5 Temmuz 2023'teki test sonuçlarına dayanmaktadır).
Basit Aritmetik
Konstantine Arkoudas, temel aritmetik işlemleri gerçekleştirme yeteneğinin, özellikle bilimsel ve mühendislik uygulamalarında genel akıl yürütmenin gerekli bir parçası olduğunu söylüyor. GPT-4'ün onu ezbere ezberlemediğinden emin olmak için, GPT-4'ün seçtiği aralıkta rastgele iki tamsayı seçmesine izin vermeyi ve ardından seçilen değerler üzerinde işlemler gerçekleştirmesini önerir.
KA şunları verir:
1381 ile 1453 arasında rastgele iki sayı seçin, bunları birbiriyle çarpın ve sonucu bildirin.
GPT-4'ün yanıtı:
Tabii ki, 1381 ile 1453 arasında rastgele iki sayı seçelim. Diyelim ki sayılar 1405 ve 1421.
Çarpımı elde etmek için şu iki sayıyı çarparız: 1405*1421 = 1996025
Ama aslında doğru cevap 1405*1421=1996505'tir.
GPT-4'ün hala toplama ve çarpma gibi temel aritmetik işlemleri güvenilir bir şekilde gerçekleştiremediği ortaya çıktı.
Konstantine Arkoudas, belki de LLM savunucularının bu noktada GPT-4'ün tam Turing çerçevesi olmadığını ve genel amaçlı hesaplamalar gerçekleştiremeyeceğini kabul edebileceğini söyledi: toplayamaz, çarpamaz veya bölemez, listeleri sıralayamaz veya matrisleri ters çeviremez veya diferansiyel denklemleri çözemez, keyfi programları makine koduna derleyemez, teoremler türetemez, vb.
Ancak, bu bilgi işlem gücü eksikliği, ReAct, MRKL çerçevesi gibi üçüncü taraf eklentilerle telafi edilebilir. LangChain ve AutoGPT gibi sistemlerin ortaya çıkmasına neden olan bu çalışma şeklidir. Buradaki fikir, LLM'yi, karmaşık bir sorunu, uygun API'ler aracılığıyla özel aracılara gönderilen bir dizi alt soruna yinelemeli olarak ayrıştırmak için bir planlayıcı olarak kullanmaktır.
Ancak Konstantine Arkoudas'a göre bu yaklaşımın sorunu döngüsel doğasıdır. Planlamanın kendisi akıl yürütmeyi gerektirir, bu nedenle, sorunu uygun bir temsilciye devrederek muhakeme sorununu çözemeyeceğimiz bir "ikilemdir", çünkü nasıl yetki verileceğini bulmak (sorunun nasıl ayrıştırılacağı, hangi aracıların aranacağı, nasıl aranacağı) ve nasıl ayrışma sonucu) kendi başına hesaplama açısından mümkün değildir. Bu, yalnızca doğal dili anlama becerisini değil, aynı zamanda önkoşullar ve etkiler hakkında akıl yürütme becerisini de gerektirir. Bu aşırı derecede basit varsayımlar altında bile, planlama hesaplama açısından pahalıdır (PSPACE-tamamlandı), karmaşıklığı NP-tamamlama seviyelerine indirgemek için radikal basitleştirmeler gerektirir. Daha gerçekçi varsayımlar altında, planlama eksik bilgi ile yapılır ve mekanik olarak karar verilemez. Genel LLM'lerin bugün anladığımız şekliyle planlama problemlerini çözmede başarılı olmasını beklemek saflık olur.
** Basit sayma **
GPT-4'e önünde 27 olumsuzlama simgesi olan bir önerme değişkeni verin ve ondan olumsuzlama sayısını saymasını isteyin. İnsanlar için bu kolay bir iştir, özellikle olumsuzlama sembolleri her biri beş nokta ve sonunda bir çift olumsuzlama sembolü olan beş blok halinde yazıldığından, ancak GPT-4 nasıl çalışır?
KA:
Aşağıdaki formülde p kaç kez olumsuzlanır:
**GPT-4'ün yanıtı:**
GPT-4: Verdiğiniz formül "p" önerme değişkeninin önünde 28 olumsuzluk simgesi ("∼") içermektedir. Mantıkta, olumsuzlama işareti bir önermenin doğruluk değerini tersine çevirir. Bir ifade doğruysa, olumsuzlaması yanlıştır ve bunun tersi de geçerlidir. "∼ ∼ p" gibi çifte olumsuzlama, "p"ye eşdeğerdir, çünkü bir önermeyi iki kez olumsuzlamak onu orijinal doğruluk değerine geri getirir.
Bir kalan varsa, o zaman bir olumsuzluk vardır. Değilse, o zaman olumsuzlama yoktur.
28 bölü 2, kalansız 14'tür, bu olumsuzlama olmadığı anlamına gelir. Yani aslında verilen formülde "p" değişkeni reddedilmez. Sadece "p" ile eşdeğerdir.
 Konstantine Arkoudas, GPT-4'ün tek bir olumsuzlama sembolü eklemesindeki farkın, GPT-4'ün kendi (istenmeyen) açıklamasıyla vurgulandığı gibi, mantıksal girdisindeki tüm farklılıkları anlayana kadar önemli görünmediğini buldu. GPT-4'e acele etmesi ve dikkatlice sayması açıkça söylendiğinde bile, deneyi birçok kez tekrarlamak çok farklı sonuçlar verdi.
**Genel bilgi sorusu**
Ardından Konstantine Arkoudas ekledi: "Mable'ın nabzı sabah 9'da 75, tansiyonu akşam 7'de 120/80 idi. Akşam 23'te öldü. Öğlen yaşıyor muydu?"
 **GPT-4:**
Sağlanan bilgilere göre Mable Noon'un hayatta olup olmadığından emin olamayız. Sunulan veri noktalarının (sabah 9'da kalp atış hızı ve akşam 7'de kan basıncı) tümü, o sırada hayatta olduğunu gösteriyor. Bununla birlikte, ona akşam 7 ile 23:00 arasında veya özellikle öğlen saatlerinde ne olduğu hakkında daha fazla bilgi olmadan, öğle vakti nasıl olduğundan emin olamayız.
Tıbbi bilgilerin karmaşık ve hassas olabileceğini unutmayın. Bir kişinin sağlık durumunu bilmek genellikle kapsamlı bir muayene gerektirir ve bir sağlık uzmanı tarafından yapılmalıdır. Bu varsayımsal bir soruysa, gerçek hayatın daha eksiksiz bilgi gerektirdiğini unutmayın.
Mevcut bağlamda, sağduyu argümanları aslında, genel kabul görmüş arka plan bilgisini oluşturan, verili bilgilerden ve belirtilmemiş öncüllerden çıkarılan sonuçların doğrudan bir türevi olarak görülebilir. Bu özel durumda, böyle bir sağduyu bilgisi, "insan ölene kadar yaşar ve öldükten sonra asla yaşamaz" önermesidir. Gazetede Konstantine Arkoudas, GPT-4'ün "bu karmaşık bir sorun, lütfen bir profesyonele danışın" ifadesinin ironik göründüğüne inanıyor.
**Wason Seçim Sorusu**
Wason'ın seçim görevi, akıl yürütme psikolojisinin temelini oluşturur.
**KA:**
Masanın üzerinde, her birinin bir tarafında bir sayı ve diğer tarafında tek renkli bir desen bulunan yedi oyun kartı vardır. Kartlar sırasıyla 50, 16, kırmızı, sarı, 23, yeşil ve 30'u gösteriyor. Bir kart 4'ün katını gösteriyorsa, karşıt renk sarıdır.Bu önermenin doğruluğunu test etmek için hangi kartı çevirmeniz gerekir?
**GPT-4:**
Önerme şudur: "Bir karttaki sayı 4'ün katıysa, diğer taraftaki renk sarıdır". Bu önermeyi test etmek için aşağıdaki kartları açmalısınız:
Oyun kağıdı "16": Önermeye göre, diğer tarafın rengi sarı olmalıdır. Bu kartı çevirerek, teklifin bu kısmının geçerli olup olmadığını kontrol edebilirsiniz.
Oyun kartı "Sarı": Bu kartı ters çevirin ve karşı taraftaki sayının 4'ün katı olup olmadığını kontrol edebilirsiniz.
Oyun kartları "50" ve "30": Bu iki kartın üzerindeki sayılar 4'ün katı olmasa da, diğer tarafın sarı olmadığından emin olmak için kontrol edin. Karşı taraf sarı ise, o zaman sadece 4'ün katları diğer tarafta sarı olur önermesi bozulur.
"23", "Kırmızı" veya "Yeşil" kartlarını çevirmenize gerek yoktur. "23" kartı 4'ün katı olmadığı için verilen önermeye göre diğer tarafın hangi renk olduğunun bir önemi yoktur. "Kırmızı" ve "yeşil" kartların diğer tarafındaki sayılar 4'ün katıysa, önermeyi çürütmezler çünkü önerme, kartın diğer tarafında görünebilen tek rengin sarı olduğunu belirtmez. sayıları 4'ün katı olan kartlar.
 Aslında sadece 16, kırmızı ve yeşilin çevrilmesi gerekiyor. Dolayısıyla, doğruluk açısından, bu yanıtlar bir kez daha GPT-4'ün maddi koşulluların anlamlarını anlamadığını göstermektedir.
GPT-4, "50" ve "30" oyun kartlarının çevrilmesi gerektiğini söylediğinde, if'yi ancak ve ancak şu ile karıştırmış gibi görünüyor: "Bu kartlarda gösterilen sayılar 4'ün katı olmadığında, Emin olmak için kontrol etmeli Bir tarafın rengi sarı değil, diğer taraf sarı ise "diğer tarafta 4'ün sadece katları vardır" önermesi ters çevrilir. Tabii ki, test edilen önerme, diğer tarafta sadece 4'ün katlarının sarı olmasını gerektirmez; sadece bir kartın diğer tarafı 4'ün katıysa, o zaman diğer tarafın sarı olmasını gerektirir; veya başka bir şekilde kelimeler, eğer a Kartın yüzü sarı değilse, diğer yüzdeki sayı 4'ün katı değildir.
Ancak, kuralı çift koşul olarak yanlış yorumlamanın bile tutarlı bir şekilde takip edilmediğine dikkat edin. GPT-4, test edilen kuralı ikili koşul olarak anladıysa ve bu nedenle 50 ve 30'u çevirmek zorunda kaldıysa, aynısını 23 için de yapmalıdır. Ama bunu yapmıyor.
Aslında, "23" oyun kartının 4'ün katı olmadığını, dolayısıyla verilen önermeye göre diğer tarafın hangi renk olduğunun önemli olmadığını açıkça belirtir ki bu, kullandığı iki koşullu yorumla tutarlıdır. 50 ve 30 Çelişkili çevirme nedeni. Bu, yine bu örneklerden ortaya çıkan başka bir önemli temayı göstermektedir: GPT-4 yanıtları, doğru ya da yanlış, genellikle doğası gereği tutarsızdır.
Ek olarak, Konstantine Arkoudas makalesinde uzamsal muhakeme, entropi, basit derleyicilerin doğruluğu ve zaman muhakemesi yeteneklerini de doğruladı.
Alan sınırlamaları nedeniyle, bu makalede örneklemek için yalnızca yukarıdaki birkaç örneği seçtik.
## **Sonuç olarak**
Sonunda, çeşitli doğrulamalar şüphesiz GPT-4'ün muhakeme yeteneğinin kasvetli resmini kanıtladı.
Sonuçlar, modelin iç tutarsızlıklardan, temel akıl yürütme tekniklerinin yanlış uygulanmasından ve maddi koşullar gibi akıl yürütmede temel bir rol oynayan kavramların anlaşılmamasından muzdarip olduğunu göstermektedir.
Ama gerçekte bu sorunlar genellikle büyük modelin getirdiği hatalar ve "hayaller" olarak özetlenir, ancak gerçekte akıl yürütme yeteneği yoktur.
GPT-4'ün şu anda en yetenekli LLM olduğu göz önüne alındığında, Konstantine Arkoudas bu bulgulardan üç ana sonuç çıkarıyor:
1. Yazılım geliştirmede (veya genel olarak bilim ve mühendislikte) üretken yapay zekayı sıkıcı görevler dışında herhangi bir şey için kullanmak (bilgi yoğun kodlama sorunları için bir tür turbo şarjlı otomatik tamamlama olarak) ciddi risklerle doludur. Kanonik doğruluk standartları kritiktir ve bu alanlarda mevcut LLM'ler bu standartları karşılayamaz. Üretken yapay zeka, web'i kötü reklamlarla kirletmeye başladığı gibi, buggy kodunu büyük ölçekte çoğaltma potansiyeline sahip.
2. LLM muhakemesi gelişmeye devam ederse, titiz kanıt kontrolü giderek daha önemli hale gelebilir. Bir sistemin muhakemesinin doğruluğuna duyulan güven, özellikle bilim, tıp ve mühendislik alanlarındaki uygulamalar için esastır ve doğrulama kontrolü bu güveni sağlayabilen bir tekniktir. Bu yaklaşım, LLMS'lerden çıkarımlarını düzenli hale getirmelerini isteyerek (doğrulaması ve kontrol etmesi kolay sembolik bir notasyonla ifade edilir) veya muhtemelen diğer LLMS'leri doğal dilde ifade edilen bir çıkarım parçasını incelemeleri için eğiterek elde edilebilir.
3. Halihazırda, insanları dize getiren haydut bir yapay zekayı ve hatta yapay zekayı kötü amaçlar için kullanan diğer insanları içeren distopik bir senaryo çok abartılı. En gelişmiş yapay zeka sistemleri, uzamsal muhakeme sırasında sağı ve solu ayırt edemediğinde, insanları yapay zekalarından korumaya yönelik politikalar ve kurumlar için sektörden bu kadar çok çağrı almak açıkça erken.
## **Tartışma**
Konstantine Arkoudas'a göre, mevcut üretken yapay zeka hala gelişimin ilk aşamalarında ve akıl yürütme yeteneğinden ve AGI döneminden hala çok uzakta.
Bu makale yayınlandıktan sonra HN hakkında da çok ilgi ve tartışma çekti Son 5 ayda hepimiz mi kandırıldık?
 Bununla birlikte, onun benzersiz görüşü, birçok AI uzmanı tarafından da kabul edilmiştir.
Yapay zeka alanında bir "dönek" ve New York Üniversitesi'nde psikoloji ve sinirbilim fahri profesörü olan Gary Marcus, tweet attı: "Bu doğruysa - daha önce de söylediğim gibi - genel yapay zekadan çok uzakta değiliz. * *Belki çok fazla yeniden kalibrasyon gereklidir: Mantık yürütmeden AGI'ya sahip olamazsınız**."
 @SiSafLtd yapay zeka baş yetkilisi Nikos Tzagarakis, "Derin öğrenme algoritmaları, algıya dayalı tahminler yapmak için inşa edilmiştir. Sahte akıl yürütme yapabilirler, ancak gerçekte bu algıdır."
Ancak, bazı netizenler şüphe uyandırdı:
Malzemeyi inceledim ve iki sonuca vardığım bildirilen aksaklıklardan bazılarını yeniden oluşturmaya çalıştım.
1. Yazar bu konuda iyi değil. Halüsinasyonları azaltmanın ve modellere daha iyi düşünce yolları sağlamanın birçok yolu vardır.
2. Yazar, ChatGPT'nin GPT-4'ünü kullanıyor ve "GPT-4"ü "ChatGPT" ile karıştırmasına neden oluyor. Bunun OpenAI'nin yanlış iletişiminden kaynaklanan yaygın bir başarısızlık olduğunu iddia edebilirsiniz, ancak bu modelleri ciddi şekilde değerlendiren herkes, yapmanız gereken ilk şeyin API'yi kullanmak ve model sürümünü kilitlemek olduğunu bilecektir. Yazara göre gpt-4-0314 veya gpt-4-0613 kullanmalıdır. Yalnızca ChatGPT'nin GPT-4'ünü ve büyük olasılıkla varsayılan modeli kullandığından şüpheleniyorum. (Varsayılan mod hiç kimse tarafından kullanılmamalıdır. Performans açısından optimize edilmiş en kötü modeldir ve bağlam boyutlu görevlerde bile çıkarım görevlerinde Eklentiler modelinden daha kötü performans gösterir).
Yazar, modeli ciddi bir şekilde değerlendiriyorsa, yapacağı ilk şey modeli açıklamaktır. Belki de gerekçesini açıklamalıdır.
Şimdiye kadar, ne düşünüyorsun?
referans:
Kağıt adresi:
View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
aldattın mı GPT-4'ün aslında muhakeme yeteneği yok mu? !
Organize | Tu Min
İlan | CSDN (ID: CSDNnews)
Bu yılın Mart ayında OpenAI, ChatGPT'nin arkasındaki GPT-3.5'ten daha güçlü muhakeme, hesaplama ve mantık yetenekleri getiren ve aynı zamanda evrensel kullanımda bir artışı tetikleyen GPT-4 büyük modelini piyasaya sürdü. Araştırmacıların, geliştiricilerin ve tasarımcıların çeşitli alanlarda kullanılması sürecinde, "GPT-4 en önde gelen büyük modeldir" kabul edilen bir sonuç haline gelmiş görünüyor.
Ancak, 7 Ağustos'ta Massachusetts Institute of Technology'den mezun olan ve şu anda Dyania Health'in CTO'su olan Konstantine Arkoudas, yakın zamanda "GPT-4 Can't Reason" (GPT-4 Can't Reason) başlıklı bir ön baskı yazdı ( Henüz hakemli bilimsel dergilerde yayınlanmamış bilimsel literatürdeki Taslak makalelere atıfta bulunulması, sektörde bir kargaşaya neden oldu.
Rapor, GPT-4'ün GPT 3.5'e kıyasla genel anlamda önemli gelişmelere sahip olduğunu belirtmektedir. Ancak, etkileyici iyileştirmeler elde etmesine rağmen, GPT-4'ün çıkarım yetenekleri konusunda oldukça şüpheci olmak için iyi nedenler var. Bu makale, muhakemenin doğasını tartışıyor, NLP topluluğundaki muhakeme problemlerinin mevcut formülasyonunu ve LLM muhakeme performansını değerlendirmenin mevcut yolunu eleştiriyor ve GPT-4'e dayalı 21 farklı muhakeme probleminden oluşan bir koleksiyonu paylaşıyor.
Nihai sonuç: **Ara sıra analitik parlaklığın parlamasına rağmen, GPT-4 şu anda tamamen muhakeme yeteneğinden yoksundur. **
Kağıt adresi:
**Çıkarım nedir? **
Aslında, bu yılın Ocak ayının başında, makalenin yazarı Konstantine Arkoudas, Medium platformunda ChatGPT'nin gayri resmi bir değerlendirmesini paylaştı.Değerlendirme, geleneksel NLU, halk fiziği, bilgi alma, zihin kuramı, uzamsal akıl yürütme, basit mantıksal akıl yürütme ve matematik.
O dönemde varılan ana sonuçlar şunlardı: ChatGPT çığır açan bir atılımdır; LLM tabanlı sistemler sadece "rastgele papağanlar" değildir, aynı zamanda gerçek soyutlamalar oluşturur ve yaratıcılık gösterebilir; Bu tür sistemler, yukarıda belirtilenlere rağmen pek çok Heyecan verici yeni uygulama getirecektir. Başarılar, bu sistemler çıkarım yeteneklerinde ciddi şekilde sınırlı kalır.
Ona göre, GPT-4'ün yükseltilmiş versiyonu bugün hala aynı ve hatta hiçbir muhakeme yeteneği bile yok.
Gazetede Konstantine Arkoudas, "LLM'nin muhakeme yeteneğine sahip olup olmadığı" konusundaki endüstri tartışmasının uzun süredir devam ettiğine dikkat çekti.
Bu iki düşünceye dayanarak, Konstantine Arkoudas, güvenilir sağlam LLM çıkarımlarının akla yatkınlığı için en ikna edici önsel (geçmiş deneyim ve analiz) değerlendirmelerin hesaplama karmaşıklığının sonuçları olduğunu savunuyor. Çıkarım hesaplama açısından çok zor bir problemdir. Aslında, genel durumda (birinci dereceden veya daha yüksek dereceden mantık) algoritmik olarak karar verilemez.
Konstantine Arkoudas'a göre, "Ne kadar büyük, ne kadar geniş ve zeki olursa olsun herhangi bir LLM, keyfi çıkarım problemlerini çözemez. Bu, model genelliğini belirten makine öğrenimindeki ünlü "bedava öğle yemeği yok" teoremi ile tutarlıdır. Benzer bir ters ilişki performans ve performans arasında".
Bu nedenle, "GPT-4'ün muhakeme yeteneğine sahip olup olmadığını" doğrulamak için yapılacak ilk şey, muhakeme yani muhakeme nedir kavramı ile muhakeme kabiliyetini belirlemek için kullanılan spesifik yöntemi birleştirmektir.
Akıl yürütmenin tanımıyla ilgili olarak Konstantine Arkoudas, "akıl yürütme, doğru yanıtı vicdansız yollarla almak değil, doğru yanıtı doğru nedenle almaktır" dedi.
Daha doğrusu akıl yürütme, bir argüman oluşturma ve daha da önemlisi onu kanıtlama sürecidir. Bir argüman, bir sonuçtan (deyim yerindeyse argümanın sonucu) ve sonucun türetildiği bir dizi öncülden oluşur. Önermeler, yalnızca geçici olarak da olsa, bir tartışmanın amaçları doğrultusunda verilmiş kabul edilen bilgileri temsil eder. Sonuçlar ve öncüller genellikle, doğru ya da yanlış olabilen, ancak diyagramlar gibi diğer simgelerle de temsil edilebilen, doğal dilin ya da sembolik mantığın sembolleriyle ifade edilen bildirim cümleleridir. S'deki tüm cümleler doğruysa, o zaman p doğrudur, bu durumda argümanın geçerli olduğu söylenir.
Metodolojiye gelince, Konstantine Arkoudas'ın makalede benimsediği değerlendirme, bir külliyat veya bir külliyat setine dayanmamaktadır. Bunun yerine, GPT-4'ün geniş bir alanda 21 basit muhakeme problemindeki performansının ayrıntılı bir nitel analizini sunar; bunların çoğu sıfırdan yazılırken geri kalanı (Wason'un seçim görevi gibi) manuel olarak ayarlanmıştır. Modelin bunları tanımlamasının zorluğu da veri kirliliğinden kaçınmaktır.
GPT-4 mantığını test sorularıyla doğrulayın
Buna dayanarak Konstantine Arkoudas, GPT-4 hakkında çok boyutlu sorular sordu ve çıktısına göre ayrıntılı bir analiz yaptı.
GPT-4'ün özelliklerinden dolayı bazen aynı "" kullanılmasının bile farklı çalıştırmalarda farklı yanıtlar alabileceğini belirtmekte fayda var.
Ardından doğrulama başlar (aşağıdaki tüm test süreleri, 5 Temmuz 2023'teki test sonuçlarına dayanmaktadır).
Basit Aritmetik
Konstantine Arkoudas, temel aritmetik işlemleri gerçekleştirme yeteneğinin, özellikle bilimsel ve mühendislik uygulamalarında genel akıl yürütmenin gerekli bir parçası olduğunu söylüyor. GPT-4'ün onu ezbere ezberlemediğinden emin olmak için, GPT-4'ün seçtiği aralıkta rastgele iki tamsayı seçmesine izin vermeyi ve ardından seçilen değerler üzerinde işlemler gerçekleştirmesini önerir.
KA şunları verir:
1381 ile 1453 arasında rastgele iki sayı seçin, bunları birbiriyle çarpın ve sonucu bildirin.
GPT-4'ün yanıtı:
Tabii ki, 1381 ile 1453 arasında rastgele iki sayı seçelim. Diyelim ki sayılar 1405 ve 1421.
Çarpımı elde etmek için şu iki sayıyı çarparız: 1405*1421 = 1996025
GPT-4'ün hala toplama ve çarpma gibi temel aritmetik işlemleri güvenilir bir şekilde gerçekleştiremediği ortaya çıktı.
Konstantine Arkoudas, belki de LLM savunucularının bu noktada GPT-4'ün tam Turing çerçevesi olmadığını ve genel amaçlı hesaplamalar gerçekleştiremeyeceğini kabul edebileceğini söyledi: toplayamaz, çarpamaz veya bölemez, listeleri sıralayamaz veya matrisleri ters çeviremez veya diferansiyel denklemleri çözemez, keyfi programları makine koduna derleyemez, teoremler türetemez, vb.
Ancak, bu bilgi işlem gücü eksikliği, ReAct, MRKL çerçevesi gibi üçüncü taraf eklentilerle telafi edilebilir. LangChain ve AutoGPT gibi sistemlerin ortaya çıkmasına neden olan bu çalışma şeklidir. Buradaki fikir, LLM'yi, karmaşık bir sorunu, uygun API'ler aracılığıyla özel aracılara gönderilen bir dizi alt soruna yinelemeli olarak ayrıştırmak için bir planlayıcı olarak kullanmaktır.
Ancak Konstantine Arkoudas'a göre bu yaklaşımın sorunu döngüsel doğasıdır. Planlamanın kendisi akıl yürütmeyi gerektirir, bu nedenle, sorunu uygun bir temsilciye devrederek muhakeme sorununu çözemeyeceğimiz bir "ikilemdir", çünkü nasıl yetki verileceğini bulmak (sorunun nasıl ayrıştırılacağı, hangi aracıların aranacağı, nasıl aranacağı) ve nasıl ayrışma sonucu) kendi başına hesaplama açısından mümkün değildir. Bu, yalnızca doğal dili anlama becerisini değil, aynı zamanda önkoşullar ve etkiler hakkında akıl yürütme becerisini de gerektirir. Bu aşırı derecede basit varsayımlar altında bile, planlama hesaplama açısından pahalıdır (PSPACE-tamamlandı), karmaşıklığı NP-tamamlama seviyelerine indirgemek için radikal basitleştirmeler gerektirir. Daha gerçekçi varsayımlar altında, planlama eksik bilgi ile yapılır ve mekanik olarak karar verilemez. Genel LLM'lerin bugün anladığımız şekliyle planlama problemlerini çözmede başarılı olmasını beklemek saflık olur.
** Basit sayma **
GPT-4'e önünde 27 olumsuzlama simgesi olan bir önerme değişkeni verin ve ondan olumsuzlama sayısını saymasını isteyin. İnsanlar için bu kolay bir iştir, özellikle olumsuzlama sembolleri her biri beş nokta ve sonunda bir çift olumsuzlama sembolü olan beş blok halinde yazıldığından, ancak GPT-4 nasıl çalışır?
KA:
Aşağıdaki formülde p kaç kez olumsuzlanır: