GPT-4 muhakemesi çok çirkin! Üniversitede matematik, fizik ve kimya toplam puanı yarıdan az ve 21 tür muhakeme sorusunun tamamı ters çevrildi.Marcus: AGI çok uzak

**Kaynak:**Xinzhiyuan

Kılavuz: Yüzeydeki en güçlü GPT-4, soruları birbiri ardına mantık yürütürken hatalar yapıyor! MIT mezunları ve UCLA Chinese tarafından yapılan son araştırma, birçok netizenin ilgisini çekti.

GPT-4 hiç akıl yürütemez!

Son zamanlarda, iki çalışma GPT-4'ün muhakemede zayıf performans gösterdiğini bildirdi.

MIT mezunu Konstantine Arkoudas, GPT-4'ü 21 farklı türde çıkarım seti üzerinde değerlendirdi.

Ardından, GPT-4'ün bu problemler üzerindeki performansının ayrıntılı bir nitel analizi yapılır.

Çalışmalar, GPT-4'ün ara sıra "en güçlü beyin" yeteneğini gösterdiğini, ancak şu anda GPT-4'ün hiçbir muhakeme yeteneğinin olmadığını bulmuştur.

Kağıt adresi:

Araştırma çıkar çıkmaz birçok netizen izlemek için toplandı.

Marcus, "Eğer bu doğruysa - daha önce de söylediğim gibi - hala AGI'den uzağız. Birçok yeniden kalibrasyon yapmamız gerekebilir: Mantık yürütmeden AGI olamaz" dedi.

UCLA ve Washington Üniversitesi tarafından yapılan başka bir araştırma da GPT-4 ve GPT-3.5'in üniversitedeki matematik, fizik ve kimya görevlerinde yetersiz performans gösterdiğini ortaya çıkardı.

Kağıt adresi:

Araştırmacılar, 2 veri seti içeren bir üniversite bilimsel problem çözme vakfı olan SCIBENCH'i tanıttı: bir açık veri seti ve bir kapalı veri seti.

GPT-4 ve GPT-3.5 üzerinde farklı yönlendirme stratejileri kullanılarak yapılan derinlemesine araştırma sonucunda, sonuçlar GPT-4'ün ortalama toplam puanının yalnızca %35,8 olduğunu gösteriyor.

Bu araştırma da bir kez daha Marcus'un dikkatini çekti:

Matematik, kimya ve fizikte sistematik bir muhakeme araştırması, mevcut LLM'lerin tatmin edici performans sağlamada başarısız olduğunu gösteriyor...hiçbir ipucu stratejisi diğerlerinden önemli ölçüde daha iyi değil.

GPT-4'ün 21 problem seti, matematik, fizik ve kimyada nasıl sefil bir şekilde başarısız olduğuna daha yakından bakalım.

21 problem seti, GPT-4'ün tamamen yenilenmesi

Ancak, soruyu cevaplamak için GPT-4'e bakmadan önce yazar bir not verir:

GPT-4, deterministik olmayan bir sistemdir ve aynı parametre ayarlarıyla bile farklı çalıştırmalarda farklı yanıtlar üretebilir.

Aşağıdaki test alışverişleri kelimesi kelimesine olsa da, yazarın deneyimine göre, makalede tartışılan GPT-4'ün ters gittiği şeyler sağlam olma eğilimindedir.

1 basit aritmetik

Temel işlemleri yapabilmek muhakeme için gerekli bir koşuldur.

Ancak GPT-4, toplama ve çarpma gibi temel aritmetik işlemleri hala güvenilir bir şekilde gerçekleştiremiyor.

Örneğin GPT-4 1381 ile 1453 arasında rastgele iki sayı seçip çarpsın ve sonucu versin.

GPT-4, 1405 ve 1421'i seçti, ancak nihai sonuç açıkça yanlıştı. Çünkü 1405×1421=1996505.

2 basit sayı

Spesifik sayma mutlaka bir muhakeme faaliyeti olmasa da, genel yeteneğe sahip herhangi bir muhakeme sistemi için kesinlikle bir ön koşuldur.

Burada, GPT-4'e bir önerme değişkeni verilir ve önüne 27 olumsuzlama simgesi eklenir ve ondan olumsuzlama simgelerinin sayısını sayması istenir.

Bizim için bir esinti oldu, özellikle de olumsuzlamalar 5 ayrı yazıldığından ve 5 grup olduğundan, hemen ardından son olumsuzluk çifti geliyor.

Ancak GPT-4 "28" yanıtı verdi.

3 (Tıbbi) Sağduyu

Şimdilik, sağduyu argümanlarını, verilen bilgiler artı belirtilmemiş koşullardan (varsayılan, genel kabul görmüş arka plan bilgisi) elde edilen basit çıkarımlar olarak düşünebiliriz.

Bu özel durumda sağduyu bilgisi, "İnsan ölünceye kadar yaşar ve öldükten sonra asla yaşamaz" gibi bir önermedir.

Örneğin GPT-4'ü sorduğunuzda: Mable'ın nabzı sabah 9'da 75 vuru/dk ve akşam 7'de tansiyonu 120/80'dir. Saat 11'de öldü. Öğlen yaşıyor mu?

GPT-4 aslında şu yanıtı verdi: Verilen bilgilere göre öğle saatlerinde Mable'ın hayatta olup olmadığını belirlemek imkansız.

Ama açıkça verilen bilgilere dayanarak, sağduyu çıkarımı (düşünmeden) doğrudan sonuçlara götürür.

4 Temel Mantık

P(x), Q(x)'i içeriyorsa ve Q(a) tutmuyorsa, modelden P(a)'nın tutmadığını çıkarabiliriz (çünkü P(a) tutuyorsa, o zaman Q(a) tutacaktır) tutun) .

Bu temel bir totolojidir, ancak GPT-4 tamamen bir anti-model önerir:

值得注意的是,GPT-4认识到,P(x)实际上并不包含Q(x) ve x'in negatif bir çift sayı olabileceğini öne sürdü, "verilen diğer koşullara sahip modellerin varlığını dışlamaz".

Aslında, bir karşı model verilen tüm koşulları karşılamalı ve aynı zamanda sonucu yanlışlamalıdır.

Ayrıca, sadece birkaç cümle sonra GPT-4, P(x)'in verilen yorum altında Q(x)'i ima ettiğini iddia ederek önceki ifadesiyle çelişir.

GPT-4'ün dahili tutarsızlıkları da olduğunu unutmayın.

5 Basit Niceleyici Semantiği

Aşağıdaki üç cümleyi göz önünde bulundurun:

  1. [hepsi x . P(x) ==> Q(x)]

  2. [x var. P(x)]

  3. [x var. ∼ S(x)]

Lütfen aşağıdaki iddiayı yanlışlayın veya kanıtlayın: Bu üç cümle birlikte tatmin edilebilir.

显然,这三个句子都是共同可满足的,一个简单的模型是具有P(a1)、Q(a1)、¬P(a2) ve ¬Q(a2)'nin {a1, a2} alanı, ancak GPT-4'ün çıkardığı sonuç bunun tersidir.

6. Basit grafik renklendirme

Önce çözümü olmayan bir grafik renklendirme problemini ele alalım.

Bu soruda açıklanan grafik için iki rengin yeterli olmadığını görmek zor değil (örneğin, 0, 2 ve 4 köşeleri bir küme oluşturur, bu nedenle en az 3 renk gereklidir).

Bu kısa çıktıda, dudak uçuklatan tonlarca hata var.

GPT-4, yanlış bir şekilde grafiğin tamamlandığını iddia ederek başlar (tabii ki değil, örneğin 2 ve 3. köşeler arasında kenar yok).

Ayrıca, grafik gerçekten eksiksizse, 2 renkle renklendirmenin imkansız olduğu açıktır, çünkü 6 köşeli tam bir grafik en az 6 renge ihtiyaç duyar.

Başka bir deyişle, GPT-4'ün iddiaları yalnızca yanlış değil, aynı zamanda tutarsızdır: Bir an bize (yanlış bir şekilde) bu 6 köşeli grafiğin tamamlandığını söyler, bu da onu 2 renkle renklendirmenin imkansız olduğu anlamına gelir ve başka bir an A'yı iki sağlar. -renk "çözüm".

GPT-4'ün bu kadar düşük performans göstermesinin nedeninin, yeterli grafik bilgisi veya verisi olmaması olmadığını belirtmekte fayda var.

Araştırmacılar GPT-4'ten "tam grafikler" konusundaki anlayışını sorduğunda, "tam grafikler"in doğru tanımını ve K_n (n köşeli tam grafikler) için uzun bir sonuç listesi verdi.

Görünüşe göre GPT-4 tüm bu bilgileri ezberlemiş ancak yeni koşullara uygulayamıyor.

7. Alt Küme Toplamı

Ö = {2, 8, 6, 32, 22, 44, 28, 12, 18, 10, 14}. S'nin kaç tane altkümesinin toplamı 37'dir?

Bu problemde S'nin altkümesi çifttir ve çift sayıların toplamı tek olamaz bu yüzden cevap 0'dır.

Bununla birlikte, S'nin ne içerdiğini düşünmek için durmak yerine, GPT-4 refleks olarak soruya uygun bir cevap olduğunu düşündüğü şeyi üretir ve ardından "sihir" ve "4" yanıtına geçer.

8 Temel Ayrık Matematik

GPT-4'e A × B'nin A ve B kümelerinin Kartezyen çarpımını temsil ettiğini, A'dan B'ye olan R ilişkisinin A × B'nin bir alt kümesi olduğunu ve &'nin küme kesişimini temsil ettiğini söyleyin ve ardından kanıtlamasını veya yanlışlamasını isteyin :

其中R1和R2是从A到B的二元关系,dom(R) R ikili ilişkisinin alanını temsil eder.

Alt küme ilişkisinin (2)'nin her iki yönünde de tutulması gerekir, ancak yalnızca soldan sağa yönde tutar. Diğer yöndeki karşı örnekleri bulmak kolaydır (örneğin, A = {(1, 2)} ve B = {(1,3)} alın).

Ancak GPT-4 bunun doğru olduğu sonucuna varır ki bu açıkça yanlıştır.

9 Basit Düzenleme Planı

Zamanlama konusunda GPT-4 de yanlış anladı.

Tümünü görmek için yukarı ve aşağı kaydırın

10 Russell Paradoksu

Russell'ın berber paradoksu, yalnızca kendilerini tıraş etmeyenleri tıraş eden bir berber b olduğunu belirtir.

Bu cümlenin olumsuzlanması, birinci dereceden mantık kullanılarak kolayca çıkarılabilen bir totolojidir.

R(a,b)'yi b tarafından tıraş edilmiş olarak anlarsak, bu totolojiyi bulabilir ve GPT-4'ten bunu aşağıdaki gibi kanıtlamasını veya çürütmesini isteyebiliriz:

Eğer böyle bir x berberi varsa, o zaman tüm y'ler için R(y,x) <==> ∼ R(y,y) olur, yani y yerine x'i koymak R(x,x) <== > verir. ∼ R(x,x), ki bu bir çelişkidir.

GPT-4, kendisine verilen cümlelerin yapısı ve ne yapması gerektiği konusunda kusursuz bir anlayışa sahiptir. Bununla birlikte, sonraki vaka çalışmaları karışıktır.

11 Tuğla Dünyası

Bu, sondan bir önceki yapı bloğu B3'ün vaka analizini gerektiren basit bir akıl yürütme görevidir.

Birincisi, B3 ya yeşildir ya da değildir.

Yeşil ise, B3 yeşil olmayan B4 bloğunun üstündedir, bu nedenle sonuç geçerlidir.

Değilse, o zaman üstten ikinci yeşil blok B2 yeşil olmayan blok B3 üzerindedir, bu nedenle sonuç hala geçerlidir.

Ancak sonuçlar, GPT-4'ün iyi performans göstermediğini gösterdi.

Yukarıdan aşağıya istiflenmiş beş blok vardır: 1. Üstten ikinci blok yeşil 2. Üstten dördüncü blok yeşil değil Bu koşulların sağlandığı durumlarda, aşağıdakileri tahrif edin veya Kanıtlayın: Yeşil bir blok var doğrudan yeşil olmayan bir bloğun üzerinde.

Her şeyden önce, varsayımı ispatladığında, zaten ispatta bir hata yapmıştır-PT-4, akıl yürütme için iki özel durumu varsayar.

Ayrıca GPT-4 kendi muhakemesinde (yanlış da olsa) bir sonuca varmıştır ancak yine de kullanıcıya cevap verirken sorunun çözülmediğini söylemektedir. Bu da modelin iç tutarsızlığını yansıtıyor.

12 Uzamsal Akıl Yürütme

Burada yazar bir gerçek dünya oryantasyon problemi seçer:

GPT-4'ün ilk kez verdiği cevap sağda, ancak yazar hatasını işaret etti.Boston, Massachusetts haritadan gerçekten de Güney Dakota'nın sağında olmasına rağmen, burada ek bir koşul daha var: yön vücudun Teksas.

Bu, Boston'un yazarın solunda olduğu anlamına gelir.

Daha sonra GPT-4, Boston ve Güney Dakota'nın yüksek ve düşük pozisyonlarını yanıtladığında daha ciddi bir sorun ortaya çıktı: aynı yanıtta birbiriyle çelişen iki açıklama verdi.

13 Zamanlı Akıl Yürütme

Yazar burada nispeten basit bir zaman akıl yürütme sorusu veriyor, ancak GPT-4'ün cevabı hala bir karmaşa.

Tom ve Nancy'nin çalışmak için ulaşıma ihtiyacı var. Nancy'nin işe gidip gelme süresi yaklaşık 30-40 dakika iken Tom'un işe gidip gelme süresi yaklaşık 40-50 dakikadır. Geçen Cuma, Nancy sabah 8:10 ile 8:20 arasında evden ayrıldı ve Tom sabah 8:5 ile 9:10 arasında işe geldi. Ayrıca, Nancy işe Tom'un evden ayrılmasından sonra gelir, ancak en fazla 20 dakika sonra gelir. Tom ve Nancy'nin geçen Cuma günü işe ne zaman geldiklerini anlayabilir misin?

Sorudaki bilgileri sıraladıktan sonra, GPT-4 muhakeme sürecini şöyle verir:

"Tom mümkün olan en geç saatte evden çıkarsa (08:20)..." Bu cümle yanlış başlıyor.

Aslında başlık, Tom'un evden ayrılması için en son zamanı vermiyordu ve GPT-4, Nancy'nin Tom'a ayırdığı zamanı ("Nancy evden 8:10-8:20 arasında ayrıldı") kötüye kullandı.

Aynı zamanda, GPT-4 tarafından verilen koşullu ifade kafa karıştırıcıdır ve varsayım, sonuçla (Nancy'nin varış zamanı) ilgili olmayan bilgileri (Tom) içerir: "Eğer Tom en geç evden ayrılırsa (8:20). Nancy En geç (08:20) ayrılıyor, işe gidip gelmesi en fazla 40 dakika ve Nancy en geç sabah 9:00'da işe geliyor."

Bu şu şekilde belirtilmelidir: "Nancy en son saatinde (08:20) ayrılırsa ve işe gidiş geliş süresi en fazla 40 dakika ise, Nancy en geç sabah 9:00'da işe varacaktır."

GPT-4 daha sonra hatalı bir şekilde şu çıkarımı yapar: "Tom'un işe gidiş gelişi en az 40 dakika olduğundan, bu onun işe en geç sabah 9:00'da varacağı anlamına gelir."

Bu sonucun kesinlikle savunulabilir olmadığı açıktır. Bu sonuç, Tom'un işe gidip gelme süresinin en az 40 dakika olduğu bilinen gerçeğinden çıkarılamaz.

Aşağıdaki cevap hala Tom'un en erken hareket saatinin sabah 8:10 olduğu şeklindeki yanlış varsayıma dayanmaktadır (yine, bu hareket saati Tom'un değil, Nancy'nindir).

Daha sonra Nancy'nin 8:45'te geldiğini iddia ediyor, bu da evden 20 dakika içinde sabah 8:10'da ayrılmak olarak nitelendirilmiyor.

Sonunda, yanlış bir şekilde hem Tom hem de Nancy'nin 8:50 ile 9:00 arasında geldiği sonucuna varır.

Akıl yürütme sürecinde, GPT-4 bilgileri defalarca yanlış bir şekilde gösterdi ve nihai cevap da yanlış koşullara dayanan yanlış bir cevaptır.

**14. Cinayet mi intihar mı? **

Yazar bir mantık bulmacası tasarladı ve GPT-4'ten Agatha Teyze'yi gerçekten kimin öldürdüğünü bulmasını istemek için 9 koşul listeledi.

  1. Dreadbury Malikanesi'nde yaşayan biri Agatha Teyze'yi öldürdü. 2. Dreadbury Malikanesi'nin tek sakinleri Agatha Teyze, Temizlikçi ve Charles'tır. 3. Bir katil, kurbanlarından her zaman nefret eder ve asla kurbanlarından daha zengin olamaz. 4. Charles, Agatha Teyze'nin nefret ettiği insanlardan nefret etmez. 5. Agatha Teyze, hizmetçi dışında herkesten nefret ediyordu. 6. Uşak, Agatha Teyze'den daha zengin olmayan herkesten nefret eder. 7. Uşak, Agatha Teyzenin nefret ettiği herkesten nefret eder. 8. Kimse herkesten nefret etmez. 9. Agatha Teyze temizlikçi değildi.

Doğru cevap, Agatha Teyze'nin kendini öldürdüğüdür.

İlk olarak, 5. koşula göre, Agatha Teyze kendinden nefret etmelidir çünkü kahya dışında herkesten nefret eder.

Bu nedenle, 4. koşula göre, Charles'ın ondan nefret etmediği, dolayısıyla onu öldüremeyeceği sonucu çıkar.

  1. ve 7. koşullara göre, uşağın kendinden nefret etmesi imkansızdır, çünkü eğer kendinden nefret ederse, 8. koşul geçerli olmaz ve herkesten nefret eder.

  2. koşula göre, uşağın Agatha Teyzeden daha zengin olduğu, aksi takdirde kendinden nefret edeceği sonucuna varılır ki bu, daha önce kendisinden nefret etmediği sonucuna vardığımız sonuçla çelişir.

  3. koşula göre, uşak da katil olmayacaktır (3. koşul).

Mantık yürütürken GPT-4, Charles'ı doğru bir şekilde dışladı, ancak uşağı dışlayamadı ve yanlış bir sonuca vardı: Katil uşaktı.

GPT-4 tarafından yapılan bir başka kritik hata: Agatha Teyze, temizlikçi dışında herkesten nefret ettiğine göre (Koşul 5), en azından kendinden nefret etmiyor demektir.

Agatha Teyze'nin kendinden nefret etmesi 5. koşuldan da anlaşılacağı üzere bu garip bir hatadır.

Aynı zamanda, GPT-4 bir kez daha yinelenen tutarsızlıklar sergiledi - neredeyse her yanıtta, GPT-4 belirli bir önermeyi ve onun olumsuz biçimini türettiğini iddia etti.

15 Watson seçim görevi

Watson'ın seçim görevi, zihinsel muhakeme alanında temel bir içeriktir.

Ocak ayında yayınlanan makalede, GPT-3.5 bu testte başarısız oldu ve bu çalışmada GPT-4'ün performansı hâlâ ideal değil.

Masada 7 adet kart vardır, her kartın bir tarafında bir sayı, diğer tarafında ise tek renkli bir blok vardır. Bu kartların ön yüzünde 50, 16, kırmızı, sarı, 23, yeşil, 30 yazıyor. "Bir kartın ön yüzünde 4'ün katı varsa arka yüzü sarıdır" önermesinin doğruluğunu belirlemek için hangi kartları çevirmeniz gerekir?

Bu yanıtlar, GPT-4'ün koşullu ifadelerin anlamını anlamadığını göstermektedir. GPT-4, "50" ve "30" kartlarının çevrilmesi gerektiğini söylediğinde, koşulu gerekli ve yeterli bir koşulla karıştırıyor gibi görünüyor.

GPT-4'ün cevabı doğru ya da yanlış olsun, dahili ifadeleri tutarsızdır.

16 Entropi

Bilgi teorisinin temel bir sonucu şudur: Z rasgele vektörünün entropisinin üst sınırı, Z'yi oluşturan rasgele değişkenlerin entropi toplamını aşmaz.

Bu nedenle aşağıdaki sorunun cevabı “hiçbir şekilde olmaz” olmalıdır.

17 Basit Derleyici Doğruluğu

GPT-4 için son çıkarım problemi en zor olanıdır: basit bir ifade derleyicisinin doğruluğunu kanıtlamak.

Ancak bu testte GPT-4, ifadelerin soyut sözdizimsel yapısına yapısal tümevarımı ayarlayarak ispatı doğru yaptı.

Bunun nedeni daha önce benzer ispatları görmüş olması ve yazarların verdiği örneklerin programlama derslerinde ve ders kitaplarında yaygın olarak bulunan alıştırma türleri olması olabilir.

Ancak, GPT-4'ün ayrıntılarında hala bazı hatalar var.

## Sonuç: Akıl yürütme yeteneği çok önemlidir, ancak GPT-4 olmayacak

GPT-4'ün şu anda en yetenekli LLM olduğu göz önüne alındığında, yazar yukarıdaki analize dayanarak üç ana sonuç vermektedir:

  1. Bazı sıkıcı görevler dışında (bilgi yoğun kodlama problemlerinin bir tür hızlandırılmış otomatik tamamlaması olarak) yazılım geliştirmede (veya genel olarak bilim ve mühendislikte) üretken yapay zekanın kullanımı risklerle doludur. Bu alanlarda normatiflik ve doğruluk kritik öneme sahiptir ve mevcut LLM'ler bu standartları karşılayamamaktadır.

  2. LLM'nin muhakeme yeteneği gelişmeye devam ettikçe, katı kanıt kontrolü giderek daha önemli hale gelecektir. Bu yaklaşım, LLM'lerden muhakemelerini resmileştirmelerini isteyerek veya diğer LLM'leri eğiterek doğal dilde ifade edilen muhakemeyi inceleyebilir.

  3. Halihazırda, yapay zekanın insanları fethetmesine veya yapay zekayı hain amaçlar için kullanan insanlara dair distopik senaryolar, saçma noktasına kadar bile abartılı. Son teknoloji yapay zeka sistemleri sağı solu bile ayırt edemediğinde (yukarıdaki soru 12), insanları bundan korumak için politikalar talep etmek en iyi ihtimalle erken ve en kötü ihtimalle kaynak israfıdır.

İster istemez bazıları bu sonuçların "seçilmiş veriler" olduğunu söyleyebilir. Ancak bunun nedeni, küratörlük verilerinin ne olduğu konusunda bir yanlış anlamaları olmasıdır. Söz konusu önermenin mantıksal yapısına ve genel bağlamına bağlı olarak, bazen veri toplamak bile gerekli olabilir.

Zayıflıklarını keşfetmek ve anlamak için bir bilgisayar programında hata ayıklamak, bilimsel bir teoriyi tahrif etmeye çalışmak, yeni bir arabayı test etmek, farazi bir teoremin anti-modelini bulmaya çalışmak vb.

Örneğin, yeni arabanızın lastiğinin patladığını öğrenirseniz, bayi "veri seçtiğinizi" söyleyerek itiraz edebilir. Sonuçta, arabanın tamamı söz konusu olduğunda, lastiğin bozulma oranı% 75'e kadar çıkıyor.

Aynı şekilde, bilim, tıp ve mühendislikteki uygulamalar, özellikle yazılım mühendisliği, katı standartlara sahiptir.

Tıpkı zamanın %90'ında sütunları ayağa kaldıran bir köprü istemediğimiz gibi, yalnızca çoğunda değil, tüm girdilerde çalışan sıralama algoritmalarına ihtiyacımız var; her seferinde doğru miktarı ücretlendiren arabalara ihtiyacımız var ve sadece çoğu değil zaman vb.

Ve bu bilgi işlem ve muhakeme yoğun uygulamalar, öneri motorlarından farklı olarak çok güvenilir olmalıdır.

yazar hakkında

Konstantin Arkoudas

Geçen yıla kadar Konstantine Arkoudas, RPI'nin Bilişsel Bilimler Departmanında ve MIT'nin CSAIL'inde araştırmacıydı.

Şu anda Telcordia Araştırma Laboratuvarlarında Kıdemli Araştırma Bilimcisi olarak yapay zekaya odaklanıyor ve telekomünikasyon ve ağ endüstrilerindeki gerçek dünya sorunlarına resmi yöntemler uyguluyor.

Doktora derecesini Bilgisayar Bilimleri alanında 2000 yılında MIT'den aldı. Bundan önce, bilgisayar bilimi alanında yüksek lisans derecesi, felsefe alanında yüksek lisans derecesi ve felsefe yan dalıyla bilgisayar bilimi alanında lisans derecesi aldı.

Üniversite matematiği, fizik ve kimya, GPT-4 puanı %35,8

UCLA araştırmasında, GPT-4 ve GPT-3.5'in matematik, kimya ve fizikteki muhakeme yeteneği ağırlıklı olarak değerlendirildi.

Şu anda, LLM'nin matematik gibi görevleri çözme yeteneğini geliştirmek için, bazı insanlar problem hakkında daha derinlemesine düşünmek için büyük modeli kademeli olarak yanıtlar üretmeye yönlendirmek için düşünmeye bağlı bir CoT stratejisi önerdiler.

Bununla birlikte, böyle bir yaklaşımın kendine özgü avantajları olsa bile, karmaşık bilimsel problemleri tam olarak çözmek zordur.

Aşağıda, kolej fiziksel kimyasındaki örnek bir problem ve iki ipucu stratejisi altında üretilen çözümler bulunmaktadır.

CoT onayına sahip GPT-4'ün bariz hesaplama hataları vardır ve Python'un harici bir araç olarak kullanılmasını sağlayan GPT-4, matematiksel denklemleri de yanlış anlayacaktır.

Hatalar kırmızı, düzeltmeler mor renkle işaretlenmiştir.

Bu amaçla, bilimsel sorular için üniversite düzeyinde bir ölçüt olan SCIBENCH çalışmaya dahil edilmiştir.

Bunlardan "açık veri seti", üniversite derslerinde yaygın olarak kullanılan ders kitaplarından derlenen temel fizik, termodinamik, klasik mekanik, kuantum kimyası, fizik kimya, matematik, istatistik ve diferansiyel denklemleri kapsayan 5 problemi içermektedir.

Açık Ders Kitabı Problemlerinin Özeti (problem sayısının yüzdesini ve ayrıntılı çözümlerin yüzdesini içerir)

Diğeri, gerçek dünya değerlendirmesini simüle etmek için bilgisayar bilimi ve matematik alanındaki üç üniversite dersi için 7 set ara sınav ve final sınavı sorusu içeren "kapalı bir veri seti" dir.

Kapalı sınav veri seti (her sınavdaki soru örneklerinin sayısını ve ayrıntılı çözümler içeren sınavdaki soruların oranını içerir. Ayrıca, serbest yanıtlı, çoktan seçmeli ve doğru-yanlış dahil olmak üzere farklı biçimlerdeki soruların oranını içerir) Başvuru için, parantez içindeki sayılar sorular için kredi puanlarını gösterir.)

Mevcut kıyaslamalardan farklı olarak, SCIBENCH'teki tüm sorular açık uçlu, yanıtlaması ücretsiz sorulardır.

Mevcut veri seti ile çalışma, iki temsili LLM'yi, GPT-3.5 ve GPT-4'ü değerlendirmeye odaklandı ve CoT, sıfır atışla öğrenme ve az atışla öğrenme gibi farklı yönlendirme stratejileri kullandı.

Ek olarak, araştırmacılar modelden Python ve Wolfram Language gibi harici araçları kullanmasını da istedi.

Deneysel sonuçlar, herhangi bir karmaşık ipucu veya harici araç kullanmadan, açık veri setlerinde GPT-3.5 ve GPT-4'ün ortalama doğruluk oranlarının sırasıyla %10.62 ve %16.81 olduğunu göstermektedir.

Daha sonra, CoT ve harici araçlar eklendikten sonra, aynı veri setindeki en yüksek doğruluk oranı yalnızca %35,8'dir. Ancak, öncekiyle karşılaştırıldığında, doğruluk oranı büyük ölçüde iyileştirildi.

Açık veri kümelerinde doğruluk sonuçları

CoT ipuçları + harici araçlar kullanan en güçlü yapılandırmada GPT-4, açık veri setinde ortalama %35,80 ve kapalı veri setinde %51,57'lik bir ortalama puan elde etti.

Bu sonuçlar, GPT-4'ün gelecekteki LLM'lerde önemli ölçüde gelişme potansiyeline sahip olduğunu göstermektedir.

Test veri setinde sıfır vuruşlu öğrenme altında toplam puanın deneysel sonuçları

LLM'lerin bilimsel problem çözmedeki sınırlamalarına dair kapsamlı bir anlayış kazanmak için araştırmacılar, LLM'ler tarafından verilen cevaplardaki yetersizlikleri keşfetmek için yeni bir "kendini geliştirme" yaklaşımı önermektedir.

Bu “Değerlendirme Sözleşmesi” aşağıdaki gibidir.

İlk olarak, doğru çözüm LLM'nin ürettiği çözümle karşılaştırılır ve insan anlatıcıların yardımıyla bilimsel problemleri başarılı bir şekilde çözmek için gerekli 10 temel beceri özetlenir.

Özellikle şunları içerir: mantıksal ayrıştırma ve analitik beceriler; hipotezleri belirleme; uzamsal algı; nedensel akıl yürütme; problem çıkarımı; soyut akıl yürütme; bilimsel okuryazarlık; kod değiştirme; mantıksal akıl yürütme; aritmetik.

Ekip daha sonra, her deneysel yapılandırma için temel LLM tarafından yapılan çözümlerde eksik olan becerileri otomatik olarak sınıflandırmak için LLM odaklı bir öz değerlendirme yaklaşımı kullandı.

GPT-3.5'in 6 ayar altındaki metin veri kümelerindeki hata profilleri, 10 temel problem çözme becerisindeki kusurların dağılımını ortaya koyuyor

Son olarak, analiz yoluyla şu bulundu:

(1) CoT, bilgi işlem gücünü önemli ölçüde artırsa da, diğer açılardan daha az etkilidir;

(2) Harici araçların kullanılmasından kaynaklanan ipuçları, diğer temel becerileri bozabilir;

(3) Birkaç adımda öğrenme genellikle bilimsel problem çözmeyi geliştirmez.

Kısacası, araştırma sonuçları, mevcut büyük ölçekli dil modellerinin problem çözme yeteneğinde hala zayıf olduğunu ve çeşitli araçlar yardımıyla hala sınırlamalar olduğunu göstermektedir.

Referanslar:

View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Reward
  • Comment
  • Share
Comment
0/400
No comments
Trade Crypto Anywhere Anytime
qrCode
Scan to download Gate app
Community
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)