ChatGPT, Turing testini geçti, yapay zeka teknolojisini değerlendirmenin yeni bir yolunu bulmanın zamanı geldi

**Kaynak:**AI Frontline

** yazar | Celeste Biever**

Çevirmen|Nucle-Cola

Planlama|Dongmei

Resim kaynağı: Unbounded AI aracı tarafından oluşturulmuştur, genel model (kağıt kesiği)

Büyük dil modelleri, mükemmel insan dili simülasyon yeteneklerine sahiptir, ancak bilim adamları hala çıkarım performansları konusunda bölünmüştür.

25 Temmuz'da "Nature", ChatGPT'nin Turing testini kırdığını ve yapay zeka teknolojisini değerlendirmek için diğer yeni yöntemlerin etkinleştirilmesinin zamanının geldiğini bir makalede belirtti.

Dünyanın en güçlü yapay zeka (AI) sistemi, zorlu sınavları geçebilir, ikna edici makaleler yazabilir ve sohbetlere sorunsuz bir şekilde katılabilir.Birçok insan, dil anlatımı açısından yapay zeka ile insanlar arasındaki farkı bile anlayamaz. Yapamayacakları bir şey var mı? Elbette var ve bunlar çok basit sorular.

Ekranda bir dizi parlak renkli grafik düzenlenmiştir ve çoğu kişi bu tür görsel mantık testlerinin yanıtını çabucak bulabilir. Ancak sohbet robotu ChatGPT'nin ve arama motoru Bing'in arkasındaki teknolojinin ışığı ve mevcut yapay zekanın en yüksek şaheseri olarak, GPT-4 açıkça istediğini yapamıyor. Bu yılın Mayıs ayında yapılan bir çalışma, GPT-4'ün bir tür model testinde zamanın yalnızca üçte birinde ve diğerinde yaklaşık %3 oranında doğru olduğunu gösterdi.

Mantık bulmacasının arkasındaki araştırma ekibi, testin yapay zeka sistemleri için daha iyi bir kıyaslama sağlayacağını ve GPT-4 gibi büyük dil modellerinin doğasında var olan eksikliklerin giderilmesine yardımcı olacağını umuyor. Özetlemek gerekirse: dil testinde, büyük dil modeli, bir zamanlar bir dönüm noktası olarak kabul edilen zeka başarısını kolayca tamamladı; ancak görsel mantık testinde performansları oldukça zayıf, bariz kör noktalar var ve bunlar temel alınamıyor. soyutlama üzerine Kavramlar çıkarımlarda bulunur.

New Mexico'daki Santa Fe Araştırma Enstitüsü'nde bilgisayar bilimcisi olan Melanie Mitchell, "Yapay zeka alanındaki uygulayıcılar, büyük dil modeli sistemlerini değerlendirme gibi zorlu bir sorunla boğuşuyor" diyor. Bu amaçla ekibi bu seti bir araya getirdi. mantıksal problemlerden

Son iki veya üç yılda, büyük dil modeli, çapraz çoklu görev yetenekleri açısından önceki AI sistemini tamamen ezdi. Çalışma prensipleri karmaşık değildir: Eğitim sırasında maruz kaldıkları milyarlarca çevrimiçi cümleye dayanarak, her kelime arasındaki istatistiksel ilişkiyi özetler ve ardından verilen bir giriş metni için makul bir sonraki kelimeyi üretirler. Büyük dil modelleri üzerine inşa edilen sohbet robotları için ek bir öğe eklenir: İnsan eğitmenler kapsamlı geri bildirim sağlar, böylece botun nasıl tepki vereceğine dair ince ayar yapar.

Otomatik tamamlamaya benzer özelliklere sahip bu kadar büyük insan dili derleminde eğitilen algoritmaların, çok çeşitli problem çözme yeteneklerini başarıyla gösterdiğini belirtmekte fayda var. Eski yapay zeka sistemleri belirli bir görevde büyük dil modellerini yenebilirken, ilkinin soruna özgü miktarlarda eğitilmesi gerekir ve bu yetenek bir görevden diğerine hızlı bir şekilde aktarılamaz.

Harvard Üniversitesi'nde bilişsel bir bilim insanı olan Tomer Ullman, genel olarak konuşursak, bu iki kamptaki araştırmacıların büyük dil modellerinin gizliden gizliye nasıl çalıştığı konusunda taban tabana zıt görüşlere sahip olduğunu söylüyor. Bazıları algoritmanın başarılarını gerçek muhakeme veya kavrayışa bağlar, ancak diğerleri (Ullman'ın kendisi ve yukarıdaki Mitchell gibi araştırmacılar dahil) daha temkinlidir.

Ullamn'a göre, "bu tartışmanın her iki tarafı da parlak ve üst düzey." Anlaşmazlığın temel nedeni, kendi görüşlerini destekleyecek somut kanıtların olmamasıdır. "Sonuçta, zeka ya da zekasızlık cevabını net bir şekilde verebilen bir Geiger sayacı gibi kararlı ve güvenilir bir akıllı dedektör yoktur."

Tartışmanın her iki tarafındaki araştırmacılar, insanlar ve yapay zeka sistemleri arasındaki yetenek farklarını ortaya çıkarmak için mantık soruları gibi testlere güvenmenin doğru yönde atılmış önemli bir adım olması gerektiğini söylüyor. New York Üniversitesi'nde bilişsel bilgi işlem bilimcisi olan Brenden Lake, bu tür kıyaslamaların günümüzün makine öğrenimi sistemlerinde eksik olan yetenekleri ortaya çıkarmaya ve insan zekasının tam olarak neyden yapıldığını netleştirmeye yardımcı olabileceğini söylüyor.

Ek olarak, bu büyük dil modelleri testi ve kıyaslama yeteneği araştırmasının başka pratik önemi vardır. Mitchell, büyük dil modellerini tıp ve hukuk gibi gerçek dünya senaryolarına uygulamak istiyorsanız, öncelikle yeteneklerinin sınırlarının nerede olduğunu netleştirmeniz gerektiğine dikkat çekti. "Güvenli bir şekilde nasıl kullanacağımıza karar vermeden önce ne yapıp ne yapamayacağını bulmalıyız."

Turing testi eskidi mi?

Makine zekasını test etme alanında en ünlü şema her zaman Turing testi olmuştur. Test, İngiliz matematikçi ve bilgisayar öncüsü Alan Turing tarafından 1950'de, bilgisayarlar emekleme dönemindeyken önerildi. Turing sözde "taklit oyun" için bir değerlendirme yöntemi önerdi.Bu senaryoda insan hakem, makineyi ve insanı doğru bir şekilde tanımlayıp tanımlayamayacağını görmek için bilgisayar ve ekranın arkasına gizlenmiş insanla kısa bir metin diyaloğuna giriyor. . Turing, bunun "Makinelerin düşünme yeteneği var mı?" Sorusuna cevap vermesi gerektiğine inanıyordu.

Mitchell, Turing'in senaryo hakkında çok fazla ayrıntı vermediğini, bu nedenle izlenecek kesin kuralların olmadığını belirtti. Google'da bir yazılım mühendisi olan François Chollet'e göre, "Turing testi aslında bir makinede çalıştırılabilecek somut bir test değil, daha çok bir düşünce deneyi."

Ancak, bir makinenin düşünme yeteneğine sahip olup olmadığını test etmek için dili kullanma görüşü, teknoloji alanında derinden kökleşmiş durumda. İşadamı ve hayırsever Hugh Loebner, onlarca yıldır Loebner Ödülü olarak bilinen yıllık Turing Testi etkinliğini finanse ediyor. Ancak bilgisayar bilimcisi Rob Wortham, kampanyanın 2019'dan sonra durdurulduğunu çünkü Loebner'ın kendi ölümünün ardından kampanya için sağlanan fonun tükendiğini söyledi. Wortham, 2014'ten beri Loebner adına yarışmaya ev sahipliği yapan Birleşik Krallık Yapay Zeka ve Davranışsal Simülasyon Araştırmaları Derneği'nin eş direktörüdür. Büyük dil modelinin artık temel olarak insanları aldatma yeteneğine sahip olduğunu açıkladı, bu nedenle Loebner Ödülü, oldukça kara bir mizah olan büyük dil modelinin tam kalkışının arifesinde durdurulmak zorunda kaldı.

Diğer araştırmacılar ayrıca GPT-4 gibi büyük dil modellerinin zaten Turing testini geçme yeteneğine sahip olduğuna inanıyor. En azından kısa konuşmalarda, çoğu insan için kimin insan kimin büyük model olduğunu söylemek muhtemelen zor. Mayıs ayında İsrail, Tel Aviv'deki AI21 laboratuvarındaki araştırmacılar, 1,5 milyondan fazla kişinin Turing testine dayalı bir çevrimiçi oyun oynadığını bildirdi. Kullanıcılar, başka bir kullanıcıyla veya araştırmacılardan gelen yönlendirmelere göre gerçek bir kişi kılığına giren büyük bir dil modeliyle iki dakikalık bir sohbete girecek. Oyuncunun robotu doğru bir şekilde tanımlama olasılığı yalnızca %60'tır, bu da neredeyse tamamen rastgele tahmin3 ile aynıdır.

Bununla birlikte, büyük dil modellerine daha aşina olan araştırmacılar, yine de çeşitli ayrıntılardan chatbot'ları ayırt edebilir. Chollet, sadece sistemin bilinen zayıflıklarından yararlanarak kimin büyük bir dil modeli olduğunu tespit etmenin kolay olduğunu bulduğunu kaydetti. "Büyük bir dil modeliyle konuşup konuşmadığımı görmek için kendimi teste tabi tutsaydım, kesinlikle doğru yanıtı alırdım."

Anahtar, büyük dil modelinin rahatlık alanından çıkmasına izin vermektir. Onun hilesi, ortak eğitim senaryolarından farklılaşan senaryoları büyük dil modeline önermek. Çoğu durumda, büyük dil modeli, yeni sahneye göre gerçekten doğru cevabı vermek yerine, eğitim verilerine dayalı olarak en olası kelimeyi çıkarıyor.

Ayrıca Chollet ve diğerleri, aldatıcı performansa dayalı bu test yöntemine şüpheyle yaklaşıyor. "Bu açıkça insan hakemleri aldatmak için var." Bu tür testler yalnızca geliştiricileri yapay zekaya daha fazla kamuflaj becerisi aşılamaya teşvik edecek ve daha yararlı veya ilginç işlevlere ilham vermeyecektir.

Kıyaslamalar güvenilir değil

Araştırmacılar, yapay zeka sistemlerini genellikle dil, sağduyulu muhakeme ve matematik gibi belirli yetenekleri değerlendiren kıyaslamalarla değerlendiriyor ve teknoloji ekipleri, insanlar için tasarlanmış akademik ve profesyonel sınavları giderek daha fazla benimsiyor.

GPT-4 Mart ayında ilk kez piyasaya sürüldüğünde, San Francisco, Kaliforniya merkezli OpenAI şirketi, yeni modelin performansını makineler için tasarlanmış okuduğunu anlama, matematik ve kodlama dahil olmak üzere bir dizi kıyaslamada değerlendirdi. OpenAI tarafından bildirildiği üzere, GPT-4 çoğu testte4 iyi performans gösterdi. Ayrıca GPT-4 için yaklaşık 30 sınav belirlediler: Amerikan lise öğrencileri için Gelişmiş Yerleştirme olarak bilinen çeşitli sınavlar, Amerikalı doktorların klinik bilgilerini değerlendiren bir sınav ve Amerikan mezunları için seçim sürecinde kullanılan kriterler öğrenci testi (GRE). GPT-4, Tek Tip Bar Sınavında (birçok ABD eyaletinde baro sınavına dahildir) ilk %10'a girmeyi başardı.

AI Sistem Performansı - Sonuçlardan Alıntı

Kaynak: OpenAI/ Referans 4

Buradaki sıralama yüzdesi, tüm denekler arasında bu puanı almış insan adaylarının konumudur.

Mitchell, "pek çok dil modelinin bu ölçütlerde başarılı olduğunu kabul ediyor. Ancak çoğu durumda bu, genel yetenek olarak insanlardan daha iyi performans gösterdiklerini göstermek için yeterli değil, aksine ölçütün kendisinde bir sınırlama olduğunu gösteriyor." Model büyük miktarda metin materyali üzerinde eğitildiğinden, eğitim verilerinde benzer problemlerin görülmesi muhtemeldir. Bu durumda çıkarılan kıyaslama sonuçlarına "kirlilik" denir ve açıkça inandırıcı değildir.

OpenAI, problemde ve eğitim verilerinde benzer diziler arayarak bunu kontrol ettiklerini söylüyor. Benzer dizileri kaldırmadan önce ve sonra büyük dil modellerini test etmek, performansta çok az değişiklik gösterir. Bu, aşırı yüksek puanların kirlilikle hiçbir ilgisi olmadığını öne sürdü, ancak bazı araştırmacılar testin yeterince titiz olup olmadığını sorguladı.

Sam Bowman, New York Üniversitesi'nde dil teknolojisi bilimcisi ve aynı zamanda San Francisco'daki bir yapay zeka şirketi olan Anthropic'te çalışıyor. "Benzer sorunları görmenin" ve GPT-4'ün yeteneğini reddetmenin bir sonucu olarak GPT-4 test puanlarını basitçe almaması konusunda uyardı. Ona göre, "kirlilik konuşması durumu biraz karmaşıklaştırıyor, ancak bunun büyük resmi gerçekten etkilediğini düşünmüyorum."

Araştırmacılar ayrıca, büyük dil modellerinin sınavlarda yüksek puan alma yeteneğinin de nispeten kırılgan olduğuna ve gerçek dünyada doğru kararlar verme yeteneğine dönüştürülemeyebileceğine dikkat çekti. Mitchell'e göre, sınav sorularında yapılacak ufak bir değişiklik, büyük modelleri kabul edilemez hale getirebilir. Örneğin, ChatGPT'nin geçtiği bir MBA sınavından bir soru aldı ve onu biraz değiştirdi.İnsanlar cevabı değişikliğe göre kolayca ayarlayabilirdi, ancak ChatGPT sefil bir şekilde başarısız oldu.

Kıyaslamanın sonuçlarının deşifre edilmesi söz konusu olduğunda daha derin başka bir sorun daha vardır. İnsanlar için, bu testlerdeki yüksek puanlar genellikle güçlü bir zeka seviyesini temsil eder - aslında zeka seviyesinin kendisi de belirsiz bir kavramdır ve esas olarak bir dizi görevde gösterilen farklı ortamlara uyum sağlama becerisine yansır. Başka bir deyişle, bir testten alınan yüksek puan, kişinin iyi bilişsel yeteneklere sahip olduğunu ve bazı soyut kavramlara hakim olduğunu gösterir. Ancak bu, büyük dil modelleri için geçerli değildir. Büyük modellerin yargılama yönteminin insanlardan çok farklı olduğunu vurgulayan Mitchell, "Çoğu durumda yapay zeka sistemleri, insanların alışık olduğu şekilde akıl yürütme yapmıyor."

Bunun nedeni, büyük dil modellerinin yalnızca dil deneyiminden öğrenebilmesi olabilir; gerçek dünyayla bağlantı kuracak kanalların olmaması nedeniyle, insanlar gibi dil ile nesneler, nitelikler ve duygular arasındaki bağlantıyı deneyimleyemezler. Lake, "Kelimeleri insanlar gibi anlamadıkları açık. Ona göre, mevcut kanıtlar, büyük dil modellerinin "ne söylediklerini gerçekten anlamadan dili çok akıcı bir şekilde kullanabildiklerini" gösteriyor.

Öte yandan, büyük dil modelleri, insanların yazdığı hemen hemen her kelime arasındaki bağlantıyı anlamak gibi insanlarda olmayan bazı yetenekleri de göstermiştir. Mitchell bunun, modelin daha geniş muhakeme yeteneğini kavramaya ihtiyaç duymadan sorunu çözmek için dilin belirli özelliklerine veya diğer göstergelere dayandığı anlamına gelebileceğini söyledi.

OpenAI'de araştırmacı olan Nick Ryder, yapay zekanın tek bir testteki performansının insan denekler gibi genel yeteneğini kanıtlamak için yeterli olmadığını söyleyerek bu yargıya katılıyor. "İnsanların doğrudan insan puanlarını büyük dil modellerinin puanlarıyla karşılaştırması gerektiğini düşünmüyorum." OpenAI tarafından yayınlanan puanlar, "büyük dil modellerinin insan benzeri yeteneğini veya insan benzeri muhakeme düzeyini tanımlamıyor, sadece şunu gösteriyor: bu modeller iyi performans gösteriyor. bu görevlerde performans."

Araştırmacılar, geleneksel makine kıyaslamalarına ve profesyonel insan sınavlarına ek olarak, büyük dil modellerini de daha kapsamlı bir şekilde araştırdılar. Bu yılın Mart ayında, Microsoft Research'ten Sébastien Bubeck ve meslektaşları, sektörde hararetli tartışmalara neden olan "Spark of General Yapay Zeka: GPT-4 Erken Deneyler" başlıklı önceden yayınlanan 5. sürümü yayınladı. GPT-4'ün erken bir sürümünü kullanarak, çoğu doğrudan veya açıkça dille bağlantılı olmayan şaşırtıcı bir dizi özelliği belgelediler. Dikkate değer bir özelliği de psikolojik teorileri değerlendirmek için kullanılan testleri geçmesidir. Psikolojik teori, başkalarının zihinsel durumlarını tahmin etme ve akıl yürütme konusunda temel bir insan yeteneğidir. Gazetede, "GPT-4'ün yeteneklerinin genişliği ve derinliği göz önüne alındığında, onun zaten bir yapay genel zeka (AGI) sisteminin erken (ancak henüz mükemmel olmayan) bir versiyonunu temsil ettiğine inanmak için nedenlerimiz var" diye yazdılar.

Ancak Bubeck daha sonra, "GPT-4'ün kesinlikle bir insan gibi düşünmediğini ve sergilediği herhangi bir işlevi yerine getirmenin kendine özgü ve farklı bir yolu olduğunu" vurgulayarak konuyu netleştirdi.

Mitchell, raporun oldukça radikal olmasına rağmen, büyük dil modellerinin yeteneklerini sistematik olarak keşfetmediğine inanıyor. "Bu daha çok antropolojik bir çalışma gibi." Ullman ayrıca, makinelerin psikolojik teorilerde ustalaşabileceğini kanıtlamak için, aynı cevabı vermesi için makineye güvenmek yerine, en azından ilgili temel bilişsel sürecin kanıtını vermeleri gerektiğini söyledi. kaba bir iddia.

Yapay zeka araştırmacıları, büyük dil modellerinin güçlü ve zayıf yönlerini anlamak için daha geniş ve daha titiz bir incelemenin gerekli olduğuna inanıyor. Renk mantığı sorunu bunun önemli bir parçası olabilir.

Taze Bulmacalar

2019'da, büyük dil modellerinin patlamasından hemen önce Chollet, İnternet'teki AI sistemleri için özel olarak derlenmiş, Abstract and Reasoning Corpus (ARC) adlı yeni bir mantıksal test seti seti yayınladı. Çözücüye, birkaç kare ızgaranın başka bir kalıba dönüştüğü ve bir sonraki ızgaraya değişimin kurallarını anladıklarını göstermek için nasıl değişeceğini öğreten görsel bir gösteri sunulur. Bu kalıp bulma yeteneğinin zekanın özü olduğuna inanan Chollet, "Bu, daha önce görmediğimiz şeylere uyum sağlama yeteneğimizin bir testi" diyor.

Lake'e göre ARC, "insan zekasının alamet-i farikasını" yakalar: gündelik bilgilerden soyutlama ve onu daha önce hiç görülmemiş sorunlara uygulama.

Chollet, büyük dil modelleri yaygın bir ilgi görmeden önce 2020'de bir ARC robotik yarışması düzenledi. Kazanan AI sistemi, ARC gibi görevlerde iyi olmak için özel olarak eğitildi. Ancak büyük dil modelinden farklı olarak genel bir işlevi yoktur ve soruların yalnızca %21'ini doğru yanıtlamıştır. Karşılaştırıldığında, insanlar ARC problemlerini zamanın %80'inde doğru bir şekilde çözmektedir7. Birden fazla araştırma ekibi şu anda büyük dil modellerinin yeteneklerini test etmek için ARC kullanıyor ve hiçbiri insan performansına yaklaşamadı.

Mitchell ve meslektaşları, iki ana farkla ARC'den ilham alan yeni bir bulmaca seti (ConceptARC olarak adlandırılır) geliştirdi. ConceptARC daha da kolay: Mitchell'in ekibi, kıyaslamaların makine yeteneklerindeki ilerlemeleri çok az da olsa yansıtmasını istedi. İkinci olarak, ekip test etmek için belirli konseptler seçti ve ardından her konsept etrafında temayla ilgili bir dizi bulmaca varyasyonu oluşturdu.

Örneğin, özdeşlik kavramını test etmek için bir problem, çözücünün aynı şekle sahip nesneleri yerinde tutmasını gerektirir ve başka bir problem, çözücünün aynı şekle sahip nesneleri bir eksen boyunca hizalamasını gerektirir. Buradaki fikir, bir AI sisteminin konsepti kavramadan bir testi geçme şansını azaltmaktır.

Düşük performans ne anlama geliyor?

Araştırmacılar, ConceptARC görevini GPT-4'e yayınladı ve 400 kişiyi işe aldı. İnsanlar, tüm kavram gruplarında ortalama %91 (en yüksek puan alan grup için %97), en yüksek puan alan GPT-4 grubu için %33 ve geri kalan kavram grupları için en fazla %30 puan aldı.

Mitchell, "Makinenin hâlâ insan seviyesindeki zekanın gerisinde olduğunu gösterdik. Ancak şaşırtıcı bir şekilde, bu sorunların bazılarını hiç eğitim almamış olmasına rağmen çözebildi."

Ekip ayrıca, büyük dil modelleri gibi genel yetenekli sistemler olmayan ancak ARC gibi görme sorunları için özel olarak eğitilmiş Chollet yarışmasını kazanan robotları da test etti. Genel olarak, GPT-4'ten daha iyi performans gösterdiler, ancak yine de en iyi kavram grubunda %77, çoğu kavram grubunda %60'ın altında puan alarak insanlardan daha düşük performans gösterdiler1.

Ancak Bowman, GPT-4'ün ConceptARC eğitimini geçememesinin, potansiyel soyut akıl yürütme yeteneklerinden yoksun olduğunu kanıtlamadığına inanıyor. Ona göre ConceptARC ile sonuçta görsel bir test olan GPT-4 arasında bir önyargı var. "Bu modeller bu tür kavramsal akıl yürütmede gerçekten iyi olsalar bile, ilk seferde bu tür testlerde iyi puan almaları pek olası değil."

Test yönteminin sınırlaması, GPT-4'ün düşük performansını etkileyen faktör olabilir. Büyük Dil Modeli'nin genel sürümü yalnızca metin girişini kabul edebilir, bu nedenle araştırmacılar görüntüleri açıklayan sayı dizileri gönderdiler. (Örneğin, boş bir piksel 0 ile temsil edilebilir ve renkli bir kare, karşılık gelen bir sayı ile temsil edilebilir.) Buna karşılık, insan denekler görüntüyü doğrudan görebildi. Mitchell ayrıca, "Saf bir dil sistemini bir insanla karşılaştırıyoruz ve insanların oldukça gelişmiş bir görsel sistemi var, bu yüzden korkarım ki karşılaştırma tamamen adil değil" diyor.

OpenAI, doğrudan görüntü girişini kabul edebilen GPT-4'ün "çok modlu" bir sürümünü oluşturmuştur. Mitchell'in ekibi, bir ConceptARC turu daha yapabilmek için teknolojinin resmi olarak açıklanmasını bekliyor. Ancak multimodal GPT-4'ün çok daha iyi olduğunu düşünmüyor: "Bu sistemlerin hala insanlarla karşılaştırılabilecek düzeyde soyutlama ve akıl yürütmeye sahip olduğunu düşünmüyorum."

Massachusetts Institute of Technology'de hesaplamalı bir bilişsel bilim insanı olan Sam Acquaviva da aynı fikirde ve model grid8 yerine tek satırla sınırlı. Bu, bazı adaletsizlik sorunlarını ortadan kaldırmalıdır, ancak Acquaviva, GPT-4'ün performansının iyileşmesine rağmen, bunun büyük dil modelleri için güvenilir kural anlayışı ve muhakeme göstermenin de yeterli olmadığını görmektedir.

muhakeme argümanı

Bowman ayrıca başka deneylerden de bahsetti: Kapsamlı sonuçlara göre, büyük dil modeli en azından soyut kavramlar hakkında temel akıl yürütme becerisine hakim oldu. Bir durumda, Harvard bilgisayar bilimcisi Kenneth Li ve meslektaşları, oyuncuların 8 x 8'lik bir ızgaraya siyah ve beyaz parçaları yerleştirdiği Reversi'nin dijital bir versiyonunu kullandılar. Büyük dil modellerinin metin oluşturmak için ezberlenmiş dilbilimsel istatistiksel ilişkilere mi dayandığını yoksa insanlar gibi fenomenlerin dahili temsillerini gerçekten oluşturup oluşturamayacaklarını değerlendirmeyi umuyorlar.

İnsan oyuncuların eylemlerinden oluşan bir eğitim setini büyük dil modeline gönderdikten sonra, yapay zeka bir sonraki hamle için doğru stratejiyi seçme becerisinde hızla ustalaştı. Araştırmacılar bunun, büyük dil modelinin satranç tahtasındaki durumu bile anlayabildiğini gösterdiğine inanıyor ve metin formunun9 açıkça prangalarını kıran mevcut özelliklere dayalı olarak satranç hamleleri için önerilerde bulunuyor.

Bowman, büyük dil modellerinin muhakeme yeteneğinin genel olarak "çeşitli" olarak tanımlanabileceğini ve insan muhakemesinin zirvesine ulaşmadığını kabul ediyor. Ancak muhakeme yeteneğinin var olduğunu ve model boyutuyla birlikte geliştiğini düşünüyor. Başka bir deyişle, gelecekteki büyük dil modelleri daha iyi ve daha iyi performans gösterecektir. "Bu sistemler, olmasını istediğimiz kadar güvenilir veya genel değiller ve belirli soyut akıl yürütme türleri konusunda tamamen kafaları karışmış durumda. Ancak, temel akıl yürütme yeteneklerinin nesnel olarak var olduğunu düşünüyorum."

Bowman ve Mitchell gibi araştırmacılar da, büyük dil modellerinin soyut akıl yürütme ve diğer zeka göstergeleri için nasıl daha iyi test edileceğinin açık bir soru olduğu konusunda hemfikir. Stanford Üniversitesi'nde bilişsel bir bilim insanı olan Michael Frank, Turing testinin yerini tamamen doldurabilecek her şeyi kapsayan tek bir test olmadığına inanıyor. Bunun yerine, araştırmacıların çeşitli sistemlerin güçlü ve zayıf yönlerini ölçmek için kapsamlı testler tasarlamaları gerektiğini savunuyor. "Bu ajanlar harika, pek çok yönden kusurlular, bu yüzden en önemli şey bunu sistematik olarak keşfetmek."

Wortham, AI sistemlerinde yeni olanlara antropomorfizm saplantısından uzak durmalarını tavsiye ediyor. "İnsan olarak zeka gösteren her şeyi her zaman anlamaya çalışıyoruz ki bu gerçekten gereksiz."

"Hatta lanetli, yani bizimkinden başka net bir hedef yönelimi sergileyen herhangi bir zeka biçimini hayal edemiyoruz. Her zaman onun da bizim yaptığımız gibi aynı derin düşünme biçimiyle bunu yapmasını arzuluyoruz."

Referanslar:

Moskvichev, A., Odouard, VV & Mitchell, M. Preprint at (2023).

Turing, AM Mind LIX, 433–460 (1950).

Makale Google Akademik

Jannai , D. , Meron , A. , Lenz , B. , Levine , Y. & Shoham , Y. Preprint at (2023).

AI'yı açın. (2023)'de ön baskı.

Bubeck, S. ve ark. (2023)'de ön baskı.

Chollet, F. Ön Baskı at (2019).

Johnson, A., Vong, WK, Lake, BM & Gureckis, TM Ön Baskı (2021).

Xu, Y., Li, W., Vaezipoor, P., Sanner. S. & Khalil, EB Ön Baskı at (2023).

Li, K. ve ark. İşlem Onbirinci Uluslararası Konf. Öğrenmek. Temsil etmek. (2023).

Orijinal Bağlantı:

View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Reward
  • Comment
  • Share
Comment
0/400
No comments
Trade Crypto Anywhere Anytime
qrCode
Scan to download Gate app
Community
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)