GPT-4 bunun yanlış olduğunu bilmiyor! LLM'nin yeni kusurları ortaya çıktı ve kendi kendini düzeltme başarı oranı sadece %1 idi ve LeCun Marcus, ne kadar çok düzeltirse o kadar çok yanlış olduğunu haykırdı

2023-10-22 05:30:11

GPT-4 bir hata yaptığını bilmiyor mu? Son araştırmalar, akıl yürütme görevindeki LLM'nin, kendi kendini düzelttikten sonra, performans bozulmasını kurtaramadığını ve AI patronu LeCun Marcus'un izlemesine yol açtığını buldu.

Orijinal kaynak: Shin Ji Yuan

Görüntü kaynağı: Sınırsız AI tarafından oluşturuldu

Büyük model, aynı anda LeCun ve Marcus'un dikkatini çeken büyük kusurlara maruz kaldı!

Çıkarım deneyinde, doğruluğu artırdığını iddia eden model kendi kendini düzeltti, doğruluk oranını %16'dan %1'e "iyileştirdi"!

Basitçe söylemek gerekirse, LLM, kendi kendini düzeltme sürecinde doğru cevabı zaten bilmediği sürece, çıkarım görevleri biçiminde kendi kendini düzeltme şeklinde çıktıyı iyileştiremez.

ASU araştırmacıları tarafından yayınlanan iki makale, önceki birçok çalışma tarafından önerilen "kendi kendini düzeltme" yöntemini çürütüyor - büyük modellerin çıktı sonuçlarını kendi kendine düzeltmesine izin vermek, modelin çıktısının kalitesini artırabilir.

Bildiri Adresi:

Makalenin ortak yazarı Profesör Subbarao Kambhampati, kendini yapay zeka akıl yürütme yeteneği araştırmasına adamıştır ve Eylül ayında GPT-4'ün akıl yürütme ve planlama yeteneğini tamamen reddeden bir makale yayınladı.

Bildiri Adresi:

Bu profesöre ek olarak, DeepMind ve UIUC Üniversitesi'ndeki son araştırmacılar da LLM'nin akıl yürütme görevlerinde "kendi kendini düzeltme" yeteneğini sorguladılar.

Makale, ilgili araştırmayı yapan tüm akademisyenleri araştırmanızı ciddiye almaya ve büyük modele doğru cevabı söylememeye ve ardından sözde "kendi kendini düzeltme" yapmasına izin vermeye çağırıyor.

Çünkü model doğru cevabı bilmiyorsa, model "kendi kendini düzelttikten" sonra çıktı kalitesi bozulacaktır.

Şimdi, bu son iki makaleye bir göz atalım.

GPT-4 "kendi kendini düzeltiyor", çıktı daha kötü

İlk makale GPT-4'e odaklandı, GPT-4'ten grafik gölgeleme sorununa bir çözüm sunmasını istedi ve ardından GPT-4'ün kendi çözümünü "kendi kendini düzeltmesini" sağladı.

Aynı zamanda yazarlar, GPT-4'ün doğrudan çıktısını ve "kendi kendini düzeltme" döngüsünden sonra çıktıyı değerlendirmek için bir dış değerlendirme sistemi tanıttı.

Deneysel sonuçlar, GPT-4'ün renk tahmininde %20'den daha az doğru olduğunu gösteriyor ki bu şaşırtıcı görünmüyor.

Ancak şaşırtıcı bir şekilde, "kendi kendini düzeltme" modundaki doğruluk önemli ölçüde düştü (aşağıdaki ikinci çubuk) – tüm kendi kendini düzeltme niyetlerinin tamamen aksine!

Yazarlara göre, görünüşte mantığa aykırı olan bu durum şu şekilde açıklanabilir: GPT-4 ayrıca doğru cevapları doğrulama konusunda korkunç bir iş çıkarıyor!

Çünkü GPT-4 yanlışlıkla doğru rengi tahmin ettiğinde bile, "kendi kendini düzeltmesi" doğru cevabın sorunlu olduğunu düşünmesine ve ardından doğru cevabı değiştirmesine neden olacaktır.

Daha fazla araştırma, GPT-4'ün, harici bir doğrulayıcının tahmin ettiği renge doğrulanabilir şekilde doğru bir yanıt vermesi durumunda çözümünü gerçekten iyileştireceğini de buldu.

Bu durumda, "kendi kendini düzeltme" tarafından oluşturulan istem, çıktının kalitesini gerçekten artırabilir (yukarıdaki şeklin 3-5. çubukları)

Özetle, "renklendirme problemi" görevi için GPT-4'ün bağımsız "kendi kendini düzeltmesi" çıktının performansını bozacaktır, çünkü GPT-4 cevabın doğru olduğunu doğrulayamaz.

Bununla birlikte, doğru harici doğrulama süreci sağlanırsa, GPT-4 tarafından oluşturulan "kendi kendini düzeltme" gerçekten performansı artırabilir.

Başka bir makale, büyük dil modellerinin planlama görevleri perspektifinden "kendi kendini düzeltme" yeteneğine baktı ve sonuçlar önceki makaleye benzerdi.

Dahası, araştırmacılar, çıktının doğruluğunu gerçekten artıran şeyin LLM'nin "kendi kendini düzeltmesi" değil, harici bir bağımsız doğrulayıcıdan gelen geri bildirim olduğunu buldular.

Son tahlilde, LLM'nin bağımsız doğrulama yapmanın bir yolu yoktur ve etkili bir şekilde "kendi kendini düzeltmek" için harici bir doğrulayıcı tarafından verilen "doğru cevaba" güvenmek zorundadır.

"Boyama Soruları" kötü performans gösterdi ve LLM doğru cevapları bağımsız olarak doğrulayamadı

Araştırma Tasarım Çerçevesi

"Renklendirme problemi" çok klasik bir akıl yürütme problemidir, zor olmasa bile, cevaplar yeterince çeşitlidir ve cevapların doğruluğunun doğrulanması kolaydır.

Çeşitliliğin sonuçları, LLM'nin tüm eğitim verilerini kapsamayı zorlaştırır ve LLM eğitim verilerinin kirlenme olasılığı mümkün olduğunca önlenir.

Bu nedenler, "renklendirme problemini" LLM'nin akıl yürütme yeteneğini incelemek için çok uygun hale getirir ve ayrıca LLM'nin akıl yürütmede "kendi kendini düzeltme" yeteneğini incelemek de uygundur.

Araştırmacılar, yaygın grafik manipülasyonlarını ele almak için GrinPy2'yi kullanarak kendi veri kümelerini oluşturdular. Her grafik Erdés-Rényi yöntemi (̋p = 0.4) kullanılarak oluşturulur.

Doğru cevap bulunduğunda, önceden hesaplanmış kromatik numarasını içeren bir yorumla standart DIMACS formatında derlenir.

Bir sonraki deney için araştırmacılar, her biri ortalama 24 kenara sahip, 10 ila 17 arasında bir düğüm aralığına dağıtılmış 100 örnek oluşturdular - deneyimlerle yeterince değişken bir aralık olduğu gösterilen bir dağılım.

Araştırmacılar tarafından kullanılan diyagram, LLM'nin ilk yanıtını, yanıtın geri istemini ve son doğru renk şemasını içeren aşağıdaki Şekil 1'de gösterilmektedir.

### Yinelemeli Yedekleme Mimarisi

İstem Oluşturucu:

Bu istem oluşturucu bir DIMACS örneğini alır, her kenarı bir cümleye çevirir ve ardından bir doğal dil istemi oluşturmak için bütünü bir dizi genel talimatla sarar.

Araştırmacılar, araştırmacıların LLM'ye sızdırdığı soruna özgü bilgileri azaltmak için farklı örnek istemleri arasındaki farkları kasıtlı olarak daralttılar. Çeşitli istem örneklerinin örnekleri ekte bulunabilir.

Büyük Dil Modelleri:

GPT-4, şu anda en gelişmiş model olan OpenAI API aracılığıyla çağrılır.

Araştırmacılar bir sistem rolü sağlar: "Çeşitli CSP'leri (kısıtlama memnuniyeti problemleri) çözen bir kısıtlama memnuniyeti çözücüsünüz".

Geri Nesil

Kimlik doğrulama modunda, LLM farklı türde bir istem alır.

Standart talimatlara ek olarak, yalnızca diyagramın bir açıklamasını ve önerilen bir renklendirme şemasını içerir. Görevi, doğruluğu, optimalliği ve her köşenin bir renge boyandığını doğrulamaktır.

Ortaya çıkan yanıtın çelişkili bir dizi kenarı varsa, renklendirme şeması yanlıştır.

Her noktayı karşılaştırmak için, araştırmacılar ayrıca her bir çelişkili kenarı listeleyen bir doğrulayıcı oluşturdular.

LLM'nin yanıtları da doğal dil biçiminde olduğundan, araştırmacılar önce bunları analiz edilmesi kolay bir formata çevirdiler. Bu süreci daha tutarlı hale getirmek için araştırmacılar, bir modelin izlemesi gereken kesin çıktı biçimini tanımlamak için ilk ipuçlarını tasarladılar. Yanıt daha sonra doğruluk açısından değerlendirilir.

LLM doğrulama sonuçlarını değerlendirmek için araştırmacılar, önerilen gölgeleme şemasındaki hataları belirlemede ne kadar iyi performans gösterdiklerini inceler.

Sezgisel olarak, bunların tanımlanması kolay olmalıdır: bir kenarı oluşturan iki köşe bir rengi paylaşıyorsa, hemen o kenara geri dönün. Algoritmik bir bakış açısından, tüm kenarları tespit etmek ve her bir köşenin rengini bağlı olduğu noktanın rengiyle karşılaştırmak yeterlidir.

Doğrulama

LLM'nin doğrulama yeteneklerini daha iyi anlamak için araştırmacılar, önerilen renklendirme şemasındaki hataları belirlemedeki performanslarını incelediler.

Sezgisel olarak, bu hataların tanımlanması kolay olmalıdır: bir kenarı oluşturan iki köşe bir rengi paylaşıyorsa, kenar hemen döndürülür. Algoritmik bir bakış açısından, yapılması gereken tek şey tüm kenarları yinelemek ve her bir köşenin rengini karşılık gelen tepe noktasının rengiyle karşılaştırmaktır.

Araştırmacılar aynı analiz sürecini kullandılar, ancak araştırmacıların color_verification adını verdikleri yeni bir alan oluşturdular. LLM, gölgelemenin doğruluğunu, optimalliği ve her bir köşeye bir renk atanıp atanmadığını kontrol etmek için yönlendirilir.

Gölgelendirme yanlışsa, gölgelemedeki hataları listelemesi talimatı verilir, yani iki bağlı düğüm bir rengi paylaşıyorsa, hatayı temsil etmek için bu kenar döndürülür. Sırt verilmez.

Araştırmacılar daha önce olduğu gibi aynı grafik örneğini kullandılar, ancak modeli test etmek için dört gölgeleme şeması oluşturdular:

Doğru: Yinelemeli, rastgele açgözlü bir algoritma (optimalliği sağlamak için önceden hesaplanmış sayıda renk kullanılarak) tarafından oluşturulan hatasız bir optimum gölgeleme şeması.

Ablated: Rastgele bir düğümün rengini, önceki bir gölgelendirme şemaları kümesinden komşularına değiştirir.

Optimal olmayan: Doğru sette, bir renk parçası rastgele seçilir ve yeni bir tonda yeniden renklendirilir.

Rastgele: Tamamen rastgele atanmış renkler, farklı renklerin sayısı şeklin renk sayısına eşittir.

LLM: Önceki deneylerden LLM tarafından oluşturulan çıktıdan rastgele seçilmiş bir renklendirme şeması.

Sonuç

LLM istenir, cevaplar değerlendirilir ve bir sonraki örnek herhangi bir geri dönüş olmadan devam ettirilir, bu da %16'lık bir temel puanla sonuçlanır.

Araştırmacılar aynı örneği çalıştırdıklarında, ancak bu sefer doğrulayıcı olarak hareket eden aynı dil modeli tarafından oluşturulan geri bildirimi kullanarak istemi döndürdüklerinde, performans önemli ölçüde düştü - 100 örnekten yalnızca biri doğru yanıtı aldı.

Harici olarak nitelikli bir doğrulayıcı ile geri dönüş isteminin sonuçları ilk başta daha etkili görünebilir.

Doğru yanıt örneklerinin sayısı yüzde 40'a yakındır, ancak bu, GPT-4'ün geri bildirime dayalı olarak dinlediği, iyileştirdiği ve akıl yürüttüğü anlamına geliyorsa, araştırmacılar daha doğru geri dönüş istemlerinden daha iyi sonuçlar beklerler.

Bununla birlikte, bu alanda, ham fraksiyon (yukarıdaki Şekil 2'ye bakınız) bunu kanıtlamaz.

LLM Doğrulama Yeteneği

Araştırmacılar, GPT-4'ün aynı örnekte grafik gölgeleme şemalarını doğrulama yeteneğini test etti ve her örnek için beş farklı türde gölgeleme şeması oluşturdu.

Bariz sonuç, yukarıdaki LLM kendi kendini düzeltme sonucuyla tamamen aynıdır: model, herhangi bir cevabı doğru olarak işaretlemek konusunda neredeyse isteksizdir. 100 optimal gölgeleme şemasından sadece 2'sinin doğru olduğunu kabul eder.

118'i doğru olan 500 renklendirme şemasından oluşan koleksiyonun tamamından sadece 30'unun doğru olduğunu iddia ediyor. Bu 30 kişiden sadece 5'i doğruydu.

Genel olarak, bu model aynı kalır. Vakaların% 10'undan daha azında, LLM "doğru", "optimal olmayan" veya "eksik atama" yanıtı verdi. Bu durumlarda, davranış biraz rastgele görünür.

Örneklerin yaklaşık dörtte birinde, yorum gerçeğe karşılık gelirken "bu yanlış" bir doğrulama ile yanıt verir ve bunu yalnızca birden fazla tarafı belirtmeyerek yapar ve bir şeyi yanlış ifade etme olasılığını en aza indirir.

Sonuçlar yukarıdaki Tablo 2'de gösterilmiştir. Etki alanının hata oranı arttıkça halüsinasyon oranının azaldığını unutmayın. Yani, daha fazla yanlış kenar olduğunda, modelin bir şeylerin nerede yanlış gittiğini gösterme olasılığı daha yüksektir.

LLM özeleştirisi, performans artmıyor ama düşüyor

Ayın 12'sinde sunulan makalede yazarlar da yukarıdakiyle aynı sonuca varmışlardır.

İster planlama, ister basit aritmetik veya mantık olsun, mevcut son teknoloji ürünü büyük model GPT-4 tam olarak yetkin değil.

Birçok araştırmacı, LLM'nin kendi kendini yinelemeyi, kendini doğrulamayı ve performansı artırmak için diğer stratejileri öğrenmesine izin vermek de dahil olmak üzere araştırdı ve geliştirdi.

Sonuç olarak, sektördeki insanlar büyük modelin hala kurtarılabileceği konusunda iyimser!

Bununla birlikte, klasik anlamda çıkarım görevinin karmaşıklığının büyük modelle hiçbir ilgisi yoktur, çünkü LLM, kesin akıl yürütmeden ziyade yaklaşık geri alma kullanan bir modeldir.

Ayın 12'sinde arXiv tarafından sunulan bir makalede, ASU araştırmacıları, LLM'nin planlama görevlerinde ve yinelemeli optimizasyonda özeleştiri yapma yeteneğini sistematik olarak değerlendirdi ve analiz etti.

Çalışmada yazarlar, jeneratör LLM ve doğrulayıcı LLM'yi içeren bir planlama sistemi önermektedir.

Bunlar arasında GPT-4 oluşturucu, aday planların oluşturulmasından sorumludur ve GPT-4 doğrulayıcı, planın doğruluğunu doğrulamaktan ve geri bildirim sağlamaktan sorumludur.

Araştırmacılar daha sonra Blocksworld planlaması alanında deneyler yaptılar ve aşağıdakilerin ampirik değerlendirmelerini yaptılar:

Öz eleştirinin tüm LLM + LLM sisteminin planlı üretim performansı üzerindeki etkisi
Doğrulayıcı LLM'nin temel doğruluk doğrulamasına göre performansı;
LLM üretimini eleştirirken, aynı geri bildirim seviyesi genel sistem performansını etkiler.

Sonuçlar, özeleştirinin, harici bir güvenilir doğrulayıcı kullanmaya kıyasla LLM planlama oluşturma performansını azalttığını göstermektedir.

Performans düşüşü, doğrudan, sistemin güvenilirliğini ciddi şekilde bozabilecek çok sayıda yanlış pozitif üreten doğrulayıcı LLM'nin kötü sonuçlarına bağlanabilir.

Doğrulayıcı LLM'nin ikili sınıflandırma doğruluğu sadece% 61'dir ve çok sayıda yanlış pozitif vardır (yanlış şemayı doğru olarak değerlendirir).

Ayrıca, geri bildirimin detay düzeyinin karşılaştırılmasına göre, planlama oluşturma performansı üzerinde çok az etkisi olduğu bulunmuştur.

Genel olarak, bu çalışmanın sistematik olarak araştırılması, yinelemeli, özeleştirel bir çerçeve içinde planlama görevlerinin doğrulayıcısı olarak LLM'nin etkinliğini sorgulayan ön kanıtlar sunmaktadır.

Yazar Hakkında

Subbarao Kambhampati

Subbarao Kambhampati, Arizona Eyalet Üniversitesi'nde bilgisayar bilimi profesörüdür. Kambhampati, özellikle yapay zeka sistemlerinin insan algısı için zorluklarından yola çıkarak, planlama ve karar vermedeki temel konuları araştırıyor.

Kaynaklar:

View Original

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.

2 Likes

Reward
2
Comment
Share

Comment

0/400

No comments

Topic
1/3
1CandyDrop Airdrop Event 6.0
65k Popularity
2White House Crypto Report
62k Popularity
3Join Alpha RION Airdrop to Earn $40
46k Popularity
4Fed Holds Rates Decision
9k Popularity
5July Spark Program TOP 10 Creators Announced
3k Popularity

sitemap