DeepMind: Büyük modeller de büyük kusurlara maruz kalır ve doğru cevap önceden bilinmedikçe, akıl yürütmelerini kendi başlarına düzeltemezler

2023-10-23 01:58:10

Orijinal kaynak: Shin Ji Yuan

DeepMind> araştırmacılar, LLM'nin doğal bir kusuru olduğunu buldular - veri kümesinde doğruluk etiketleri önceden ayarlanmadıkça, akıl yürütme sırasında kendi kendini düzelterek daha iyi yanıtlar alamaz. Marcus mutlu bir şekilde kağıdı tekrar iletti.

Görüntü kaynağı: Sınırsız AI tarafından oluşturuldu

Büyük dil modelinin bir diğer büyük kusuru DeepMind tarafından ortaya çıkarıldı!

LLM kendi akıl yürütmesindeki hataları düzeltemez.

Modellerin kendi yanıtlarını düzeltmelerine izin veren bir teknik olan kendi kendini düzeltme, birçok görev türünde modelin çıktı kalitesini önemli ölçüde artırabilir.

Ancak son zamanlarda, Google DeepMind ve UIUC'deki araştırmacılar, LLM'nin "kendi kendini düzeltme mekanizmasının" akıl yürütme görevleri için aniden işe yaramaz hale geldiğini buldular.

Dahası, LLM sadece akıl yürütme görevlerine verilen cevapları kendi kendine düzeltmekle kalmaz, aynı zamanda çoğu zaman kendi kendini düzeltir, cevapların kalitesi de önemli ölçüde azalacaktır.

Marcus ayrıca, daha fazla araştırmacının dikkatini büyük dil modelinin bu kusuruna çekmeyi umarak makaleyi retweetledi.

"Kendi kendini düzeltme" tekniği, LLM'nin üretilen içeriğini belirli kriterlere göre düzeltmesine ve iyileştirmesine izin verme fikrine dayanmaktadır. Bu yöntem, matematik problemleri gibi görevlerde modelin çıktı kalitesini önemli ölçüde artırabilir.

Ancak araştırmacılar, akıl yürütme görevinde, kendi kendini düzeltmeden sonraki geri bildirimin bazen çok iyi olduğunu, bazen etkinin çok zayıf olduğunu ve hatta performansın düştüğünü buldular.

Araştırmacılar ayrıca, "kendi kendini düzeltmenin" akıl yürütme çıktısını iyileştirebileceğine inanan literatürü incelediler ve daha yakından incelendiğinde, "kendi kendini düzeltme" nin gelişiminin, modelin kendi kendini düzeltmesine rehberlik etmek için dış bilgilerin tanıtılmasından geldiğini buldular. Ve harici bilgi verilmediğinde, bu gelişmeler ortadan kalkar.

Özellikle, kendi kendini düzeltme, modelin kıyaslama veri kümesinde yer alan temel doğruluk etiketlerine erişimi olduğunda etkili bir şekilde çalışır.

Bunun nedeni, algoritmanın çıkarım sürecini tam olarak ne zaman durduracağını belirleyebilmesi ve zaten doğru olduğunda cevabı değiştirmekten kaçınabilmesidir.

Araştırmacılar, modellerin doğru cevapları yanlış cevaplara değiştirmesini önlemek için önceki çalışmalarda gerçek etiketlerin kullanılma eğiliminde olduğuna inanıyor. Ancak bu "doğru düzeltme" durumunun nasıl önleneceği, aslında kendi kendini düzeltmenin başarısını sağlamanın anahtarıdır.

Çünkü araştırmacılar kendi kendini düzeltme sürecinden gerçek etiketi çıkardıklarında, modelin performansı önemli ölçüde düşer.

LLM'nin akıl yürütme görevlerine kendi kendini düzelten yaklaşımını geliştirme girişimi olarak, araştırmacılar ayrıca akıl yürütmeyi geliştirmenin bir yolu olarak "çok ajanlı tartışmanın" potansiyelini de araştırdılar. Bununla birlikte, sonuçları, bu yöntemin eşit sayıda yanıt göz önüne alındığında kendi tutarlılığından daha iyi çalışmadığını göstermektedir.

Araştırmacılar ayrıca "istem öncesi" ve "istem sonrası" kavramlarını önerdiler.

Kendi kendini düzeltmeyi, LLM'nin yanıtından sonra düzeltici istemin girildiği bir post-hoc istem biçimi olarak görüyorlar.

Araştırmacıların analizi, bazı görevlerde kendi kendini düzeltmenin geliştirilmesinin, kaba ilk istemleri maskeleyen iyi tasarlanmış geri bildirim istemlerinden kaynaklanabileceğini öne sürüyor.

Bu durumda, ilk talimatlara daha iyi geri bildirim entegre etmek veya daha iyi ilk istemler tasarlamak daha iyi sonuçlar verebilir ve çıkarım maliyetlerini azaltabilir.

Araştırmacıların bulgularına dayanarak, araştırmacılar LLM'nin kendi kendini düzeltme yeteneğinin nüanslarını araştırdılar ve araştırma topluluğunu kendi kendini düzeltme araştırmalarına daha büyük bir titizlikle yaklaşmaya çağırdılar.

Büyük dil modelleri akıl yürütmelerini kendi kendine düzeltebilir mi? **

Araştırmacılar, LLM akıl yürütme görevlerinde performansı iyileştirmedeki etkinliğini incelemek için kurulumunu (kendi kendini düzeltme sürecini yönlendirmek için etiketler kullanarak) kullanarak mevcut kendi kendini düzeltme yöntemini kullanmaya çalıştılar.

Deney Düzeneği

İstem sözcükleri

Araştırmacılar kendi kendini düzeltmek için üç aşamalı bir ipucu stratejisi kullandılar:

modeli ilk nesil için isteyin (bu aynı zamanda standart istemlerin sonucudur);
modelin önceki neslini gözden geçirmesini ve geri bildirim oluşturmasını isteyin;
Geri bildirim istemi modeli aracılığıyla orijinal soruyu tekrar yanıtlayın.

Model

Araştırmacıların ana testi GPT-3.5-Turbo üzerinde gerçekleştirildi.

Araştırmacılar ayrıca, OpenAI modellerinin en son ve en güçlü yinelemelerinin kendi kendini düzeltme yeteneklerini test etmek amacıyla 29 Ağustos 2023'te erişilen GPT-4'ü de test etti.

GPT-3.5 için araştırmacılar daha önce bahsedilen tüm değerlendirme setini kullandılar. GPT-4 için, maliyetleri azaltmak için araştırmacılar, test için her veri kümesi için rastgele 200 soru (HotpotQA için 100 soru) örnekledi.

Sonuçlar ve Yansımalar

Araştırmacılar deneylerinde herhangi bir dış kaynak veya araç kullanmazken, araştırmacılar kendi kendini düzeltme döngüsünün ne zaman durdurulacağını belirlemek için doğruluk etiketlerini kullanarak önceki çalışmaları takip ettiler.

Ancak gerçek dünyada, özellikle araştırmacılar LLM ile matematik problemlerini çözmeyi amaçladıklarında, çoğu zaman doğru cevap bilinmemektedir.

Bu nedenle, performansın iyileştirilmesi daha dikkatli düşünülmelidir.

Bu fikri doğrulamak için, araştırmacılar rastgele tahminlere dayalı bir temel tasarladılar. Bu temelde, araştırmacılar ne zaman duracaklarını belirlemek için doğruluk etiketlerini kullanmaya devam ediyor; Bununla birlikte, düzeltici eylemler LLM tarafından alınmaz, ancak kalan seçeneklerin rastgele tahminlerine dayanır.

CommonSenseQA, her soru için beş aday seçeneği sunan çoktan seçmeli bir soru veri kümesidir.

k. turun üretim kesinliği (ilk nesil 0. turdur) x olarak ifade edilirse, sonraki yapıların beklenen kesinliği x + (1 − x)/(5 − k) olur.

Bu rastgele taban çizgisinin sonuçları yukarıdaki Tablo 2'de sunulmuştur.

2 turdan sonra performansı kendi kendine kalibrasyonla karşılaştırılabilir veya hatta daha iyidir ve 4 turdan sonra doğruluğu %100'e ulaşır.

Bununla birlikte, böyle rastgele bir taban çizgisinin etkili bir düzeltme yöntemi olarak kabul edilemeyeceği açıktır. Yine de, etiketler kullanılarak elde edilen sonuçlar, bir cevabın doğruluğunu yargılayabilecek mükemmel doğrulayıcılar olduğunu gösteren bir kahin görevi görebilir.

Kod oluşturma gibi görevlerde bu mümkündür çünkü araştırmacılar, oluşturulan kodun başarılı bir şekilde çalışıp çalışmadığını belirlemek için yürütücüleri ve birim testlerini kullanabilir (Chen ve diğerleri, 2023b).

Bununla birlikte, matematik problemlerini çözmek gibi akıl yürütme görevleri için bu kurulum mantıksız görünmektedir. Araştırmacılar zaten gerçeğe sahipse, sorunu çözmek için LLM'yi kullanmak için hiçbir neden yok gibi görünüyor.

İçsel kendini düzeltme

GSM8K için benzer bir rastgele taban çizgisi mevcut olmayabilir, ancak mantık aynı kalır.

Ek olarak, araştırmacılar her seferinde rastgele sayılar üretmek gibi bir temel tasarlayabilirler. Birkaç turdan sonra doğru cevabı alabilir, ancak böyle bir gelişme açıkça mantıklı değil. Daha acil sebep: Araştırmacılar cevabı zaten biliyorlarsa neden bunu yapsınlar?

Deney düzeneği daha önce tanımlanmıştır. Bunu başarmak için, araştırmacılar ne zaman duracaklarını belirlemek için kullanım etiketini çıkardılar ve iki tur kendi kendini düzeltme yoluyla performansı değerlendirdiler.

Yukarıdaki Tablo 3, model çağrılarının doğruluğunu ve sayısını göstermektedir. Araştırmacılar, kendi kendini düzelttikten sonra, modelin performansının tüm kıyaslamalarda düştüğünü gözlemledi.

Performans neden düştü?

Yukarıdaki Şekil 1, GPT-3.5 kullanılarak iki tur kendi kendini düzeltmeden sonra yanıt değişikliğinin sonuçlarını özetlemektedir ve aşağıdaki Şekil 2'de iki örnek gösterilmektedir.

GSM8K için model, %74.7 olasılıkla ilk cevabını koruyor. Kalan durumlarda, modelin yanlış cevabı doğru cevaba değiştirmesi, yanlış cevabı doğru cevaba değiştirmesinden daha olasıydı.

CommonSenseQA için GPT-3.5'in cevabını değiştirme olasılığı daha yüksektir. Bunun temel nedeni, CommonSenseQA'daki yanlış yanıt seçeneklerinin genellikle soruyla bir şekilde ilişkili görünmesi ve kendi kendini düzelten ipuçlarının kullanılmasının, modeli başka bir seçenek seçme lehine önyargılı hale getirebilmesi ve bunun sonucunda yüksek bir "doğru ⇒ hatası" oranıyla sonuçlanmasıdır.

Araştırmacıların yukarıdaki Tablo 1'de gösterilen sonuçlara bir kez daha bakmalarına izin verin. Bu sonuçlar, modelin doğru cevabı yanlış cevaba değiştirmesini önlemek için doğruluk etiketlerini kullanır.

Bununla birlikte, bu "düzeltme hatasının" nasıl önleneceği, aslında kendi kendini düzeltmenin başarısını sağlamanın anahtarıdır.

Sezgisel açıklama, model iyi tasarlanmış bir ilk istemle eşleşirse, bilgi istemi ve spesifik kod çözme algoritması göz önüne alındığında, ilk yanıtın zaten optimal olması gerektiğidir.

Geri bildirimin tanıtılması, modeli bu girdi kombinasyonuna uyan yanıtlar üretmeye yönlendirebilecek ekstra ipuçları eklemek olarak görülebilir.

İçsel bir kendi kendini düzeltme ortamında, bir çıkarım görevinde, bu ek istem, soruyu yanıtlamak için herhangi bir ek avantaj sağlamayabilir.

Aslında, modeli ilk komut istemine en iyi yanıtı vermekten bile saptırabilir ve bu da performansın düşmesine neden olabilir.

Araştırmacılar tarafından test edilen kendi kendini düzelten ipuçları ideal değil mi?

Diğer ipuçları performansı artırabilir mi? Cevap şudur: Araştırmacıların, modelin performansını belirli bir kıyaslamada artıran bir ipucu bulması tamamen mümkündür. Bununla birlikte, bu, gerçek bir daha az örneklem kurulumu tartışmasına benzer şekilde, bu makalede tartışılan içsel kendi kendini düzeltme kurulumuyla artık tutarlı değildir.

Bu arama esasen insanlardan veya eğitim örneklerinden gelen geri bildirimlerden yararlanır. Ek olarak, aynı strateji, ilk ipuçlarını optimize etmek için etkili bir şekilde uygulanabilir ve kendi kendini düzeltmek için ek model çağrılarına gerek kalmadan potansiyel olarak daha iyi performans elde edilebilir.

Ek B'de, araştırmacılar farklı ipuçlarını test ettiler ancak performansın hala iyileşmediğini buldular.

Ayrıca, araştırmacılar, kendi kendini düzeltmenin LLM akıl yürütme yeteneğini mutlaka geliştirmediğini gözlemleyen ilk kişiler değildir. Özetle, araştırmacıların odak noktası, "Belirli bir kıyaslamanın performansını artırabilecek kendi kendini düzelten ipuçları var mı?" gibi soruları ele almak değildir. ve benzeri. Bu tür sorgular özellikle anlamlı olmayabilir.

Bunun yerine, araştırmacılar daha temel bir soruyu çözmeyi hedefliyorlar: "Büyük dil modelleri, yalnızca doğuştan gelen yeteneklerine dayanarak akıl yürütmelerini kendi başlarına gerçekten düzeltebilir mi?"

Sonradan akla gelen bir düşünce olarak kendi kendini düzeltme**

Önceki içerikte, araştırmacılar LLM'nin akıl yürütmesini kendi kendine düzeltmede zorluklarla karşılaştığını gözlemlediler.

Bununla birlikte, önceki araştırmaların gösterdiği gibi, bazı durumlarda kendi kendini düzeltme etkileyici sonuçlar vermiştir.

Bu nedenle, tutarsızlıkları belirlemek ve temel nedenleri belirlemek çok önemlidir.

Bu sorunu çözmek için, kendini düzeltmenin temel doğasını kavramak önemlidir. Biçiminde, kendi kendini düzeltme sonradan düşünülmüş bir düşünce olarak görülebilir.

Standart istemlerden (burada ön istemler olarak adlandırılır) farklıdır, çünkü istemler LLM'nin yanıtlarının üzerine yapılır.

Araştırmacılar, bu tür ipuçlarını iyileştirme sürecini olay sonrası hızlı mühendislik olarak adlandırıyor.

Bu nedenle, kendi kendini düzeltme, önceki istemlerin sağlayamayacağı değerli rehberlik veya geri bildirim sağlayabildiğinde, kendi kendini düzeltme model yanıtlarını geliştirir.

Örneğin, amaç yanıtı daha güvenli hale getirmek olduğunda, modeli yalnızca geçici öncesi ipuçlarını kullanarak ilk denemede tamamen risksiz bir yanıt üretecek şekilde yönlendirmek zor olabilir. Bu durumda, kendi kendini düzeltme, ayrıntılı ölüm sonrası kontroller yoluyla yanıt güvenliğini artırmanın bir yolu olarak kullanılabilir.

Ancak, çıkarım görevleri için durum böyle olmayabilir.

"Önceki yanıtlarınızı gözden geçirin ve yanıtlarınızla ilgili bir sorun bulun" gibi geri bildirim istemleri. Akıl yürütme için mutlaka somut faydalar sağlamaz.

Ek olarak, kendi kendini düzelttikten sonra performansta önemli bir iyileşme gözlense bile, hızlı tasarımın dikkatli bir şekilde değerlendirilmesi gerekir.

Örneğin, yanıtın ilk talimatta kolayca belirtilebilecek kriterleri karşılaması gerekiyorsa (örneğin, çıktının belirli kelimeleri içermesi, oluşturulan kodun verimli olması gerekir, duygu güçlü bir şekilde olumsuz olmalıdır), bu gereksinimleri ölüm sonrası istemde geri bildirim olarak sağlamak yerine, daha uygun maliyetli bir alternatif strateji, bu gereksinimleri doğrudan (açıkça) ön komut istemine yerleştirmektir.

Yukarıdaki Tablo 5'teki sonuçlar, araştırmacıların dikkatlice tasarlanmış "standart ipucu (araştırmacının)" işaretinin, önceki çalışmaların kendi kendini düzelten sonuçlarından daha üstün olduğunu göstermektedir.

Ek olarak, araştırmacılar, araştırmacıların çıktılarını iyileştirmek için ipuçlarını kullandıklarında performans bile düşer.

Yine, araştırmacıların buradaki amacı, araştırmacıların istedikleri zaman yazdıklarını gölgede bırakabilecek post-hoc istemler olup olmadığını tartışmak değildir. Araştırmacıların temel amacı, kendi kendine kalibrasyon deneylerinin daha titiz bir şekilde incelenmesini teşvik etmektir.

Modellere, zayıf ön istemler aracılığıyla oluşturulan yanıtları "kendi kendini düzeltmeye" yönlendirmek için iyi tasarlanmış ölüm sonrası istemleri kullanmak mantıklı değildir.

Adil bir karşılaştırma yapabilmek için, etkinlik öncesi ve sonrası istemlere eşit çaba gösterilmelidir.

Kaynaklar:

View Original

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.

Reward
like
Comment
Share

Comment

0/400

No comments

Topic
1/3
1CandyDrop Airdrop Event 6.0
55k Popularity
2White House Crypto Report
53k Popularity
3Join Alpha RION Airdrop to Earn $40
38k Popularity
4Fed Holds Rates Decision
9k Popularity
5July Spark Program TOP 10 Creators Announced
3k Popularity

sitemap

DeepMind: Büyük modeller de büyük kusurlara maruz kalır ve doğru cevap önceden bilinmedikçe, akıl yürütmelerini kendi başlarına düzeltemezler

Deney Düzeneği

**Performans neden düştü? **

Performans neden düştü?