Dil modelinin büyük kusurları var ve bilgi çıkarımı uzun süredir devam eden bir sorun olarak ortaya çıkıyor

Şaşırtıcı keşif: Büyük modellerin bilgi çıkarımı konusunda ciddi kusurları vardır.

Bilginin esnek bir şekilde uygulanması bilgeliğin anahtarıdır. İnsan beyni bilgiyi hızlı bir şekilde işleyebilir, örneğin "Sessiz Gece Düşüncelerinde kaç kelime var" sorusunu hızlıca yanıtlayabilir. Peki benzer işlemler büyük modellerde de yapılabilir mi? Büyük modellerin önce Düşünce Zinciri (CoT) aracılığıyla sessizce "Sessiz Gece Düşünceleri" yazıp ardından yazılı içeriğe göre soruları yanıtlayabildiği ancak bunun oluşturulan metnin uzun olmasına neden olacağı biliniyor. Bunun tersine, insanlar basit bilgi çıkarımlarını ara adımları yazmadan beyinlerinde tamamlayabilirler. Peki çok büyük bir dil modeli, önce bilgi noktalarını yazmaya gerek kalmadan doğrudan yapay beyninde yanıtlar üretebilir mi?

**Cevabın hayır olduğu ortaya çıktı! Şekil 1/2/3 GPT4'teki birçok karşı örneği göstermektedir. En temel sınıflandırmanın (bir ünlünün doğum gününün denkliğinin belirlenmesi gibi) ve karşılaştırmanın (iki başkanın doğum günlerinin karşılaştırılması gibi) bile Düşünce Zinciri'nden geçmesi gerekir. Daha da kötüsü, büyük modeller, eğitim setinden bilgiyi tersine çevirmeyi neredeyse tamamen başaramıyor. **

Şekil 1: GPT4 bilgi sınıflandırma/karşılaştırmada hata yapar, ancak doğru cevaba düşünme zinciri yoluyla ulaşılabilir

Şekil 2: GPT4 bilgisi ters arama hatası örneği

*Şekil 3: GPT4 "Birinin doğum günü ne zaman?" ve "Belirli bir sayı çift mi?" sorularını doğru yanıtlayabilse de, ikisini birleştirirken doğru oran Düşünce Zinciri (CoT) olmadan yalnızca %50'dir. 1900'den 1910'a kadar ünlülerin doğum günleri karşılaştırıldığında performans körü körüne tahmine de yakın. *

Zhu Zeyuan (MetaAI) ve Li Yuanzhi (MBZUAI) tarafından yapılan son araştırma "Dil Modeli Fiziği Bölüm 3.2: Bilginin Manipülasyonu" yukarıdaki konulara odaklanıyor.

Kağıt adresi:

Önce bir soru sorayım, Şekil 1/2/3 gibi problemler için, GPT4'ün insanların doğum günlerini yeterince doğru hatırlamamasından mı (sıkıştırma oranının yeterli olmaması ve eğitim kaybının yeterince düşük olmaması) mı yoksa bunu yapıyor mu? ince ayar yaparak eşitlik anlayışını derinleştirmede başarısız mı oluyor? GPT4'te, "doğum günü eşitliği" gibi yeni bilgiler oluşturmak için model içindeki mevcut bilgileri birleştirebilecek ve böylece CoT'ye güvenmeden ilgili soruları doğrudan yanıtlayabilecek şekilde ince ayar yapmak mümkün müdür? GPT4'ün eğitim veri setini bilmediğimiz için ona ince ayar yapamıyoruz. Bu nedenle yazar, dil modellerinin "bilgi çıkarımı" yeteneğini daha fazla incelemek için kontrol edilebilir eğitim setlerinin kullanılmasını önermektedir.

Şekil 4: GPT4 gibi önceden eğitilmiş modeller için İnternet verilerinin kontrol edilemeyen doğası nedeniyle B/C/D durumlarının meydana gelip gelmediğini belirlemek zordur

"Dil Modeli Fiziği Bölüm 3.1: Bilgi Depolama ve Erişim" bölümünde yazar, 100 bin biyografi içeren bir veri seti oluşturdu. Her biyografi, kişinin adını ve altı niteliğini içerir: doğum tarihi, doğum yeri, üniversite bölümü, üniversite adı, iş yeri ve iş birimi. Örneğin:

「Anya Briar Forger, Princeton, New Jersey'den geliyor. Çalışmalarını İletişime adadı. Menlo Park, CA'da iş deneyimi kazandı. Kariyerini Meta Platformlarda geliştirdi. 2 Ekim 1996'da bu dünyaya geldi. MIT'de ileri düzey kurslara katıldı.」

Yazarlar, modelin bilgiye daha iyi erişmesine yardımcı olmak için biyografik girişlerin çeşitliliğini sağladılar. Ön eğitimden sonra model, ince ayar yoluyla "Anya'nın doğum günü ne zaman?" gibi bilgi çıkarma sorularını doğru bir şekilde yanıtlayabilir (doğruluk oranı %100'e yakındır)

Daha sonra yazar, modelin bilgi sınıflandırma/karşılaştırma/toplama ve çıkarma gibi bilgi çıkarım problemlerini öğrenmesini sağlamaya çalışarak ince ayar yapmaya devam etti. Makale, doğal dil modellerinin bilgi çıkarımı konusunda çok sınırlı yeteneklere sahip olduğunu ve model tarafından halihazırda hakim olunan bilginin basit dönüşümleri/kombinasyonları olsa bile, ince ayar yoluyla yeni bilgi üretmenin zor olduğunu buldu. **

Şekil 5: İnce ayar sırasında CoT kullanılmazsa, modelin bilgiyi sınıflandırmasına/karşılaştırmasına/çıkarmasına izin vermek çok sayıda örnek gerektirecektir veya doğruluk son derece düşük olacaktır - deneyde 100 ana dal kullanılmıştır

Şekil 5'te gösterildiği gibi yazar, modelin ön eğitimden sonra herkesin doğum gününe doğru yanıt verebilmesine rağmen (doğruluk oranı %100'e yakındır), "xxx'in doğum ayı çift sayı mı?" sorusunu yanıtlayacak şekilde ince ayar yapılması gerektiğini buldu. ve %75'lik bir doğruluk oranına ulaşın - kör tahminin %50'lik bir doğruluk oranına sahip olduğunu unutmayın - en az 10.000 ince ayar örneği gerektirir. Karşılaştırıldığında, model "doğum günü" ve "eşlik" bilgi kombinasyonunu doğru bir şekilde tamamlayabiliyorsa, geleneksel makine öğrenimi teorisine göre modelin yalnızca 12 ayı sınıflandırmayı öğrenmesi gerekir ve genellikle yaklaşık 100 örnek yeterlidir!

Benzer şekilde, ön eğitimden sonra model, her kişinin ana dalına (toplam 100 farklı ana dal) doğru bir şekilde yanıt verebilir, ancak "Hangisi daha iyi, Anya'nın ana dalı mı yoksa Sabrina'nın ana dalı mı?" karşılaştırması için 50.000 ince ayar örneği kullanılsa bile, doğruluk oran yalnızca %53,9, neredeyse kör bir tahmin.

Ancak modelin "Anya'nın doğum ayı Ekim, dolayısıyla çift sayıdır" gibi cümleleri öğrenmesine izin vermek için CoT ince ayarını kullandığımızda, modelin test setinde doğum ayının paritesini değerlendirmedeki doğruluğu büyük ölçüde artar. (Şekil 5 CoT" sütunundaki "test kullanımı" bölümüne bakın).

Yazar ayrıca ince ayar eğitim verilerinde CoT ve CoT olmayan yanıtları karıştırmayı denedi ve test setinde CoT kullanılmadığında modelin doğruluğunun hala çok düşük olduğunu buldu (bkz. "CoT olmadan test" sütunu). Şekil 5). Bu, yeterli CoT ince ayar verisi eklense bile modelin hâlâ "kafanın içinde düşünmeyi" öğrenemediğini ve yanıtı doğrudan raporlayamayacağını gösteriyor.

Bu sonuçlar, dil modellerinin basit bilgi işlemlerini gerçekleştirmesinin son derece zor olduğunu göstermektedir! Modelin önce bilgi noktalarını yazması, sonra hesaplama yapması gerekiyor, insan gibi doğrudan beyinde çalıştırılamaz, yeterli ince ayar yapılsa bile işe yaramaz. **

Tersine bilgi aramanın zorlukları

Makale ayrıca doğal dil modellerinin öğrenilen bilgiyi tersine araştıramayacağını da buldu. Bir kişiye ait tüm bilgilere cevap verebilse de bu bilgilere dayanarak kişinin adını belirleyemez.

Yazar, bilgi sınıflandırması/karşılaştırmasında olduğu gibi, GPT3.5/4 üzerinde deneyler gerçekleştirdi ve bunların tersine bilgi çıkarma konusunda zayıf performans sergilediğini buldu (bkz. Şekil 6). Ancak GPT3.5/4'ün eğitim setini belirleyemediğimiz için bu, tüm dil modellerinde bu sorunun olduğunu kanıtlamaz.

*Şekil 6: GPT3.5/4'ün ileri/geri bilgi aramasının karşılaştırılması. Birkaç gün önce bildirdiğimiz "lanetin tersine çevrilmesi" çalışması (arxiv 2309.12288) bunu mevcut büyük modellerde de gözlemledi. *

Yazar, yukarıda bahsedilen biyografik veri setini, modelin tersine bilgi arama yetenekleri üzerinde daha derinlemesine kontrollü bir deney yürütmek için kullandı. Tüm biyografilerin isimleri paragrafın başında olduğundan, yazar aşağıdaki gibi 10 ters bilgi çıkarma problemi tasarladı:

"Lütfen bana 2 Ekim 1996'da Princeton, NJ'de doğan birinin adını söyler misiniz?"

"Lütfen bana MIT'de İletişim eğitimi alan, 2 Ekim 1996'da Princeton, NJ'de doğan ve Menlo Park, CA'da Meta Platforms'ta çalışan birinin adını söyleyin?"

Şekil 7: Ünlülerin biyografisi veri seti üzerinde kontrollü deney

Yazar, modelin kayıpsız bilgi sıkıştırması ve yeterli bilgi geliştirmesi sağlamasına ve bu bilgiyi neredeyse %100 doğru bir şekilde çıkarabilmesine rağmen, ince ayardan sonra modelin hala geriye doğru bilgi araması gerçekleştiremediğini ve doğruluğun neredeyse sıfır olduğunu doğruladı ( bkz. Şekil 7) . Ancak ters bilgi doğrudan eğitim öncesi sette göründüğünde, ters aramanın doğruluğu anında yükselir.

Özetlemek gerekirse, yalnızca ters bilgi doğrudan ön eğitim verilerine dahil edildiğinde, model ters soruyu ince ayar yoluyla yanıtlayabilir - ancak bu aslında hiledir, çünkü bilgi tersine çevrilmişse artık "Ters Bilgi" değildir. Aramak". Ön eğitim seti yalnızca ileriye dönük bilgi içeriyorsa model, ince ayar yoluyla soruları tersten yanıtlama becerisinde ustalaşamaz. Bu nedenle, bilgi indeksleme (bilgi veritabanı) için dil modellerinin kullanılması şu anda imkansız görünmektedir. **

Ayrıca bazı kişiler yukarıda bahsedilen "tersine bilgi arama" işleminin başarısız olmasının GPT gibi otoregresif dil modellerinin tek yönlü yapısından kaynaklanabileceğini düşünebilir. Ancak aslında BERT gibi çift yönlü dil modelleri bilgi çıkarmada daha kötü performans gösterir ve hatta ileri çıkarmada başarısız olur. İlgilenen okuyucular ayrıntılar için makaleye başvurabilirler.

View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Reward
  • Comment
  • Share
Comment
0/400
No comments
Trade Crypto Anywhere Anytime
qrCode
Scan to download Gate app
Community
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)