DeepMind, büyük modellerin tümevarım ve tümdengelimi öğrenmesine olanak tanır ve GPT-4 doğruluğu %13,7 artar

2023-10-14 06:07:02

Görüntü kaynağı: Sınırsız AI tarafından oluşturuldu

Şu anda, büyük dil modelleri (LLM'ler), özellikle örnekler ve ara adımlar verildiğinde çıkarım görevlerinde etkileyici yetenekler göstermektedir. Bununla birlikte, yöntemler genellikle LLM'deki zımni bilgiye dayanır ve zımni bilgi yanlış veya görevle tutarsız olduğunda LLM yanlış cevaplar verir.

Şimdi, Google, Mila Enstitüsü ve diğer araştırma kurumlarından araştırmacılar, LLM'nin çıkarım kurallarını öğrenmesine ve Hipotezlerden Teorilere (HtT) adı verilen yeni bir çerçeve önermesine izin vermenin yeni bir yolunu ortaklaşa araştırdılar. Bu yeni yaklaşım yalnızca çok adımlı akıl yürütmeyi geliştirmekle kalmaz, aynı zamanda yorumlanabilirlik, aktarılabilirlik vb. avantajlara da sahiptir.

Bildiri Adresi:

Sayısal ve ilişkisel akıl yürütme problemleri üzerinde yapılan deneyler, HtT'nin mevcut yöntemleri %11-27 daha fazla doğrulukla geliştirdiğini göstermektedir. Öğrenilen kurallar, aynı problemin farklı modellerine veya farklı biçimlerine de aktarılabilir.

Yönteme giriş

Özetle, HtT çerçevesi, geleneksel makine öğrenimindeki eğitim ve teste benzer şekilde endüktif bir aşama ve tümdengelimli bir aşama olmak üzere iki aşamadan oluşur.

İndüksiyon aşamasında, LLM'den önce bir dizi eğitim örneği için kurallar oluşturması ve doğrulaması istenir. Çalışma, kuralları beyan etmek ve cevaplar elde etmek, kuralların sıklığını ve doğruluğunu değerlendirmek ve bir kural tabanı oluşturmak için sıklıkla ortaya çıkan ve doğru cevaplara yol açan kuralları toplamak için CoT'yi kullanır.

İyi bir kural tabanı ile bir sonraki adım, sorunu çözmek için bu kuralların nasıl uygulanacağını incelemektir. Bu amaçla, tümdengelim aşamasında, çalışma bir kural tabanı ekler ve LLM'den tümdengelim için kural tabanından kuralları almasını ister, örtük çıkarımı açık çıkarıma dönüştürür.

Ancak çalışma, GPT-4 gibi çok güçlü LLM'lerin bile her adımda doğru kuralları almakta zorlandığını buldu. Bu amaçla, çalışma, LLM'nin bağlam alma yeteneklerini geliştirmek için bir XML etiketleme hilesi geliştirdi.

Deneysel Sonuçlar

HtT'yi değerlendirmek için, çalışma iki çok adımlı çıkarım problemiyle karşılaştırıldı. Deneysel sonuçlar, HtT'nin daha az örneklem yöntemini geliştirdiğini göstermektedir. Yazarlar ayrıca HtT'nin daha kapsamlı bir şekilde anlaşılmasını sağlamak için kapsamlı ablasyon çalışmaları yürütmüşlerdir.

Sayısal ve ilişkisel akıl yürütme problemlerine yeni yaklaşımları değerlendirir. Sayısal akıl yürütmede, GPT-4 ile doğrulukta %21,0'lık bir iyileşme gözlemlediler. İlişkisel çıkarımda GPT-4, doğruluğu %13,7 artırırken, GPT-3.5 daha da fazla fayda sağlayarak performansı iki katına çıkardı. Performans kazancı esas olarak düzenlilik yanılsamasının azaltılmasından gelir.

Özellikle, aşağıdaki Tablo 1, aritmetik taban-16, taban-11 ve taban-9 veri kümelerindeki sonuçları göstermektedir. Tüm temel sistemler arasında, 0 atışlı CoT, her iki LLM'de de en kötü performansı gösterir.

TABLO 2, CLUTRR'DE FARKLI YÖNTEMLERIN KARŞILAŞTIRILMASININ SONUÇLARINI SUNMAKTADIR. 0 atışlı CoT'nin GPT3.5 ve GPT4'te en kötü performansa sahip olduğu gözlemlenebilir. Birkaç atışlık ipucu yöntemi için, CoT ve LtM'nin performansı benzerdir. Ortalama doğruluk açısından, HtT sürekli olarak her iki modelin işaret yönteminden %11,1-27,2 oranında daha iyi performans gösterir. GPT3.5'in CLUTRR kurallarını almada fena olmadığını ve muhtemelen CLUTRR'de aritmetiğe göre daha az kural olduğu için HtT'den GPT4'ten daha fazla yararlandığını belirtmekte fayda var.

GPT4 kurallarını kullanarak, GPT3.5'teki CoT performansının %27,2 oranında arttığını belirtmekte fayda var, bu da CoT performansının iki katından fazla ve GPT4'teki CoT performansına yakın. Bu nedenle, yazarlar HtT'nin güçlü LLM'den zayıf LLM'ye yeni bir bilgi damıtma biçimi olarak hizmet edebileceğine inanmaktadır.

Tablo 3, HtT'nin GPT-4'ün (metin sürümü) performansını önemli ölçüde artırdığını göstermektedir. GPT3.5 için bu gelişme önemli değildir, çünkü metin girişini işlerken genellikle kural yanılsaması dışında hatalar üretir.

View Original

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.

1 Likes

Reward
1
Comment
Share

Comment

0/400

No comments

Topic
1/3
1CandyDrop Airdrop Event 6.0
17k Popularity
2White House Crypto Report
34k Popularity
3Join Alpha RION Airdrop to Earn $40
9k Popularity
4Fed Holds Rates Decision
8k Popularity
5July Spark Program TOP 10 Creators Announced
2k Popularity

sitemap