Uzun metin bilgilerinin doğruluğu ChatGPT'yi aşıyor ve Meta, büyük modellerin yanılsamasını azaltmak için yeni bir yöntem öneriyor

2023-09-24 09:34:58

Kaynak: Qubit'ler

Büyük mankenlerin halüsinasyon sorununa yeni bir çözüm var!

Meta AI Labs bir "böl ve yönet" çözümü öneriyor.

Bu çözümle, Llama-65B tarafından sağlanan bilgi çıkışının doğruluğu iki katına çıktı, hatta ChatGPT'yi aştı.

Büyük model yanılsaması olarak adlandırılan şey, makul görünen ancak tamamen yanlış olan bazı içeriklerin ortaya çıkarılmasıdır.

Meta'nın bu kez önerdiği “Doğrulama Zinciri” (CoVe), “Düşünce Zinciri”ne (CoT) benzer bir zincir yöntemidir.

Aradaki fark, "adım adım" düşünme zincirinin daha çok mantıksal akıl yürütmeye odaklanması, doğrulama zincirinin ise daha çok gerçek bilgilere odaklanmasıdır**.

Bunu okuduktan sonra bazı netizenler, bu doğrulama zincirinin ChatGPT kullanarak kod yazarken kullanılan bilimsel yönteme çok benzediğini buldu:

Peki "doğrulama zinciri" yöntemi tam olarak nedir ve "doğrulama" nedir?

Cevabı parçalara ayırın, bölün ve yönetin

Doğrulama zincirinin temel fikri, doğrulanacak büyük bir içeriği küçük sorunlara bölmektir. Spesifik süreç aşağıdaki gibidir:

İlk olarak model, kullanıcı tarafından sorulan soruya göre her zamanki gibi yanıtlar üretir.

Daha sonra oluşturulan yanıt içeriğine göre her bilgi için bir dizi doğrulama sorusu oluşturulur.

Daha sonra modelin bu soruları kendi başına yanıtlamasına izin verilir ve ilk yanıtlar, nihai sonuca ulaşmak için sonuçlara göre ayarlanır.

Basit bir örnek vermek gerekirse, modele 19. yüzyılda ABD-Meksika Savaşı'nın ana nedenlerinin neler olduğunu sormak istediğinizi varsayalım.

Model, olayın ne zaman gerçekleştiğini ve öncesinde ne olduğunu yanıtlıyor.

Daha sonra bu olaylar dizisi için tek tek ne zaman gerçekleştiğini sorun.

Sonuç olarak model, bahsettiği maddelerden birinin zamanının çok farklı olduğunu tespit etti ve onu nihai cevabı verecek şekilde ayarladı.

Bunların arasında soruların oluşturulması ve doğrulanması en kritik kısımdır.Bu konuda araştırmacılar dört spesifik yöntem önermişlerdir:

*Ortak, yani aynı istem sözcüğünde soru ve cevap üretmek için talimatlar yazmak

2 Adımlı, yani önce modelin sorular oluşturmasına izin verin, ardından sorulan soruları yanıtlamak için yeni bir görüşme (tek seferlik) açın
2 Adımlı Faktörlü, sorulan her soru için yeni bir diyalog açar.
Faktör+Revize, Faktored temelinde tutarlılık testi ekleyerek modelin tutarsız içeriğe odaklanmasına olanak tanır

Bu dört mod giderek daha rafine hale geliyor ve doğrulukları giderek artıyor.

###### △Kırmızıdan başlayarak, dört renk sırasıyla CoVe, Ortak, Faktored ve Faktör+Revize'yi temsil etmez

Peki soruları bölmek neden modelin doğruluğunu artırabilir?

Öncelikle parçalara ayrılmış sorular genel göreve göre daha kolay olduğu için deneme soruları soru-cevap, hatta çoktan seçmeli ve yargı sorularına dönüşüyor.Sorular daha basit ve doğruluk oranı artıyor.

Ek olarak, sorunu parçalara ayırmak, modelin yanlış cevabı tekrar tekrar tekrarlamak yerine sorunu gerçekten yeniden düşünmesine olanak tanır.

Peki doğrulama zinciri yönteminin etkisi nedir?

Bilgi doğruluğu ChatGPT'yi aşıyor

Bu konuyu araştırmak için araştırmacılar, toplam üç test görevinden oluşan bir test yapmak için Lama'yı kullandılar.

Bunlardan ilki, belirli bir yerde doğmuş ve belirli bir sektörde faaliyet gösteren ünlülerin listelenmesi gibi bilgi sayımıdır.

Bu görevde araştırmacılar toplam iki veri setini test etti; daha basit olan Vikiveri ve daha zor olan Viki-Kategori listesi (Wikipedia'dan alınmıştır).

Sonuçlar, Lama'nın 65B parametreli iki adımlı mod doğrulama zincirinin desteğiyle basit soruların doğruluğunun 0,17'den 0,36'ya yükseldiğini, yani iki kattan fazla** arttığını, karmaşık soruların doğruluğunun ise neredeyse iki katına çıktığını gösterdi.

Sırada "Kapalı Alan Soru ve Cevap" sorusu yer alıyor. Araştırmacılar, MultiSpanQA veri setinden birden fazla süreksiz bilgi çıkardı ve sorular sordu.

Örneğin, "Dünyanın ilk yayınevini kim hangi yılda kurdu?" (Cevap: Johannes Gutenberg, 1450).

Sonuç olarak Cove, Lama'ya %20'lik bir doğruluk artışı da sağladı.

Üçüncü görev olan "Uzun metin biyografisi oluşturma" sorusu, FactScore veri seti kullanılarak değerlendirilen "Bana (kişinin adı)'nın biyografisini söyle" sorusudur.

Sonuç olarak, Faktör+Revize modunda doğruluk oranı yalnızca doğrulamasız zincir modundan önemli ölçüde daha yüksek olmakla kalmıyor, aynı zamanda ChatGPT'yi aşıyor.

Bu araştırmaya ilgi duyan arkadaşlar yazıdan daha detaylı bilgi edinebilirler.

Kağıt adresi:

View Original

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.

Reward
like
Comment
Share

Comment

0/400

No comments

Topic
1/3
1Simple Earn Annual Rate 24.4%
35k Popularity
2Gate Launchpad List IKA
40k Popularity
3ETH Trading Volume Surges
40k Popularity
4Gate ETH 10th Anniversary Celebration
22k Popularity
5Trump’s AI Strategy
18k Popularity

sitemap