Büyük mankenlerin halüsinasyon sorununa yeni bir çözüm var!
Meta AI Labs bir "böl ve yönet" çözümü öneriyor.
Bu çözümle, Llama-65B tarafından sağlanan bilgi çıkışının doğruluğu iki katına çıktı, hatta ChatGPT'yi aştı.
Büyük model yanılsaması olarak adlandırılan şey, makul görünen ancak tamamen yanlış olan bazı içeriklerin ortaya çıkarılmasıdır.
Meta'nın bu kez önerdiği “Doğrulama Zinciri” (CoVe), “Düşünce Zinciri”ne (CoT) benzer bir zincir yöntemidir.
Aradaki fark, "adım adım" düşünme zincirinin daha çok mantıksal akıl yürütmeye odaklanması, doğrulama zincirinin ise daha çok gerçek bilgilere odaklanmasıdır**.
Bunu okuduktan sonra bazı netizenler, bu doğrulama zincirinin ChatGPT kullanarak kod yazarken kullanılan bilimsel yönteme çok benzediğini buldu:
Peki "doğrulama zinciri" yöntemi tam olarak nedir ve "doğrulama" nedir?
Cevabı parçalara ayırın, bölün ve yönetin
Doğrulama zincirinin temel fikri, doğrulanacak büyük bir içeriği küçük sorunlara bölmektir. Spesifik süreç aşağıdaki gibidir:
İlk olarak model, kullanıcı tarafından sorulan soruya göre her zamanki gibi yanıtlar üretir.
Daha sonra oluşturulan yanıt içeriğine göre her bilgi için bir dizi doğrulama sorusu oluşturulur.
Daha sonra modelin bu soruları kendi başına yanıtlamasına izin verilir ve ilk yanıtlar, nihai sonuca ulaşmak için sonuçlara göre ayarlanır.
Basit bir örnek vermek gerekirse, modele 19. yüzyılda ABD-Meksika Savaşı'nın ana nedenlerinin neler olduğunu sormak istediğinizi varsayalım.
Model, olayın ne zaman gerçekleştiğini ve öncesinde ne olduğunu yanıtlıyor.
Daha sonra bu olaylar dizisi için tek tek ne zaman gerçekleştiğini sorun.
Sonuç olarak model, bahsettiği maddelerden birinin zamanının çok farklı olduğunu tespit etti ve onu nihai cevabı verecek şekilde ayarladı.
Bunların arasında soruların oluşturulması ve doğrulanması en kritik kısımdır.Bu konuda araştırmacılar dört spesifik yöntem önermişlerdir:
*Ortak, yani aynı istem sözcüğünde soru ve cevap üretmek için talimatlar yazmak
2 Adımlı, yani önce modelin sorular oluşturmasına izin verin, ardından sorulan soruları yanıtlamak için yeni bir görüşme (tek seferlik) açın
2 Adımlı Faktörlü, sorulan her soru için yeni bir diyalog açar.
Bu dört mod giderek daha rafine hale geliyor ve doğrulukları giderek artıyor.
###### △Kırmızıdan başlayarak, dört renk sırasıyla CoVe, Ortak, Faktored ve Faktör+Revize'yi temsil etmez
Peki soruları bölmek neden modelin doğruluğunu artırabilir?
Öncelikle parçalara ayrılmış sorular genel göreve göre daha kolay olduğu için deneme soruları soru-cevap, hatta çoktan seçmeli ve yargı sorularına dönüşüyor.Sorular daha basit ve doğruluk oranı artıyor.
Ek olarak, sorunu parçalara ayırmak, modelin yanlış cevabı tekrar tekrar tekrarlamak yerine sorunu gerçekten yeniden düşünmesine olanak tanır.
Peki doğrulama zinciri yönteminin etkisi nedir?
Bilgi doğruluğu ChatGPT'yi aşıyor
Bu konuyu araştırmak için araştırmacılar, toplam üç test görevinden oluşan bir test yapmak için Lama'yı kullandılar.
Bunlardan ilki, belirli bir yerde doğmuş ve belirli bir sektörde faaliyet gösteren ünlülerin listelenmesi gibi bilgi sayımıdır.
Bu görevde araştırmacılar toplam iki veri setini test etti; daha basit olan Vikiveri ve daha zor olan Viki-Kategori listesi (Wikipedia'dan alınmıştır).
Sonuçlar, Lama'nın 65B parametreli iki adımlı mod doğrulama zincirinin desteğiyle basit soruların doğruluğunun 0,17'den 0,36'ya yükseldiğini, yani iki kattan fazla** arttığını, karmaşık soruların doğruluğunun ise neredeyse iki katına çıktığını gösterdi.
Sırada "Kapalı Alan Soru ve Cevap" sorusu yer alıyor. Araştırmacılar, MultiSpanQA veri setinden birden fazla süreksiz bilgi çıkardı ve sorular sordu.
Örneğin, "Dünyanın ilk yayınevini kim hangi yılda kurdu?" (Cevap: Johannes Gutenberg, 1450).
Sonuç olarak Cove, Lama'ya %20'lik bir doğruluk artışı da sağladı.
Üçüncü görev olan "Uzun metin biyografisi oluşturma" sorusu, FactScore veri seti kullanılarak değerlendirilen "Bana (kişinin adı)'nın biyografisini söyle" sorusudur.
Sonuç olarak, Faktör+Revize modunda doğruluk oranı yalnızca doğrulamasız zincir modundan önemli ölçüde daha yüksek olmakla kalmıyor, aynı zamanda ChatGPT'yi aşıyor.
Bu araştırmaya ilgi duyan arkadaşlar yazıdan daha detaylı bilgi edinebilirler.
Kağıt adresi:
View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Uzun metin bilgilerinin doğruluğu ChatGPT'yi aşıyor ve Meta, büyük modellerin yanılsamasını azaltmak için yeni bir yöntem öneriyor
Kaynak: Qubit'ler
Büyük mankenlerin halüsinasyon sorununa yeni bir çözüm var!
Meta AI Labs bir "böl ve yönet" çözümü öneriyor.
Bu çözümle, Llama-65B tarafından sağlanan bilgi çıkışının doğruluğu iki katına çıktı, hatta ChatGPT'yi aştı.
Meta'nın bu kez önerdiği “Doğrulama Zinciri” (CoVe), “Düşünce Zinciri”ne (CoT) benzer bir zincir yöntemidir.
Aradaki fark, "adım adım" düşünme zincirinin daha çok mantıksal akıl yürütmeye odaklanması, doğrulama zincirinin ise daha çok gerçek bilgilere odaklanmasıdır**.
Bunu okuduktan sonra bazı netizenler, bu doğrulama zincirinin ChatGPT kullanarak kod yazarken kullanılan bilimsel yönteme çok benzediğini buldu:
Cevabı parçalara ayırın, bölün ve yönetin
Doğrulama zincirinin temel fikri, doğrulanacak büyük bir içeriği küçük sorunlara bölmektir. Spesifik süreç aşağıdaki gibidir:
İlk olarak model, kullanıcı tarafından sorulan soruya göre her zamanki gibi yanıtlar üretir.
Daha sonra oluşturulan yanıt içeriğine göre her bilgi için bir dizi doğrulama sorusu oluşturulur.
Daha sonra modelin bu soruları kendi başına yanıtlamasına izin verilir ve ilk yanıtlar, nihai sonuca ulaşmak için sonuçlara göre ayarlanır.
Basit bir örnek vermek gerekirse, modele 19. yüzyılda ABD-Meksika Savaşı'nın ana nedenlerinin neler olduğunu sormak istediğinizi varsayalım.
Model, olayın ne zaman gerçekleştiğini ve öncesinde ne olduğunu yanıtlıyor.
Sonuç olarak model, bahsettiği maddelerden birinin zamanının çok farklı olduğunu tespit etti ve onu nihai cevabı verecek şekilde ayarladı.
*Ortak, yani aynı istem sözcüğünde soru ve cevap üretmek için talimatlar yazmak
Bu dört mod giderek daha rafine hale geliyor ve doğrulukları giderek artıyor.
Peki soruları bölmek neden modelin doğruluğunu artırabilir?
Öncelikle parçalara ayrılmış sorular genel göreve göre daha kolay olduğu için deneme soruları soru-cevap, hatta çoktan seçmeli ve yargı sorularına dönüşüyor.Sorular daha basit ve doğruluk oranı artıyor.
Ek olarak, sorunu parçalara ayırmak, modelin yanlış cevabı tekrar tekrar tekrarlamak yerine sorunu gerçekten yeniden düşünmesine olanak tanır.
Peki doğrulama zinciri yönteminin etkisi nedir?
Bilgi doğruluğu ChatGPT'yi aşıyor
Bu konuyu araştırmak için araştırmacılar, toplam üç test görevinden oluşan bir test yapmak için Lama'yı kullandılar.
Bunlardan ilki, belirli bir yerde doğmuş ve belirli bir sektörde faaliyet gösteren ünlülerin listelenmesi gibi bilgi sayımıdır.
Bu görevde araştırmacılar toplam iki veri setini test etti; daha basit olan Vikiveri ve daha zor olan Viki-Kategori listesi (Wikipedia'dan alınmıştır).
Sırada "Kapalı Alan Soru ve Cevap" sorusu yer alıyor. Araştırmacılar, MultiSpanQA veri setinden birden fazla süreksiz bilgi çıkardı ve sorular sordu.
Örneğin, "Dünyanın ilk yayınevini kim hangi yılda kurdu?" (Cevap: Johannes Gutenberg, 1450).
Sonuç olarak Cove, Lama'ya %20'lik bir doğruluk artışı da sağladı.
Sonuç olarak, Faktör+Revize modunda doğruluk oranı yalnızca doğrulamasız zincir modundan önemli ölçüde daha yüksek olmakla kalmıyor, aynı zamanda ChatGPT'yi aşıyor.
Kağıt adresi: