Google'ın en son teknolojisi: arama motoru aracılığıyla, ChatGPT gibi modellerin doğruluğunu büyük ölçüde artırın

Orijinal kaynak: AIGC Açık Topluluğu

Görüntü kaynağı: Sınırsız AI tarafından oluşturuldu

Transformer'ın ortaya çıkması nedeniyle, ChatGPT gibi büyük dil modellerinin doğal dil görevlerini işleme yeteneği büyük ölçüde geliştirildi. Bununla birlikte, oluşturulan içerik çok sayıda yanlış veya güncel olmayan bilgi içerir ve içeriğin gerçekliğini doğrulamak için olgusal bir değerlendirme sistemi yoktur.

Google AI araştırma ekibi, büyük dil modellerinin dünyadaki değişikliklere uyarlanabilirliğini ve içeriğin gerçekliğini kapsamlı bir şekilde değerlendirmek için "Arama motoru bilgisi yoluyla büyük dil modellerinin doğruluğunu artırma" adlı bir makale yayınladı. Arama motorlarından gerçek zamanlı bilgi elde ederek ChatGPT ve Bard gibi büyük dil modellerinin doğruluğunu artırmak için FRESH bir yöntem önerilmektedir.

Araştırmacılar, çeşitli türlerde 600 gerçek soru içeren yeni bir soru-cevap kıyaslama seti oluşturdular ve cevapların sıklığı dört kategoriye ayrıldı: "asla değişme", "yavaş değişim", "sık değişim" ve "yanlış öncüller"**.

Aynı zamanda, cevaplardaki tüm bilgilerin doğru ve güncel olmasını gerektiren katı mod ve yalnızca ana cevapların doğruluğunu değerlendiren rahat mod olmak üzere iki değerlendirme yöntemi de tasarlanmıştır.

Deneysel sonuçlar, FRESH'in FRESHQA'daki büyük dil modellerinin doğruluğunu önemli ölçüde artırdığını göstermektedir. Örneğin, GPT-4, FRESH'in katı modunun yardımıyla orijinal GPT-4'ten %47 daha doğrudur.

Ek olarak, bu arama motorlarını kaynaştırma yöntemi, modelin parametrelerini doğrudan genişletmekten daha esnektir ve mevcut modeller için dinamik bir dış bilgi kaynağı sağlayabilir. Deneysel sonuçlar ayrıca FRESH'in gerçek zamanlı bilgi gerektiren problemlerde büyük dil modellerinin doğruluğunu önemli ölçüde artırabileceğini göstermektedir.

Bildiri Adresi:

Açık Kaynak Adresi: Büyük Dil Modeli S/FreshQA (boru hattında, yakında açık kaynak olacak)

Google'ın makalesinin içeriğinden, FRESH'in yöntemi temel olarak 5 modülden oluşmaktadır.

FRESHQA kıyaslama seti oluşturun

Büyük dil modellerinin değişen dünyaya uyarlanabilirliğini kapsamlı bir şekilde değerlendirmek için, araştırmacılar ilk olarak, cevap değişikliklerinin sıklığına göre dört kategoriye ayrılabilen 600 gerçek açık alan sorusu içeren FRESHQA kıyaslama setini oluşturdular: "asla değişme", "yavaş değişim", "sık değişim" ve "yanlış öncüller".

  1. Asla değişmez: Temelde değişmeyecek soruların cevabı.

  2. Yavaş değişim: Sorunun cevabı birkaç yılda bir değişir.

  3. Sık değişim: Her yıl veya daha az değişebilen soruların cevapları.

  4. Yanlış öncül: Yanlış bir öncül içeren bir problem.

Sorular çeşitli konuları kapsar ve farklı zorluk seviyelerine sahiptir. FRESHQA'nın temel özelliği, cevabın zaman içinde değişebilmesidir, bu nedenle modelin dünyadaki değişikliklere duyarlı olması gerekir.

Katı Mod ve Rahat Mod Değerlendirmesi

Araştırmacılar iki değerlendirme modu önerdiler: cevaplardaki tüm bilgilerin doğru ve güncel olmasını gerektiren katı mod ve yalnızca ana cevapların doğruluğunu değerlendiren rahat mod.

Bu, dil modellerinin olgusal doğasını ölçmek için daha kapsamlı ve incelikli bir yol sağlar.

FRESHQA'ya dayalı farklı büyük dil modellerini değerlendirin

FRESHQA'da araştırmacılar, GPT-3, GPT-4, ChatGPT ve diğerleri dahil olmak üzere farklı parametreleri kapsayan büyük dil modellerini karşılaştırdı. Değerlendirmeler hem katı modda (hatasız gereklidir) hem de izin verilen modda (yalnızca birincil cevaplar değerlendirilir) gerçekleştirilir.

Tüm modellerin, gerçek zamanlı bilgi gerektiren problemlerde, özellikle sık sık değişen ve yanlış öncüllerle ilgili problemlerde düşük performans gösterdiği bulunmuştur. Bu, mevcut büyük dil modelinin değişen dünyaya uyum sağlama konusunda sınırlamaları olduğunu göstermektedir.

Arama motorlarından ilgili bilgileri alma

Büyük dil modelinin olgusal doğasını geliştirmek için, FRESH'in temel fikri, arama motorundan sorunla ilgili gerçek zamanlı bilgi almaktır.

Özellikle, bir soru verildiğinde, FRESH, yanıt kutuları, web sayfası sonuçları, "diğer kullanıcılar da sordu" vb. dahil olmak üzere birden fazla arama sonucu türü elde etmek için Google'ın arama motorunu bir anahtar kelime olarak sorgulayacaktır.

Seyrek eğitim entegrasyonu yoluyla bilgi alın

FRESH, alınan kanıtları birleşik bir biçimde büyük dil modelinin giriş istemine entegre etmek için birkaç atışlık öğrenmeyi kullanır ve doğru cevaba ulaşmak için kanıtların nasıl sentezleneceğine dair çeşitli gösteriler sağlar.

Bu, büyük dil modellerine görevi anlamayı ve güncel ve doğru cevaplar bulmak için farklı kaynaklardan gelen bilgileri entegre etmeyi öğretebilir.

Google, FRESH'in büyük dil modellerinin dinamik uyarlanabilirliğini geliştirmek için büyük önem taşıdığını ve bunun da büyük dil modellerinin gelecekteki teknoloji araştırmaları için önemli bir yön olduğunu söyledi.

View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Reward
  • Comment
  • Share
Comment
0/400
No comments
Trade Crypto Anywhere Anytime
qrCode
Scan to download Gate app
Community
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)