RLHF'nin artık insanlara ihtiyacı yok. Google ekibinin araştırması, yapay zeka açıklamalarının insan düzeyine ulaştığını kanıtladı

2023-09-06 03:01:28

Orijinal kaynak: Xinzhiyuan

Resim kaynağı: Sınırsız Yapay Zeka tarafından oluşturulmuştur

RLHF'deki "insanların" değiştirilmesi mümkün müdür?

Google ekibinin son araştırması, yapay zeka geri bildirim takviyeli öğrenme (RLAIF) olan tercih açıklaması için insanların yerini alacak büyük modellerin kullanılmasını öneriyor.

Kağıt adresi:

RLAIF'in, insan yorumculara ihtiyaç duymadan %50'lik bir kazanma oranıyla RLHF ile karşılaştırılabilir iyileştirmeler üretebildiği bulundu.

Aynı zamanda Google araştırması, RLAIF ve RLHF'nin denetimli ince ayar (SFT) ile karşılaştırıldığında %70'in üzerinde bir kazanma oranına sahip olduğunu bir kez daha kanıtladı.

Günümüzde büyük dil modellerinin eğitiminin önemli bir parçası RLHF'dir. İnsanlar, yapay zeka çıktısının kalitesini derecelendirerek yanıtları daha kullanışlı hale getiriyor.

Ancak bu, çok sayıda açıklayıcıyı yapay zekanın zararlı içerik çıktısına maruz bırakmak da dahil olmak üzere çok fazla çaba gerektirir.

Artık RLAIF, RLHF ile karşılaştırılabilir olduğundan, gelecekteki modeller insan geri bildirimine ihtiyaç duymaz ve aynı zamanda kendi kendine döngüler yoluyla da geliştirilebilir.

RLHF'nin artık insanlara ihtiyacı yok

Şu anda RLHF, ChatGPT, Bard ve bu paradigmayı benimseyen diğer modeller de dahil olmak üzere büyük modellere ince ayar yapmak için temel yöntem haline geldi.

Spesifik olarak, RLHF üç adıma bölünmüştür: denetimli bir ince ayar LLM'sinin ön eğitimi; bir ödül modelini eğitmek için veri toplamak ve modele RL ile ince ayar yapmak.

RLHF ile büyük modeller, geleneksel SFT'nin ayırt etmesi zor olan karmaşık dizi düzeyindeki hedefler için optimize edilebilir.

Ancak çok gerçek bir sorun, RLHF'nin büyük ölçekli ve yüksek kaliteli insan açıklama verilerine ihtiyaç duyması ve bu verilerin üstün sonuçlar elde edip edemeyeceğidir.

Bu Google çalışmasından önce Antropik araştırmacılar, RL'nin ince ayarı için ödül modellerini eğitmek amacıyla yapay zeka tercihlerini kullanmayı keşfeden ilk kişilerdi.

İlk kez "Anayasal Yapay Zeka" alanında RLAIF'yi önerdiler ve Yüksek Lisans'ın insan muhakemesi ile oldukça tutarlı olduğunu ve hatta bazı görevlerde insanlardan daha iyi performans gösterdiğini buldular.

Ancak bu çalışmada insan ve yapay zeka geri bildirimleri karşılaştırılmadığı için RLAIF'in RLHF'nin yerini alıp alamayacağına dair nihai cevap henüz elde edilemedi.

Google'ın son araştırması esas olarak bu sorunu çözmeye yöneliktir.

Araştırmacılar model özetleme görevinde doğrudan RLAIF ve RLHF'yi karşılaştırdılar.

1 metin ve 2 aday yanıtı verildiğinde, tercih açıklaması vermek için hazır bir Yüksek Lisans Diploması kullanın.

Daha sonra LLM tercihlerine ve karşılaştırmalı kayıplara dayalı olarak bir ödül modeli (RM) eğitilir. Son olarak, politika modeline takviyeli öğrenme yoluyla ince ayar yapılır ve ödül modeli ödül vermek için kullanılır.

Peki Google'ın önerdiği RLAIF yöntemlerinin Anthropic'ten farkı nedir?

Google'ın kendisi makalede şunu açıklıyor:

Google: Yapay zeka etiketli tercihlere dayalı bir ödül modeli eğitin ve ardından RL'de ince ayar yapın.
Anayasal Yapay Zeka: Yüksek Lisans'tan anayasaya dayalı olarak daha iyi yanıtlar üretmesini yinelemeli olarak isteyerek denetimli öğrenme modellerini geliştirin.

Yapay zekayla kendini etiketleme, kendini geliştirme

Google'ın son araştırmasında önerdiği RLAIF yönteminin süreci nasıldır?

Tercih etiketlemesi için geniş dil modeli

Araştırmacılar, iki aday arasındaki tercihleri etiketlemek için "hazır" bir LLM kullandılar.

Bu, genel kullanım için önceden eğitilmiş veya talimatlara göre ayarlanmış, ancak belirli bir alt görev için ince ayar yapılmamış bir modeldir. Bir metin parçası ve iki aday özet verildiğinde, LLM'den hangi özetin daha iyi olduğunu derecelendirmesi istenir. LLM'nin girdi yapısı aşağıdaki gibidir:

1. Giriş

Eldeki görevi tanıtan ve açıklayan talimatlar

2. Çoklu örnek örnekler (isteğe bağlı)

Bir parça metin, bir çift özet, bir fikrin gerekçesi ve bir tercih kararı

3.Etiketlenecek örnekler

Açıklama eklenecek bir metin parçası ve bir çift özet

4. Son

Yüksek Lisans için bilgi istemi bitiş dizesi (ör. "Tercih Edilen Özet =")

LLM'ye girdi sağladıktan sonra araştırmacılar "1" ve "2" tokenlerini üretmenin logaritmik olasılıklarını elde ettiler ve tercih dağılımını elde etmek için softmax'ı hesapladılar.

Modelden serbest biçimli yanıtların kodunu çözmek ve tercihleri sezgisel olarak çıkarmak (örneğin, çıktı = "ilk özet daha iyidir") veya tercih dağılımını tek sıcak bir temsil olarak temsil etmek gibi LLM'den tercih ek açıklamaları almanın birçok yolu vardır ( tek sıcak gösterim). Ancak araştırmacılar bu alternatifleri denemediler çünkü yöntemleri zaten yüksek doğruluk sağlıyordu.

Araştırmacılar iki tür giriş ile deneyler yaptı: Birincisi basitçe "Hangi özet daha iyi?" diye soran "Temel" ve OpenAI TL;DR tercih veri kümesini oluşturmak için kullanılan yöntemi taklit eden ikincisi "OpenAI". Güçlü özetlerin nelerden oluştuğuna dair ayrıntılı bilgiler içeren, insan tercihi etiketleyicilerine yönelik talimatlar. Aşağıda gösterildiği gibi.

Araştırmacılar ayrıca, farklı konuları kapsayacak şekilde örneklerin manuel olarak seçildiği istemlere az sayıda örnek ekleyerek bağlamsal öğrenmeyi de denediler. Konum sapmasını çözün.

Önceki bulgular, adayların LLM'ye sunulma sırasının LLM'nin hangi adayın tercih edileceğine ilişkin kararını etkileyebileceğini göstermektedir. Araştırmacılar, özellikle daha küçük boyutlu, açıklamalı LLM'ler için bu konumsal önyargının kanıtlarını buldular.

Tercih açıklamasında konumsal yanlılığı azaltmak için, adayların Yüksek Lisans'a gönderilme sırası tersine çevrilerek her bir aday çifti üzerinde iki çıkarım gerçekleştiriyoruz. Nihai tercih dağılımını elde etmek için iki çıkarımın sonuçlarının ortalaması alınır.

Düşünme zinciri muhakemesi

Araştırmacılar, insan tercihleriyle tutarlılığı artırmak için yapay zeka yorumcularından düşünce zinciri (COT) muhakemesini ortaya çıkarmaya çalıştı.

Araştırmacılar standart bitiş ipuçlarını (örneğin, "Tercih Edilen Özet =" "Her özetin tutarlılığını, doğruluğunu, kapsamını ve genel kalitesini göz önünde bulundurun ve hangisinin daha iyi olduğunu açıklayın. Gerekçe:") ile değiştirir ve ardından bir LLM yanıtının kodunu çözer.

Son olarak araştırmacılar orijinal istemleri, yanıtları ve orijinal bitiş dizesi olan "Tercih Edilen Özet ="'i birleştirdi ve tercih dağılımını elde etmek için Bölüm 3.1'deki puanlama sürecini izledi. Özel işlem için aşağıdaki şekle bakın.

Sıfır örnekli istemlerde LLM, çıkarımın nasıl görünmesi gerektiğine dair hiçbir örnek vermezken, az örnekli istemlerde araştırmacılar, modelin takip etmesi için COT çıkarımı örnekleri sağlar. Örnek için aşağıdaki resme bakın.

### Öz Tutarlılık

Düşünce zinciri ipuçları için araştırmacılar aynı zamanda kendi kendine tutarlılığı da denediler; bu teknik, birden fazla akıl yürütme yolunu örnekleyerek ve her yolun sonunda üretilen nihai yanıtları toplayarak düşünce zinciri akıl yürütmesini geliştiriyor.

Sıfır olmayan kod çözme sıcaklığı kullanarak birden fazla düşünce zinciri gerekçesini örnekliyoruz ve ardından her bir düşünce zinciri için LLM tercih dağılımını elde etmek için önceki bölümdeki yöntemi takip ediyoruz. Daha sonra nihai tercih dağılımını elde etmek için sonuçların ortalaması alınır.

Yapay Zeka Geri Bildirimi Güçlendirmeli Öğrenme

Tercihler Yüksek Lisans tarafından etiketlendikten sonra, tercihleri tahmin etmek için bir ödül modeli (RM) eğitilir. Araştırmacıların yöntemi yumuşak etiketler ürettiğinden, ödül modelinde belirtilen kayıp yerine RM tarafından oluşturulan ödül puanının softmax'ının çapraz entropi kaybını kullanıyorlar.

Softmax, sınırsız RM puanlarını olasılık dağılımlarına dönüştürür.

RM'leri AI etiketli veri kümeleri üzerinde eğitmek, özellikle araştırmacıların AI etiketleyicilerinin genellikle RM'lerden daha büyük ve daha güçlü olması nedeniyle, bir model ayrıştırma biçimi olarak görülebilir.

Başka bir yaklaşım, RM'yi atlamak ve RL'de ödül sinyali olarak doğrudan AI geri bildirimini kullanmaktır, ancak bu yaklaşım, AI açıklayıcısının RM'den daha büyük olması nedeniyle hesaplama açısından daha pahalıdır.

Eğitilen RM ile araştırmacılar, Advantage Actor Critic (A2C) algoritmasının dil modelleme alanına uyarlanmış değiştirilmiş bir versiyonunu kullanarak takviyeli öğrenme gerçekleştirdi.

değerlendirmek

Araştırmacılar sonuçlarını üç ölçüme göre değerlendirdiler: AI etiketleyici hizalaması, eşleştirme doğruluğu ve kazanma oranı.

Yapay zeka açıklamalayıcı hizalaması, yapay zeka açıklama tercihlerinin insan tercihlerine göre doğruluğunu ölçmek için kullanılır.

Tek bir örnek için, yumuşak yapay zeka etiketli tercihleri ikili gösterime dönüştürün. Ek açıklama hedef insan tercihiyle tutarlıysa 1 atayın, aksi takdirde 0 atayın.

İkili doğruluk, eğitilmiş bir ödül modelinin, uzun süredir devam eden insan tercihleri dizisine göre ne kadar doğru olduğunun bir ölçüsüdür.

Paylaşılan bir bağlam ve bir çift aday yanıtı göz önüne alındığında, RM'nin insan açıklamasına dayalı olarak tercih edilen adayı tercih edilmeyen adaydan daha yüksek puan alması durumunda eşleştirme doğruluğu 1'dir. Aksi takdirde değer 0'dır. RM'nin genel doğruluğunu ölçmek için bu miktarın birden fazla örnek üzerinden ortalaması alınır.

Kazanma oranı, insanların birini diğerine ne sıklıkla tercih ettiğini ölçerek iki stratejinin uçtan uca kalitesini değerlendirir.

Bir girdi ve iki nesil sonucu verildiğinde, insan açıklamacı hangi nesli tercih edeceğini seçer. A stratejisinin B stratejisinden daha iyi performans gösterdiği durumların yüzdesine "A'ya karşı B kazanma oranı" adı verilir.

Deney ayrıntıları

Araştırmacılar, OpenAI tarafından küratörlüğünü yapılan filtrelenmiş bir Reddit TL;DR veri kümesini kullandılar. TL;DR Reddit'ten çeşitli konulardaki yaklaşık 3 milyon gönderiyi ("alt dizinler" olarak da bilinir) ve orijinal yazarların yazdığı gönderilerin özetlerini içerir.

Veriler ayrıca yüksek kaliteyi sağlamak için OpenAI tarafından filtreleniyor; buna genel halkın anlayabileceği Reddit konularının beyaz listesinin kullanılması da dahil.

Ayrıca özette yalnızca 24 ila 48 belirtme çizgisi bulunan gönderiler dahil edilir. Filtrelenen veri kümesi 123.169 gönderi içerir ve bunların yaklaşık %5'i doğrulama kümesi olarak kullanılır.

Veri kümesi hakkında daha fazla ayrıntıyı orijinal makalede bulabilirsiniz. Ayrıca OpenAI, filtrelenmiş TL;DR veri kümesinden bir insan tercihi veri kümesi oluşturdu.

Belirli bir gönderi için, farklı stratejilere göre iki aday özeti oluşturulur ve etiketleyicilerden en sevdikleri özetleri puanlamaları istenir. Toplam veri seti yaklaşık 92k ikili karşılaştırma içermektedir.

LLM ek açıklaması

Yapay zeka açıklama tekniklerinin (ör. ipuçları, kendi kendine tutarlılık) etkinliğini değerlendirmek için araştırmacılar, insan açıklamacıların özetleri daha yüksek güvenle tercih edeceği TL;DR tercih veri kümesinden örnekler seçti.

Araştırmacılar, daha hızlı deneysel yinelemeler sağlamak için veri kümesinin eğitim bölümünün rastgele %15'lik bir alt kümesinde yapay zeka açıklayıcı hizalamasını değerlendirdi ve 2.851 değerlendirme örneği oluşturdu.

Ödül modeli eğitimi için TL;DR tercih veri kümesinin tüm eğitim bölümleri LLM tarafından açıklanır ve güven puanına bakılmaksızın eğitim için kullanılır.

Model eğitimi

Araştırmacılar, SFT modelini, başlangıç kontrol noktası olarak PaLM 2 Ekstra Küçük (XS) kullanarak OpenAI filtreli TL;DR veri kümesi üzerinde eğitti.

Daha sonra araştırmacılar, SFT modelinden RM'leri başlatır ve bunları OpenAI'nin TL;DR insan tercihi veri kümesi üzerinde eğitir.

Tablo 1 ve 5.1'deki sonuçlar için araştırmacılar, "OpenAI + COT 0-shot" istemini (kendi kendine tutarlılık olmadan) kullanarak AI açıklamalı tercihler oluşturmak için PaLM 2L'yi kullandılar ve ardından RM veri kümesini tüm tercihler konusunda eğittiler.

Takviyeli öğrenme için araştırmacılar, politikayı eğitmek amacıyla Advantage Actor Critic'i (A2C) kullandılar. Hem strateji hem de değer modelleri SFT modellerinden başlatılır. Araştırmacılar, stratejilerini başlatmak için başlangıç durumu olarak filtrelenmiş Reddit TL;DR veri kümesini kullandılar.

İnsan sınıf değerlendirmesi

Araştırmacılar, RLHF ve RLAIF stratejilerini değerlendirmek için 1.200 insan derecelendirmesi topladı. Her derecelendirme görevi için, değerlendiricilere bir gönderi ve farklı stratejilere göre (her biri RLAIF, RLHF, SFT ve insan referansı için birer tane) oluşturulmuş 4 özet verilir ve bunları hiçbir bağ olmadan kalite sırasına göre sıralamaları istenir.

Gönderiler, başka değerlendirmeler için kullanılmayan TL;DR denetimli ince ayar veri kümesinin uzatma kümesinden alınmıştır. Bu sıralamalar toplandıktan sonra herhangi iki stratejinin oranları hesaplanabilir.

%50 kazanma oranı, beraberlik

RLAIF ve RLHF

Makalenin başında Google, RLAIF ile RLHF'yi karşılaştırmanın avantajlarını açıkladı.Sonuçlar, iki yöntemin benzer performansa sahip olduğunu gösteriyor.

Spesifik olarak, insan değerlendiriciler %71 oranında temel SFT'ye kıyasla RLAIF'yi tercih etti. RLHF, SFT'den %73 oranında üstündü.

Araştırmacılar ayrıca RLAIF ve RLHF'nin kazanma oranlarını doğrudan karşılaştırdılar ve eşit derecede popüler olduklarını, yani her ikisinin de %50 kazanma oranına sahip olduğunu buldular.

İki strateji arasındaki farkları daha iyi anlamak için Google, oluşturduğu özetlerin niteliksel bir karşılaştırmasını gerçekleştirdi.

Ek olarak, RLAIF ve RLHF özetlerini insanlar tarafından yazılan referans özetleriyle karşılaştırdılar. RLAIF, %79 oranında referans özetlerinden daha iyi özetler üretti ve RLHF sonuçları, %80 oranında referans özetlerinden daha iyi performans gösterdi.

RLAIF ve RLHF ile referans özeti arasındaki kazanma oranı farkının sadece %1 olduğu ve ciddi bir fark olmadığı görülmektedir.

Araştırmacıların ayrıca yukarıdaki tabloda kırmızı metinde gösterildiği gibi RLHF stratejisindeki halüsinasyon sıklığının RLAIF'dekinden daha yüksek olduğunu bulduğunu da belirtmekte fayda var.

Özet uzunluğu kontrol edildikten sonra RLAIF ve RLHF stratejileri hala temel SFT'den daha iyi performans gösteriyor ve benzer kazanma oranlarına ulaşıyor.

Bu sonuçlar, RLAIF'in insan açıklamasına dayanmasına gerek olmadığını ve RLHF'ye uygun bir alternatif olduğunu göstermektedir.

Ipuçları ve Püf noktaları

İpucu tekniklerinin kullanımında Google ekibi üç tür ipucu tekniği denedi: başlangıç spesifikliği, CoT ve az örnekli bağlam öğrenimi.

AI etiketleyicinin, ayrıntılı OpenAI girişini yönlendirerek ve CoT muhakemesini gerçekleştirerek %78 tutarlılığa ulaşabileceği bulundu.

Bağlamsal öğrenme doğruluğu artırmaz, hatta daha da kötüleştirebilir.

### Kendi kendine tutarlılık

Araştırmacılar, kod çözme sıcaklığı 1 olan 4 ve 16 örnek kullanarak kendi kendine tutarlılık deneyleri gerçekleştirdiler.

Çoklu düşünce zinciri ilkelerini T = 1 ile örneklediğimizde, sonuçlar insan tercihleriyle daha az tutarlıdır.

### Büyük model etiketleyici ölçeği

Çalışma aynı zamanda büyük model açıklayıcılarının parametre boyutunu artırmanın daha yüksek kalitede tercih açıklamaları üretebileceğini de buldu.

Tercih edilen örneklerin sayısı

Eğitim örnekleriyle ödül modelinin doğruluğu nasıl değişiyor?

Araştırmacılar binlerce örnek üzerinde eğitim sonrasında ödül modelinin performansının tüm veri kümesindeki eğitime yakın olduğunu buldu.

Sonuç olarak

Araştırmacılar, RLAIF'in insan yorumlayıcılara ihtiyaç duymadan RLHF'ye benzer iyileştirmeler üretebileceğini gösteriyor.

Bu çalışma RLAIF'in potansiyelini vurgulasa da hâlâ bazı sınırlamalar mevcuttur.

İlk olarak, bu çalışma yalnızca özet görevi araştırmıştır ve diğer görevlere genellenebilirliği konusunda daha fazla araştırmaya ihtiyaç vardır.

İkinci olarak araştırmacılar, ekonomik maliyet açısından LLM çıkarımının manuel açıklama yapmaktan daha avantajlı olup olmadığını tahmin etmediler.

Ek olarak, RLAIF ile birleştirilmiş RLHF'nin tek bir yaklaşımdan daha iyi performans gösterip gösteremeyeceği, LLM'yi kullanarak ödülleri doğrudan atamanın ne kadar iyi olduğu, AI etiketleyici hizalamasının iyileştirilmesinin gelişmiş nihai politikalara dönüşüp dönüşmeyeceği ve bir LLM açıklayıcısının kullanılıp kullanılmadığı gibi araştırılması gereken bazı ilginç sorular vardır. Politika modeliyle aynı boyut, politikayı daha da geliştirebilir (yani modelin "kendi kendini geliştirip geliştiremeyeceği").

Netizenler arasında sıcak tartışma

Google, RL hakkında iki makale yayınladı:

RLAIF: İnsan Geri Bildirimine Benzer Eğitim Ödül Modelleri
ReST: Üretken Modeller Kullanarak Kendi Kendine Eğitimi Kolaylaştırma Bu iki makaleyi birleştirmek, veriye aç yapay zeka algoritmalarını tatmin edebilir

Yarım ay önce Google DeepMind, büyük ölçekli dil modelini insan tercihleriyle tutarlı hale getirmek için yeni bir ReST algoritması önerdi.

Özellikle, çevrimdışı takviyeli öğrenme yöntemleri aracılığıyla, büyük dil modellerinin çeviri kalitesi, insan tercihlerini daha iyi karşılayacak şekilde iyileştirilir.

Bir araştırmacı, niteliksel testlere göre Anthropic'in Claude modelinin GPT-4'ten daha zayıf göründüğünü söyledi. Bunun nedeni RLHF/RLAIF yöntemi veya ön eğitim olabilir. Bu yöntemlerin, akademik ölçütlerde daha iyi performans gösterseler bile, gerçek dünya uygulamalarında daha iyi genellenip genellenemeyeceği belirsizdir.

Bunun insan tarafından yapılan açıklamaların önemini azalttığını söyleyemem ama kesin olan bir şey var ki, yapay zeka tarafından beslenen RL maliyeti azaltabilir. İnsan açıklaması genelleme açısından hala son derece önemlidir ve RLHF+RLAIF hibrit yöntemi herhangi bir tekli yöntemden daha iyi performans gösterir.

Çoğu netizen makalenin büyük bir atılım olduğuna inanıyor, ancak bazı netizenler bunun Anthropic'in birkaç ay önce önerdiği Constitute Claude'daki RLAIF'den temel olarak farklı görünmediğini düşünüyor.

Referanslar:

View Original

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.

Reward
like
Comment
Share

Comment

0/400

No comments

Topic
1/3
1ETH Breaks Through $3,800
20k Popularity
2Gate June Transparency Report
12k Popularity
3Altcoins on the Rise
20k Popularity
4Gate Square Creator Spark Program
143k Popularity
5Content Mining & Earn Rich Commission
1852k Popularity

sitemap