Alpakalar balinalara dönüşür, Meta hizalamayı "otomatikleştirir" ve Kambur, mevcut tüm LLaMa modellerini yener

Editörler: Xiaozhou, Chen Ping

**Kaynak:**Makinenin Kalbi

Geçtiğimiz yıl ChatGPT ve GPT-4'ün temsil ettiği büyük dil modeli (LLM) hızla gelişti, ardından Meta'nın yapay zeka dünyasında da oldukça heyecan yaratan açık kaynaklı LLaMa ve Llama 2 serisi modelleri geldi. . Ancak ardından gelenler sürekli tartışmalara yol açtı.Bazı insanlar LLM'nin bazı kontrol edilemeyen riskleri olduğuna ve insanların hayatta kalmasına yönelik bazı potansiyel tehditler oluşturduğuna inanıyordu.

Bu zorlukların üstesinden gelmek için, LLM hizalaması üzerine yapılan araştırma giderek daha önemli hale geldi.Bazı araştırmacılar talimat takibini (talimat takibi) önerdiler, ancak bu yöntem çok sayıda manuel açıklama gerektiriyor. Bununla birlikte, bu tür yüksek kaliteli talimat izleyen veri kümelerine açıklama eklemek maliyetlidir.

Bu makalede, Meta AI araştırmacıları, ilgili talimatlara otomatik olarak açıklama ekleyerek yüksek kaliteli bir talimat izleyen dil modeli oluşturan talimat geri çevirisi adı verilen ölçeklenebilir bir yöntem önermektedir.

Kağıt adresi:

Spesifik olarak, çalışma, web derleminin yanı sıra az miktarda tohum verisi üzerinde ince ayar yapılmış bir çekirdek model olarak bir dil modeliyle başlar. Tohum modelinin rolü, eğitim örnekleri oluşturmaktır ve ardından bu örneklerden bazı yüksek kaliteli örnekler elenir ve ardından bu veriler, daha güçlü bir modelde ince ayar yapmak için kullanılır.

İki tur yinelemeli veri kümesi ince ayarı LLaMa'dan sonra, ortaya çıkan Humpback modeli, Alpaka liderlik tablosunda LIMA, Claude, Guanaco, vb. gibi diğer mevcut damıtılmamış modellerden daha iyi performans gösterir.

Kambur aslında kambur balina anlamına geliyordu, aynı zamanda kambur balina olarak da bilinir Meta, modele Kambur adını verdi, bu nedenle derin bir anlamı yok.

Araştırmacılar, talimat geri çevirisi olarak adlandırılmasının nedeninin, insanlar tarafından yazılan hedef cümlenin, model tarafından oluşturulan başka bir dildeki kaynak cümle ile otomatik olarak açıklandığı makine çevirisindeki klasik geri çeviri yönteminden yararlanmasıdır. .

Turing Ödülü sahibi Yann LeCun, çalışmanın metodolojisi hakkında üst düzey bir genel bakış sundu ve Meta'nın çalışmalarını hizalama araştırmasına önemli bir katkı olarak övdü:

Bazı netizenler bu araştırmanın iyi bir özetini yaptılar: veri kalitesi büyük modeller için gerçekten önemlidir. Araştırma süreci sırasında, bir modelde ince ayar yapmak için farklı düzeylerde filtrelenmiş veriler kullandılar. Sonuçlar, yalnızca en iyi örneklerin elde edilebileceğini gösterdi. diğer örneklerden daha iyi performans gösteren bir model.

Bu makale, iki adımda tamamlanması gereken yeni bir veri artırma paradigması önermektedir. İlk olarak, daha iyi talimat verisi oluşturmak için bir dizi tohum (talimat, çıktı) çiftine ve bir korpusa sahip olmak gerekir.

Aşağıdaki şekil, Humpback'i bazı açık kaynaklı ve tescilli modellerle karşılaştırmaktadır.

Aşağıdaki Tablo 4, yöntemimizin hem 65B hem de 33B model ölçeklerinde damıtılmamış modeller arasında en iyi performansı gösterdiğini göstermektedir.

Aşağıdaki özel yönteme bakalım.

Yöntem Tanıtımı

Çalışma, genellikle temel bir dil modeline, az miktarda çekirdek veriye ve etiketlenmemiş bir örnek sete (web derlemi gibi) erişimi varsayan bir kendi kendine eğitim yaklaşımı önermektedir. Etiketlenmemiş veriler, genellikle, insanların ilgi alanına giren çeşitli konulardaki içerikler de dahil olmak üzere, insanlar tarafından yazılmış, çeşitli şekillerde büyük bir belge koleksiyonudur, ancak en önemlisi, talimatlarla eşleştirilmemiştir.

Burada iki temel varsayım vardır: İlk varsayım, bu çok büyük metin kümesinin (etiketlenmemiş örnek küme) bazı kullanıcı yönergeleri için üretilmiş örnekler olarak uygun olan bazı alt kümelerinin olduğudur. İkinci hipotez, bu aday cevapların talimatlarının tahmin edilebileceğidir ve bu, talimat izleyen modelleri eğitmek için yüksek kaliteli örnek çiftleri oluşturmak için kullanılabilir.

Aşağıdaki Şekil 1'de gösterildiği gibi, çalışma talimat geri çeviri sürecinin iki temel adımı içerdiğini önermektedir:

  • Kendini büyütme: Talimat ayarı için eğitim verisi çiftleri (talimat-çıktı) oluşturmak üzere etiketlenmemiş veriler (yani web korpusu) için talimatlar oluşturun.
  • Öz-yönetim: Talimatları takip etmek için temel modelde ince ayar yapmak üzere eğitim verileri olarak yüksek kaliteli örnek verileri bağımsız olarak seçin. Bu yöntem yinelemeli olarak yapılır.

Bunlar arasında benimsenen özyönetim adımları aşağıdaki Tablo 1'de gösterilmektedir:

Deney ve Sonuçlar

Bu belgede yer alan veri seti temel olarak çekirdek verileri ve geliştirilmiş verileri içerir. Spesifik bilgiler Tablo 2 ve Şekil 2'de gösterilmektedir:

Şekil 3, modeli eğitmek için kullanılan kendi kendini düzeltme olmadan artırılmış verilerin, artan veri boyutuna rağmen performansı takip eden talimatı iyileştirmediğini göstermektedir.

Aşağıdaki şekil, farklı yönerge ayarlama veri kümelerinin veri verimliliğini karşılaştırmaktadır.

Verilerin ve modellerin ortak genişletilmesi: Çalışma, 7B modelinde gözlemlenen veri genişletme eğilimlerinin daha büyük modeller için de geçerli olduğunu ortaya koyuyor. Örneğin, 65B tohum modeline yüksek kaliteli büyütme verilerinin eklenmesi daha fazla iyileştirme getirecektir.

Sağduyulu muhakeme: Çalışma, beş sağduyulu muhakeme kıyaslaması SIQA, PIQA, Arc-Easy, Arc-Challenge ve Openbook QA (OBQA) üzerinde test edilmiştir ve sonuçlar Tablo 5'te özetlenmiştir. Sonuçlar, temel modelle karşılaştırıldığında, modelimizin performansının sosyal muhakeme gibi çeşitli açılardan iyileştirildiğini göstermektedir.

MMLU: Tablo 6, MMLU'daki (çoklu çoklu görev dilini anlama) farklı modellerin sonuçlarını özetlemektedir. İnce ayarlı modelimiz, temel modele kıyasla sıfır atış doğruluğunu artırır, ancak 5 örnek bağlam örneğinde düşük performans gösterir.

View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Reward
  • Comment
  • Share
Comment
0/400
No comments
Trade Crypto Anywhere Anytime
qrCode
Scan to download Gate app
Community
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)