Küçük model büyük modelle nasıl karşılaştırılabilir, Pekin Teknoloji Enstitüsü Mingde büyük modeli MindLLM'yi piyasaya sürdü ve küçük model büyük bir potansiyele sahip

2023-10-28 04:48:20

Orijinal kaynak: Makinenin Kalbi

Görüntü kaynağı: Sınırsız AI tarafından oluşturuldu

Büyük dil modelleri (LLM'ler), çeşitli doğal dil görevlerinde mükemmel performans göstermiştir, ancak yüksek eğitim maliyeti ve büyük parametre modellerinin çıkarılması nedeniyle profesyonel alanda büyük dil modellerinin uygulanmasında hala birçok pratik sorun vardır. Bu nedenle ekip, belirli etki alanlarına daha iyi hizmet vermeye ve aşağı akış görevlerinin eğitim ve çıkarım maliyetlerini azaltmaya dayalı olarak veri ve modellerin avantajlarını en üst düzeye çıkarmak için hafif modellerle başladı.

24 Ekim'de, Pekin Teknoloji Enstitüsü'nün doğal dil işleme ekibi, büyük ölçekli model geliştirme sürecinde biriken deneyimi kapsamlı bir şekilde tanıtan, veri oluşturma, model mimarisi, değerlendirme ve uygulama sürecinin her ayrıntılı adımını kapsayan bir dizi iki dilli hafif büyük dil modeli (Ming De LLM) - MindLLM'yi yayınladı. MindLLM sıfırdan eğitilmiştir ve 1.3B ve 3B sürümlerinde gelir ve bazı genel kıyaslamalarda diğer açık kaynaklı büyük modellerin performansını sürekli olarak eşleştirir veya daha iyi performans gösterir. MindLLM ayrıca, daha küçük modeller için özel olarak tasarlanmış yenilikçi bir talimat ayarlama çerçevesi sunarak yeteneklerini geliştirir. Buna ek olarak, hukuk ve finans gibi belirli dikeylerdeki uygulamalar için MindLLM ayrıca mükemmel etki alanı uyarlanabilirliğine sahiptir.

*Adres:

MindLLM'de Öne Çıkanlar

Yüksek kaliteli ve yüksek yüzdeli web metnini koruma, kitaplar ve konuşmalar gibi uzun vadeli verileri koruma, matematik verilerini altörnekleme ve kod verilerini yukarı örnekleme dahil olmak üzere veri işleme konusundaki deneyimimizi paylaştık. Uzmanlık öğrenimi için verileri eşit şekilde karıştırmanızı ve küçük ölçekli öğrenme senaryoları için bazı örnekleri parçalamanızı öneririz.
Değerlendirme sonuçlarımız bazı büyük modellerden daha iyi performans gösterdi ve MindLLM modeli, MMLU ve AGI değerlendirmelerinde MPT-7B ve GPT-J-6B gibi büyük modellerden talimat ince ayarı ve hizalaması olmadan daha iyi performans gösterdi. Çince'de MindLLM, C- ve CMMLU'daki daha büyük parametrik modellerle karşılaştırılabilir performans gösterir. Spesifik olarak, MindLLM-3B, matematiksel yetenekte MOSS-Base-16B ve MPT-7B gibi daha büyük modellerden daha iyi performans gösterir ve iki dillilikte Baichuan2-7B ve MOSS-Base-16B'den daha iyi performans gösterir. Ayrıca MindLLM-1.3B, aynı boyuttaki GPT-Neo-1.3B'den matematiksel olarak daha iyidir.
İki dilli öğrenmede iki farklı eğitim stratejisini karşılaştırdık ve eğitim öncesi dönemde verilerin eşit dağılıp dağılmadığının etkisine baktık. Sınırlı kapasite ölçeğine sahip hafif modeller (≤7B) için, önceden eğitilmiş ve ardından transfer eğitimi almış stratejiler aracılığıyla matematiksel, akıl yürütme veya iki dilli hizalama gibi karmaşık yeteneklere ulaşmanın optimal olmadığı sonucuna vardık, çünkü yeni ve mevcut bilgileri entegre etmek zordur. Buna karşılık, daha etkili bir strateji, gerekli yeteneklerin tutarlı ve verimli bir şekilde elde edilmesini sağlamak için sıfırdan başlamak ve birden çok veri türünü aşağı akış görevlerinin ihtiyaçlarıyla birlikte entegre etmektir.
Talimat ayarlama sırasında belirli yetenekler için özelleştirilmiş verilerin kullanılmasının, kapsamlı akıl yürütme veya konu bilgisi gibi hafif modellerin belirli yeteneklerini önemli ölçüde artırabileceğini bulduk.
Entropi tabanlı bir kütle filtreleme stratejisi kullanarak bir komut seti oluşturmak için bir yaklaşım sunuyoruz ve hafif modeller için yüksek kaliteli talimat ayarlama verilerini filtrelemedeki etkinliğini gösteriyoruz. Hafif modeller bağlamında, model performansının, yalnızca veri miktarını artırmak yerine, talimat ayarlama veri kalitesini iyileştirerek daha etkili bir şekilde optimize edilebileceğini gösteriyoruz.
Modellerimiz, özellikle hukuk ve finans gibi belirli alanlarda mükemmel performans göstermiştir. Model parametrelerinin boyutundaki farklılıkların belirli bir etki alanı içinde önemli farklılıklar oluşturmadığını ve daha küçük modellerin daha büyük modellerden daha iyi performans gösterebileceğini bulduk. Modelimiz, belirli bir alanda 1,3 B'den 3 B'ye kadar parametre boyutlarına sahip tüm modellerden daha iyi performans gösterirken, 6B ile 13B arasında değişen parametre boyutlarına sahip modellerle rekabet gücünü korur ve modelin belirli bir alanda sınıflandırma yeteneği, COT yaklaşımı altında önemli ölçüde geliştirilmiştir.

VERİLERLE İLGİLİ

Veri İşleme

Eğitim verilerini hem İngilizce hem de Çince olarak kullanıyoruz. İngilizce veriler Pile veri setinden türetilmiş ve daha fazla işlenmiştir. Çin verileri, Wudao ve CBooks gibi açık kaynaklardan gelen eğitim verilerinin yanı sıra İnternet'ten taradığımız verileri içerir. Veri kalitesini sağlamak için, özellikle web'den taranan veriler için katı veri işleme yöntemleri kullanıyoruz.

Veri işleme yaklaşımımız aşağıdakileri içerir:

Biçim Temizleme: Kaynak web sayfasından metin içeriğini ayıklamak ve temizlemek için bir web sayfası ayrıştırıcısı kullanıyoruz. Bu aşama, metnin akışını sağlamak için işe yaramaz HTML, CSS, JS logolarının ve emojilerin kaldırılmasını içerir. Ek olarak, tutarsız biçimlendirme sorununu da ele aldık. Modellerimizin eski edebiyatı veya şiiri öğrenebilmesi için Çince Geleneksel Çince karakterleri de koruduk.
Düşük kaliteli veri filtreleme: Veri kalitesini, bir web sayfasındaki metnin içeriğe oranına göre değerlendiririz. Özellikle, metin yoğunluğu %75'in altında veya 100 Çince karakterden az olan sayfaları hariç tutuyoruz. Bu eşik, bir web sayfası örneğinin ilk testiyle belirlendi.
Veri tekilleştirme: WuDao'nun verilerinin de web sayfalarından türetildiği göz önüne alındığında, bazı web siteleri aynı bilgileri tekrar tekrar yayınlayabilir. Bu nedenle, eğitim verilerimizin çeşitliliğini korurken yinelenen içeriği kaldırmak için yerel olarak hassas bir karma algoritma kullanıyoruz.
Hassas bilgi filtreleme: Web sayfalarının genellikle hassas içerik barındırdığı göz önüne alındığında, olumlu bir dil modeli oluşturmak amacıyla bu içeriği algılamak ve filtrelemek için buluşsal yöntemler ve hassas sözlükler kullandık. Gizliliği korumak için, kimlik numaraları, telefon numaraları ve e-posta adresleri gibi özel bilgileri tanımlamak için normal ifadeler kullanırız ve bunları özel etiketlerle değiştiririz.
Az bilgi içeren veri filtreleme: Reklamlar gibi az bilgi içeren veriler genellikle yinelenen içerik olarak görünür. Bu nedenle, bu tür içerikleri, web sayfasının metin içeriğindeki ifadelerin sıklığını analiz ederek belirleriz. Aynı web sitesindeki ifadelerin sık sık tekrarlanmasının model öğrenimine zarar verebileceğini düşünüyoruz. Sonuç olarak, filtrelerimiz esas olarak reklamlarda veya kimliği doğrulanmamış web sitelerinde sürekli tekrarlanan ifadelere odaklanır.

Sonunda, aşağıdaki verileri elde ettik:

Ölçekleme Kanunu

Derin öğrenme ve büyük dil modelleri için artan eğitim maliyetleri karşısında optimum performansı sağlamak için, Ölçeklendirme Yasası olarak bilinen veri hacmi ve model kapasitesi arasındaki ilişki üzerine bir çalışma yürüttük. Milyarlarca parametreye sahip büyük bir dil modelini eğitmeye başlamadan önce, daha büyük bir modeli eğitmek için bir ölçeklendirme deseni oluşturmak üzere daha küçük bir modeli eğitiriz. Model boyutlarımız 10 milyon ila 500 milyon parametre arasında değişir ve her model 10 milyara kadar belirteç içeren bir veri kümesi üzerinde eğitilir. Bu eğitimler, tutarlı hiper parametre ayarlarının yanı sıra daha önce de belirtildiği gibi aynı veri kümesini kullanır. Çeşitli modellerin nihai kaybını analiz ederek, FLOP (kayan nokta işlemi) eğitiminden Loss'a bir eşleme oluşturabildik. Aşağıdaki şekilde gösterildiği gibi, farklı boyutlardaki modeller tarafından doyurulan eğitim verilerinin miktarı farklıdır ve modelin boyutu arttıkça gerekli eğitim verileri de artar. Hedef modelin doğru veri gereksinimlerini karşılamak için, modelin genişleme yasasına uyacak şekilde güç yasası formülünü kullandık ve eğitim verilerinin miktarını ve 3B parametre modelinin kayıp değerini tahmin ettik ve bunları gerçek sonuçlarla karşılaştırdık (şekildeki yıldızlar).

Veri Karışıklığı ve Veri Kursu

Verilerin model üzerindeki etkisi temel olarak iki yönü kapsar: (1) sınırlı bir eğitim bütçesiyle belirli bir boyutta bir veri kümesi oluşturmak için farklı kaynaklardan gelen verilerin nasıl birleştirildiğini içeren karışım oranı; ve (2) modele özgü becerileri eğitmek için farklı kaynaklardan gelen verilerin düzenlenmesiyle ilgilenen veri kursları.

15M parametreli bir modeli eğitmek için her veri kaynağının ölçeğini küçülttük. Aşağıdaki şekilde gösterildiği gibi, farklı veri türlerinin öğrenme verimliliği ve modelin nihai sonucu üzerinde farklı etkileri vardır. Örneğin, bir matematik probleminin nihai veri kaybı daha düşüktür ve öğrenmesi daha hızlıdır, bu da daha belirgin bir kalıba sahip olduğunu ve öğrenilmesinin kolay olduğunu gösterir. Buna karşılık, bilgilendirici kitaplardan veya çeşitli web metinlerinden elde edilen verilerin uyarlanması daha uzun sürer. Teknolojiyle ilgili veriler ve ansiklopediler gibi benzer verilerin bazı alanları kayıplar açısından daha yakın olabilir.

Tek bir veriden diğer verilere genelleme yapan modelin performansını daha fazla araştırmak için, diğer verileri test etmek için tek bir veri üzerinde eğitilen bu modelleri kullanırız ve sonuçlar aşağıdaki şekilde gösterilmiştir:

Farklı veri kümeleri farklı derecelerde genelleme yeteneği gösterir, örneğin, web metni, ansiklopedi ve Soru-Cevap verileri üzerinde eğitilen model, birden çok veri kaynağında güçlü genelleme yeteneği gösterir ve içeriklerinin çeşitli alanlarda çeşitli bilgiler içerdiğini gösterir. Buna karşılık, akademik makale verileri ve kod verileri üzerinde eğitilen modeller matematiksel yetenekte üstündür, ancak muhtemelen etki alanı özgüllüğü ve benzersiz biçimlendirme bilgileri nedeniyle genellemede zayıftır.

Ayrıca, modelin performansını çeşitli beceriler ve veri türleri arasında dengelemek için birden çok veri ölçeklendirme ayarlaması yaptık. Deneylerimize dayanarak, veri karıştırma oranları için bazı ilkeleri sonuçlandırdık:

Çeşitlilikleri nedeniyle yüksek kaliteli web metni ve ansiklopedi verilerinin bir oranını koruyun.
Aşırı uyumu önlemek için matematiksel verilerin oranını azaltın.
Çeşitli örnekleme ve ilgili işlemler yoluyla biçimlendirmeyi azaltırken kod ve akademik verilerle matematiği geliştirin.
Uzun vadeli bağımlılıkları öğrenmenize yardımcı olması için bazı konuşma ve kitap verilerini saklayın.

Karışım oranına ek olarak, veri seyri (verilerin eğitilme sırası) da modelin öğrenme yeteneğini etkiler. Deneyler, farklı kaynaklardan gelen verilerin modelin farklı beceriler öğrenmesine neden olacağını ve belirli bir öğrenme sırasının benimsenmesinin, beceriler arasındaki korelasyon nedeniyle modelin yeni beceriler öğrenmesine yardımcı olabileceğini göstermiştir. Deneylerimiz, tekdüze olmayan karma verilerin ve dil aktarımı öğreniminin model yetenekleri üzerindeki etkisine odaklanmaktadır. Deneylerimiz, homojen olmayan karma verilerin, modelin bağlam içi öğrenme bağlamına daha yakın olan ve bu nedenle birkaç atışlık öğrenmede daha iyi performans gösteren aynı tür veriler üzerinde sürekli eğitimine yol açtığını göstermektedir. Bununla birlikte, öğrenmenin eşitsizliği nedeniyle, sonraki aşamalarda gözle görülür bir unutma olgusu olabilir. Ek olarak, dil aktarımı öğrenimi, modelin iki dilli beceri kazanmasına yardımcı olur ve genel performans, dil hizalaması yoluyla geliştirilebilir, ancak karma dil verileriyle eğitimin, model yeteneğinin tahsisi ve edinilmesi için daha elverişli olduğuna inanıyoruz.

MindLLMs Model Mimarisi

MindLLM-1.3B, GPTNeo-1.3B ile aynı model mimarisini kullanırken, MindLLM-3B bunun üzerine bazı iyileştirmeler ekler. Eğitim kararlılığına ve model yeteneklerine bağlı olarak, Döndürülmüş Konum Kodlama (RoPE) DeepNorm, RMS Norm, FlashAttention-2, GeGLU ve diğer optimizasyon operatörlerini kullanıyoruz.

GPTNeo-1.3B'yi temel alarak bir Çince kelime dağarcığı ekledik ve MindLLM-1.3B'nin iki dilli yeteneğini eğitmek için transfer öğrenme stratejilerini kullandık. MindLLM-3B için, verileri tokenize etmek için SentencePiece'den BPE kullanıyoruz ve Tokenizer'ımızın nihai kelime boyutu 125.700'dür. İki farklı iki dilli eğitim yöntemiyle, bazı yaygın ve pratik ön eğitim yöntemlerini özetledik.

Eğitim Öncesi

Eğitim öncesi ayrıntılar

İki dilli model MindLLM de novo'yu eğitmek için iki farklı strateji kullandık. MindLLM-3B için, Çince ve İngilizce yeterliliğini öğrenirken doğrudan Çince ve İngilizce karışık iki dilli veriler üzerinde 800,00 adımı önceden eğittik; MindLLM-1.3B için önce İngilizce veri setinde 101.100 adımı önceden eğittik ve ardından karışık Çince ve İngilizce verileri kullanarak 105.900 adımı eğittik. Eğitim öncesi detaylar aşağıdaki gibidir:

### Eğitim Öncesi Aşama Değerlendirmesi

Daha küçük bir model daha büyük bir modeli yenebilir

Modelin Çince ve İngilizce yeteneğini değerlendirmek için, modelin İngilizce yeteneğini değerlendirmek için MMLU (5 atış) ve AGI (4 atış) ve modelin Çince yeteneğini değerlendirmek için C- (5 atış) ve CMMLU (4 atış) kullandık. AGI, İngilizce bölümünün çoktan seçmeli bir bölümünü kullanır. Değerlendirmenin sonuçları aşağıdaki gibidir:

İngilizce performansı açısından MindLLM'ler ortalama olarak GPT-J-6B, MPT-7B, MOSS-Base-16B ve diğer büyük modellerden daha iyi performans gösteriyor ve daha büyük model boyutlarına ve daha önceden eğitilmiş verilere sahip olan Falcon-7B'ye yaklaşıyor. Çince yeteneği açısından, MindLLM'ler açık kaynaklı LLM'lerle eşit performans gösterir. MindLLM'lerin hala geliştirme için eğitildiğini belirtmekte fayda var.

Ek olarak, hem Çince hem de İngilizce veriler üzerinde eğitilen MindLLM-1.3B'nin MMLU'da GPT-Neo-1.3B'den daha iyi performans gösterdiğini bulduk, bu da farklı diller arasında yetenekler açısından benzerlikler olduğu için bunun iki dilli öğrenmeden bir kazanç olabileceğini düşündürüyor. Ayrıntılı deneyler ve analizler makalenin 4.4 Bölümünde bulunabilir.

Daha küçük modeller, belirli yetenekler açısından büyük bir potansiyele sahiptir

Hafif modeller için, aşağı akış görevlerine uygulandığında, yalnızca ilgili yeteneklerin varlığı yeterlidir. Bu nedenle, bu bölümde, MindLLM'lerin ve diğer hafif LLM'lerin (≤7B) belirli yeteneklerdeki performansını ve etkileyen faktörlerini keşfetmek istiyoruz.

Farklı modellerin performansını temel olarak üç perspektiften değerlendiriyoruz: matematiksel yetenek, akıl yürütme yeteneği ve iki dilli hizalama yeteneği, çünkü bu üç yetenek karmaşıktır ve iki dilli modellerin uygulanması için nispeten önemlidir.

(1) Matematik**

Modelin aritmetik yeteneğini değerlendirmek için Aritmetik (5 atış) veri setini, modelin genel matematik yeteneğini değerlendirmek için GSM8K (4 atış) ve MATH (4 atış) kullanıldı. Değerlendirmenin sonuçları aşağıdaki gibidir:

我们发现，MindLLM-3B在数学能力上的平均分数达到了16.01，超过了MOSS-Base-16B(15.71)和MPT-7B(13.42)，GPT-J-6B(13.15)。此外MindLLM-1.3B的数学平均水平也超过了相同大小的GPT-Neo-1.3B。以上结果表明，轻量级模型在数学上有着巨大的潜力，较小的模型也可以在具体领域表现出超越或者与更大模型相当的水平。进一步，我们可以看到数学能力较为出色的(均分≥15) , MindLLM-3B hariç tüm modeller yaklaşık 7B'dir. Bu, matematiksel yetenekler gibi karmaşık yeteneklerin tam olarak edinilmesinin modelin büyüklüğü ile sınırlı olabileceğini ve bu spekülasyonun modelin iki dillilik ve akıl yürütme yeteneğinin değerlendirilmesine daha fazla yansıyabileceğini göstermektedir.

(2) Akıl yürütme

Modelin dil akıl yürütme yeteneğini (5 atış) değerlendirmek için HellaSwag ve WinoGrande'yi, modelin mantıksal akıl yürütme yeteneğini (5 atış) değerlendirmek için LogiQA'yı, modelin bilgi akıl yürütme yeteneğini değerlendirmek için PubMedQA, PIQA ve MathQA'yı (5 atış) ve modelin kapsamlı akıl yürütme yeteneğini (3 atış) değerlendirmek için BBH'yi kullandık. Spesifik değerlendirme sonuçları aşağıdaki gibidir:

İlk olarak, sınırlı model kapasitesi koşulu altında, iki dilliliğin getirdiği beceri kazanımının, dil öğrenimi tarafından model kapasitesinin tüketilmesi ile dengelenmesi gerekebilir. Dil öğrenimi, modelin kapasitesinin bir kısmını işgal edebilir ve bu da akıl yürütme yeteneği gibi karmaşık yeteneklerin kazanılmasını mümkün kılar. Örneğin, MindLLM-1.3B, İngilizce MMLU değerlendirme göstergeleri açısından GPT-Neo-1.3B'den daha iyidir, ancak ortalama akıl yürütme yeteneği açısından ikincisinden daha zayıftır (35.61'e karşı 38.95). Blooms'un akıl yürütme becerileri özellikle iyi değildi, ancak takip değerlendirmesindeki iki dillilik mükemmeldi ve bu da yukarıdaki noktayı bir dereceye kadar doğruladı. Örneğin, Open-LLaMA-3B'nin çıkarım performansı daha büyük bir modelinkiyle karşılaştırılabilir ve önceden eğitilmiş verileri, aynı boyuttaki diğer modeller tarafından kullanılan önceden eğitilmiş verileri aşan 1 TBB'dir. Sonuç olarak, daha küçük modeller, çıkarım gücü açısından daha büyük modellerle karşılaştırılabilir performans elde etme potansiyeline sahiptir. Ek olarak, MOSS'un çıkarım düzeyinin önceki kod verilerinin öğrenilmesinden elde edilen kazançtan daha iyi performans göstermediğini gördük (MOSS, CodeGen üzerinde eğitime devam etti), ancak ilgili çalışma, kodun modelin çıkarım yeteneğinin iyileştirilmesi için gerçekten faydalı olduğunu gösteriyor, bu nedenle modelin çıkarım yeteneğini geliştirmek için kod verilerinin eğitime nasıl ve ne zaman eklendiği daha fazla tartışmaya değer.

(3) İki dillilik

Çince ve İngilizce olarak iki dilli veya çok dilli modellerin hizalamasını değerlendirmek için Flores-101'in (8 atış) zh-en bölümünü kullandık. LLaMA-2-7B'ye dayalı Çince alan uyarlaması için bir model olan Chinese-LLaMA-2-7B'yi dahil ettik. Sonuçlar aşağıdaki gibidir:

Modelin hem İngilizce'den Çince'ye hem de Geleneksel Çince'ye çevirilerde kötü performans gösterdiğini gördük, çünkü önceden eğitilmiş veriler Geleneksel Çince'nin küçük bir bölümünü oluşturuyordu. Buna ek olarak, Çince'den İngilizce'ye ve İngilizce'den Çince'ye iki yönlü dil hizalamasında yalnızca Blooms ve MindLLM-3B başarılı oldu, ardından LLaMA-2-7B ve MOSS-Base-16B geldi. LLaMA-7B ve Open-LLaMA-7B yalnızca Çince'den İngilizce'ye hizalanabilir. Modelin eğitim öncesi verileriyle birleştiğinde, Blooms ve MindLLM-3B'nin eğitim öncesi verilerinin dengeli bir Çince ve İngilizce oranına sahip olduğu, LLaMA-2-7B'deki Çince verilerin oranının İngilizce'den çok daha düşük olduğu ve LLaMA-7B ve Open-LLaMA-7B'nin eğitim öncesi verilerindeki Çince oranının daha da az olduğu görülebilir.

Bu nedenle, iki sonucumuz var, birincisi, modelin bir dil üzerinde büyük miktarda eğitim yoluyla dil temsilini öğrenebileceği ve aynı zamanda LLaMA-7B ve Open-LLaMA-7B'nin performansı gibi az sayıda başka dilde karıştırılarak anlaşılabileceği ve tek yönlü hizalanabileceğidir. İkincisi, daha iyi iki dilli veya çok dilli hizalama gerekiyorsa, ön eğitimin başlangıcında Blooms ve MindLLM-3B gibi dengeli bir oranda iki dilli veya çok dilli verilere ihtiyaç duyulmasıdır. Ayrıca, MOSS-Base-16B ve Çince-LLaMA-2-7B'nin makul bir oranda Çince ve İngilizce veriye sahip olduğunu ve teklinin hala iki yönlü hizalama göstermediğini bulduk ve hipotezimiz, göç eğitimi sırasında iki dilli hizalama yeteneği eklemenin zor olduğudur, çünkü şu anda model zaten çok fazla bilgiye sahiptir ve bu da küçük kapasite durumunda çelişkiler üretecektir. Bu aynı zamanda, tek dilli eğitimin erken aşamasında daha küçük bir kapasiteye ve az miktarda veriye sahip olan MindLLM-1.3B'nin iki dilli hizalama yetenekleri kazanmadığı gerçeğini de açıklamaktadır. Öte yandan Baichuan 2-7B, diğer yönlerden çok iyidir ve büyük bir kapasiteye sahip olabilir ve iyi iki yönlü hizalamayı öğrenemez.

(4) Özet

Ön eğitim aşamasının sonuçlarını değerlendirerek aşağıdaki iki sonuca varıyoruz:

Hafif modeller, belirli bir etki alanı veya yetenekte daha büyük modelleri aşma veya seviyesine ulaşma konusunda büyük bir potansiyele sahiptir.
Sınırlı kapasiteye sahip model (≤7B) için, eğitim öncesi verilerdeki veri oranını, modelin hedef yeteneği sıfırdan öğrenmesine ve elde etmesine ve farklı bilgi ve yetenekleri entegre etmesine ve teşvik etmesine yardımcı olan aşağı akış görevinin özel yetenek gereksinimlerine göre makul bir şekilde tahsis edebiliriz.

Buna ek olarak, makale aynı zamanda tek tip veri dağılımını korumanın modelin eğitim öncesi performansı üzerindeki etkisini karşılaştırmaktadır ve deneysel sonuçlar, benzer ders öğreniminin veri oluşturma yönteminin, erken aşamada eğitilen modelinkiyle aynı performansı gösterebileceğini ve eşit olarak karıştırılmış veri oluşturma yöntemi, ancak sonunda feci bir unutmaya ve performansta ani düşüşe yol açabilirken, ikincisinin performansı daha tutarlı ve istikrarlıdır ve elde edilen eğitim öncesi verilerin bilgisi daha kapsamlıdır, bu da yukarıdaki ikinci sonucu destekler. Ek olarak, verilerin benzer bir kursta oluşturulma şeklinin, modelin bağlamsal öğrenme yeteneğini geliştirmeye elverişli daha fazla veri dağılımı üretebileceğini bulduk. Ayrıntılar makalenin 4.5 bölümünde bulunabilir.

Talimat İnce ayarı

Yönerge ince ayarının farklı veri kümesi türlerine sahip hafif modellerde nasıl performans gösterebileceğini keşfetmek istiyoruz. Aşağıdaki tablo, yeniden yapılandırılmış Çince veri kümemiz MingLi, genel veri kümesi Tulu (İngilizce) ve Çince-İngilizce iki dilli veri kümesi MOSS dahil olmak üzere kullandığımız talimat ince ayar veri kümesidir.

**MindLLM için, talimat ince ayarı için verilerin kalitesi, veri miktarından daha önemlidir. **

MindLLM-1.3B ve MindLLM-3B modellerinin farklı veriler altında ince ayar talimatlarından sonra C- üzerindeki performansı aşağıdaki gibidir. Deneysel sonuçlara göre, özenle seçilmiş 50.000 talimatlık ince ayar veri seti ile eğitilen modelin performansı, yüksek çeşitliliğe ve büyük veri hacmine sahip talimat ince ayar veri setine göre daha yüksektir. Benzer şekilde, model İngilizce MMLU göstergesinde aynı performansı gösterdi (ayrıntılar için Tablo 14'e bakınız). Bu nedenle, hafif modeller için, yüksek kaliteli talimat ince ayar veri kümelerini tanımlamak ve filtrelemek çok önemlidir.

Veri entropisine dayalı veri filtreleme stratejisinde ince ayar yapma

Yüksek kaliteli talimat ince ayar verilerini nasıl tanımlarsınız? Bazı bilim adamları, talimat ince ayar verilerinin çeşitliliğinin, talimat ince ayar veri kümelerinin veri kalitesini temsil edebileceğini öne sürmüşlerdir. Bununla birlikte, deneylerimize göre, veri entropisi ve komut ince ayarının veri uzunluğu, hafif modellerin performansını daha fazla etkileyecektir. Önceden eğitilmiş model üzerindeki her bir veri parçasının çapraz entropi kaybını, verilerin veri entropisi olarak tanımlıyoruz ve farklı veri kümeleri elde etmek için verileri K-Means algoritması ile veri entropisine göre kümeliyoruz. Her bir veri kümesinin ve ardından C-'nin talimatlarında ince ayar yapıldıktan sonra MindLLM'nin sonuçları aşağıdaki tabloda gösterilmektedir (MMLU sonuçlarının ayrıntıları için Tablo 19'a bakınız):

Tablodaki sonuçlara göre, MindLLM-1.3B ve MindLLM-3B'nin farklı veri kümeleri üzerindeki performansı önemli ölçüde farklıdır. Ayrıca, şekilde gösterildiği gibi, veri entropisi ile modelin C- ve MMLU üzerindeki doğruluğu ve fonksiyon uydurma arasındaki ilişkiyi analiz ediyoruz:

Görüntüdeki kırmızı pentagramın noktası, önceden eğitilmiş modelin entropisidir. Analize göre, verilerin entropisi, önceden eğitilmiş modelin entropisinden 1-1.5 daha yüksek olduğunda, model bu aralıkta veri talimatlarında ince ayar yapıldıktan sonra en iyi performansa sahip olur. Bu nedenle, yüksek kaliteli verileri veri entropisi ile tanımlıyoruz ve yüksek kaliteli verileri taramak için bir yöntem öneriyoruz.

MindLLM, belirli yetenekler elde etmek için belirtilen talimatlar aracılığıyla veri kümesinde ince ayar yapabilir

MindLLM'nin talimat ince ayarı yoluyla belirli yeteneklerini etkili bir şekilde geliştirip geliştiremeyeceğini araştırmak için, modelin konu bilgisi yeteneğini geliştirmek için modele ince ayar yapmak için 10.000 ciltlik veri setinin sınav verileri bölümünü kullanıyoruz. C- ile ilgili bir değerlendirme yaptık ve sonuçlar aşağıdaki gibidir:

Talimat ince ayarından sonra, modelin konu bilgisi yeteneğini büyük ölçüde geliştirdiği ve 1.3B MindLLM'nin performansının ChatGLM-6B ve Çince-Alpaca-33B gibi daha büyük modellerin performansını bile aştığı görülebilir. Bu nedenle, MindLLM'nin talimatlarda ince ayar yaptıktan sonra belirli yeteneklerini geliştirebileceğine ve hafif özellikleri nedeniyle, aşağı akış dikey görevlerde dağıtım için daha uygun olduğuna inanıyoruz.

Saha Uygulaması

Küçük modellerin belirli alanlarda uygulanmasının etkisini göstermek için, bunları doğrulamak için finans ve hukuk alanında iki genel veri seti kullanıyoruz. Sonuçlardan, modelin parametre boyutunun etki alanı performansı üzerinde belirli bir etkiye sahip olduğu, ancak performansın açık olmadığı gözlemlenebilir. MindLLM'nin performansı, saha uygulamasında karşılaştırılabilir boyuttaki diğer modellerden daha iyi performans gösterir ve daha büyük modellerle karşılaştırılabilir. Ayrıca, küçük modelin uygulama alanında büyük bir potansiyele sahip olduğunu kanıtlıyor.

Finans Sektörü

Bu alanda duygu algısı sınıflandırma görevi finansal veriler üzerinde gerçekleştirilmektedir. İlk olarak, Oriental Fortune'dan 13 Mayıs 2011 ile 31 Ağustos 2023 arasındaki verileri taradık ve verileri aşağıdaki hisse senedi fiyatındaki dalgalanmalara göre etiketledik. Daha sonra, veriler tarihe göre eğitim ve test setlerine bölünmüştür. Kategorilerin dengesizliğini göz önünde bulundurarak, verileri örnekledik ve eğitim seti olarak 320.000 parça veri ve test seti olarak 20.000 veri kullandık.

Farklı modellerin performanslarını karşılaştırmak için iki farklı eğitim yöntemi kullandık. İlk olarak, metni sınıflandırmak için yalnızca basit denetimli ince ayar (SFT) kullanılır. İkinci olarak, çıkarım süreci verileri ChatGPT'den damıtılmış ve COT (Chain-Of-Thought) eğitim yöntemi kullanılarak eğitime yardımcı veri olarak eklenmiştir.

Deneysel sonuçlar, tüm temel modellerin ve MindLLM modellerinin etkisinin, yardımcı bilgileri tamamlayarak değişen derecelerde geliştirilebileceğini göstermektedir. Ayrıca, MindLLM-1.3B ve 3B'nin performansının, COT eğitimi ile SFT eğitim performansına kıyasla sırasıyla %27.81 ve %26.28 oranında iyileştirildiği ve MindLLM'nin Baichuan-7B dışındaki diğer modellerden daha önemli ölçüde iyileştirildiği gözlemlenebilir. Ek olarak, MindLLM-1.3B ve 3B aynı ölçekte en iyi performansı elde eder ve ChatGLM2-6B ve Open-LLaMA-7B'den daha iyi performans gösterir.

HUKUK ALANI

Kamuya açık bazı yasal verileri topladık ve bunları MindLLM'nin Direktif İnce Ayarı (SFT) için bazı genel direktif verileriyle birleştirdik. Verilerin belirteç uzunluğunun modelin belirli alanlardaki performansını nasıl etkilediğini keşfetmek için, MindLLM'yi ayrı ayrı eğitmek için farklı veri uzunluklarındaki verileri kullanırız. Önce 450'den daha az uzunluğa sahip tüm verileri taradık ve ardından sırasıyla 200-300 ve 300-450 arasındaki verileri filtrelemek için MindLLM-1.3B ve MindLLM-3B tokenleştiricilerini kullandık. Aşağıdaki tabloda istatistikler ve ilgili eğitim modelleri listelenmektedir:

İnsan değerlendirmesinde önyargı ve uzmanlık eksikliğinden kaynaklanan hatalardan kaçınmak için ChatGPT'yi aşağıdaki şekillerde değerlendirici olarak kullanıyoruz. ChatGPT tarafından oluşturulan ve 100'ü değerlendirme verilerimiz olarak çıkarılan çok sayıda yasal danışma görüşmesinden oluşan bir veri kümesi. Modelin yasal tavsiyeye verdiği yanıtları değerlendirmek için ChatGPT'yi kullanıyoruz, ChatGPT'nin modelin yanıtlarını sıralamasına izin veriyoruz ve ardından sıralama sonuçlarına göre Elo puanını hesaplıyoruz. Son olarak, MindLLM-Law'ı diğer açık kaynaklı modellerle karşılaştırmak için en iyi modellerden biri seçildi.

Bloom için GPT-Neo ve Open-LLaMA modelleri, MindLLM-Law ile aynı veri kümesi kullanılarak ince ayar yapıldı ve karşılaştırma sonuçları aşağıdaki gibidir:

Sonuçlar, MindLLM-Law'ın, esas olarak hukukun eğitim öncesi aşamasında daha fazla kazanç sağlamak için veri eksikliği nedeniyle, 13B parametreleri ve ChatGLM2-6B ile modeli geçmediğini göstermektedir. Bununla birlikte, MindLLM'nin Baichuan2-7B-Chat, ince ayarlı Open-LLaMA-7B ve aynı boyuttaki diğer modellere göre bariz genel avantajları vardır.

Özet

Bu makale, şu anda iki hafif büyük dil modeli içeren MindLLM model ailesini tanıtmaktadır. Veri işleme, ön eğitim, ince ayar ve domain uygulamaları dahil olmak üzere eğitim süreçlerini detaylı bir şekilde ele aldık ve bu alanlarda biriken değerli deneyim ve teknik uygulamaları paylaştık. Nispeten küçük parametre boyutlarına rağmen, MindLLM'ler çoklu performans testlerinde iyi performans gösterdi, hatta bazı açılardan bazı büyük modellerden daha iyi performans gösterdi. MindLLM, etki alanı adaptasyonu açısından diğer hafif modellere göre üstün performans sergiler. Aynı zamanda, daha büyük modellere göre daha hızlı eğitim hızı ve daha az eğitim kaynağı ile karşılaştırılabilir sonuçlar elde edebilirler. Yukarıdaki analize dayanarak, küçük modellerin hala büyük bir potansiyele sahip olduğuna inanıyoruz. Veri kalitesini daha da artıracağız, model eğitim sürecini optimize edeceğiz ve MindLLM'nin performansını çok boyutlu bir şekilde iyileştirmek için modeli ölçeklendireceğiz. Gelecekte, hafif büyük modellerin daha derinlemesine özel uygulamalarını elde etmek için daha aşağı akış görevlerinde ve belirli etki alanlarında denemeler yapmayı planlıyoruz.

View Original

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.

2 Likes

Reward
2
Comment
Share

Comment

0/400

No comments

Topic
1/3
1Show My Alpha Points
14k Popularity
2Crypto Market Rebound
167k Popularity
3SEC Crypto Project
22k Popularity
4CandyDrop Airdrop Event 6.0
101k Popularity
5White House Crypto Report
82k Popularity

sitemap