1.000 yuan bütçeli yarım günlük eğitimin etkisi, ana akım büyük modellerle, açık kaynakla ve ticari olarak satılan Çin LLaMA-2'siyle karşılaştırılabilir düzeydedir.

2023-09-25 05:56:51

Resim kaynağı: Sınırsız Yapay Zeka tarafından oluşturulmuştur

LLaMA-1 ile karşılaştırıldığında, LLaMA-2 daha yüksek kaliteli bir yapı sunar, önemli performans iyileştirmeleri sağlar ve ticari kullanıma tamamen izin verilir, açık kaynak topluluğunun refahını daha da artırır ve büyük ölçekli modellerin uygulama hayal gücünü genişletir. Bununla birlikte, büyük modellerin sıfırdan ön eğitiminin maliyeti oldukça yüksektir ve şaka yollu "oyuna girmek için 50 milyon dolar" olarak adlandırılmaktadır, bu da birçok şirketin ve geliştiricinin cesaretini kırmaktadır. Peki kendi büyük modellerinizi daha düşük maliyetle nasıl oluşturabilirsiniz?

Büyük modeller için maliyetleri azaltma ve verimliliği artırma konusunda lider olan Colossal-AI ekibi, LLaMA-2'nin temel özelliklerinden tam olarak yararlanıyor ve yalnızca yaklaşık 8,5 milyar jeton verisi, 15 saat ve binlerce yuan kullanarak verimli eğitim yöntemlerini benimsiyor. **Birden fazla değerlendirme listesinde mükemmel performansa sahip olan Çin LLaMA-2'yi mükemmel performansla başarıyla oluşturduk.

Orijinal LLaMA-2 ile karşılaştırıldığında, Çince yeteneğini başarıyla geliştirme temelinde, İngilizce yeteneğini daha da geliştirdi ve performansı, açık kaynak topluluğundaki aynı ölçekli, önceden eğitilmiş SOTA modeliyle karşılaştırılabilir. Colossal-AI ekibinin tutarlı açık kaynak ilkesine bağlı kalarak, ** tüm eğitim süreci, kod ve ağırlıklar tamamen açık kaynaktır, ticari kısıtlama yoktur ** ve düşük maliyete ulaşmak için eksiksiz bir değerlendirme sistemi çerçevesi Colossal sağlanmıştır. Yeniden üretilebilirlik. İlgili çözümler ayrıca herhangi bir dikey alana aktarılabilir ve sıfırdan düşük maliyetli, önceden eğitilmiş modeller oluşturmak için kullanılabilir.

Açık kaynak kodu ve ağırlığı:

Verim

*Not: Colossal puanı temel alınarak, parantez içindeki puanlar ilgili modellerin resmi liste puanlarından, C puanı ise resmi web sitesi Leaderboard'dan gelir. *

Ortak Çince ve İngilizce değerlendirme listelerinde, İngilizce MMLU listesinde Colossal-LLaMA-2-7B-base'in düşük maliyetli artımlı ön eğitim desteği ile felaket unutma sorununun üstesinden geldiğini görebiliriz. 44.47 -> 53.06), performans tüm 7B ölçekli modeller arasında mükemmeldir.

Çin listesinde CMMLU, AGI, GAOKAO ve C- esas olarak karşılaştırılıyor ve etki, LLaMA-2'ye dayanan diğer Çin yerelleştirme modellerini çok aşıyor. Colossal-LLaMA-2, Çin külliyatını kullanan ve sıfırdan ön eğitimin on milyonlarca dolara mal olabileceği diğer iyi bilinen modellerle karşılaştırıldığında bile aynı ölçekte iyi performans gösteriyor. Özellikle orijinal LLaMA-2 ile karşılaştırıldığında Çin yeteneğinde niteliksel bir sıçrama yaşandı (CMMLU: 32,97 -> 49,89).

Bununla birlikte, SFT, LoRA ve diğer yöntemlerle ince ayar yapılması yoluyla temel modele etkili bir şekilde eklenebilecek bilgi ve yetenek çok sınırlıdır ve yüksek kaliteli alan bilgisi veya dikey model uygulamaları oluşturma ihtiyaçlarını daha iyi karşılayamaz.

Colossal-AI ekibi, modelin performansını daha iyi değerlendirmek için yalnızca niceliksel göstergelere güvenmiyor, aynı zamanda modelin farklı yönlerini de manuel olarak değerlendiriyor.İşte bazı örnekler:

Tüm eğitimin Kayıp kaydına bakılırsa, Colossal-AI sisteminin maliyetleri azaltma ve verimliliği artırma yeteneğinden yararlanırken, yalnızca yaklaşık 8,5 B token (8,5 milyar token) ve bir bilgi işlem gücü ile model yakınsaması da tamamen garanti edilmektedir. maliyeti birkaç bin yuan. Bırakın model böylesine çarpıcı etkilere ulaşsın. Ancak piyasadaki büyük modeller, etkili sonuçlar sağlamak amacıyla eğitim için sıklıkla trilyonlarca token kullanıyor ve bu da oldukça maliyetli.

Peki Colossal-AI ekibi eğitim maliyetlerini nasıl azalttı ve bu sonuçlara nasıl ulaştı?

Kelime dağarcığı genişletme ve model başlatma

LLaMA-2'nin orijinal kelime listesi özellikle Çince için optimize edilmemiştir ve sınırlı sayıda Çince kelime içermektedir, bu da Çince külliyatının yetersiz anlaşılmasına neden olmaktadır. Bu nedenle ilk olarak LLaMA-2'nin kelime dağarcığı genişletildi.

Colossal-AI ekibi şunları buldu:

Kelime dağarcığının genişletilmesi, yalnızca dize dizisi kodlamasının verimliliğini etkili bir şekilde artırmakla kalmaz, aynı zamanda kodlama dizisinin daha etkili bilgiler içermesini sağlar; bu, bölüm düzeyinde kodlama ve anlamada daha yararlı olacaktır.
Ancak, artan eğitim öncesi veri miktarının az olması nedeniyle, daha fazla kelimeyi genişletmek, bazı kelimelerin veya kombinasyonların pratik bir anlamı olmamasına neden olacak, bu da artımlı eğitim öncesi veri setinden tam olarak öğrenmeyi zorlaştırarak nihai etkiyi etkileyecektir.
Aşırı geniş bir kelime dağarcığı, yerleştirmeyle ilgili parametrelerde artışa yol açarak eğitim verimliliğini etkileyecektir.

Bu nedenle, tekrarlanan deneylerden sonra ve eğitimin kalitesi ve verimliliği dikkate alınarak, Colossal-AI ekibi nihayet kelime dağarcığını LLaMA-2'nin orijinal 32.000'inden 69.104'e genişletmeye karar verdi.

Genişletilmiş kelime dağarcığı ile bir sonraki adım, orijinal LLaMA-2'ye dayalı olarak yeni kelime dağarcığının yerleştirilmesini başlatmaktır. LLaMA-2'nin orijinal yeteneklerini daha iyi taşımak ve orijinal LLaMA-2'den Çin LLaMA-2 yeteneklerine hızlı geçişi sağlamak için Colossal-AI ekibi, yeni yerleştirmenin ortalamasını almak üzere orijinal LLaMA-2'nin ağırlıklarını kullandı. başlatma. Bu, yalnızca yeni başlatılan modelin İngilizce yeteneğinin başlangıç durumunda etkilenmemesini sağlamakla kalmaz, aynı zamanda İngilizce yeteneğinin mümkün olduğunca sorunsuz bir şekilde Çince'ye aktarılmasına da olanak tanır.

Veri Oluşturma

Eğitim maliyetini daha büyük ölçüde azaltmak için, yüksek kaliteli veriler, özellikle veri kalitesi ve dağıtımı açısından son derece yüksek gereksinimlere sahip olan artımlı ön eğitim için önemli bir rol oynar. Yüksek kaliteli verileri daha iyi taramak amacıyla Colossal-AI ekibi, artımlı ön eğitim için daha yüksek kaliteli verileri taramak amacıyla eksiksiz bir veri temizleme sistemi ve araç seti oluşturdu.

Aşağıdaki resimler Colossal-AI ekibinin veri yönetimi sürecinin tamamını göstermektedir:

Verilerin ortak sezgisel filtrelemesi ve tekilleştirilmesinin yanı sıra, anahtar veriler üzerinde puanlama, sınıflandırma ve filtreleme de gerçekleştirir. Uygun veriler, LLaMA-2'nin Çince yeteneğini harekete geçirmede ve İngilizce'deki yıkıcı unutma probleminin üstesinden gelmede çok önemli bir rol oynuyor.

Son olarak Colossal-AI ekibi, eğitim verimliliğini artırmak amacıyla aynı konunun verileri için verilerin uzunluğunu sıraladı ve maksimum 4096 uzunluğa göre ekledi.

Eğitim Stratejisi

Çok aşamalı eğitim

Eğitim açısından, artımlı ön eğitimin özelliklerini göz önünde bulundurarak Colossal-AI ekibi, eğitim sürecini üç aşamaya bölerek çok aşamalı, hiyerarşik bir artımlı eğitim öncesi plan tasarladı:

* Büyük ölçekli ön eğitim aşaması: Amaç, modelin nispeten düzgün metinler üretebilmesi için modeli büyük miktarda derlem aracılığıyla eğitmektir. Bu aşama LLaMA-2 ile tamamlanır.Bu aşamadan sonra model, büyük miktarda İngilizce bilgisine hakim olur ve Sonraki Token Tahminine dayalı olarak sorunsuz sonuçlar üretebilir.

Çince bilgi enjeksiyon aşaması: Bu aşama yüksek kaliteli Çince bilgisine dayanır, bir yandan modelin Çince bilgisine hakimiyetini artırır, diğer yandan modelin yeni eklenen Çince kelime dağarcığındaki kelimeleri anlama becerisini geliştirir.
İlgili bilgi oynatma aşaması: Bu aşama, modelin bilgiyi anlama ve genelleme yeteneğini geliştirmeye ve felaketle sonuçlanan unutma sorununu hafifletmeye adanmıştır.

Çoklu aşamalar birbirini tamamlıyor ve sonuçta modelin Çince ve İngilizce yeteneklerinin el ele gitmesini sağlıyor.

Kepçe eğitimi

Artımlı ön eğitim, veri dağıtımına son derece duyarlıdır ve denge özellikle önemlidir. Bu nedenle, dengeli bir veri dağılımı sağlamak amacıyla Colossal-AI ekibi, aynı türdeki verileri 10 farklı bölmeye bölecek bir veri gruplama stratejisi tasarladı. Eğitim süreci sırasında, her veri kümesi her veri türünden bir kutuyu eşit şekilde içerir, böylece her veri türünün model tarafından eşit şekilde kullanılabilmesi sağlanır.

Değerlendirme sistemi

Modelin performansını daha iyi değerlendirmek için Colossal-AI ekibi, büyük dil modellerini birden çok boyut aracılığıyla değerlendirmeyi umarak eksiksiz bir değerlendirme sistemi olan Colossal'ı oluşturdu. Süreç çerçeve kodu tamamen açık kaynaktır ve yalnızca sonuçların çoğaltılmasını desteklemekle kalmaz, aynı zamanda kullanıcıların veri kümelerini ve değerlendirme yöntemlerini farklı uygulama senaryolarına göre özelleştirmelerini de destekler. Değerlendirme çerçevesinin özellikleri aşağıda özetlenmiştir:

Büyük dil modellerinin bilgi rezervi yeteneklerini değerlendirmek için MMLU, CMMLU vb. gibi ortak veri kümelerini kapsar. Tek seçmeli soru formunda ABCD olasılıklarını karşılaştıran yaygın hesaplama yöntemine ek olarak, modelin ustalığını daha kapsamlı ölçmek için mutlak eşleştirme, tek seçenekli şaşkınlık vb. daha kapsamlı hesaplama yöntemleri eklenir. bilginin..
Çoktan seçmeli değerlendirmeleri ve uzun metin değerlendirmelerini destekler.
Çok yönlü diyalog, rol oynama, bilgi çıkarma, içerik oluşturma vb. gibi farklı uygulama senaryolarına yönelik değerlendirme yöntemlerini destekler. Kullanıcılar, modelin farklı yönlerinin yeteneklerini kendi ihtiyaçlarına göre seçici olarak değerlendirebilir ve özelleştirme ve değerlendirme yöntemlerinin genişletilmesini destekleyebilir.

Genel büyük modellerden dikey büyük modellere geçiş için bir köprü oluşturun

Colossal-AI ekibinin deneyimine bakıldığında, modelin LLaMA-2'ye dayalı Çince versiyonunun oluşturulması temel olarak aşağıdaki süreçlere ayrılabilir:

Peki bu çözüm tekrar kullanılabilir mi?

Cevap evet ve iş uygulama senaryosunda bu çok anlamlı.

ChatGPT'nin başlattığı yapay zeka dalgasıyla birlikte dünya çapındaki büyük internet devleri, yapay zeka şirketleri, startup'lar, üniversiteler ve araştırma kurumları genel büyük modellerin izinde yarışıyor. Bununla birlikte, genel büyük modellerin genel yeteneklerinin arkasında genellikle belirli alanlardaki bilgi eksikliği yatmaktadır ve bu nedenle fiili uygulamada büyük model yanılsaması sorunu özellikle ciddi hale gelmektedir. İş dünyasında ince ayarlar yapılması belirli kazanımlar sağlasa da, büyük dikey modellerin eksikliği uygulama uygulamasında performans darboğazlarına yol açmaktadır. Büyük bir dikey model hızlı ve düşük maliyetle oluşturulabilirse ve daha sonra iş, büyük dikey modele göre ince ayar yapılabilirse, iş uygulamasında kesinlikle bir adım daha ileri gidebilir ve fırsatları ve avantajları yakalayabiliriz.

Herhangi bir alanda bilgi aktarmak için yukarıdaki süreci uygulayarak, herhangi bir alanda düşük maliyetle büyük dikey tabanlı modeller oluşturmak için hafif bir süreç oluşturabilirsiniz: **

Ön eğitim ve sıfırdan temel bir büyük model oluşturmak için, yukarıdaki deneyimden ve Colossal-AI'nin maliyet azaltma ve verimlilik artırma yeteneklerinden yararlanarak bunu verimli ve en düşük maliyetle tamamlayabiliriz.

Sistem Optimizasyonu

Colossal-LLaMA-2'nin yukarıda belirtilen olağanüstü performansı ve maliyet avantajları, düşük maliyetli AI büyük model geliştirme sistemi Colossal-AI üzerine inşa edilmiştir.

Colossal-AI, AI büyük model eğitimi/ince ayar/çıkarımının geliştirme ve uygulama maliyetlerini azaltabilen, model görev performansını geliştirebilen ve verimli çok boyutlu paralellik, heterojen bellek vb. yoluyla GPU gereksinimlerini azaltabilen PyTorch'u temel alır. Bir yıldan biraz fazla bir sürede GitHub açık kaynak topluluğunda 30.000'den fazla GitHub Yıldızı almış, büyük model geliştirme araçları ve topluluk segmentasyonu alanında dünyada birinci sırada yer almış ve dünyanın en iyileri de dahil olmak üzere pek çok tanınmış üreticiyle ortaklaşa geliştirilmiştir. 500 şirket/ Büyük modelleri önceden eğitmek veya dikey modeller oluşturmak için 100 milyar/10 milyar parametreyi optimize edin.

Devasa Yapay Zeka Bulut Platformu

AI büyük model geliştirme ve dağıtımının verimliliğini daha da artırmak için Colossal-AI, Colossal-AI bulut platformuna yükseltildi; bu, kullanıcıların bulutta büyük model eğitimi, ince ayar ve dağıtımını düşük maliyetle gerçekleştirmesine olanak tanıyor. -kodlu/kodsuz şekilde düşük maliyetle, çeşitli modellerin hızla entegre edilerek kişiselleştirilmiş uygulamalara entegre edilmesi sağlanır.

Şu anda, Stable difüzyon ve LLaMA-2 gibi ana akım modeller ve çözümler Colossal-AI bulut platformunda önceden ayarlanmıştır. Kullanıcıların ince ayar için yalnızca kendi verilerini yüklemeleri gerekir. Aynı zamanda ince ayarlarını da dağıtabilirler. Uygun fiyatlara API olarak ayarlanmış modeller, kendi bilgi işlem kümelerinizi ve çeşitli altyapılarınızı korumanıza gerek kalmadan A10, A800, H800 ve diğer GPU kaynaklarını kullanmanıza olanak tanır. Daha fazla uygulama senaryosu, farklı alanlar, farklı model versiyonları, kurumsal özelleştirme platformu dağıtımı vb. sürekli olarak yinelenmektedir.

Devasa yapay zeka bulut platformu: platform.luchentech.com
Colossal-AI bulut platformu belgeleri:
Colossal-AI açık kaynak adresi:

Referans bağlantısı:

View Original

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.

1 Likes

Reward
1
Comment
Share

Comment

0/400

No comments

Topic
1/3
1Simple Earn Annual Rate 24.4%
37k Popularity
2Gate Launchpad List IKA
39k Popularity
3ETH Trading Volume Surges
40k Popularity
4Gate ETH 10th Anniversary Celebration
22k Popularity
5Trump’s AI Strategy
18k Popularity

sitemap