1 trilyon eğitim verisi ile cep telefonlarında çalıştırılabiliyor! StableLM-3B-4E1T burada

**Kaynak: **AIGC Açık Topluluğu

2 Ekim Doğu Saati'nde ünlü açık kaynak platformu Stability.ai, resmi web sitesinde açık kaynak büyük dil modeli StableLM-3B-4E1T'nin lansmanını duyurdu. (Açık kaynak adresi:

Stable LM 3B'nin esas olarak cep telefonları, dizüstü bilgisayarlar ve diğer mobil cihazlar için temel bir geniş dil modeli olduğu, performans sağlarken bilgi işlem kaynakları gereksinimlerini büyük ölçüde azalttığı bildiriliyor.

Stable LM 3B, metin/kod oluşturma, özet özetleme, veri ince ayarı, sağduyulu akıl yürütme ve matematik problemlerini çözme gibi işlevleri destekler. Küresel bağlam uzunluğu 4096'dır. ("Kararlı LM 3B" olarak anılır)

ChatGPT'nin popülaritesiyle birlikte dünya çapında güçlü bir "büyük model geliştirme patlaması" yaşandı. Ancak çoğu model, önceden eğitilmek ve ince ayar yapmak için büyük miktarda bilgi işlem kaynağı gerektirir ve ayrıca geliştirilen üretken yapay zeka uygulamalarının işletim ortamı için de yüksek gereksinimlere sahiptir. Qualcomm, bilgi işlem gücü sorununu çözmek için özellikle mobil cihazlara yönelik üretken bir yapay zeka çipi bile yayınladı.

Stability.ai, büyük bilgi işlem kaynaklarına sahip olmayan geliştiricilerin, mobil cihazlarda güvenli ve istikrarlı bir şekilde çalışabilen küçük ve kompakt üretken yapay zeka ürünleri oluşturmalarına yardımcı olmak için açık kaynak Stable LM 3B'yi kullanmayı umuyor.

Kararlı LM 3B eğitim veri seti

Model yalnızca 3 milyar parametreye sahip olmasına rağmen metin, kod, Wikipedia, ArXiv, kitaplar, C4 ve diğer verileri içeren 1 trilyon tokenden oluşan devasa bir eğitim veri seti kullanıyor.

Bu veri seti, Falcon RefinedWeb, RedPajama-Data, The Pile ve StarCoder dahil olmak üzere çok sayıda açık kaynaklı büyük ölçekli veri setinden filtrelenir ve karıştırılır.

Bu, Stable LM 3B'nin aynı boyuttaki modelleri daha az kaynakla geride bırakmasını sağlar ve hatta 7 milyar veya 10 milyar parametreli bazı büyük modellerden daha güçlüdür.

Kararlı LM 3B eğitim süreci

Stable LM 3B, 972k bfloat16 hassas eğitimiyle başlar ve StableLM-Alpha v2 gibi 2048'den 4096'ya çok aşamalı iyileştirme yerine küresel bağlam uzunluğu 4096'dır.

Stability.ai, performans optimizasyonu için AdamW'ı kullandı ve ilk 4800 adım için doğrusal ısınmayı kullandı, ardından öğrenme oranını zirvenin %4'üne düşürmek için bir kosinüs azalma programı izledi.

Erken istikrarsızlık, yüksek öğrenme oranı bölgesinde uzun süreli kalışlara atfedilir. Model nispeten küçük olduğundan bırakma kullanılmaz.

Eğitim süreci sırasında Stability.ai, doğal dil kıyaslamalarını değerlendirir ve öğrenme hızı azalma çizelgesinin sonunda eğitimden elde edilen istikrarlı gelişmeleri gözlemler. Bu nedenle geliştiriciler, daha iyi performans elde etme umuduyla Zhai ve diğerlerinin yaptığına benzer şekilde öğrenme oranını doğrusal olarak 0'a düşürmeye karar verdiler.

Ek olarak, ön eğitimin ilk aşaması flash-attention API'sine ve onun üçgen nedensel maskelemeye yönelik kullanıma hazır desteğine dayanır. Bu, modeli paketlenmiş sırayla farklı belgeleri benzer şekilde işlemeye zorlar.

Soğuma aşaması sırasında Stability.ai, eşzamanlı deneylerde iyileştirilmiş örnek kalitesini (yani çoğaltmanın azalmasını) ampirik olarak gözlemledikten sonra tüm paketlenmiş diziler için EOD işaretleyicilerindeki konum kimliklerini ve dikkat maskelerini sıfırlar.

Donanım açısından StableLM-3B, Stability AI'nin bilgi işlem kümesi üzerinde eğitilmiştir. Küme 256 adet NVIDIA A100 40GB grafik kartı içerir. Eğitim 23 Ağustos 2023'te başladı ve tamamlanması yaklaşık 30 gün sürdü.

Performans testi açısından StableLM-3B, sıfır örnekli ölçüm donanımı değerlendirme çerçevesinde test edildi. Sonuçlar, performansın 7 milyar parametreli modelden daha düşük olmadığını, hatta 10 milyar parametreli bazı modellerden daha güçlü olduğunu gösteriyor.

Bu makalenin içeriği Stability.ai'nin resmi web sitesinden alınmıştır. Herhangi bir ihlal varsa lütfen silmek için bizimle iletişime geçin.

View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Reward
  • Comment
  • Share
Comment
0/400
No comments
Trade Crypto Anywhere Anytime
qrCode
Scan to download Gate app
Community
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)