Açık kaynak ve ticari olarak mevcut, 30 milyar parametreli MPT-30B büyük modelinin maliyeti, GPT-3'ün yalnızca bir kısmıdır.

AI büyük model geliştirme şirketi MosaicML kısa bir süre önce, önceki nesil MPT-7B dil modelinden (7 milyar parametre) önemli ölçüde daha güçlü olan, 30 milyar parametreli, piyasada bulunan yeni bir açık kaynaklı büyük dil modeli MPT-30B'yi piyasaya sürdü ve performansı GPT-3'ten daha iyi.

Görsel kaynağı: Unbounded AI tarafından oluşturuldu

Ek olarak, ince ayarlı iki model yayınladılar: MPT-30B üzerine kurulu olan ve sırasıyla tek dönüşlü talimat izleme ve çok dönüşlü diyalogda iyi olan MPT-30B-Instruct ve MPT-30B-Chat.

MPT-30B modelinin özellikleri:

  • Eğitim sırasında 8k belirteç bağlam penceresi
  • ALiBi aracılığıyla daha uzun bağlamlar için destek
  • FlashAttention ile verimli çıkarım ve eğitim performansı elde edin
  • MPT-30B serisi, önceden eğitilmiş veri karışımı sayesinde güçlü kodlama özelliklerine de sahiptir.

Model, NVIDIA H100'de 8k belirteç bağlam penceresine genişletildi ve bu da onu H100'de eğitilen ilk LLM yapıyor.

MPT-30B, GPT-3'ten daha mı güçlü?

MPT-30B, orijinal GPT-3'ten daha güçlü ve LLaMa-30B ve Falcon-40B gibi diğer açık kaynak modelleriyle rekabet eden, ticari bir Apache 2.0 lisanslı açık kaynak tabanlı modeldir.

(Üst) Dokuz bağlamsal öğrenme (ICL) görevinde MPT-30B'nin GPT-3'e karşı sıfır atış doğruluğu. MPT-30B, dokuz ölçümün altısında GPT-3'ten daha iyi performans gösterir.

MosaicML, eğitim için Nvidia'nın H100 GPU kümesini kullanarak MPT-30B'yi 2 ay boyunca eğitti.

Aşağıdaki şekilde gösterildiği gibi, MPT-30B'nin eğitim verileri:

MPT-30B, veri karıştırma ile önceden eğitilmiştir ve 1T eğitim öncesi veri belirteçleri, 10 farklı açık kaynak metin topluluğundan toplanır ve metin, EleutherAI GPT-NeoX-20B belirteç oluşturucu kullanılarak bölümlere ayrılır ve yukarıdaki orana göre örneklenir .

MPT-7B ve MPT-30B'nin Karşılaştırılması

MPT-30B Eğitim Maliyeti

MosaicML CEO'su ve kurucu ortağı Naveen Rao, MPT-30B'nin eğitim maliyetinin 700.000 ABD doları (yaklaşık 5.0244 milyon yuan) olduğunu ve bunun GPT- gibi benzer ürünler için gereken on milyonlarca dolardan çok daha düşük olduğunu söyledi. 3. .

Özel bir MPT-30B modelini eğitmek ne kadar zaman ve para gerektirecek? Temel modelle başlayalım.

Yukarıdaki şekil, A100 veya H100 GPU'lar kullanılarak sıfırdan MPT-30B ön eğitiminin süresini ve maliyetini göstermektedir. MosaicML altyapısı ile kendi özel MPT-30B'nizi 2 haftada 1T token ile sıfırdan eğitebilirsiniz.

Sıfırdan eğitim almak yerine mevcut bir modele ince ayar yapmak isterseniz ne olur?

Aşağıdaki şekil, her 1B belirteci için MPT-30B ince ayarının süresini ve maliyetini ayrıntılarıyla açıklar. MosaicML altyapısıyla, MPT-30B modelinizde, sistem belleği kısıtlamaları konusunda endişelenmeden ve sadece birkaç yüz dolara tamamen ince ayar yapabilirsiniz!

MosaicML, modeli 30 milyar parametreye genişletmenin yalnızca ilk adım olduğunu, ardından maliyetleri düşürme öncülüğünde daha büyük ve kaliteli bir modeli piyasaya süreceklerini söyledi.

Referanslar:

View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Reward
  • Comment
  • Share
Comment
0/400
No comments
  • Pin
Trade Crypto Anywhere Anytime
qrCode
Scan to download Gate app
Community
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)