Open source et disponible dans le commerce, le coût du grand modèle MPT-30B de 30 milliards de paramètres n'est qu'une fraction de GPT-3

La grande société de développement de modèles AI MosaicML a récemment publié un nouveau modèle de langage MPT-30B open source disponible dans le commerce, avec 30 milliards de paramètres, ce qui est nettement plus puissant que le modèle de langage MPT-7B de la génération précédente (7 milliards de paramètres), et ses performances sont mieux que GPT-3.

Source de l'image : générée par l'IA illimitée

En outre, ils ont publié deux modèles affinés : MPT-30B-Instruct et MPT-30B-Chat, qui s'appuient sur MPT-30B et sont bons pour le suivi des instructions à un tour et le dialogue à plusieurs tours, respectivement.

Caractéristiques du modèle MPT-30B :

  • Fenêtre de contexte de jeton 8k pendant la formation
  • Prise en charge de contextes plus longs via ALiBi
  • Obtenez une inférence efficace + des performances d'entraînement grâce à FlashAttention
  • La série MPT-30B possède également de fortes capacités d'encodage grâce à son mélange de données pré-formé.

Le modèle a été étendu à une fenêtre de contexte de jeton 8k sur NVIDIA H100, ce qui en fait le premier LLM formé sur H100.

MPT-30B plus fort que GPT-3 ?

MPT-30B est un modèle de base open source sous licence Apache 2.0 commercial qui est plus puissant que le GPT-3 d'origine et compétitif avec d'autres modèles open source tels que LLaMa-30B et Falcon-40B.

(Haut) Précision zéro coup du MPT-30B par rapport au GPT-3 sur neuf tâches d'apprentissage contextuel (ICL). MPT-30B surpasse GPT-3 sur six mesures sur neuf.

MosaicML a formé le MPT-30B pendant 2 mois, en utilisant le cluster GPU H100 de Nvidia pour la formation.

Comme le montre la figure ci-dessous, les données d'entraînement du MPT-30B :

MPT-30B est pré-formé par mélange de données, et des jetons de données de pré-formation 1T sont collectés à partir de 10 corpus de texte open source différents, et le texte est segmenté à l'aide du tokenizer EleutherAI GPT-NeoX-20B, et échantillonné selon le rapport ci-dessus .

Comparaison de MPT-7B et MPT-30B

Coût de la formation MPT-30B

Naveen Rao, PDG et co-fondateur de MosaicML, a déclaré que le coût de formation du MPT-30B est de 700 000 dollars américains (environ 5,0244 millions de yuans), ce qui est bien inférieur aux dizaines de millions de dollars requis pour des produits similaires tels que GPT- 3. .

Combien de temps et d'argent faudra-t-il pour former un modèle MPT-30B personnalisé ? Commençons par le modèle de base.

La figure ci-dessus montre le temps et le coût de la pré-formation MPT-30B à partir de zéro en utilisant des GPU A100 ou H100. Avec l'infrastructure MosaicML, vous pouvez former votre propre MPT-30B personnalisé à partir de zéro avec des jetons 1T en 2 semaines.

Que faire si vous ne voulez pas vous entraîner à partir de zéro, mais simplement affiner un modèle existant ?

La figure ci-dessous détaille le temps et le coût de réglage fin du MPT-30B pour chaque jeton 1B. Avec l'infrastructure MosaicML, vous pouvez entièrement affiner votre modèle MPT-30B sans vous soucier des contraintes de mémoire système, et pour seulement quelques centaines de dollars !

MosaicML a déclaré que l'extension du modèle à 30 milliards de paramètres n'est que la première étape, puis ils lanceront un modèle plus grand et de meilleure qualité sur la base de la réduction des coûts.

Les références:

Voir l'original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Récompense
  • Commentaire
  • Partager
Commentaire
0/400
Aucun commentaire
  • Épingler
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)