La grande société de développement de modèles AI MosaicML a récemment publié un nouveau modèle de langage MPT-30B open source disponible dans le commerce, avec 30 milliards de paramètres, ce qui est nettement plus puissant que le modèle de langage MPT-7B de la génération précédente (7 milliards de paramètres), et ses performances sont mieux que GPT-3.
Source de l'image : générée par l'IA illimitée
En outre, ils ont publié deux modèles affinés : MPT-30B-Instruct et MPT-30B-Chat, qui s'appuient sur MPT-30B et sont bons pour le suivi des instructions à un tour et le dialogue à plusieurs tours, respectivement.
Caractéristiques du modèle MPT-30B :
Fenêtre de contexte de jeton 8k pendant la formation
Prise en charge de contextes plus longs via ALiBi
Obtenez une inférence efficace + des performances d'entraînement grâce à FlashAttention
La série MPT-30B possède également de fortes capacités d'encodage grâce à son mélange de données pré-formé.
Le modèle a été étendu à une fenêtre de contexte de jeton 8k sur NVIDIA H100, ce qui en fait le premier LLM formé sur H100.
MPT-30B plus fort que GPT-3 ?
MPT-30B est un modèle de base open source sous licence Apache 2.0 commercial qui est plus puissant que le GPT-3 d'origine et compétitif avec d'autres modèles open source tels que LLaMa-30B et Falcon-40B.
(Haut) Précision zéro coup du MPT-30B par rapport au GPT-3 sur neuf tâches d'apprentissage contextuel (ICL). MPT-30B surpasse GPT-3 sur six mesures sur neuf.
MosaicML a formé le MPT-30B pendant 2 mois, en utilisant le cluster GPU H100 de Nvidia pour la formation.
Comme le montre la figure ci-dessous, les données d'entraînement du MPT-30B :
MPT-30B est pré-formé par mélange de données, et des jetons de données de pré-formation 1T sont collectés à partir de 10 corpus de texte open source différents, et le texte est segmenté à l'aide du tokenizer EleutherAI GPT-NeoX-20B, et échantillonné selon le rapport ci-dessus .
Comparaison de MPT-7B et MPT-30B
Coût de la formation MPT-30B
Naveen Rao, PDG et co-fondateur de MosaicML, a déclaré que le coût de formation du MPT-30B est de 700 000 dollars américains (environ 5,0244 millions de yuans), ce qui est bien inférieur aux dizaines de millions de dollars requis pour des produits similaires tels que GPT- 3. .
Combien de temps et d'argent faudra-t-il pour former un modèle MPT-30B personnalisé ? Commençons par le modèle de base.
La figure ci-dessus montre le temps et le coût de la pré-formation MPT-30B à partir de zéro en utilisant des GPU A100 ou H100. Avec l'infrastructure MosaicML, vous pouvez former votre propre MPT-30B personnalisé à partir de zéro avec des jetons 1T en 2 semaines.
Que faire si vous ne voulez pas vous entraîner à partir de zéro, mais simplement affiner un modèle existant ?
La figure ci-dessous détaille le temps et le coût de réglage fin du MPT-30B pour chaque jeton 1B. Avec l'infrastructure MosaicML, vous pouvez entièrement affiner votre modèle MPT-30B sans vous soucier des contraintes de mémoire système, et pour seulement quelques centaines de dollars !
MosaicML a déclaré que l'extension du modèle à 30 milliards de paramètres n'est que la première étape, puis ils lanceront un modèle plus grand et de meilleure qualité sur la base de la réduction des coûts.
Les références:
Voir l'original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Open source et disponible dans le commerce, le coût du grand modèle MPT-30B de 30 milliards de paramètres n'est qu'une fraction de GPT-3
La grande société de développement de modèles AI MosaicML a récemment publié un nouveau modèle de langage MPT-30B open source disponible dans le commerce, avec 30 milliards de paramètres, ce qui est nettement plus puissant que le modèle de langage MPT-7B de la génération précédente (7 milliards de paramètres), et ses performances sont mieux que GPT-3.
En outre, ils ont publié deux modèles affinés : MPT-30B-Instruct et MPT-30B-Chat, qui s'appuient sur MPT-30B et sont bons pour le suivi des instructions à un tour et le dialogue à plusieurs tours, respectivement.
Caractéristiques du modèle MPT-30B :
Le modèle a été étendu à une fenêtre de contexte de jeton 8k sur NVIDIA H100, ce qui en fait le premier LLM formé sur H100.
MPT-30B plus fort que GPT-3 ?
MPT-30B est un modèle de base open source sous licence Apache 2.0 commercial qui est plus puissant que le GPT-3 d'origine et compétitif avec d'autres modèles open source tels que LLaMa-30B et Falcon-40B.
MosaicML a formé le MPT-30B pendant 2 mois, en utilisant le cluster GPU H100 de Nvidia pour la formation.
Comme le montre la figure ci-dessous, les données d'entraînement du MPT-30B :
Coût de la formation MPT-30B
Naveen Rao, PDG et co-fondateur de MosaicML, a déclaré que le coût de formation du MPT-30B est de 700 000 dollars américains (environ 5,0244 millions de yuans), ce qui est bien inférieur aux dizaines de millions de dollars requis pour des produits similaires tels que GPT- 3. .
Combien de temps et d'argent faudra-t-il pour former un modèle MPT-30B personnalisé ? Commençons par le modèle de base.
Que faire si vous ne voulez pas vous entraîner à partir de zéro, mais simplement affiner un modèle existant ?
La figure ci-dessous détaille le temps et le coût de réglage fin du MPT-30B pour chaque jeton 1B. Avec l'infrastructure MosaicML, vous pouvez entièrement affiner votre modèle MPT-30B sans vous soucier des contraintes de mémoire système, et pour seulement quelques centaines de dollars !
Les références: