Le 2 octobre, heure de l'Est, la célèbre plateforme open source Stability.ai a annoncé sur son site officiel le lancement du grand modèle de langage open source StableLM-3B-4E1T. (Adresse open source :
Il est rapporté que Stable LM 3B est un grand modèle de langage de base principalement destiné aux téléphones mobiles, ordinateurs portables et autres appareils mobiles. Il réduit considérablement les besoins en ressources informatiques tout en garantissant les performances.
Stable LM 3B prend en charge des fonctions telles que la génération de texte/code, le résumé, le réglage fin des données, le raisonnement de bon sens et la résolution de problèmes mathématiques. La longueur globale du contexte est de 4096. (appelé « LM 3B stable »)
Avec la popularité de ChatGPT, il y a eu un vigoureux « boom du développement de grands modèles » dans le monde entier. Cependant, la plupart des modèles nécessitent une grande quantité de ressources informatiques pour être pré-entraînés et affinés, et ils ont également des exigences élevées en matière d'environnement d'exploitation des applications d'IA générative développées. Qualcomm a même publié une puce d'IA générative spécifiquement destinée aux appareils mobiles afin de résoudre le problème de la puissance de calcul.
Stability.ai espère ouvrir la source Stable LM 3B pour aider les développeurs qui ne disposent pas d'énormes ressources informatiques à créer des produits d'IA générative petits et compacts pouvant fonctionner en toute sécurité et de manière stable sur les appareils mobiles.
Ensemble de données d'entraînement LM 3B stable
Bien que le modèle ne comporte que 3 milliards de paramètres, il utilise un énorme ensemble de données de formation de 1 000 milliards de jetons comprenant du texte, du code, Wikipedia, ArXiv, des livres, C4 et d'autres données.
Cet ensemble de données est filtré et mélangé à partir de plusieurs ensembles de données open source à grande échelle, notamment Falcon RefinedWeb, RedPajama-Data, The Pile et StarCoder.
Cela permet au Stable LM 3B de surpasser les modèles de même taille avec moins de ressources, et est encore plus puissant que certains grands modèles avec 7 ou 10 milliards de paramètres.
Processus de formation LM 3B stable
Stable LM 3B commence par un entraînement de précision bfloat16 de 972 k et la longueur globale du contexte est de 4 096, au lieu d'une amélioration en plusieurs étapes de 2 048 à 4 096 comme StableLM-Alpha v2.
Stability.ai a utilisé AdamW pour optimiser les performances et a utilisé un échauffement linéaire pour les 4 800 premières étapes, suivi d'un programme de décroissance du cosinus pour réduire le taux d'apprentissage à 4 % du pic.
L'instabilité précoce est attribuée à des séjours prolongés dans la région à taux d'apprentissage élevé. Le modèle étant relativement petit, les abandons ne sont pas utilisés.
Au cours du processus de formation, Stability.ai évalue les références en langage naturel et observe des améliorations constantes de la formation à la fin du calendrier de décroissance du taux d'apprentissage. Pour cette raison, les développeurs ont décidé de réduire linéairement le taux d'apprentissage à 0, comme l'ont fait Zhai et ses collègues, dans l'espoir d'obtenir de meilleures performances.
De plus, la phase initiale de pré-formation repose sur l'API flash-attention et sa prise en charge prête à l'emploi du masquage causal triangulaire. Cela oblige le modèle à traiter différents documents dans la séquence compressée de la même manière.
Pendant la phase de refroidissement, Stability.ai réinitialise les identifiants de position et les masques d'attention au niveau des marqueurs EOD pour toutes les séquences compressées après avoir observé empiriquement une qualité améliorée des échantillons (c'est-à-dire : une duplication réduite) dans des expériences simultanées.
En termes de matériel, StableLM-3B est formé sur le cluster informatique de Stability AI. Le cluster contient 256 cartes graphiques NVIDIA A100 de 40 Go. La formation a débuté le 23 août 2023 et a duré environ 30 jours.
En termes de tests de performances, StableLM-3B a été testé dans le cadre d'évaluation du harnais lm-uation-harnais sans échantillon. Les résultats montrent que les performances ne sont pas inférieures au modèle à 7 milliards de paramètres, et sont même plus fortes que celles de certains modèles à 10 milliards de paramètres.
Le matériel de cet article provient du site officiel de Stability.ai. En cas d'infraction, veuillez nous contacter pour la supprimer.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
Il peut être exécuté sur les téléphones mobiles, avec 1 000 milliards de données d’entraînement ! StableLM-3B-4E1T est ici
**Source : **Communauté ouverte AIGC
Le 2 octobre, heure de l'Est, la célèbre plateforme open source Stability.ai a annoncé sur son site officiel le lancement du grand modèle de langage open source StableLM-3B-4E1T. (Adresse open source :
Il est rapporté que Stable LM 3B est un grand modèle de langage de base principalement destiné aux téléphones mobiles, ordinateurs portables et autres appareils mobiles. Il réduit considérablement les besoins en ressources informatiques tout en garantissant les performances.
Stable LM 3B prend en charge des fonctions telles que la génération de texte/code, le résumé, le réglage fin des données, le raisonnement de bon sens et la résolution de problèmes mathématiques. La longueur globale du contexte est de 4096. (appelé « LM 3B stable »)
Stability.ai espère ouvrir la source Stable LM 3B pour aider les développeurs qui ne disposent pas d'énormes ressources informatiques à créer des produits d'IA générative petits et compacts pouvant fonctionner en toute sécurité et de manière stable sur les appareils mobiles.
Ensemble de données d'entraînement LM 3B stable
Bien que le modèle ne comporte que 3 milliards de paramètres, il utilise un énorme ensemble de données de formation de 1 000 milliards de jetons comprenant du texte, du code, Wikipedia, ArXiv, des livres, C4 et d'autres données.
Cet ensemble de données est filtré et mélangé à partir de plusieurs ensembles de données open source à grande échelle, notamment Falcon RefinedWeb, RedPajama-Data, The Pile et StarCoder.
Cela permet au Stable LM 3B de surpasser les modèles de même taille avec moins de ressources, et est encore plus puissant que certains grands modèles avec 7 ou 10 milliards de paramètres.
Processus de formation LM 3B stable
Stable LM 3B commence par un entraînement de précision bfloat16 de 972 k et la longueur globale du contexte est de 4 096, au lieu d'une amélioration en plusieurs étapes de 2 048 à 4 096 comme StableLM-Alpha v2.
Stability.ai a utilisé AdamW pour optimiser les performances et a utilisé un échauffement linéaire pour les 4 800 premières étapes, suivi d'un programme de décroissance du cosinus pour réduire le taux d'apprentissage à 4 % du pic.
L'instabilité précoce est attribuée à des séjours prolongés dans la région à taux d'apprentissage élevé. Le modèle étant relativement petit, les abandons ne sont pas utilisés.
De plus, la phase initiale de pré-formation repose sur l'API flash-attention et sa prise en charge prête à l'emploi du masquage causal triangulaire. Cela oblige le modèle à traiter différents documents dans la séquence compressée de la même manière.
Pendant la phase de refroidissement, Stability.ai réinitialise les identifiants de position et les masques d'attention au niveau des marqueurs EOD pour toutes les séquences compressées après avoir observé empiriquement une qualité améliorée des échantillons (c'est-à-dire : une duplication réduite) dans des expériences simultanées.
En termes de tests de performances, StableLM-3B a été testé dans le cadre d'évaluation du harnais lm-uation-harnais sans échantillon. Les résultats montrent que les performances ne sont pas inférieures au modèle à 7 milliards de paramètres, et sont même plus fortes que celles de certains modèles à 10 milliards de paramètres.