Formation d'une demi-journée avec un budget de 1 000 yuans, l'effet est comparable aux grands modèles grand public, open source et LLaMA-2 chinois disponibles dans le commerce

2023-09-25 05:56:51

Source de l'image : générée par Unbounded AI

Par rapport à LLaMA-1, LLaMA-2 introduit un corpus de plus haute qualité, permet d'améliorer considérablement les performances et est entièrement autorisé pour une utilisation commerciale, stimulant davantage la prospérité de la communauté open source et élargissant l'imagination des applications des modèles à grande échelle. Cependant, le coût de la pré-formation des grands modèles à partir de zéro est assez élevé et est appelé en plaisantant « 50 millions de dollars pour entrer dans le jeu », ce qui décourage de nombreuses entreprises et développeurs. Alors comment construire ses propres grands modèles à moindre coût ?

En tant que leader dans la réduction des coûts et l'augmentation de l'efficacité des grands modèles, l'équipe Colossal-AI exploite pleinement les capacités de base de LLaMA-2 et adopte des méthodes de formation efficaces, en utilisant seulement environ 8,5 milliards de données de jetons, 15 heures et des milliers de yuans. en coûts de formation.** Construit avec succès le LLaMA-2 chinois avec d'excellentes performances, qui a d'excellentes performances dans plusieurs listes d'évaluation.

Par rapport au LLaMA-2 original, sur la base d'une amélioration réussie de la capacité en chinois, il a encore amélioré sa capacité en anglais et ses performances sont comparables à celles du modèle SOTA pré-entraîné à la même échelle dans la communauté open source. Adhérant au principe open source cohérent de l'équipe Colossal-AI, ** l'ensemble du processus de formation, le code et les poids sont entièrement open source, sans restrictions commerciales, ** et un cadre de système d'évaluation complet Colossal est fourni pour obtenir un faible coût reproductibilité. Les solutions associées peuvent également être transférées à n’importe quel domaine vertical et peuvent être utilisées pour créer à partir de zéro des modèles pré-entraînés à faible coût.

Code open source et poids :

Performance

*Remarque : sur la base du score Colossal, les scores entre parenthèses proviennent des scores de la liste officielle des modèles correspondants, et le score C provient du classement du site officiel. *

Dans les listes d'évaluation communes en chinois et en anglais, nous pouvons voir que dans la liste anglaise MMLU, Colossal-LLaMA-2-7B-base a surmonté le problème de l'oubli catastrophique grâce au soutien d'une pré-formation incrémentielle à faible coût. 44.47 -> 53.06), les performances sont excellentes parmi tous les modèles à l'échelle 7B.

Dans la liste chinoise, CMMLU, AGI, GAOKAO et C- sont principalement comparés, et l'effet dépasse de loin les autres modèles de localisation chinois basés sur LLaMA-2. Même comparé à d'autres modèles bien connus qui utilisent un corpus chinois et dont la pré-formation à partir de zéro peut coûter des dizaines de millions de dollars, Colossal-LLaMA-2 fonctionne toujours bien à la même échelle. Surtout par rapport au LLaMA-2 original, il y a eu un saut qualitatif dans la capacité chinoise (CMMLU : 32,97 -> 49,89).

Cependant, grâce à un réglage fin via SFT, LoRA et d'autres méthodes, les connaissances et les capacités qui peuvent être efficacement injectées dans le modèle de base sont très limitées et ne peuvent pas mieux répondre aux besoins de création de connaissances de domaine de haute qualité ou d'applications de modèles verticaux.

Afin de mieux évaluer les performances du modèle, l'équipe Colossal-AI s'appuie non seulement sur des indicateurs quantitatifs, mais évalue également manuellement différents aspects du modèle. Voici quelques exemples :

À en juger par le record de perte de l'ensemble de la formation, tout en profitant de la capacité du système Colossal-AI à réduire les coûts et à augmenter l'efficacité, la convergence du modèle est également entièrement garantie, avec seulement environ 8,5 milliards de jetons (8,5 milliards de jetons) et une puissance de calcul coût de plusieurs milliers de yuans. Laissez le modèle obtenir des effets aussi époustouflants. Cependant, les grands modèles du marché utilisent souvent des milliards de jetons pour la formation afin de garantir des résultats efficaces, ce qui est très coûteux.

Alors, comment l’équipe Colossal-AI a-t-elle réduit les coûts de formation et obtenu de tels résultats ?

Extension du vocabulaire et initialisation du modèle

La liste de vocabulaire originale de LLaMA-2 n'est pas spécifiquement optimisée pour le chinois et contient des mots chinois limités, ce qui entraîne une compréhension insuffisante du corpus chinois. Par conséquent, le vocabulaire de LLaMA-2 a d’abord été élargi.

L’équipe Colossal-AI a trouvé :

L'expansion du vocabulaire peut non seulement améliorer efficacement l'efficacité du codage des séquences de chaînes, mais également faire en sorte que la séquence de codage contienne des informations plus efficaces, ce qui sera plus utile pour le codage et la compréhension au niveau du chapitre.
Cependant, en raison de la petite quantité de données incrémentielles de pré-entraînement, l'expansion de davantage de mots fera que certains mots ou combinaisons n'auront aucune signification pratique, ce qui rendra difficile l'apprentissage complet de l'ensemble de données incrémentielles de pré-entraînement, affectant l'effet final.
Un vocabulaire trop large entraînera une augmentation des paramètres liés à l'intégration, affectant ainsi l'efficacité de la formation.

Par conséquent, après des expériences répétées et en tenant compte de la qualité et de l'efficacité de la formation, l'équipe Colossal-AI a finalement décidé d'élargir le vocabulaire des 32 000 originaux de LLaMA-2 à 69 104.

Avec le vocabulaire élargi, l'étape suivante consiste à initialiser l'intégration du nouveau vocabulaire basé sur le LLaMA-2 original. Afin de mieux migrer les capacités d'origine de LLaMA-2 et de parvenir à une migration rapide du LLaMA-2 d'origine vers les capacités chinoises de LLaMA-2, l'équipe Colossal-AI a utilisé les poids du LLaMA-2 d'origine pour faire la moyenne de la nouvelle intégration. initialisation. Cela garantit non seulement que la capacité en anglais du modèle nouvellement initialisé n'est pas affectée dans l'état initial, mais permet également de transférer la capacité en anglais vers le chinois de la manière la plus transparente possible.

Construction de données

Afin de réduire davantage le coût de la formation, des données de haute qualité jouent un rôle clé, en particulier pour la pré-formation progressive, qui nécessite des exigences extrêmement élevées en matière de qualité et de distribution des données. Afin de mieux filtrer les données de haute qualité, l'équipe Colossal-AI a construit un système complet de nettoyage des données et une boîte à outils pour filtrer les données de meilleure qualité pour une pré-formation incrémentielle.

Les images suivantes montrent le processus complet de gouvernance des données de l'équipe Colossal-AI :

En plus du filtrage heuristique et de la déduplication courants des données, il effectue également la notation, la classification et le filtrage des données clés. Des données appropriées jouent un rôle crucial dans la stimulation des capacités chinoises de LLaMA-2 tout en surmontant le problème catastrophique de l'oubli de l'anglais.

Enfin, afin d'améliorer l'efficacité de la formation, pour les données d'un même sujet, l'équipe Colossal-AI a trié la longueur des données et les a épissées selon la longueur maximale de 4096.

Stratégie de formation

Formation en plusieurs étapes

En termes de formation, compte tenu des caractéristiques de la pré-formation incrémentale, l'équipe Colossal-AI a conçu un plan de pré-formation incrémentale hiérarchique en plusieurs étapes, divisant le processus de formation en trois étapes :

* Étape de pré-formation à grande échelle : l'objectif est d'entraîner le modèle à travers une grande quantité de corpus afin que le modèle puisse produire un texte relativement fluide. Cette étape est complétée par LLaMA-2. Après cette étape, le modèle maîtrise une grande quantité de connaissances en anglais et peut produire des résultats fluides basés sur la prédiction du prochain jeton.

Étape d'injection de connaissances chinoises : Cette étape s'appuie sur des connaissances chinoises de haute qualité. D'une part, elle améliore la maîtrise des connaissances chinoises par le modèle et, d'autre part, elle améliore la compréhension des mots du vocabulaire chinois nouvellement ajouté par le modèle.
Étape de lecture des connaissances pertinentes : cette étape est dédiée à l'amélioration de la capacité de compréhension et de généralisation des connaissances du modèle et à l'atténuation du problème de l'oubli catastrophique.

Les multiples étapes se complètent et garantissent finalement que les capacités du modèle en chinois et en anglais vont de pair.

Formation en seau

La pré-formation incrémentielle est extrêmement sensible à la distribution des données et l'équilibre est particulièrement important. Par conséquent, afin d'assurer une distribution équilibrée des données, l'équipe Colossal-AI a conçu une stratégie de regroupement des données pour diviser le même type de données en 10 compartiments différents. Pendant le processus de formation, chaque compartiment de données contient uniformément un compartiment de chaque type de données, garantissant ainsi que chaque type de données peut être utilisé de manière uniforme par le modèle.

Système d'évaluation

Afin de mieux évaluer les performances du modèle, l'équipe Colossal-AI a construit un système d'évaluation complet - Colossal, dans l'espoir d'évaluer de grands modèles de langage à travers plusieurs dimensions. Le code du cadre de processus est entièrement open source, ce qui prend non seulement en charge la reproduction des résultats, mais aide également les utilisateurs à personnaliser les ensembles de données et les méthodes d'évaluation en fonction de leurs différents scénarios d'application. Les caractéristiques du cadre d’évaluation sont résumées comme suit :

Couvre des ensembles de données courants tels que MMLU, CMMLU, etc. pour évaluer les capacités de réserve de connaissances des grands modèles de langage. Pour la forme de questions à choix unique, en plus de la méthode de calcul courante de comparaison des probabilités ABCD, des méthodes de calcul plus complètes sont ajoutées, telles que l'appariement absolu, la perplexité à choix unique, etc., afin de mesurer de manière plus globale la maîtrise du modèle. de connaissance. .
Prend en charge les évaluations à choix multiples et les évaluations de textes longs.
Prend en charge les méthodes d'évaluation pour différents scénarios d'application, tels que le dialogue à plusieurs tours, le jeu de rôle, l'extraction d'informations, la génération de contenu, etc. Les utilisateurs peuvent évaluer de manière sélective les capacités de différents aspects du modèle en fonction de leurs propres besoins et prendre en charge l'expansion des méthodes de personnalisation et d'évaluation.

Créez un pont pour la migration des grands modèles généraux vers les grands modèles verticaux

À en juger par l'expérience de l'équipe Colossal-AI, la construction de la version chinoise du modèle basée sur LLaMA-2 peut être essentiellement divisée selon les processus suivants :

Alors cette solution peut-elle être réutilisée ?

La réponse est oui, et elle est très significative dans le scénario de mise en œuvre commerciale.

Avec la vague d’intelligence artificielle déclenchée par ChatGPT, les grands géants de l’Internet, les sociétés d’IA, les startups, les universités et les instituts de recherche du monde entier s’emballent sur la piste des grands modèles généralistes. Cependant, derrière les capacités générales des grands modèles généraux se cache souvent un manque de connaissances dans des domaines spécifiques. Par conséquent, dans la mise en œuvre réelle, le problème de l'illusion des grands modèles devient particulièrement grave. Bien qu'un réglage fin des activités puisse générer certains gains, l'absence de grands modèles verticaux entraîne des goulots d'étranglement en termes de performances lors de la mise en œuvre des applications. Si un grand modèle vertical peut être construit rapidement et à faible coût, et si l'entreprise peut ensuite être affinée sur la base du grand modèle vertical, nous pourrons certainement faire un pas de plus dans la mise en œuvre commerciale et saisir les opportunités et les avantages.

En appliquant le processus ci-dessus pour transférer des connaissances dans n'importe quel domaine, vous pouvez créer un processus léger pour créer de grands modèles de base verticale dans n'importe quel domaine à faible coût : **

Pour la pré-formation et la construction d'un grand modèle de base à partir de zéro, nous pouvons également nous appuyer sur l'expérience ci-dessus et sur les capacités de réduction des coûts et d'amélioration de l'efficacité de Colossal-AI pour le réaliser efficacement et au moindre coût.

Optimisation du système

Les performances exceptionnelles et les avantages en termes de coûts mentionnés ci-dessus de Colossal-LLaMA-2 reposent sur le système de développement de grands modèles d'IA à faible coût Colossal-AI.

Colossal-AI est basé sur PyTorch, qui peut réduire les coûts de développement et d'application de la formation/réglage/inférence de grands modèles d'IA, améliorer les performances des tâches de modèle et réduire les exigences en matière de GPU grâce à un parallélisme multidimensionnel efficace, une mémoire hétérogène, etc. En un peu plus d'un an, il a reçu plus de 30 000 étoiles GitHub dans la communauté open source GitHub, se classant au premier rang mondial pour les outils de développement de grands modèles et la segmentation de la communauté, et a été développé conjointement avec de nombreux fabricants renommés, dont les plus grands au monde. 500 entreprises/Optimisez 100 milliards/10 milliards de paramètres pour pré-entraîner de grands modèles ou créer des modèles verticaux.

Plateforme cloud Colossal-AI

Afin d'améliorer encore l'efficacité du développement et du déploiement de grands modèles d'IA, Colossal-AI a été mis à niveau vers la plate-forme cloud Colossal-AI, qui permet aux utilisateurs d'effectuer une formation, un réglage fin et un déploiement de grands modèles dans le cloud en un temps record. -de manière code/no-code à faible coût, intégrant rapidement divers modèles intégrés dans des applications personnalisées.

À l'heure actuelle, les modèles et solutions courants tels que Stable diffusion et LLaMA-2 ont été prédéfinis sur la plate-forme cloud Colossal-AI. Les utilisateurs n'ont qu'à télécharger leurs propres données pour les affiner. En même temps, ils peuvent également déployer leur fine -des modèles optimisés en tant qu'API à des prix abordables vous permettent d'utiliser les A10, A800, H800 et d'autres ressources GPU sans avoir à entretenir vos propres clusters informatiques et diverses infrastructures. De plus en plus de scénarios d'application, différents domaines, différentes versions de modèles, le déploiement de plateformes de privatisation d'entreprise, etc. sont constamment itérés.

Plateforme cloud Colossal-AI : platform.luchentech.com
Documentation de la plateforme cloud Colossal-AI :
Adresse open source de Colossal-AI :

Lien de référence :

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

1 J'aime

Récompense
1
Commentaire
Partager

Commentaire

0/400

Aucun commentaire

Rubrique
1/3
1Simple Earn Annual Rate 24.4%
37k Popularité
2Gate Launchpad List IKA
39k Popularité
3ETH Trading Volume Surges
40k Popularité
4Gate ETH 10th Anniversary Celebration
22k Popularité
5Trump’s AI Strategy
18k Popularité

Épingler