Comment le petit modèle peut-il être comparé au grand modèle, l’Institut de technologie de Pékin a publié le grand modèle Mingde MindLLM, et le petit modèle a un grand potentiel

2023-10-28 04:48:20

Source originale : Heart of the Machine

Source de l’image : Généré par Unbounded AI

Les grands modèles de langage (LLM) ont démontré d’excellentes performances dans une variété de tâches de langage naturel, mais il existe encore de nombreux problèmes pratiques dans l’application de grands modèles de langage dans le domaine professionnel en raison du coût élevé de la formation et de l’inférence de modèles à grands paramètres. Par conséquent, l’équipe a commencé avec des modèles légers pour maximiser les avantages des données et des modèles, en se basant sur une meilleure desserte de domaines spécifiques et en réduisant les coûts d’entraînement et d’inférence des tâches en aval.

Le 24 octobre, l’équipe de traitement du langage naturel de l’Institut de technologie de Pékin a publié une série de modèles bilingues légers de grands langages (Ming De LLM) - MindLLM, qui présente de manière exhaustive l’expérience accumulée dans le processus de développement de modèles à grande échelle, couvrant chaque étape détaillée de la construction des données, de l’architecture du modèle, de l’évaluation et du processus d’application. MindLLM est formé à partir de zéro et est disponible dans les versions 1.3B et 3B, égalant ou surpassant systématiquement les performances d’autres grands modèles open source dans certains benchmarks publics. MindLLM améliore également ses capacités en introduisant un cadre de réglage d’instruction innovant spécialement conçu pour les petits modèles. De plus, pour les applications dans des secteurs verticaux spécifiques tels que le droit et la finance, MindLLM présente également une excellente adaptabilité au domaine.

*Adresse:

Faits saillants de MindLLM

Nous avons partagé notre expérience en matière de traitement des données, y compris le maintien d’un texte Web de haute qualité et d’un pourcentage élevé, la préservation des données à long terme telles que les livres et les conversations, le sous-échantillonnage des données mathématiques et le suréchantillonnage des données de code. Nous vous recommandons de brouiller les données uniformément pour l’apprentissage des compétences et de segmenter certains échantillons pour les scénarios d’apprentissage à petite échelle.
Nos résultats d’évaluation ont surpassé certains grands modèles, et le modèle MindLLM a surpassé les grands modèles tels que MPT-7B et GPT-J-6B sur les évaluations MMLU et AGI sans instruction de réglage fin et d’alignement. En chinois, MindLLM présente des performances comparables à celles des modèles paramétriques plus grands sur C- et CMMLU. Plus précisément, MindLLM-3B surpasse les modèles plus grands tels que MOSS-Base-16B et MPT-7B en termes de capacités mathématiques, et surpasse Baichuan2-7B et MOSS-Base-16B en bilinguisme. De plus, MindLLM-1.3B est mathématiquement meilleur que GPT-Neo-1.3B de même taille.
Nous avons comparé deux stratégies de formation différentes dans l’apprentissage bilingue et examiné l’effet de la répartition uniforme des données pendant la période de pré-formation. Nous concluons que pour les modèles légers (≤7B) avec une échelle de capacité limitée, il n’est pas optimal d’atteindre des capacités complexes telles que les mathématiques, le raisonnement ou l’alignement bilingue par le biais de stratégies pré-entraînées puis entraînées par transfert, car il est difficile d’intégrer les connaissances nouvelles et existantes. En revanche, une stratégie plus efficace consiste à partir de zéro et à intégrer plusieurs types de données en combinaison avec les besoins des tâches en aval pour s’assurer que les capacités requises sont acquises de manière cohérente et efficace.
Nous avons constaté que l’utilisation de données personnalisées pour des capacités spécifiques lors de l’ajustement des instructions peut améliorer considérablement les capacités spécifiques des modèles légers, telles que le raisonnement complet ou la connaissance du sujet.
Nous introduisons une approche pour construire un jeu d’instructions à l’aide d’une stratégie de filtrage de masse basée sur l’entropie et démontrons son efficacité dans le filtrage des données de réglage d’instructions de haute qualité pour les modèles légers. Nous démontrons que dans le contexte des modèles légers, les performances des modèles peuvent être optimisées plus efficacement en améliorant la qualité des données de réglage des instructions, plutôt qu’en augmentant simplement la quantité de données.
Nos modèles ont démontré d’excellentes performances dans des domaines spécifiques, en particulier dans des domaines tels que le droit et la finance. Nous avons constaté que les différences dans la taille des paramètres du modèle ne produisent pas de différences significatives dans un domaine particulier, et que les modèles plus petits peuvent être plus performants que les modèles plus grands. Notre modèle surpasse tous les modèles avec des tailles de paramètres de 1,3B à 3B dans un domaine donné, tout en restant compétitif avec les modèles avec des tailles de paramètres allant de 6B à 13B, et la capacité du modèle à se classer dans un domaine spécifique est considérablement améliorée dans le cadre de l’approche COT.

LIÉS AUX DONNÉES

Traitement des données

Nous utilisons des données d’entraînement en anglais et en chinois. Les données en anglais ont été dérivées de l’ensemble de données Pile et ont fait l’objet d’un traitement ultérieur. Les données chinoises comprennent les données d’entraînement provenant de sources ouvertes telles que Wudao et CBooks, ainsi que les données que nous explorons à partir d’Internet. Pour garantir la qualité des données, nous utilisons des méthodes strictes de traitement des données, en particulier pour les données explorées à partir du Web.

Notre approche du traitement des données comprend les éléments suivants :

Nettoyage du format : Nous utilisons un analyseur de page Web pour extraire et nettoyer le contenu textuel de la page Web source. Cette phase comprend la suppression des logos HTML, CSS, JS et emojis inutiles pour assurer la fluidité du texte. De plus, nous avons traité le problème de la mise en forme incohérente. Nous avons également conservé les caractères chinois traditionnels afin que nos modèles puissent apprendre la littérature ou la poésie ancienne.
Filtrage des données de mauvaise qualité : Nous évaluons la qualité des données en fonction du rapport texte/contenu d’une page Web. Plus précisément, nous excluons les pages dont la densité de texte est inférieure à 75 % ou inférieure à 100 caractères chinois. Ce seuil a été déterminé par des tests initiaux sur un échantillon de pages Web.
Déduplication des données : Étant donné que les données de WuDao sont également dérivées de pages Web, certains sites Web peuvent publier les mêmes informations à plusieurs reprises. Par conséquent, nous utilisons un algorithme de hachage sensible localement pour supprimer le contenu dupliqué tout en préservant la diversité de nos données d’entraînement.
Filtrage des informations sensibles : Étant donné que les pages Web contiennent souvent du contenu sensible, nous avons utilisé des heuristiques et des lexiques sensibles pour détecter et filtrer ce contenu afin de construire un modèle de langage positif. Pour protéger la vie privée, nous utilisons des expressions régulières pour identifier les informations privées, telles que les numéros d’identification, les numéros de téléphone et les adresses e-mail, et les remplaçons par des balises spéciales.
Filtrage des données à faible niveau d’information : les données à faible niveau d’information, telles que les publicités, apparaissent souvent sous forme de contenu dupliqué. Par conséquent, nous identifions ce type de contenu en analysant la fréquence des phrases dans le contenu textuel de la page Web. Nous pensons que la répétition fréquente d’expressions d’un même site Web peut être préjudiciable à l’apprentissage des modèles. Par conséquent, nos filtres se concentrent principalement sur les phrases répétitives continues dans les publicités ou les sites Web non authentifiés.

Au final, nous avons obtenu les données suivantes :

Loi de mise à l’échelle

Pour garantir des performances optimales face à l’augmentation des coûts d’entraînement pour l’apprentissage profond et les grands modèles de langage, nous avons mené une étude de la relation entre le volume de données et la capacité du modèle, connue sous le nom de loi d’échelle. Avant d’entreprendre l’apprentissage d’un grand modèle de langage avec des milliards de paramètres, nous entraînons d’abord un modèle plus petit afin d’établir un modèle de mise à l’échelle pour l’entraînement d’un modèle plus grand. La taille de nos modèles varie de 10 millions à 500 millions de paramètres, et chaque modèle est entraîné sur un ensemble de données contenant jusqu’à 10 milliards de jetons. Ces entraînements utilisent des paramètres d’hyperparamètres cohérents, ainsi que le même jeu de données que celui mentionné précédemment. En analysant la perte finale de différents modèles, nous avons pu établir une cartographie de l’entraînement FLOP (opération en virgule flottante) à la perte. Comme le montre la figure ci-dessous, la quantité de données d’entraînement saturées par des modèles de différentes tailles est différente, et à mesure que la taille du modèle augmente, les données d’entraînement requises augmentent également. Afin de répondre aux exigences de données précises du modèle cible, nous avons utilisé la formule de la loi de puissance pour ajuster la loi d’expansion du modèle, et prédit la quantité de données d’apprentissage et la valeur de perte du modèle de paramètre 3B, et les avons comparées aux résultats réels (étoiles sur la figure).

Cours sur la promiscuité des données et les données

L’impact des données sur le modèle couvre principalement deux aspects : (1) le ratio de mélange, qui implique la façon dont les données provenant de différentes sources sont combinées pour construire un ensemble de données d’une taille spécifique avec un budget d’entraînement limité ; et (2) les cours sur les données, qui traitent de l’arrangement des données provenant de différentes sources pour entraîner des compétences spécifiques au modèle.

Nous avons réduit la taille de chaque source de données pour entraîner un modèle avec 15 millions de paramètres. Comme le montre la figure ci-dessous, différents types de données ont des effets différents sur l’efficacité de l’apprentissage et le résultat final du modèle. Par exemple, un problème mathématique a une perte finale de données plus faible et est plus rapide à apprendre, ce qui indique qu’il a un modèle plus prononcé et qu’il est facile à apprendre. En revanche, les données provenant de livres informatifs ou de divers textes Web prennent plus de temps à s’adapter. Certains domaines de données similaires peuvent être plus proches en termes de pertes, tels que les données liées à la technologie et les encyclopédies.

Afin d’explorer plus en détail les performances du modèle généralisant d’une donnée unique à d’autres données, nous utilisons ces modèles entraînés sur une seule donnée pour tester d’autres données, et les résultats sont présentés dans la figure suivante :

Différents jeux de données montrent différents degrés de capacité de généralisation, par exemple, le modèle entraîné sur du texte Web, des encyclopédies et des données de questions-réponses montre une forte capacité de généralisation sur plusieurs sources de données, ce qui indique que leur contenu contient des informations diverses dans divers domaines. En revanche, les modèles entraînés sur des données d’articles universitaires et des données de code excellent en termes de capacités mathématiques, mais sont faibles en généralisation, probablement en raison de la spécificité du domaine et des informations de formatage uniques.

En outre, nous avons effectué plusieurs ajustements de mise à l’échelle des données afin d’équilibrer les performances du modèle entre différentes compétences et types de données. Sur la base de nos expériences, nous avons finalisé quelques principes pour les ratios de mélange de données :

Maintenir une proportion de textes Web et de données encyclopédiques de haute qualité en raison de leur diversité.
Réduire la proportion de données mathématiques pour éviter le surapprentissage.
Améliorez les mathématiques avec du code et des données académiques tout en atténuant le formatage grâce à un échantillonnage diversifié et au traitement associé.
Gardez des données de conversation et de réservation pour vous aider à apprendre les dépendances à longue portée.

En plus du rapport de mixage, le cours des données (l’ordre dans lequel les données sont entraînées) affecte également la capacité d’apprentissage du modèle. Des expériences ont montré que des données provenant de différentes sources amèneront le modèle à acquérir différentes compétences, et que l’adoption d’un ordre d’apprentissage spécifique peut aider le modèle à acquérir de nouvelles compétences en raison de la corrélation entre les compétences. Nos expériences se concentrent sur l’impact de l’apprentissage par transfert de données mixtes non uniformes et linguistiques sur les capacités des modèles. Nos expériences montrent que des données mixtes non homogènes conduisent à un entraînement continu du modèle sur le même type de données, ce qui est plus proche du contexte de l’apprentissage en contexte, et donc plus performant à l’apprentissage en quelques coups. Cependant, en raison de l’inégalité de l’apprentissage, il peut y avoir un phénomène notable d’oubli dans les étapes ultérieures. De plus, l’apprentissage par transfert linguistique aide le modèle à acquérir la capacité bilingue, et la performance globale peut être améliorée grâce à l’alignement linguistique, mais nous pensons que l’apprentissage avec des données linguistiques mixtes est plus propice à l’attribution et à l’acquisition de la capacité du modèle.

Architecture du modèle MindLLMs

MindLLM-1.3B utilise la même architecture de modèle que GPTNeo-1.3B, tandis que MindLLM-3B y ajoute quelques améliorations. Sur la base de la stabilité de l’apprentissage et des capacités du modèle, nous utilisons le codage de position pivoté (RoPE) DeepNorm, RMS Norm, FlashAttention-2, GeGLU et d’autres opérateurs d’optimisation.

Nous avons ajouté un vocabulaire chinois sur la base de GPTNeo-1.3B et utilisé des stratégies d’apprentissage par transfert pour entraîner la capacité bilingue de MindLLM-1.3B. Pour MindLLM-3B, nous utilisons BPE de SentencePiece pour tokeniser les données, et notre Tokenizer a une taille de vocabulaire finale de 125 700. À travers deux modes différents de formation bilingue, nous avons résumé quelques méthodes de pré-formation courantes et pratiques.

Pré-formation

Détails de la pré-formation

Nous avons utilisé deux stratégies différentes pour former le modèle bilingue MindLLM de novo. Pour le MindLLM-3B, nous avons pré-entraîné 800 000 pas directement sur des données bilingues mixtes en chinois et en anglais tout en apprenant la maîtrise du chinois et de l’anglais ; Pour MindLLM-1.3B, nous avons d’abord pré-entraîné 101 100 pas sur le jeu de données en anglais, puis nous avons entraîné 105 900 pas à l’aide de données mixtes en chinois et en anglais. Les détails de la pré-formation sont les suivants :

### Évaluation de la phase de pré-formation

Un modèle plus petit peut battre un modèle plus grand

Pour évaluer la capacité du modèle en chinois et en anglais, nous avons utilisé MMLU (5 coups) et AGI (4 coups) pour évaluer les capacités du modèle en anglais, et C-(5 coups) et CMMLU (4 coups) pour évaluer les capacités du modèle en chinois. L’AGI utilise une partie à choix multiples de la partie anglaise. Les résultats de l’évaluation sont les suivants :

En termes de performances en anglais, les MindLLM surpassent en moyenne les GPT-J-6B, MPT-7B, MOSS-Base-16B et d’autres modèles plus grands, et se rapprochent des Falcon-7B, qui ont des tailles de modèle plus grandes et plus de données pré-entraînées. En termes de capacité chinoise, les MindLLM sont aussi performants que les LLM open source. Il convient de noter que les MindLLM sont toujours en cours de formation pour l’amélioration.

De plus, nous avons constaté que MindLLM-1.3B, qui a été entraîné à la fois sur des données chinoises et anglaises, a surpassé GPT-Neo-1.3B sur MMLU, ce qui suggère que cela pourrait être un gain de l’apprentissage bilingue, car il existe des similitudes entre les différentes langues en termes de capacités. Des expériences et des analyses détaillées se trouvent à la section 4.4 de l’article.

Les modèles plus petits ont un grand potentiel en termes de capacités spécifiques

Pour les modèles légers, lorsqu’ils sont appliqués à des tâches en aval, seule la présence de capacités pertinentes est suffisante. Par conséquent, dans cette section, nous voulons explorer les facteurs de performance et d’influence des MindLLM et d’autres LLM légers dans des capacités spécifiques (≤7B).

Nous évaluons la performance de différents modèles principalement sous trois angles : la capacité mathématique, la capacité de raisonnement et la capacité d’alignement bilingue, car ces trois capacités sont complexes et relativement importantes pour l’application de modèles bilingues.

(1) Mathématiques**

Nous avons utilisé l’ensemble de données Arithmetic (5 coups) pour évaluer la capacité arithmétique du modèle, et GSM8K (4 coups) et MATH (4 coups) pour évaluer la capacité mathématique générale du modèle. Les résultats de l’évaluation sont les suivants :

我们发现，MindLLM-3B在数学能力上的平均分数达到了16.01，超过了MOSS-Base-16B(15.71)和MPT-7B(13.42)，GPT-J-6B(13.15)。此外MindLLM-1.3B的数学平均水平也超过了相同大小的GPT-Neo-1.3B。以上结果表明，轻量级模型在数学上有着巨大的潜力，较小的模型也可以在具体领域表现出超越或者与更大模型相当的水平。进一步，我们可以看到数学能力较为出色的(均分≥15) , à l’exception du MindLLM-3B, tous les modèles sont d’environ 7B. Cela suggère que l’acquisition complète de capacités complexes telles que les capacités mathématiques peut être limitée par la taille du modèle, et cette spéculation peut être reflétée dans l’évaluation du bilinguisme et de la capacité de raisonnement du modèle.

(2) Raisonnement

Nous avons utilisé HellaSwag et WinoGrande pour évaluer la capacité de raisonnement linguistique du modèle (5 coups), LogiQA pour évaluer la capacité de raisonnement logique du modèle (5 coups), PubMedQA, PIQA et MathQA pour évaluer la capacité de raisonnement des connaissances du modèle (5 coups) et BBH pour évaluer la capacité de raisonnement complet du modèle (3 coups). Les résultats spécifiques de l’évaluation sont les suivants :

Premièrement, dans le cas d’une capacité de modèle limitée, il peut être nécessaire de mettre en balance le gain de capacité apporté par le bilinguisme et la consommation de capacité de modèle par l’apprentissage des langues. L’apprentissage des langues peut occuper une partie de la capacité du modèle, ce qui permet d’acquérir des capacités complexes telles que la capacité de raisonnement. Par exemple, MindLLM-1.3B est meilleur que GPT-Neo-1.3B en termes d’indicateurs d’évaluation MMLU en anglais, mais il est plus faible que ce dernier en termes de capacité de raisonnement moyenne (35.61 vs 38.95). Les capacités de raisonnement de Blooms n’étaient pas particulièrement bonnes, mais le bilinguisme dans l’évaluation de suivi était excellent, ce qui a également confirmé le point ci-dessus dans une certaine mesure. Par exemple, les performances d’inférence d’Open-LLaMA-3B sont comparables à celles d’un modèle plus grand, et ses données pré-entraînées sont de 1 To, ce qui dépasse les données pré-entraînées utilisées par d’autres modèles de même taille. Par conséquent, les modèles plus petits ont toujours le potentiel d’atteindre des performances comparables en termes de puissance d’inférence que les modèles plus grands. De plus, nous avons constaté que le niveau d’inférence de MOSS ne semble pas être plus performant que le gain de l’apprentissage des données de code précédentes (MOSS a continué à s’entraîner sur CodeGen), mais les travaux connexes montrent que le code est en effet bénéfique pour l’amélioration de la capacité d’inférence du modèle, de sorte que comment et quand les données de code sont ajoutées à l’entraînement pour améliorer la capacité d’inférence du modèle mérite d’être discutée plus en détail.

(3) Bilinguisme

Nous avons utilisé la section zh-en de Flores-101 (8 coups) pour évaluer l’alignement de modèles bilingues ou multilingues en chinois et en anglais. Nous avons inclus Chinese-LLaMA-2-7B, un modèle d’adaptation du domaine chinois basé sur LLaMA-2-7B. Les résultats sont les suivants :

Nous avons constaté que le modèle fonctionnait mal dans les traductions de l’anglais vers le chinois traditionnel, principalement parce que les données pré-entraînées représentaient une faible proportion du chinois traditionnel. De plus, seuls Blooms et MindLLM-3B ont excellé dans l’alignement bidirectionnel du chinois vers l’anglais et de l’anglais vers le chinois, suivis par LLaMA-2-7B et MOSS-Base-16B. LLaMA-7B et Open-LLaMA-7B ne peuvent être alignés que du chinois vers l’anglais. Combiné avec les données de pré-entraînement du modèle, on peut voir que les données de pré-entraînement de Blooms et MindLLM-3B ont une proportion équilibrée de chinois et d’anglais, tandis que la proportion de données chinoises dans LLaMA-2-7B est beaucoup plus faible que celle de l’anglais, et la proportion de chinois dans les données de pré-entraînement de LLaMA-7B et Open-LLaMA-7B est encore plus faible.

Par conséquent, nous avons deux conclusions, l’une est que le modèle peut apprendre la représentation du langage grâce à une grande quantité d’entraînement sur un langage, et en même temps peut être compris et aligné de manière unidirectionnelle en mélangeant un petit nombre d’autres langages, tels que les performances de LLaMA-7B et Open-LLaMA-7B. La seconde est que si un meilleur alignement bilingue ou multilingue est nécessaire, une proportion équilibrée de données bilingues ou multilingues, telles que Blooms et MindLLM-3B, est nécessaire au début de la pré-formation. De plus, nous avons constaté que MOSS-Base-16B et Chinese-LLaMA-2-7B ont une proportion raisonnable de données en chinois et en anglais, et que le seul ne montre toujours pas d’alignement bidirectionnel, et notre hypothèse est qu’il est difficile d’ajouter une capacité d’alignement bilingue pendant la formation à la migration, car le modèle à l’heure actuelle a déjà beaucoup de connaissances, ce qui produira des contradictions dans le cas d’une petite capacité. Cela explique également le fait que MindLLM-1.3B, qui a une capacité plus petite et une petite quantité de données au début de la formation monolingue, n’a pas acquis de capacités d’alignement bilingue. Le Baichuan 2-7B, d’autre part, est très bon dans d’autres aspects, et peut occuper une grande capacité et ne peut pas apprendre un bon alignement bidirectionnel.

(4) Résumé

En évaluant les résultats de la phase de pré-entraînement, nous arrivons aux deux conclusions suivantes :

Les modèles légers ont un grand potentiel pour surpasser ou atteindre le niveau des modèles plus grands dans un domaine ou une capacité particulière.
Pour le modèle à capacité limitée (≤7B), nous pouvons raisonnablement allouer la proportion de données dans les données de pré-entraînement en fonction des exigences de capacité spécifiques de la tâche en aval, ce qui est propice au modèle pour apprendre et obtenir la capacité cible à partir de zéro, et pour intégrer et promouvoir différentes connaissances et capacités.

En outre, l’article compare également l’effet du maintien d’une distribution uniforme des données sur les performances de pré-entraînement du modèle, et les résultats expérimentaux montrent que la méthode de construction des données d’un apprentissage de cours similaire peut fonctionner de la même manière que celle du modèle entraîné au stade précoce et de la méthode de construction de données uniformément mélangées, mais peut éventuellement conduire à un oubli catastrophique et à une baisse soudaine des performances, tandis que les performances de ces dernières sont plus cohérentes et stables, et que la connaissance des données de pré-entraînement obtenues est plus complète, ce qui soutient également la deuxième conclusion ci-dessus. De plus, nous constatons que la façon dont les données sont construites dans un cours similaire peut produire plus de distributions de données qui sont propices à améliorer la capacité d’apprentissage contextuel du modèle. On trouvera des détails à la section 4.5 du document.

Instruction Réglage fin

Nous voulons explorer comment le réglage fin des instructions peut fonctionner sur des modèles légers avec différents types de jeux de données. Le tableau suivant est le jeu de données d’optimisation des instructions que nous utilisons, y compris notre jeu de données chinois reconstruit MingLi, le jeu de données public Tulu (anglais) et le jeu de données bilingue chinois-anglais MOSS.

**Pour MindLLM, la qualité des données pour le réglage fin des instructions est plus importante que la quantité de données. **

Les performances des modèles MindLLM-1.3B et MindLLM-3B sur C- après instructions de réglage fin sous différentes données sont les suivantes. D’après les résultats expérimentaux, les performances du modèle entraîné avec un ensemble de données de réglage fin de 50 000 instructions soigneusement sélectionnées sont supérieures à celles de l’ensemble de données de réglage fin d’instructions avec une grande diversité et un grand volume de données. De même, le modèle a montré la même performance sur l’indicateur anglais MMLU (voir le tableau 14 pour plus de détails). Par conséquent, pour les modèles légers, il est très important de définir et de filtrer des jeux de données d’optimisation des instructions de haute qualité.

Affinement de la stratégie de filtrage des données en fonction de l’entropie des données

Comment définissez-vous des données d’optimisation d’instructions de haute qualité ? Certains chercheurs ont proposé que la diversité des données d’ajustement fin de l’instruction puisse représenter la qualité des données des ensembles de données d’ajustement fin de l’instruction. Cependant, d’après nos expériences, l’entropie des données et la longueur des données de l’ajustement fin des instructions affecteront davantage les performances des modèles légers. Nous définissons la perte d’entropie croisée de chaque élément de données sur le modèle pré-entraîné comme l’entropie des données des données, et regroupons les données en fonction de l’entropie des données par l’algorithme K-Means pour obtenir différents clusters de données. Les résultats de MindLLM après avoir affiné les instructions de chaque cluster de données, puis C- sont présentés dans le tableau suivant (voir le tableau 19 pour plus de détails sur les résultats MMLU) :

Selon les résultats du tableau, les performances de MindLLM-1.3B et MindLLM-3B sur différents clusters de données sont significativement différentes. De plus, nous analysons la relation entre l’entropie des données et la précision du modèle sur C- et MMLU et l’ajustement des fonctions, comme le montre la figure :

Le point du pentagramme rouge dans l’image est l’entropie du modèle pré-entraîné. Selon l’analyse, lorsque l’entropie des données est supérieure de 1 à 1,5 à l’entropie du modèle pré-entraîné, le modèle offre les meilleures performances après avoir affiné les instructions de données dans cet intervalle. Par conséquent, nous définissons des données de haute qualité par entropie de données et proposons une méthode de criblage des données de haute qualité.

MindLLM peut affiner l’ensemble de données à l’aide d’instructions spécifiées pour obtenir des capacités spécifiques

Afin d’explorer si MindLLM peut améliorer efficacement ses capacités spécifiques grâce à un réglage fin de l’instruction, nous utilisons la partie des données d’examen de l’ensemble de données de 10 000 volumes pour affiner le modèle, afin d’améliorer la capacité de connaissance du sujet du modèle. Nous avons effectué une évaluation sur C-, et les résultats sont les suivants :

On peut voir qu’après un réglage fin des instructions, le modèle a considérablement amélioré sa capacité de connaissance du sujet, et les performances de 1.3B MindLLM dépassent même celles de modèles plus grands tels que ChatGLM-6B et Chinese-Alpaga-33B. Par conséquent, nous pensons que MindLLM peut améliorer ses capacités spécifiques après avoir affiné les instructions, et en raison de ses caractéristiques légères, il est plus adapté au déploiement dans des tâches verticales en aval.

Application sur le terrain

Afin de démontrer l’effet de l’application de petits modèles dans des domaines spécifiques, nous utilisons deux ensembles de données publics en finance et en droit pour les vérifier. D’après les résultats, on peut observer que la taille des paramètres du modèle a un certain impact sur les performances du domaine, mais les performances ne sont pas évidentes. Les performances de MindLLM surpassent celles d’autres modèles de taille comparable dans l’application sur le terrain et sont comparables à celles de modèles plus grands. Cela prouve une fois de plus que le petit modèle a un grand potentiel dans le domaine d’application.

Secteur financier

Dans ce domaine, la tâche de classification de la perception des émotions est effectuée sur des données financières. Tout d’abord, nous avons analysé les données du 13 mai 2011 au 31 août 2023 auprès d’Oriental Fortune et étiqueté les données en fonction des fluctuations suivantes du cours des actions. Par la suite, les données sont divisées en ensembles d’entraînement et de test par date. Compte tenu du déséquilibre des catégories, nous avons échantillonné les données et avons fini par utiliser 320 000 éléments de données comme ensemble d’apprentissage et 20 000 éléments de données comme ensemble de test.

Nous avons utilisé deux méthodes d’entraînement différentes pour comparer les performances de différents modèles. Tout d’abord, seul un simple réglage fin supervisé (SFT) est utilisé pour classer le texte. Deuxièmement, les données du processus d’inférence ont été distillées à partir de ChatGPT et ajoutées à l’entraînement en tant que données auxiliaires, à l’aide de la méthode d’entraînement COT (Chain-Of-Thought).

Les résultats expérimentaux montrent que l’effet de tous les modèles de référence et des modèles MindLLM peut être amélioré à des degrés divers en complétant les informations auxiliaires. On peut en outre observer que les performances de MindLLM-1.3B et 3B sont améliorées de 27,81 % et 26,28 % respectivement par rapport aux performances d’entraînement SFT par formation COT, et MindLLM est plus significativement améliorée que les autres modèles à l’exception de Baichuan-7B. De plus, MindLLM-1.3B et 3B atteignent les meilleures performances à la même échelle et surpassent ChatGLM2-6B et Open-LLaMA-7B.

DOMAINE JURIDIQUE

Nous avons recueilli des données juridiques accessibles au public et les avons combinées avec des données de directives générales pour Directive Fine-Tuning (SFT) de MindLLM. Afin d’explorer comment la longueur du jeton des données affecte les performances du modèle sur des domaines spécifiques, nous utilisons des données de différentes longueurs de données pour entraîner MindLLM séparément. Nous avons d’abord passé au crible toutes les données d’une longueur inférieure à 450, puis nous avons utilisé les tokenizers MindLLM-1.3B et MindLLM-3B pour filtrer les données entre 200-300 et 300-450, respectivement. Le tableau suivant répertorie les statistiques et les modèles d’apprentissage correspondants :

Afin d’éviter les erreurs causées par les biais et le manque d’expertise en matière d’évaluation humaine, nous utilisons ChatGPT en tant qu’évaluateur de la manière suivante. Un ensemble de données de plusieurs séries de conversations de consultation juridique générées par ChatGPT, dont 100 ont été extraites en tant que données d’évaluation. Nous utilisons ChatGPT pour évaluer les réponses du modèle aux conseils juridiques, laisser ChatGPT classer les réponses du modèle, puis calculer le score Elo en fonction des résultats du classement. Enfin, l’un des meilleurs modèles a été sélectionné pour comparer MindLLM-Law avec d’autres modèles open source.

Pour Bloom, les modèles GPT-Neo et Open-LLaMA ont été affinés à l’aide du même ensemble de données que MindLLM-Law, et les résultats de la comparaison sont les suivants :

Les résultats montrent que MindLLM-Law n’a pas surpassé le modèle avec 13B parameters et ChatGLM2-6B, principalement en raison du manque de données dans la phase de pré-apprentissage de la loi pour apporter un gain plus important. Cependant, MindLLM présente des avantages globaux évidents par rapport à Baichuan2-7B-Chat, Open-LLaMA-7B et d’autres modèles de la même taille.

Résumé

Cet article présente la famille de modèles MindLLM, qui comprend actuellement deux modèles de langage légers de grande taille. Nous avons discuté en détail de leur processus de formation, y compris le traitement des données, la pré-formation, la mise au point et les applications de domaine, et nous avons partagé une expérience précieuse et des applications techniques accumulées dans ces domaines. Malgré la taille relativement petite de leurs paramètres, les MindLLM ont obtenu de bons résultats dans de multiples tests de performance, surpassant même certains des plus grands modèles à certains égards. MindLLM présente des performances supérieures à celles des autres modèles légers en termes d’adaptation de domaine. Dans le même temps, ils sont capables d’obtenir des résultats comparables avec une vitesse d’entraînement plus rapide et moins de ressources d’entraînement que les modèles plus grands. Sur la base de l’analyse ci-dessus, nous pensons que les petits modèles ont encore un grand potentiel. Nous améliorerons encore la qualité des données, optimiserons le processus d’entraînement du modèle et mettrons le modèle à l’échelle pour améliorer les performances de MindLLM de manière multidimensionnelle. À l’avenir, nous prévoyons d’expérimenter davantage de tâches en aval et dans des domaines spécifiques afin d’obtenir des applications spécifiques plus approfondies de grands modèles légers.

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

2 J'aime

Récompense
2
Commentaire
Partager

Commentaire

0/400

Aucun commentaire

Rubrique
1/3
1Show My Alpha Points
14k Popularité
2Crypto Market Rebound
167k Popularité
3SEC Crypto Project
22k Popularité
4CandyDrop Airdrop Event 6.0
101k Popularité
5White House Crypto Report
82k Popularité

Épingler