Contexte infini pour les grands modèles et l'art de la composition des ensembles de données

Source | Espace latent

Compilation OneFlow

Traduction|Jia Chuan, Yang Ting, Wan Zilin

Source de l'image : générée par l'outil Unbounded AI, modèle général (jeu CG)

La longueur du contexte était l'une des plus grandes limitations de GPT-3. GPT-3 ne peut accepter que 4000 jetons (3000 mots, 6 pages), sinon une erreur sera signalée. Par conséquent, pour traiter les documents longs et les invites (), il est nécessaire d'introduire d'autres techniques de récupération telles que LangChain. Cependant, MosaicML (qui a été acquis par Databricks pour environ 1,3 milliard de dollars) a ouvert le contexte MPT-7B début mai avec une longueur de 84 000 jetons (63 000 mots, 126 pages), élargissant considérablement la gamme de texte pouvant être traitée. , Le modèle Claude développé par Anthronpic a une longueur de contexte étendue à 100 000 jetons.

MPT-7B a été formé à partir de zéro en utilisant 1 billion de jetons de texte et de code comme données de formation. Par rapport à d'autres modèles similaires (tels que Pythia et OpenLLaMA utilisent 300 milliards de jetons, StableLM utilise 800 milliards de jetons), les données d'entraînement de MPT-7B sont plus importantes et sa qualité est comparable à celle de LLaMA-7B. Le modèle a été formé sur la plate-forme MosaicML, à l'aide de 440 GPU, et le processus de formation a pris 9,5 jours sans intervention humaine pour un coût d'environ 200 000 $. Contrairement à d'autres modèles ouverts, MPT-7B est sous licence pour un usage commercial et optimisé pour une formation et une inférence rapides avec FlashAttention et FasterTransformer.

* (performances du MPT-7B sur des tâches académiques sans coup sûr) *

MosaicML a également publié trois modèles MPT-7B-Instruct, MPT-7B-Chat, MPT-7B-StoryWriter-65k+ basés sur la base MPT-7B pour un réglage fin.

Le modèle est affiné sur dolly_hhrlhf. L'ensemble de données dolly_hhrlhf est construit au-dessus de l'ensemble de données "dolly-5k".

Le modèle est affiné sur les ensembles de données ShareGPT-Vicuna, HC3, Alpaca, Helpful and Harmless et Evol-Instruct.

L'ensemble de données de réglage fin pour ce modèle est un sous-ensemble filtré de romans dans des livres3 avec une longueur de contexte de 65 000. Alors que la taille annoncée était de 65 000 jetons, l'équipe a pu obtenir une réponse de 84 000 jetons lors de l'exécution sur le GPU A100-80 Go d'un seul nœud. La technologie clé derrière cela est ALiBi. Le Great Gatsby n'avait à l'origine qu'environ 68 000 jetons. L'équipe a donc utilisé le modèle MPT-7B-StoryWriter-65k + pour créer une nouvelle fin pour le roman.

En plus des points de contrôle du modèle, l'équipe a ouvert la base de code complète pour la pré-formation, le réglage fin et l'évaluation de MPT via leur nouvelle fonderie MosaicML LLM. Le tableau ci-dessus a été créé à l'aide du cadre d'évaluation de l'apprentissage contextuel de LLM Foundry.

Le scientifique en chef de MosaicML, Jonathan Frankle, et le chercheur scientifique Abhinav Venigalla sont à la tête du MPT-7B et dirigent l'ensemble du processus de formation du MPT-7B. Dans le dernier podcast de Latent Space, le partenaire principal de Swyx et Decibel Partners, Alessio, a discuté avec eux de l'innovation du processus de formation MPT-7B et a expliqué pourquoi la combinaison d'ensembles de données LLM est un art important et mystérieux. De plus, certains benchmarks traditionnels à choix multiples peuvent ne pas être très utiles pour la technologie en cours de construction, et ils exploreront également les raisons derrière cela.

(Le contenu suivant est compilé et publié par OneFlow après autorisation, source : https://

Construction du modèle MPT-7B

**Swyx : Pourquoi avez-vous développé le MPT-7B ? **

Abhinav : Le projet MPT-7B a duré environ 6 à 12 mois. Nous avons commencé à travailler sur les modèles linguistiques l'été dernier et avons publié un article de blog qui analysait les modèles linguistiques et constatait que le coût de la formation pouvait en fait être bien inférieur à ce que les gens pensaient. Aussi depuis lors, inspirés par le modèle LLaMA publié par Meta AI et de nombreux autres travaux open source, nous avons entrepris de créer un très bon modèle avec 7 milliards de paramètres, qui est à l'origine de MPT.

Alessio : Vous avez dit dans l'un des podcasts : Mosaic n'a pas l'intention de créer et de publier des modèles. Mais au final tu as quand même sorti le modèle, qu'est-ce qui t'a fait changer d'avis ?

Jonathan : Je pense qu'il y a plusieurs facteurs : nous manquons toujours d'un modèle de première classe. Contrairement à OpenAI, où notre activité tourne autour des clients qui créent leurs propres modèles, nous leur fournissons principalement les outils, et pour que ces outils soient efficaces, nous devons d'abord créer nos propres modèles.

Il doit être clair que si nos clients peuvent faire de grandes choses, nous pouvons aussi faire de grandes choses. J'ai eu beaucoup de gens sur Twitter qui ont remis en question la véracité des chiffres que Mosaic a montrés, comme Ross Whiteman disant : « Voyons les résultats réels », auquel je dirais : « Ross, qu'est-ce que tu penses de ces chiffres ? ?" Nous avons développé le modèle en 9,5 jours pour un coût de 200 000 $, vous pouvez donc le faire aussi.

**Swyx : **Se référant aux données que vous avez publiées l'année dernière, il a été initialement estimé que le coût de la formation GPT-3 était inférieur à 450 000 $, puis il a été réduit à 100 000 $ ; le coût de la diffusion stable a également été réduit de 160 000 $ à moins de 50 000 $.

Jonathan : Je reste très prudent quant au chiffre de 100 000 $. Ce n'est pas encore là, mais nous allons dans cette direction, et c'est un grand défi pour Abhi.

Swyx : Il existe trois variantes du modèle MPT-7B, dont l'une atteint SOTA en termes de longueur de contexte, quel est le processus de formation pour ces modèles ?

Abhinav : Notre modèle de base est une recréation de LLaMA-7B, avec 7 milliards de paramètres et des données d'entraînement de 1 000 milliards de jetons, fournissant un point de départ d'entraînement efficace pour le modèle de réglage fin sans intervention excessive. Le réglage fin du modèle est également très intéressant, tel que MPT-7B-StoryWriter-65k + peut être utilisé pour l'écriture d'histoires, la longueur de la fenêtre de contexte est de 65 000 et il peut également continuer à écrire en fonction du contenu connu.

Bien sûr, ce n'est qu'une des directions auxquelles nous pensons.Vous pouvez utiliser le modèle de base MPT-7B pour créer des modèles personnalisés répondant à différents besoins, tels que des modèles de code de contexte long ou des modèles de langage spécifiques. Ainsi, sur la base du modèle de base, trois variantes ont été construites, MPT-7B-Instruct, MPT-7B-Chat et MPT-7B-StoryWriter-65k +, qui sont utilisées pour suivre de courtes instructions, dialoguer par chat et écrire des histoires respectivement.

Alessio : Comment décidez-vous du nombre de jetons et de paramètres à utiliser lors de la formation du modèle ? 7 milliards et 3 milliards de paramètres de modèle semblent être deux nombres magiques actuellement en vogue.

Abhinav : pour les modèles d'entraînement, la loi d'échelle peut vous indiquer comment utiliser au mieux les ressources informatiques d'entraînement. Par exemple, si le budget est de 200 000 dollars américains, alors selon la loi d'échelle, le programme de formation le plus efficace peut être donné.

Parmi eux, celui que nous suivons le plus souvent est la loi de Chinchilla. Pour le modèle MPT-7B et ses variantes associées, ces lois ne sont pas strictement respectées, car nous voulons nous assurer que le modèle est adapté à un usage personnel et a de bonnes performances d'inférence, il est donc surentraîné, dépassant le point Chinchilla (se référant aux données niveau mesuré en jetons). Certaines personnes sur Internet appellent en plaisantant ces modèles Llongboi car leur temps de formation est assez long. En prenant le modèle 7B comme exemple, le point Chinchilla peut être de 140 milliards de jetons, mais nous avons en fait formé 1 billion de jetons, donc le temps de formation est de près de 7 fois plus longtemps que la normale.

**Swyx : Llongboi fait-il référence à une méthode d'entraînement ? **

Jonathan : Llongboi n'est qu'une blague d'initié, faisant référence à une méthode d'entraînement qui utilise plus de jetons que la loi de Chinchilla ne l'exige. On peut voir que Llongboi a deux "L" au début, qui sont utilisés pour rendre hommage à LLaMA. Notre PDG a une fois rendu le nom public sur Twitter, faisant référence au modèle comme "Llongboi". Parfois, j'ai vraiment envie de prendre son mot de passe Twitter pour qu'il ne soit pas dévoilé trop tôt, mais maintenant, le monde entier connaît le nom.

A propos de l'architecture, ALiBi, contexte

**Alessio :**Flash Attention et Faster Transformer sont les deux éléments clés de votre modélisme, quels sont leurs avantages ?

Abhinav : Flash Attention est une implémentation plus rapide de Full Attention, développée par le laboratoire Hazy Research de Stanford. Nous avons intégré Flash Attention dans notre bibliothèque en septembre dernier et cela a joué un grand rôle dans la vitesse d'entraînement et d'inférence. Comparé à d'autres modèles Hugging Face, ce modèle est très spécial.Il peut basculer entre l'attention générale de la torche et l'attention flash spécialement conçue pour le GPU, ce qui augmente la vitesse d'entraînement du modèle d'environ 2 fois et la vitesse d'inférence augmentée de 50. % -100%.

**Swyx : Qu'est-ce qui vous a poussé à choisir le codage positionnel ALiBi ? **

Abhinav : Nous avons combiné l'encodage positionnel ALiBi, l'attention Flash et la stabilité de l'entraînement d'une manière intéressante. ALiBi est capable de supprimer le besoin d'intégrations positionnelles dans le modèle. Auparavant, si un jeton avait la position 1, vous deviez ajouter une intégration de position spécifique et ne pouviez pas dépasser la position maximale (généralement 2000). Mais avec ALiBi, ce problème est résolu. Nous avons juste besoin d'ajouter un biais sur la carte d'attention, qui est comme une pente, et si une plage de positions plus longue est requise pendant l'inférence, cela étendra cette pente à un plus grand nombre de positions. Cette approche fonctionne parce que la pente est continue et peut être interprétée.

Fait intéressant, grâce à Flash Attention, le modèle économise beaucoup de mémoire et améliore les performances, nous avons donc commencé à effectuer des tests de performances sur des modèles avec des contextes très longs (jusqu'à 65k) l'année dernière, et en même temps, il est très difficile à réaliser formation stable. Plus tard, nous avons essayé d'intégrer ALiBi dans le modèle, et la stabilité du modèle a été considérablement améliorée. Nous pouvons maintenant former de manière stable des modèles d'écriture d'histoires sur des contextes très longs et garantir une utilisation efficace de ceux-ci.

Jonathan : La longueur du contexte est techniquement illimitée. Tant que suffisamment de mémoire est donnée, le dialogue peut continuer indéfiniment. Nous pensons que le nombre le plus long que le modèle peut gérer est 84K, qui est la longueur de contexte la plus longue que les humains peuvent gérer confortablement dans la pratique. Mais nous avons également essayé des longueurs de contexte dépassant 84 Ko dans la pratique, et nous pouvons gérer des longueurs plus importantes.

**Swyx :**Par exemple, nous pouvons entrer le roman "The Great Gatsby" dans le modèle, puis laisser le modèle continuer à écrire le roman en fonction du texte saisi, et enfin le modèle produit un contenu assez excitant.

Jonathan : Il existe de très bonnes versions de la fin de l'histoire dans Mosaic. Une version décrit les funérailles de Gatsby, Nick commence à parler au fantôme de Gatsby, le père de Gatsby apparaît également, puis lui et Tom se présentent au poste de police. Cette version met beaucoup l'accent sur l'intrigue, décrivant ce qui se passe ensuite. De plus, de nombreuses versions ont des fins très Fitzgerald et elles sont magnifiquement écrites. Il est donc excitant de voir que le modèle semble traiter l'entrée et produire une sortie significative. Nous pouvons faire beaucoup avec cette longueur de contexte.

Alessio : La mémoire commence à devenir l'une des contraintes du modèle, alors comment choisir la taille des paramètres et la longueur du contexte ?

Jonathan : Récemment, la recherche sur les contextes longs a attiré beaucoup d'attention et une série d'articles connexes ont vu le jour. Cependant, ces articles ne sont pas tout à fait exacts et, dans une certaine mesure, en particulier en ce qui concerne les mécanismes d'attention, ils comparent des mécanismes d'attention non quadratiques (tels que l'attention approximative et hiérarchique) avec une attention quadratique explicite et correcte. . Je suis optimiste sur les méthodes d'approximation, alors j'ai hâte de creuser dans ces articles.

Écrire et lire des articles m'a appris une leçon importante sur le fait de ne faire confiance à aucune donnée tant que vous ne l'avez pas fait vous-même. Chez Mosaic, nous avons été déçus à plusieurs reprises par les mises en œuvre, car les articles qui semblaient prometteurs au début ne se sont rendu compte qu'après la mise en œuvre que les articles avaient manipulé les données. En tant que tel, je suis toujours sceptique à l'égard des données et je ne fais confiance à aucun résultat tant qu'il n'a pas été réimplémenté et validé. Dans l'ensemble, la pratique a porté ses fruits et, à plusieurs reprises, les théories n'ont pas fonctionné aussi bien dans la pratique que prévu.

Caractéristiques du MPT-7B

**Swyx : Quelles sont les spécificités du MPT-7B ? **

Abhinav : Je décomposerais cela en deux parties, la première est la stabilité de l'entraînement. Cette question peut être divisée en trois parties. Premièrement, le modèle doit éviter les pics de perte pendant l'entraînement, qui est notre première ligne de défense. À mon avis, les pics de perte ne sont pas un gros problème à une taille d'entraînement de 7 milliards de paramètres. Cependant, éviter les pics de perte devient difficile à mesure que le temps d'entraînement augmente. Nous avons passé beaucoup de temps à trouver comment régler les méthodes d'initialisation, les optimiseurs, les architectures, etc. pour éviter les pics de perte. Même pendant notre entraînement, si nous regardons attentivement, nous pouvons encore trouver quelques petits pics intermittents, mais ces pics reviendront à la normale en quelques centaines de pas, ce qui est un phénomène très magique, qui peut nous aider naturellement à partir du pic de perte récupéré.

Le déterminisme et les stratégies de relance intelligentes sont notre deuxième ligne de défense. En cas d'erreur catastrophique, nous pourrons reprendre rapidement la formation, en appliquant une certaine intervention dans les quelques lots avant l'échec. Pour d'éventuels problèmes, nous avons fait diverses préparations. Cependant, lors de la formation du MPT-7B, nous n'avons pas du tout utilisé ces mesures de sauvegarde, ce qui doit être considéré comme une sorte de chance.

La bonne infrastructure de formation est la troisième ligne de défense. Si nous essayons de former le modèle sur des centaines de GPU, il y a souvent des pannes matérielles. Par exemple, lors de la formation d'un modèle dans un grand cluster avec 512 GPU, la formation échoue presque tous les deux jours. La cause de l'échec peut être une défaillance du réseau.

En règle générale, les gens mettent en place des équipes d'astreinte 24h/24 et 7j/7 pour faire face à ces pannes. Lorsqu'une panne survient, l'équipe essaie de vérifier le cluster, de supprimer les nœuds cassés, de redémarrer, etc., ce qui est une tâche très fastidieuse. Nous avions l'habitude de passer des mois à vérifier manuellement les erreurs, mais maintenant nous avons construit une plate-forme pour automatiser chaque nœud du processus de formation du modèle.

Lorsqu'il y a un problème avec l'exécution d'un modèle, notre système de surveillance automatisé arrête le travail, teste et vérifie les nœuds cassés, puis redémarre. En raison des capacités de récupération déterministes et rapides de notre logiciel, le modèle continue de fonctionner correctement. En conséquence, nous pouvons parfois voir dans les journaux du modèle qu'après qu'un modèle tombe en panne à 2 heures du matin, il est de nouveau opérationnel en quelques minutes sans intervention manuelle d'un membre de l'équipe.

Jonathan : Ce n'est vraiment pas facile à faire. S'il y avait une panne matérielle dans le modèle il y a quelques mois, les membres de l'équipe devraient se lever à deux heures du matin pour vérifier la cause de l'échec du nœud et redémarrez le travail. Auparavant, même à une échelle d'apprentissage de 7 milliards de paramètres, nous rencontrions souvent des pics de perte catastrophiques, et ces problèmes affectaient sérieusement l'apprentissage du modèle.

Nous avons maintenant résolu ces problèmes grâce à des améliorations progressives. Comme l'a dit Abhinav, nous pouvons maintenant nous asseoir dans un bureau tout en formant plusieurs modèles sans nous soucier de l'échec du modèle et de l'interruption de la formation.

Sélection et répétition des données et défis d'évaluation du LLM

**Swyx : La sélection des données est votre priorité, pouvez-vous la développer ? **

Jonathan : Abhi m'a presque tué quand j'ai essayé d'utiliser tout le GPU pour le traitement des données au lieu d'entraîner le modèle. Nous savons que la formation d'un modèle nécessite beaucoup de données, mais il existe également de nombreuses incertitudes.

L'un est quels types de sources de données différentes sont importantes, et l'autre est l'importance de la duplication. Parmi eux, la question de la duplication peut être décomposée en compromis de qualité et de quantité. Supposons que j'aie les 10 milliards de meilleures données lexicales au monde, est-il préférable de les recycler cent fois, ou est-il préférable d'utiliser 1 000 milliards de données lexicales à jour et de mauvaise qualité ? Bien sûr, il peut y avoir un point de compromis, mais comment déterminer des données de haute qualité est également un problème, et il n'y a pas encore de réponse claire. Si je devais retourner dans le monde universitaire maintenant, j'écrirais certainement un article là-dessus, car je n'y connais encore rien.

Swyx : Je n'ai pas encore vu d'articles de recherche à ce sujet.

Jonathan : La question centrale de la recherche de thèse est "quel type de combinaison d'ensembles de données doit être utilisé".

Dans le processus de création du modèle, je suis retourné à la Georgetown Law School, où j'enseignais, et je me suis assis avec un groupe d'étudiants en droit pour en discuter. Je leur donne un ensemble de données de haute qualité, comment mélanger les données et le nombre de jetons dont ils disposent, et je les laisse créer le meilleur ensemble de données pour leur modèle.

Ils ne savent rien des LLM si ce n'est que les données d'entrée affectent le comportement. Je leur dis de créer un hybride qui couvre tous les différents compromis. Au début, une grande quantité de corpus anglais peut être nécessaire, qui peut être obtenue via Internet ; si vous voulez en faire un modèle multilingue, alors le corpus anglais sera considérablement réduit ; en outre, s'il faut inclure le code dans il.

Certaines personnes pensent que le code peut rendre le modèle plus performant dans le raisonnement logique, mais je n'ai jamais vu de preuves à l'appui de cette idée. Bien que nous ayons effectivement développé un excellent modèle de code, la question de savoir si le modèle de code peut conduire à une meilleure capacité de raisonnement en chaîne de pensée nécessite des recherches supplémentaires.

On dit qu'une version de GPT-3 est formée à partir du roman "The Da Vinci Code", donc certaines personnes pensent que cela peut être utile, mais il n'y a aucune preuve ; ) aidera la formation du modèle, mais il y a aussi un manque de preuves.

Par conséquent, nous avons expérimenté de nombreux mélanges de données différents et avons constaté que certains mélanges de données fonctionnaient mieux ou moins bien que d'autres. Par exemple, "The Pile" est un mélange de données très stable, mais selon les mesures d'évaluation, il existe d'autres meilleurs mélanges de données. Ensuite, j'aborderai également la question de l'évaluation, qui est très importante.

Le modèle T5 a été formé à l'origine sur l'ensemble de données C4, qui a fonctionné exceptionnellement bien. D'autres, dont Stella Beaterman d'EleutherAI, l'ont mentionné lorsque j'ai tweeté à ce sujet. Dans l'article original sur le modèle T5, la méthode de prétraitement de l'ensemble de données C4 semble bizarre, et les auteurs ont supprimé tout ce qui contient le mot "Java" de l'ensemble de données car ils ne voulaient pas d'avertissements liés à Java. En outre, ils ont supprimé l'inclusion des accolades car ils ne voulaient pas inclure Java.

Ils ont examiné une liste de mots grossiers et supprimé le contenu contenant des mots grossiers. Cependant, la liste des mauvais mots comprend en fait des mots qui ne sont pas vraiment mauvais, comme "gay". Mais à cause de ce processus de nettoyage, l'ensemble de données résultant semble être sans égal. À partir de ce moment, nous ne savons rien des données.

En fait, nous avons également utilisé un ensemble de données appelé MC4, MC4 et C4 avaient le même prétraitement, mais ajouté plus d'appels Web (appels Web), mais par rapport à C4, la partie anglaise de MC4 est pire, pour des raisons inconnues.

Pour cela, je me suis fixé deux critères :

Tout d'abord, la partie anglaise devrait être au moins aussi bonne que MC4. Par rapport aux autres ensembles de données disponibles, la partie anglaise de MC4 est meilleure. Deuxièmement, mettez tout en œuvre sur la diversité des données et assurez-vous que l'ensemble de données comprend des éléments tels que du code, des articles scientifiques et Wikipedia, car les gens utiliseront le modèle pour une variété de tâches différentes.

Mais je pense que, plus important encore, le modèle n'est aussi bon que la métrique d'évaluation. Abhi peut être en désaccord sur ce point. Nous ne savons pas comment évaluer avec précision les modèles génératifs lorsqu'on leur demande d'effectuer des tâches spécifiques. Dans certains cas, nous devons admettre que nos propres évaluations ne mesurent même pas ce qui nous importe vraiment, nous ne pouvons donc que faire des choix raisonnables.

Swyx : Pensez-vous que les méthodes d'évaluation telles que MMLU (Massive Multitask Language Understanding) et BIG-bench ne sont pas assez convaincantes ?

Jonathan : Ces méthodes effectuent sans aucun doute deux types de tâches. L'une est une tâche à choix multiples, qui contient une réponse correcte, ce qui permet au modèle de générer des options telles que A, B, C ou D, puis choisit la réponse que le modèle est le plus susceptible de générer en calculant la perplexité de chaque réponse possible. Mais au lieu de demander au modèle de faire des questions à choix multiples, nous faisons un deuxième type de tâche générative ouverte, comme le résumé. La comparaison à l'aide de métriques comme BLEU et ROUGE n'est pas assez précise, il existe de nombreux excellents résumés d'articles et des méthodes de génération ouvertes. En revanche, le manuel est une norme d'évaluation plus fiable, mais l'évaluation manuelle prend beaucoup de temps et est laborieuse, et elle ne peut pas être comparée au modèle en temps réel, ce qui pourrait être possible à l'avenir.

Abhinav : Nous avons une excellente équipe d'évaluation qui nous aide à créer de nouvelles mesures.

Jonathan : Mais les LLM sont difficiles à évaluer, et je ne pense pas qu'aucune de ces mesures ne reflète vraiment ce que nous attendrions d'un modèle dans la pratique.

Réduction des coûts et augmentation de l'efficacité de la formation des modèles

Swyx : Aujourd'hui, il faut trois à dix jours pour former un modèle, combien de temps souhaitez-vous raccourcir ?

Abhinav : Cette année est probablement l'une des années les plus excitantes en termes d'amélioration de l'efficacité de la formation des modèles bruts. Cette année, le matériel et les logiciels ont été mis à jour en conséquence, le premier étant le matériel H100 de nouvelle génération de Nvidia, qui à lui seul peut améliorer les performances au moins par deux. Deuxièmement, il existe un nouveau format de nombre à virgule flottante FP8, qui peut atteindre la même amélioration des performances lorsqu'il est utilisé seul.

Il y a quelques années, nous avons commencé à utiliser la précision 32 bits, puis Nvidia a introduit la précision 16 bits. Après plusieurs années de développement, nous avons progressivement maîtrisé les compétences de formation 16 bits grâce à l'amélioration continue des exigences.

Avec FP8 cette année, nous pouvons doubler le débit, ce qui signifie que nous pouvons tripler le coût. Dans le même temps, nous avons commencé à profiler la formation LLM en utilisant FP8 sur le H100, et les progrès ont été rapides. Ainsi, simplement en améliorant le matériel, nous pouvons réduire considérablement les coûts.

En outre, il existe de nombreuses études sur les applications de l'architecture. Nous explorons des moyens d'introduire une certaine parcimonie, mais pas une parcimonie complètement aléatoire. Existe-t-il un mécanisme de déclenchement ou un moyen architectural de style MoE pour y parvenir ?

Notre objectif initial était de réduire le coût de formation du modèle GPT-J de 500 000 $ à 100 000 $, et si nous pouvons y parvenir d'ici la fin de l'année, ce serait une grande réussite.

Jonathan : Cette idée n'est pas un château en l'air. Bien que ce stade ne soit pas encore atteint, cet objectif devrait être atteint d'ici 2023.

Les statistiques sur les coûts de formation et d'inférence sont rares. David Patterson de Google a publié un article de blog sur la consommation d'énergie de Google pour l'apprentissage automatique. Après une analyse détaillée, au cours des trois dernières années, Google a consacré les trois cinquièmes de ses ressources à l'inférence et les deux cinquièmes à la formation. Ce qui précède sont les données de Google, ils fournissent des modèles pour des milliards d'utilisateurs.

Google est probablement l'endroit avec la plus grande charge d'inférence au monde. Et ce n'est que l'allocation des ressources pour la formation, l'inférence représentant les trois cinquièmes et la formation les deux cinquièmes. Le matériel peut être plus cher et la structure de réseau du matériel peut être plus complexe, de sorte que la formation et le raisonnement peuvent être divisés en deux. Ce qui précède est le ratio d'allocation de Google, mais pour d'autres entreprises, la formation peut représenter un poids plus élevé.

L'importance de l'ouverture pour la recherche en IA

Alessio : Le coût de la formation précédente était très élevé, ce qui nous empêchait de mener suffisamment d'expériences. Il y avait donc de nombreux problèmes dans la sélection des ensembles de données, etc.

Jonathan : À l'université, j'étais jaloux de mes amis parce qu'ils avaient des GPU et que je n'en avais pas sur mon ordinateur portable, donc je ne pouvais entraîner aucun modèle. Je rêvais de gagner à la loterie pour pouvoir posséder un GPU K80.

Au fond, je suis toujours cet étudiant avide de science. Je crois fermement que si nous voulons faire de la recherche scientifique et vraiment comprendre ces systèmes, comment les faire bien fonctionner, comprendre les éléments de leur comportement, de leur sécurité et de leur fiabilité, nous devons réduire le coût de la formation afin de pouvoir réellement faire de la science recherche. Prenez des expériences biologiques, par exemple, où nous devons faire plusieurs cultures cellulaires et expériences pour nous assurer qu'un médicament fonctionne, beaucoup de recherches scientifiques sont nécessaires avant de vraiment comprendre quelque chose.

**Abhinav :**MosaicML compte de nombreux clients qui essaient de former des modèles. L'entreprise est donc incitée à consacrer beaucoup de ressources et de temps à la recherche scientifique. Ce n'est qu'en comprenant vraiment comment les modèles doivent être formés que nous pouvons aider plus de gens. Donc pour nous, ce processus d'agrégation est très important.

Je me souviens qu'il y avait un article de Google avant qui examinait la taille des lots ou quelque chose du genre. Ce journal a probablement coûté des millions de dollars et il a d'énormes avantages pour la communauté dans son ensemble. Maintenant, nous pouvons tous en tirer des leçons et économiser de l'argent sans nous ruiner. Par conséquent, pour Mosaic, grâce à la recherche expérimentale, nous avons acquis une connaissance approfondie des données, de l'architecture de pré-formation, etc., c'est pourquoi les clients nous choisissent.

Jonathan : L'ouverture est très importante pour la communauté de l'IA. Dans un sens, nous n'avons aucune raison d'être fermés. Nous gagnons des revenus en aidant les clients à former des modèles. Il n'y a aucune perte pour nous de partager les résultats avec la communauté. Après tout, nous devons gagner des revenus grâce à des modèles personnalisés et une excellente infrastructure. Et c'est en rassemblant ces aspects que nous avons nommé notre société MosaicML.

Nous avons toujours gardé une attitude ouverte et ne cacherons pas les résultats que nous avons obtenus. Mais maintenant, je trouve que nous sommes devenus l'un des plus grands laboratoires open source de l'industrie, ce qui est un fait triste, car MosaicML n'est pas si grand en termes d'industrie dans son ensemble, nous n'avons qu'environ 15 chercheurs, beaucoup d'autres Les laboratoires sont devenus fermés et ne publient plus beaucoup de contenu publiquement. Cependant, MosaicML continuera à communiquer et à partager avec la communauté, et fera de son mieux pour devenir un pionnier de la recherche ouverte. Bien que notre échelle et notre volume de recherche ne puissent pas correspondre à ceux d'un grand laboratoire, nous continuerons à partager ce que nous apprenons dans le but de créer des ressources pour la communauté.

Lorsque je discute de l'écosystème de l'IA avec les décideurs politiques, une préoccupation commune revient toujours : qu'un manque d'ouverture entravera le rythme de l'innovation. J'insiste sur ce problème depuis des années, mais c'est enfin une réalité. Je préconise l'open source, mais je ne pense pas que tout le monde partagera son travail. Autrefois, nous tenions l'open source pour acquis, mais ce n'est plus le cas.

Je pense que cela va ralentir notre développement. Dans de nombreux cas, il existe une culture monolithique dans chaque laboratoire et la communication est un moteur important du progrès scientifique. Par conséquent, l'open source est non seulement indispensable dans la communauté open source et dans le milieu universitaire, mais également essentiel à l'avancement de la technologie. Nous avons besoin d'une communauté de recherche open source dynamique.

Tendances futures

Swyx : Vous avez mentionné que beaucoup de choses ne durent pas longtemps et sont facilement remplacées, mais Transformer est là pour rester.

Jonathan : Les transformateurs existeront toujours. Les réseaux de neurones convolutifs (CNN) sont encore utilisés aujourd'hui et le transformateur visuel ne les a pas remplacés. Regardez le réseau neuronal récurrent (RNN), qui existe depuis des décennies, mais qui est toujours actif dans de nombreux domaines. Par conséquent, la mise en œuvre d'améliorations majeures des infrastructures est difficile.

Abhinav : Je pense que votre pari dépend beaucoup de ce qui est défini comme attention. Si une opération telle que la multiplication matricielle QK est remplacée par une méthode similaire, quel effet cela aura-t-il sur le résultat ?

Jonathan : En dernière analyse, il ne s'agit que d'un réseau d'anticipation entièrement connecté, Transformer avec un mécanisme d'attention simple. Les choses peuvent donc changer, mais nous continuons à utiliser Transformer comme Ashish Vaswani (auteur de Transformer) l'envisageait il y a six ans, et nous continuerons peut-être à le faire à l'avenir.

Abhinav : Je pense que cela deviendra similaire à MLP (Multilayer Perceptron), qui est la seule option que nous avons pour le moment, car maintenant l'architecture a été beaucoup simplifiée, ne laissant que quelques couches linéaires, des connexions résiduelles, Attention , opération de multiplication de points.

Jonathan : Votre hypothèse est que l'architecture deviendra plus simple, mais la réalité peut être le contraire, et l'architecture peut devenir plus complexe.

Swyx : Que pensez-vous du récent débat sur les "phénomènes émergents" ?

Abhinav : J'ai vu des articles similaires, et ce ne sont probablement que des sous-produits de techniques d'évaluation telles que la mise à l'échelle des logs, les métriques d'évaluation, et ce que nous faisons maintenant, c'est la précision du maillage, qui est un jugement strictement binaire, c'est-à-dire classant les résultats comme vrais ou faux, sans tenir compte des différences séquentielles plus fines.

Mais, à l'instar du point de Jonathan sur l'évaluation, nous avons également un problème avec la diversité des métriques d'évaluation : lorsque nous publions ces modèles, même le modèle de chat, le modèle de commande, les gens l'utilisent souvent pour une variété de tâches différentes. Nous pouvons difficilement mesurer et évaluer chaque dimension précisément à l'avance, et même à une échelle de 7 milliards, ces modèles fonctionnent encore mal sur certaines tâches MMLU très difficiles. Parfois, ils obtiennent un score à peine supérieur au hasard, en particulier lorsqu'ils traitent de tâches très difficiles.

Par conséquent, certains de ces problèmes peuvent nous être plus utiles lorsque nous recherchons des modèles de meilleure qualité. Cependant, nous avons développé le MPT-7B un peu à l'aveuglette car nous ne comprenions pas parfaitement comment le modèle se comporterait finalement. Il ne peut être développé que par rapport à un petit ensemble de tâches d'inférence perceptuelle courantes, et les performances sont évaluées en comparant ces métriques avec d'autres modèles open source.

Alessio : Je pense que l'inférence et la formation rapides sont l'un des objectifs, il y a donc un compromis entre résoudre les tâches les plus difficiles et être rapide sur d'autres tâches.

Abhinav : Oui. Même à l'échelle de 7 milliards de données, les gens essaieront de l'exécuter sur le processeur à la maison ou de le porter sur leur téléphone mobile, principalement parce que les applications à petite échelle inciteront les gens à adopter cette technologie, et c'est une tendance importante à le moment.

Alessio : Quelles sont les choses dans l'IA qui évoluent beaucoup plus rapidement que prévu ?

Jonathan : Je me souviens que lorsque GPT-2 est sorti, je n'étais pas très excité, mais à cette époque, il avait déjà 1,5 milliard de paramètres. À mesure que les modèles évoluent en taille, leurs performances ne peuvent pas continuer à s'améliorer. Puis GPT-3 est sorti, et je pensais juste que c'était un peu mieux pour générer du texte, mais je me trompais encore et encore. La mise à l'échelle du modèle peut produire des modèles très utiles en prédisant le prochain jeton.

Pour être juste, nous avons à peu près tout faux à ce sujet, nous ne pouvons donc pas nous en vouloir non plus. Sinon, Google, Facebook et Microsoft Research auraient publié des mégamodèles de langage tueur bien avant que j'aie eu la chance d'agir. J'ai fait un pari très étrange qui s'est avéré juste : les modèles Diffusion, bien qu'un peu bêtes, produisaient des images d'une beauté époustouflante.

Abhinav : En ce qui concerne les chatbots à grande échelle, je pense qu'il faudra beaucoup de temps avant que des centaines de millions de personnes aient des conversations massives avec des modèles d'IA. Avec autant de startups et d'entreprises qui utilisent désormais non seulement ChatGPT, mais aussi d'autres projets comme la création de personnages, il est étonnant de voir combien de personnes créent réellement des liens émotionnels avec ces modèles d'IA. Je ne pense pas que j'aurais prédit cela en septembre ou en octobre de l'année dernière. Le point d'inflexion qui s'est produit au cours des six derniers mois a été vraiment inattendu.

Swyx : À quoi pensez-vous qu'ils seront utilisés, comme un soutien émotionnel ?

Abhinav : Certains d'entre eux sont pour le soutien émotionnel, ou simplement comme amis. La solitude et les problèmes de santé mentale sont un sujet brûlant. Si vous allez sur les subreddits de ces communautés, les gens parlent et pensent à leurs amis IA et à ces personnages, c'est comme quelque chose de science-fiction, et je ne m'attendais pas à ce que cela se produise.

Swyx : Quel est le problème non résolu le plus intéressant en IA ?

Abhinav : Je suis intéressé par jusqu'où nous pouvons aller en termes de précision et quelque chose comme BF16/FP16.

Je me demande si ces problèmes deviennent plus faciles à résoudre à mesure que la taille du modèle augmente. Des articles connexes montrent que la quantification et l'élagage peuvent devenir plus faciles à mesure que l'échelle augmente. Ainsi, comme conséquence naturelle de la mise à l'échelle au cours des prochaines années, nous pourrions passer à l'utilisation de poids à quatre bits ou à deux bits ou même binaires.

Jonathan : Je voulais voir d'une autre manière la taille d'un modèle que nous pouvions réaliser et l'efficacité avec laquelle nous pouvions développer un modèle avec des performances équivalentes. C'est la question sur laquelle j'ai travaillé tout au long de mon doctorat et, dans un sens, chez Mosaic également. OpenAI nous a montré une voie vers cette capacité incroyable, à savoir la mise à l'échelle. Mais j'espère que ce n'est pas le seul moyen. J'espère qu'il existe de nombreuses autres façons d'y parvenir également, grâce à de meilleures méthodes de modélisation, de meilleurs algorithmes, etc.

Bien que je ne sois pas fan des tropes des neurosciences, dans un sens, notre existence et nos cerveaux prouvent qu'il existe au moins un autre moyen d'atteindre cette incroyable capacité sans trillions de paramètres, voire astronomiques. Je suis donc vraiment curieux de savoir jusqu'à quel point nous pouvons réaliser un petit modèle ? Existe-t-il un autre chemin vers ces capacités qui n'a pas à suivre le chemin actuel ? J'espère trouver la réponse dans Mosaic, si elle existe.

Swyx : Exactement, l'une des choses qui m'intéresse le plus est le fait que le cerveau humain ne consomme que 30 watts d'énergie, et le modèle est bien loin de cela.

Abhinav : Je ne pense pas qu'il existe un moyen d'y parvenir avec un seul GPU ou d'autres outils seuls.

Alessio : Il y a beaucoup d'informations en cours en ce moment, comme comment les gens devraient-ils penser à l'intelligence artificielle ? Sur quoi doivent-ils se concentrer ?

Jonathan : Gardez votre calme. Certaines personnes prennent le battage médiatique trop au sérieux ; d'autres sont très pessimistes, y réagissent fortement ou le nient dans une certaine mesure. Gardez votre paix et sachez que nous avons construit un outil très utile.

Mais nous n'avons pas encore construit l'intelligence générale, et personnellement, nous sommes loin de cet objectif. Il est donc important d'être pacifique et de suivre la science, et c'est ce que Mosaic AI s'efforce de faire. Nous essayons de nous concentrer sur des choses utiles aux humains, en espérant créer un monde meilleur. Nous ferons de notre mieux, mais surtout, nous suivrons la science, nous laisserons guider par les données et atteindrons cet objectif grâce à des résultats concrets, et non à la rhétorique.

Abhinav : Je pense qu'il n'y a rien de tel que de faire de la recherche dans une communauté ouverte. Dans la communauté, non seulement un grand nombre de personnes prêtent attention à votre modèle, mais donnent même leur avis sur les problèmes du modèle et comment l'améliorer. Ce type de recherche ouverte sera la voie à suivre, à la fois pour assurer la sécurité de nos modèles et pour approfondir l'impact et les conséquences dans le monde réel de ces modèles d'IA.

Voir l'original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Récompense
  • Commentaire
  • Partager
Commentaire
0/400
Aucun commentaire
  • Épingler
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)