1 commande + 5 dollars + 20 minutes, vous pouvez former un petit modèle professionnel, _2Model pour apprendre

2023-08-31 06:31:53

La CMU et des chercheurs de l'Université Tsinghua ont publié conjointement le framework 2Model, qui permet de former rapidement un petit modèle professionnel basé sur la contribution de l'utilisateur. Avec un investissement de seulement 5 $ dans la collecte de données et 20 minutes de temps de formation, un petit modèle qui surpasse de 20 % la moyenne de ChatGPT peut être obtenu, tout en réduisant la taille des paramètres du modèle d'un facteur 700.

Source de l'image : générée par Unbounded AI

La modélisation linguistique à grande échelle (LLM) permet aux utilisateurs de créer de puissants systèmes de traitement du langage naturel à l'aide d'astuces et d'apprentissage contextuel. Cependant, d'un autre point de vue, les performances de LLM sur certaines tâches de traitement du langage naturel souffrent de certaines régressions : le déploiement de ces modèles nécessite une grande quantité de ressources informatiques, et l'interaction avec les modèles via des API peut entraîner des problèmes potentiels de confidentialité.

Afin de résoudre ces problèmes, des chercheurs de l’Université Carnegie Mellon (CMU) et de l’Université Tsinghua ont lancé conjointement le cadre 2Model. L'objectif de ce cadre est de combiner des méthodes de génération et de récupération de données basées sur LLM pour surmonter les défis susmentionnés. Grâce au framework 2Model, les utilisateurs n'ont qu'à fournir les mêmes invites que LLM pour collecter automatiquement des données et former efficacement de petits modèles spécialisés adaptés à des tâches spécifiques.

Les chercheurs ont mené des expériences sur trois sous-tâches de traitement du langage naturel. En prenant un petit nombre d'exemples d'indices en entrée, la collecte de données et 20 minutes de formation ne coûtent que 5 $. Le modèle généré par le framework 2Model montre une amélioration des performances de 20 % par rapport au modèle LLM plus puissant gpt-3.5-turbo. Dans le même temps, la taille du modèle a été réduite jusqu'à 700 fois. Les chercheurs ont en outre vérifié l'impact de ces données sur les performances du modèle dans des scénarios réels, permettant aux développeurs de modèles de prédire la fiabilité du modèle avant son déploiement. Le framework est déjà disponible en open source :

* L'adresse de l'entrepôt GitHub du framework : *Lien vidéo de démonstration du cadre :

Liens vers des documents liés au cadre :

arrière-plan

Construire un système à partir de zéro pour une tâche PNL spécifique est généralement assez complexe. Le constructeur du système doit définir clairement la portée de la tâche, obtenir un ensemble de données spécifique, sélectionner une architecture de modèle appropriée, effectuer la formation et l'évaluation du modèle, puis le déployer pour une application pratique.

Les modèles linguistiques à grande échelle (LLM) tels que GPT-3 offrent une solution plus simple à ce processus. Les utilisateurs doivent uniquement fournir des instructions de tâche et quelques exemples, et LLM peut générer la sortie texte correspondante. Cependant, la génération de texte à partir d'indices peut nécessiter beaucoup de calculs, et l'utilisation d'indices est moins stable qu'un modèle spécialement entraîné. De plus, la convivialité de LLM est limitée par le coût, la vitesse et la confidentialité.

Pour surmonter ces problèmes, les chercheurs ont développé le cadre 2Model. Ce cadre combine des techniques de génération et de récupération de données basées sur LLM pour répondre aux limitations ci-dessus. Le système en extrait d'abord les informations clés, puis génère et récupère les données de formation, et enfin produit un modèle spécialisé prêt à être déployé.

Le framework 2Model automatise les étapes principales suivantes :

Récupération d'ensembles de données et de modèles : collectez des ensembles de données pertinents et des modèles pré-entraînés.
Génération d'ensembles de données : utilisez LLM pour créer des ensembles de données pseudo-étiquetés.
Ajustement du modèle : affinez le modèle en mélangeant les données récupérées et les données générées.
Test de modèle : testez le modèle sur des ensembles de données de test et des ensembles de données réels fournis par les utilisateurs.

Après une évaluation empirique sur plusieurs tâches différentes, le coût de 2Model est considérablement réduit, ainsi que la taille du modèle, mais ses performances dépassent gpt-3.5-turbo. Le framework 2Model sert non seulement d'outil pour créer efficacement des systèmes de traitement du langage naturel, mais sert également de plate-forme pour explorer les techniques de formation d'ensembles de modèles.

Cadre

La caractéristique principale du framework 2Model est un degré élevé d’automatisation. Son processus couvre plusieurs liens tels que la collecte de données, la formation du modèle, l'évaluation et le déploiement, comme le montre la figure ci-dessus. Parmi eux, le système automatisé de collecte de données joue un rôle clé : il obtient des données étroitement liées aux besoins des utilisateurs grâce à la récupération d'ensembles de données et à la génération de données basées sur LLM. Ensuite, le système récupère le modèle pré-entraîné et l'affine sur l'ensemble de données acquis. Enfin, le système évalue le modèle formé sur l'ensemble de test et crée une interface utilisateur Web (UI) pour interagir avec le modèle.

Les principales fonctionnalités du framework 2Model incluent :

Pilote : l'idée principale de 2Model est de l'utiliser comme pilote. Les utilisateurs peuvent décrire directement les tâches requises sans entrer dans les détails spécifiques de mise en œuvre de l'apprentissage automatique.
Collecte automatique de données : le cadre utilise une technologie de récupération et de génération d'ensembles de données pour obtenir des données qui correspondent parfaitement aux tâches de l'utilisateur, établissant ainsi les ensembles de données requis pour la formation.
Modèles pré-entraînés : le framework utilise des modèles pré-entraînés et les affine, économisant ainsi beaucoup de temps et de coûts de formation.
Évaluation des effets : 2Model prend en charge les tests et l'évaluation de modèles sur des ensembles de données réels, permettant d'effectuer des prédictions préliminaires et des évaluations de performances avant de déployer le modèle, améliorant ainsi la fiabilité du modèle.

Ces caractéristiques font du framework 2Model un outil puissant pour compléter efficacement le processus de construction de systèmes de traitement du langage naturel et fournir des fonctions avancées, telles que la collecte automatique de données, l'évaluation de modèles et la création d'interfaces utilisateur.

Expériences et résultats

En termes de conception expérimentale, les chercheurs ont choisi trois tâches différentes pour évaluer les performances du système 2Model :

Contrôle qualité de la lecture automatique : utilisez SQuAD comme ensemble de données d'évaluation réelle.
NL-to-Code japonais : utilisation de MCoNaLa comme ensemble de données d'évaluation réel.
Normalisation de l'expression temporelle : utilisez l'ensemble de données temporelles comme ensemble de données d'évaluation réelle.

En outre, les chercheurs ont également sélectionné le GPT-3.5-turbo comme modèle de référence à des fins de comparaison. Les résultats expérimentaux conduisent aux conclusions suivantes :

Dans toutes les tâches, à l'exception de la tâche de génération de code, le modèle généré par le système 2Model est nettement meilleur que le modèle de base GPT-3.5-turbo, bien que la taille des paramètres du modèle généré soit beaucoup plus petite que celle de GPT-3.5-turbo.
En mélangeant l'ensemble de données de récupération et l'ensemble de données généré pour la formation, vous pouvez obtenir des résultats comparables à la formation en utilisant directement l'ensemble de données réel. Cela vérifie que le framework 2Model peut réduire considérablement le coût de l'annotation manuelle.
L'ensemble de données de test généré par le générateur de données peut distinguer efficacement les performances de différents modèles sur des ensembles de données réels. Cela indique que les données générées sont de haute qualité et ont une efficacité suffisante dans la formation du modèle.
Lors de la tâche de conversion du japonais en code, le système 2Model ne fonctionne pas aussi bien que GPT-3.5-turbo.

Cela peut être dû à des raisons telles que la faible qualité des ensembles de données générés et le manque de modèles pré-entraînés appropriés.

Dans l’ensemble, le système 2Model génère avec succès de petits modèles de haute qualité pour plusieurs tâches, réduisant considérablement le besoin de données annotées manuellement. Toutefois, des améliorations supplémentaires sont encore nécessaires sur certaines tâches.

Résumer

Le framework 2Model lancé par l'équipe de recherche réalise la fonction de création automatique de modèles spécifiques à des tâches uniquement via des invites en langage naturel. Cette innovation abaisse considérablement le seuil de création de modèles personnalisés de traitement du langage naturel et élargit encore le champ d’application de la technologie NLP.

Les résultats de l'expérience de vérification montrent que le modèle généré par le framework 2Model est nettement plus petit que le grand modèle de langage et qu'il surpasse les modèles tels que GPT-3.5-turbo sur plusieurs tâches. Dans le même temps, l'ensemble de données d'évaluation généré par ce cadre s'est également avéré efficace pour évaluer les performances de différents modèles sur des ensembles de données réels. Cela apporte une valeur significative pour guider le déploiement final du modèle.

Le framework 2Model offre aux industries et aux utilisateurs une approche peu coûteuse et facile à utiliser pour obtenir des modèles NLP qui répondent à des besoins spécifiques. Ceci est d’une grande importance pour promouvoir l’application généralisée de la technologie PNL. Les travaux futurs continueront d’être consacrés à l’optimisation des performances du cadre.

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

Récompense
J'aime
Commentaire
Partager

Commentaire

0/400

Aucun commentaire

Rubrique
ETH Breaks $3600
39k Popularité
Gate Derivatives Volume Hits New High
19k Popularité
CPI Data Incoming
62k Popularité
4Join Gate VIP to Win MacBook
31k Popularité
5MicroStrategy Buys More Bitcoin
4k Popularité
6BTC Hits New High
97k Popularité
7My Gate Moments
29k Popularité
8VIP Exclusive Airdrop Carnival
27k Popularité
9Fed June Meeting Minutes
7k Popularité
10Trump Tariff Hikes
18k Popularité

Épingler