Les alpagas évoluent en baleines, Meta "automatise" l'alignement et Humpback bat tous les modèles LLaMa existants

Éditeurs : Xiaozhou, Chen Ping

**Source :**Le cœur de la machine

Au cours de l'année écoulée, le grand modèle de langage (LLM) représenté par ChatGPT et GPT-4 s'est développé rapidement, suivi par les modèles open source LLaMa et Llama 2 de Meta, qui ont également fait sensation dans le monde de l'IA. . Mais ce qui a suivi a été une controverse constante.Certaines personnes pensaient que le LLM présentait des risques incontrôlables, posant des menaces potentielles à la survie humaine.

Afin de faire face à ces défis, la recherche sur l'alignement LLM est devenue de plus en plus importante.Certains chercheurs ont proposé le suivi d'instructions (instruction follow), mais cette méthode nécessite beaucoup d'annotation manuelle. Cependant, annoter de tels ensembles de données de haute qualité suivant des instructions est coûteux.

Dans cet article, des chercheurs de Meta AI proposent une méthode évolutive appelée rétrotraduction d'instructions, qui construit un modèle de langage de haute qualité suivant les instructions en annotant automatiquement les instructions correspondantes.

Adresse papier :

Plus précisément, l'étude commence par un modèle de langage en tant que modèle de départ, qui est affiné sur une petite quantité de données de départ ainsi que sur des corpus Web. Le rôle du modèle de départ est de créer des échantillons d'apprentissage, puis certains échantillons de haute qualité de ces échantillons seront éliminés, puis ces données seront utilisées pour affiner un modèle plus puissant.

Après deux séries d'ajustements itératifs de l'ensemble de données LLaMa, le modèle résultant Humpback surpasse les autres modèles non distillés existants tels que LIMA, Claude, Guanaco, etc. sur le classement Alpaca.

Humpback signifiait à l'origine une baleine à bosse, également connue sous le nom de baleine à bosse. Meta a nommé le modèle Humpback, il n'y a donc pas de signification profonde.

La raison pour laquelle on parle de rétrotraduction d'instructions, selon les chercheurs, est qu'elle s'inspire de la méthode classique de rétrotraduction en traduction automatique, dans laquelle la phrase cible écrite par des humains est automatiquement annotée avec la phrase source dans une autre langue générée par le modèle. .

Le lauréat du prix Turing, Yann LeCun, a donné un aperçu de haut niveau de la méthodologie de l'étude et a salué le travail de Meta comme une contribution importante à la recherche sur l'alignement :

Certains internautes ont fait un bon résumé de cette recherche : la qualité des données est vraiment importante pour les grands modèles. Au cours du processus de recherche, ils ont utilisé différents niveaux de données filtrées pour affiner un modèle. Les résultats ont montré que seuls les meilleurs échantillons afin d'obtenir un modèle qui fonctionne mieux que les autres échantillons.

Cet article propose un nouveau paradigme d'augmentation des données qui doit être complété en deux étapes. Tout d'abord, il est nécessaire d'avoir un ensemble de paires de graines (instruction, sortie) et un corpus pour générer plus de bonnes données d'instruction.

La figure ci-dessous compare Humpback à certains modèles open source et propriétaires.

Le tableau 4 ci-dessous montre que notre méthode fonctionne mieux parmi les modèles non distillés sur les échelles de modèle 65B et 33B.

Regardons la méthode spécifique ci-dessous.

Présentation de la méthode

L'étude propose une approche d'auto-formation qui suppose généralement l'accès à un modèle de langage de base, à une petite quantité de données de base et à un ensemble d'échantillons non étiquetés (tel qu'un corpus Web). Les données non étiquetées sont souvent une grande collection de documents de formes diverses, écrits par des humains, y compris du contenu sur divers sujets d'intérêt humain, mais surtout, elles n'ont pas été associées à des instructions.

Il y a deux hypothèses clés ici : La première hypothèse est qu'il existe des sous-ensembles de ce très grand ensemble de textes (ensemble d'échantillons sans étiquette) qui conviennent comme échantillons générés pour certaines instructions d'utilisation. La deuxième hypothèse est que les instructions de ces réponses candidates peuvent être prédites, ce qui peut être utilisé pour former des paires d'échantillons de haute qualité pour former des modèles de suivi d'instructions.

Comme le montre la figure 1 ci-dessous, l'étude propose que le processus de rétrotraduction des instructions comprenne deux étapes principales :

  • Auto-augmentation : générer des instructions pour les données non étiquetées (c'est-à-dire le corpus Web) afin de générer des paires de données d'entraînement (instruction-sortie) pour le réglage des instructions.
  • Autogestion : sélectionnez indépendamment des données d'échantillon de haute qualité comme données d'entraînement pour affiner le modèle de base afin de suivre les instructions. Cette méthode est effectuée de manière itérative.

Parmi elles, les étapes d'autogestion adoptées sont présentées dans le tableau 1 ci-dessous :

Expérience et résultats

L'ensemble de données dans cet article comprend principalement des données de base et des données améliorées. Les informations spécifiques sont présentées dans le tableau 2 et la figure 2 :

La figure 3 montre que les données augmentées sans auto-conservation utilisées pour former le modèle n'améliorent pas les performances d'instruction suivant malgré l'augmentation de la taille des données.

La figure ci-dessous compare l'efficacité des données de différents ensembles de données de réglage d'instructions.

Expansion conjointe des données et des modèles : L'étude révèle que les tendances d'expansion des données observées dans le modèle 7B s'appliquent également aux modèles plus grands. Par exemple, l'ajout de données d'augmentation de haute qualité au modèle de départ 65B apportera d'autres améliorations.

Raisonnement de bon sens : L'étude a été testée sur cinq critères de raisonnement de bon sens, SIQA, PIQA, Arc-Easy, Arc-Challenge et Openbook QA (OBQA), et les résultats sont résumés dans le tableau 5. Les résultats montrent que par rapport au modèle de base, les performances de notre modèle ont été améliorées sur plusieurs aspects tels que le raisonnement social.

MMLU : Le tableau 6 résume les résultats de différents modèles en MMLU (compréhension massive du langage multitâche). Notre modèle affiné améliore la précision du tir zéro par rapport au modèle de base, mais fonctionne mal sur l'exemple de contexte à 5 échantillons.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Partager
Commentaire
0/400
Aucun commentaire
  • Épingler
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)