RLHF n'a plus besoin d'humains. Les recherches de l'équipe de Google ont prouvé que l'annotation IA a atteint le niveau humain

Source originale : Xinzhiyuan

Source de l'image : générée par Unbounded AI‌

Si « l’humain » dans RLHF est remplacé, est-ce réalisable ?

La dernière recherche de l'équipe de Google propose d'utiliser de grands modèles pour remplacer les humains pour l'annotation des préférences, qui est l'apprentissage par renforcement par rétroaction de l'IA (RLAIF).

Adresse papier :

Il a été constaté que le RLAIF peut produire des améliorations comparables au RLHF sans recourir à des annotateurs humains, avec un taux de réussite de 50 %.

Dans le même temps, une étude de Google a prouvé une fois de plus que le RLAIF et le RLHF ont un taux de réussite de plus de 70 % par rapport au réglage fin supervisé (SFT).

Aujourd'hui, le RLHF est un élément essentiel de la formation sur les grands modèles de langage. Les humains rendent les réponses plus utiles en évaluant la qualité des résultats de l’IA.

Cependant, cela nécessitera beaucoup d’efforts, notamment en exposant de nombreux annotateurs au contenu nuisible de la sortie de l’IA.

Maintenant que RLAIF est comparable au RLHF, les futurs modèles ne nécessitent plus de retour humain et peuvent également être améliorés grâce à l'auto-bouclage.

RLHF n'a plus besoin des humains

À l'heure actuelle, RLHF est devenue la méthode de base pour affiner les grands modèles, notamment ChatGPT, Bard et d'autres modèles qui adoptent ce paradigme.

Plus précisément, le RLHF est divisé en trois étapes : pré-formation d'un LLM de réglage fin supervisé ; collecte de données pour former un modèle de récompense ; réglage fin du modèle avec RL.

Avec RLHF, les grands modèles peuvent être optimisés pour des objectifs de niveau séquence complexes difficiles à distinguer avec le SFT traditionnel.

Cependant, un problème très réel est que le RLHF nécessite des données d’annotation humaine à grande échelle et de haute qualité, et que ces données peuvent permettre d’obtenir des résultats supérieurs.

Avant cette étude de Google, les chercheurs d'Anthropic ont été les premiers à explorer l'utilisation des préférences de l'IA pour former des modèles de récompense affinés RL.

Ils ont d'abord proposé RLAIF dans « Constitutional AI » et ont constaté que le LLM était très cohérent avec le jugement humain et surpassait même les humains dans certaines tâches.

Cependant, cette étude n’a pas comparé les retours d’expérience de l’intelligence humaine et artificielle et la réponse définitive n’a donc pas été obtenue quant à savoir si le RLAIF peut remplacer le RLHF.

Les dernières recherches de Google visent principalement à résoudre ce problème.

Les chercheurs ont directement comparé RLAIF et RLHF dans la tâche de synthèse du modèle.

Étant donné 1 texte et 2 réponses candidates, utilisez un LLM disponible dans le commerce pour donner une annotation de préférence.

Ensuite, un modèle de récompense (RM) est formé en fonction de la préférence LLM et de la perte contrastive. Enfin, le modèle politique est affiné grâce à l’apprentissage par renforcement et le modèle de récompense est utilisé pour attribuer des récompenses.

Alors, quelle est la différence entre l’approche RLAIF proposée par Google et Anthropic ?

Google lui-même explique dans l'article,

  • Google : entraînez le modèle de récompense en fonction des préférences des annotations de l'IA, puis effectuez un réglage fin du RL.

  • IA constitutionnelle : améliorer les modèles d'apprentissage supervisé en demandant de manière itérative au LLM de générer de meilleures réponses basées sur la constitution.

Auto-étiquetage de l'IA, auto-amélioration

Quel est le processus de la méthode RLAIF proposée par Google dans les dernières recherches ?

Grand modèle de langage pour l'étiquetage des préférences

Les chercheurs ont utilisé un LLM « prêt à l'emploi » pour étiqueter les préférences entre deux candidats.

Il s'agit d'un modèle pré-entraîné ou réglé sur instructions pour un usage général, mais non affiné pour une tâche spécifique en aval. Étant donné un morceau de texte et deux résumés de candidats, il est demandé au LLM d'évaluer quel résumé est le meilleur. La structure d’entrée de LLM est la suivante :

1. Préface

Instructions qui présentent et décrivent la tâche à accomplir

2. Plusieurs exemples d'instances (facultatif)

Un morceau de texte, une paire de résumés, les principes de base de l'idée et des jugements de préférence

3. Échantillons à étiqueter

Un morceau de texte et une paire de résumés à annoter

4.Fin

Chaîne de fin d'invite pour LLM (par exemple, "Preferred Summary=")

Après avoir fourni des informations au LLM, les chercheurs ont obtenu la probabilité logarithmique de générer les jetons « 1 » et « 2 » et ont calculé le softmax pour obtenir la distribution des préférences.

Il existe de nombreuses façons d'obtenir des annotations de préférences à partir de LLM, comme décoder les réponses de forme libre du modèle et extraire les préférences de manière heuristique (par exemple, sortie = "le premier résumé est meilleur"), ou représenter la distribution des préférences sous la forme d'une représentation ponctuelle ( une représentation à chaud). Cependant, les chercheurs n’ont pas essayé ces alternatives car leur méthode produisait déjà des niveaux de précision élevés.

Les chercheurs ont expérimenté deux types de préambules : le premier, « Base », qui demande simplement « quel résumé est le meilleur ? », et le second, « OpenAI », qui imite l'approche utilisée pour générer l'ensemble de données de préférences OpenAI TL;DR. Instructions d'évaluation pour les marqueurs de préférences humaines avec des informations détaillées sur ce qui constitue des résumés solides. Comme indiqué ci-dessous.

Les chercheurs ont également expérimenté l’apprentissage contextuel en ajoutant un petit nombre d’échantillons aux invites, les échantillons étant sélectionnés manuellement pour couvrir différents sujets. Résoudre l’écart de position.

Des résultats antérieurs suggèrent que l'ordre dans lequel les candidats sont présentés au LLM peut influencer le jugement du LLM quant au candidat préféré. Les chercheurs ont trouvé des preuves de ce biais de position, en particulier pour les LLM annotés de plus petite taille.

Pour atténuer les biais de position dans l'étiquetage des préférences, nous effectuons deux inférences sur chaque paire de candidats, et l'ordre dans lequel les candidats sont soumis au LLM est inversé. Les résultats des deux inférences sont ensuite moyennés pour obtenir la distribution finale des préférences.

Raisonnement en chaîne de pensée

Les chercheurs ont tenté d’obtenir un raisonnement en chaîne de pensée (COT) de la part des annotateurs de l’IA afin d’améliorer la cohérence avec les préférences humaines.

Les chercheurs remplacent les indices de fin standard (par exemple, « Résumé préféré = » par « Considérez la cohérence, l'exactitude, la couverture et la qualité globale de chaque résumé et expliquez lequel est le meilleur. Justification : »), puis décodez une réponse LLM.

Enfin, les chercheurs ont concaténé les invites, les réponses et la chaîne de fin d'origine « Preferred Summary = » et ont suivi le processus de notation de la section 3.1 pour obtenir la distribution des préférences. Voir la figure ci-dessous pour le processus spécifique.

Dans les indices sans tir, le LLM ne donne aucun exemple de ce à quoi devrait ressembler l'inférence, tandis que dans les indices en quelques coups, les chercheurs fournissent des exemples d'inférences COT que le modèle doit suivre. Voir l'image ci-dessous pour un exemple.

### Auto-cohérence

Pour les indices de la chaîne de pensée, les chercheurs ont également expérimenté l'auto-cohérence, une technique qui améliore le raisonnement de la chaîne de pensée en échantillonnant plusieurs chemins de raisonnement et en agrégeant les réponses finales produites à la fin de chaque chemin.

Utilisez une température de décodage non nulle pour échantillonner plusieurs principes fondamentaux de la chaîne de pensée, puis obtenez la distribution des préférences LLM de chaque chaîne de pensée selon la méthode de la section précédente. Les résultats sont ensuite moyennés pour obtenir la répartition finale des préférences.

Apprentissage par renforcement des retours d'IA

Une fois les préférences étiquetées par le LLM, un modèle de récompense (RM) est formé pour prédire les préférences. Étant donné que la méthode des chercheurs produit des étiquettes souples, ils adoptent la perte d'entropie croisée du softmax du score de récompense généré par RM au lieu de la perte mentionnée dans le modèle de récompense.

Softmax convertit les scores illimités de RM en distributions de probabilité.

La formation des RM sur des ensembles de données annotés par l’IA peut être considérée comme une forme de distillation de modèles, d’autant plus que les annotateurs d’IA des chercheurs sont généralement plus grands et plus puissants que les RM.

Une autre approche consiste à contourner RM et à utiliser directement le retour de l'IA comme signal de récompense dans RL, bien que cette approche soit plus coûteuse en termes de calcul car l'annotateur IA est plus grand que RM.

Avec le RM formé, les chercheurs ont effectué un apprentissage par renforcement en utilisant une version modifiée de l'algorithme Advantage Actor Critic (A2C) adaptée au domaine de la modélisation du langage.

évaluer

Les chercheurs ont évalué leurs résultats à l'aide de trois mesures : l'alignement des annotateurs IA, la précision de l'appariement et le taux de victoire.

L’alignement des marqueurs IA est utilisé pour mesurer l’exactitude des préférences de marquage IA par rapport aux préférences humaines.

Pour un seul exemple, convertissez les préférences étiquetées de l’IA logicielle en une représentation binaire. Attribuez 1 si l’annotation est cohérente avec la préférence humaine cible, et attribuez 0 dans le cas contraire.

La précision par paire est une mesure de la précision d'un modèle de récompense entraîné par rapport à un ensemble de préférences humaines retenues.

Étant donné un contexte partagé et une paire de réponses candidates, la précision d'appariement est de 1 si le RM obtient un score plus élevé pour le candidat préféré que pour le candidat non préféré selon les annotations humaines. Sinon, la valeur est 0. Ce nombre est la moyenne de plusieurs exemples pour mesurer la précision globale du RM.

Le ratio de réussite évalue la qualité de bout en bout de deux stratégies en mesurant la fréquence à laquelle les humains préfèrent une stratégie à l'autre.

Étant donné une entrée et deux résultats de génération, l'annotateur humain choisit la génération qu'il préfère. Le pourcentage de cas où la stratégie A surpasse la stratégie B est appelé « taux de victoire A contre B ».

Détails du test

Les chercheurs ont utilisé un ensemble de données Reddit TL;DR filtré organisé par OpenAI. TL;DR contient environ 3 millions de messages de Reddit sur une variété de sujets (également appelés « subreddits ») ainsi que des extraits de messages écrits par l'auteur original.

Les données sont également filtrées par OpenAI pour garantir une haute qualité, ce qui inclut l'utilisation d'une liste blanche de sujets Reddit que le grand public peut comprendre.

De plus, seuls les articles contenant 24 à 48 accroches dans le résumé sont inclus. L'ensemble de données filtré contient 123 169 publications, dont environ 5 % sont utilisées comme ensemble de validation.

Plus de détails sur l’ensemble de données peuvent être trouvés dans l’article original. De plus, OpenAI a organisé un ensemble de données sur les préférences humaines à partir de l'ensemble de données filtré TL;DR.

Pour un post donné, deux résumés de candidats sont générés selon des stratégies différentes, et les tagueurs sont invités à noter leurs résumés préférés. L’ensemble de données total contient environ 92 000 comparaisons par paires.

Annotations LLM

Pour évaluer l'efficacité des techniques d'annotation de l'IA (par exemple, indices, auto-cohérence), les chercheurs sélectionnent des exemples dans les ensembles de données de préférences TL;DR, dans lesquels les annotateurs humains préféreraient les abstractions avec une plus grande confiance.

Les chercheurs ont évalué l’alignement des annotateurs IA sur un sous-ensemble aléatoire de 15 % de la répartition d’entraînement de l’ensemble de données afin de permettre des itérations expérimentales plus rapides, générant 2 851 exemples d’évaluation.

Pour la formation du modèle de récompense, les divisions de formation complètes de l'ensemble de données de préférence TL;DR sont annotées par LLM et utilisées pour la formation quel que soit le score de confiance.

Formation du modèle

Les chercheurs ont formé le modèle SFT sur l’ensemble de données TL;DR filtré par OpenAI en utilisant PaLM 2 Extra-Small (XS) comme point de contrôle initial.

Ensuite, les chercheurs initialisent les RM du modèle SFT et les entraînent sur l'ensemble de données de préférences humaines TL;DR d'OpenAI.

Pour les résultats des tableaux 1 et 5.1, les chercheurs ont utilisé PaLM 2L pour générer des préférences annotées par l'IA, en utilisant les indices « OpenAI + COT 0-shot », sans auto-cohérence, puis ont formé l'ensemble de données RM sur l'ensemble des préférences.

Pour l’apprentissage par renforcement, les chercheurs ont utilisé Advantage Actor Critic (A2C) pour former la politique. Les modèles de stratégie et de valeur sont initialisés à partir des modèles SFT. Les chercheurs ont utilisé l’ensemble de données filtré Reddit TL;DR comme état initial pour lancer leur stratégie.

Évaluation de classe humaine

Les chercheurs ont collecté 1 200 évaluations humaines pour évaluer les stratégies RLHF et RLAIF. Pour chaque tâche de notation, les évaluateurs reçoivent un message et 4 résumés générés selon différentes stratégies (un pour RLAIF, RLHF, SFT et référence humaine) et sont invités à les classer par ordre de qualité, sans aucun lien.

Les publications sont extraites de l’ensemble de données exclues de l’ensemble de données de réglage fin supervisé TL;DR, qui n’a été utilisé pour aucune autre évaluation. Une fois ces classements collectés, le taux de victoire de deux stratégies peut être calculé.

50 % de taux de victoire, égalité

RLAIF contre RLHF

Au début de l'article, nous avons présenté les avantages de la comparaison de Google entre RLAIF et RLHF. Les résultats montrent que les deux méthodes ont des performances similaires.

Plus précisément, les évaluateurs humains ont préféré le RLAIF au SFT de base dans 71 % des cas. Le RLHF était supérieur au SFT dans 73 % des cas.

Les chercheurs ont également comparé directement les taux de victoire du RLAIF et du RLHF et ont constaté qu'ils étaient tout aussi populaires, c'est-à-dire qu'ils avaient tous deux un taux de victoire de 50 %.

Pour mieux comprendre les différences entre les deux stratégies, Google a effectué une comparaison qualitative des résumés qu'il génère.

De plus, ils ont comparé les résumés RLAIF et RLHF avec des résumés de référence rédigés par des humains. Dans 79 % des cas, les résumés générés par le RLAIF étaient meilleurs que les résumés de référence, et dans 80 % des cas, les résultats du RLHF étaient meilleurs que les résumés de référence.

On peut voir que la différence de taux de réussite entre RLAIF et RLHF et le résumé de référence n'est que de 1 %, et il n'y a pas de différence significative.

Il convient de noter que les chercheurs ont également constaté que la fréquence des hallucinations dans la stratégie RLHF est souvent supérieure à celle de la stratégie RLAIF, comme le montre le texte marqué en rouge dans le tableau ci-dessus.

Après avoir contrôlé la longueur du résumé, les stratégies RLAIF et RLHF surpassent toujours le SFT de base et atteignent des taux de réussite similaires.

Ces résultats montrent que RLAIF n'a pas besoin de s'appuyer sur une annotation manuelle et constitue une alternative réalisable au RLHF.

Trucs et astuces

Dans l'utilisation des techniques d'indication, l'équipe de Google a essayé trois types de techniques d'indication : la spécificité du préambule, le CoT et l'apprentissage du contexte sur quelques échantillons.

Il a été constaté que le tagueur AI peut atteindre une cohérence de 78 % en invitant à travers le préambule détaillé d'OpenAI et en effectuant un raisonnement CoT.

Alors que l’apprentissage contextuel n’améliore pas la précision et peut même la rendre pire.

### Auto-cohérence

Les chercheurs ont réalisé des expériences d’autocohérence en utilisant 4 et 16 échantillons, avec une température de décodage de 1.

L'échantillonnage de plusieurs principes de chaîne de pensée avec T = 1 donne des résultats moins cohérents avec les préférences humaines.

### La taille de l'annotateur grand modèle

L’étude a également révélé que l’augmentation de l’échelle des paramètres des marqueurs de grands modèles pourrait entraîner des annotations de préférences de meilleure qualité.

Nombre d'exemples préférés

Comment la précision du modèle de récompense varie-t-elle en fonction des exemples de formation ?

Les chercheurs ont découvert qu’après un entraînement sur des milliers d’exemples, les performances du modèle de récompense étaient proches de celles d’un entraînement sur l’ensemble de données complet.

en conclusion

Les chercheurs démontrent que le RLAIF peut produire des améliorations comparables au RLHF sans recourir à des annotateurs humains.

Bien que ces travaux mettent en évidence le potentiel du RLAIF, il existe encore certaines limites.

Premièrement, cette étude n’a exploré que la tâche sommaire, et des recherches supplémentaires sont nécessaires sur la généralisabilité à d’autres tâches.

Deuxièmement, les chercheurs n’ont pas estimé si l’inférence LLM était plus avantageuse que l’annotation manuelle en termes de coût économique.

En outre, il y a quelques questions intéressantes à étudier, telles que la question de savoir si le RLHF combiné au RLAIF peut surpasser une approche unique, dans quelle mesure l'attribution des récompenses directement à l'aide du LLM est efficace, si l'amélioration de l'alignement des marqueurs d'IA se traduit par une amélioration des politiques finales et si la politique peut être approfondie. amélioré à l'aide d'un tagger LLM de la même taille que le modèle de politique (c'est-à-dire si le modèle peut « s'auto-améliorer »).

Discussion animée entre internautes

Google a publié deux articles sur RL :

  1. RLAIF : modèles de récompense de formation similaires au feedback humain

  2. ReST : faciliter l'auto-formation à l'aide de modèles génératifs La combinaison de ces deux articles peut satisfaire les algorithmes d'IA gourmands en données

Il y a un demi-mois, Google DeepMind vient de proposer un nouvel algorithme ReST, afin de rendre le modèle de langage à grande échelle cohérent avec les préférences humaines.

Plus précisément, grâce à des méthodes d'apprentissage par renforcement hors ligne, la qualité de la traduction de grands modèles linguistiques est améliorée pour mieux répondre aux préférences humaines.

Un chercheur a déclaré que le modèle Claude d'Anthropic semble être plus faible que le GPT-4 sur la base de tests qualitatifs. Cela peut être dû à la méthode RLHF/RLAIF ou à une pré-formation. Il n’est pas clair si ces méthodes se généralisent mieux dans les applications du monde réel, même si elles fonctionnent mieux selon les critères académiques.

Je ne dirais pas que cela réduit l’importance de l’annotation humaine, mais une chose est sûre, le RL alimenté par l’IA peut en réduire le coût. L’annotation humaine est toujours extrêmement importante pour la généralisation, et la méthode hybride RLHF+RLAIF surpasse n’importe quelle méthode unique.

La plupart des internautes pensent que ce document constitue une grande avancée, mais certains internautes pensent qu'il ne semble y avoir aucune différence essentielle entre celui-ci et le RLAIF dans Constitute Claude proposé par Anthropic il y a quelques mois.

Les références:

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Partager
Commentaire
0/400
Aucun commentaire
  • Épingler
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)