Mangeant des données « toxiques », le big model est plus obéissant ! Du laboratoire de l’arche de Noé de HKUST et Huawei

Source: Qubits

Aujourd’hui, le grand modèle a également appris à « manger une tranchée et à développer une sagesse ».

De nouvelles recherches menées par l’Université des sciences et technologies de Hong Kong et le laboratoire de l’arche de Noé de Huawei ont révélé que :

Au lieu d’éviter aveuglément les données « toxiques », combattre le poison par le poison, simplement alimenter le grand modèle avec un texte erroné, puis laisser le modèle analyser et réfléchir aux raisons de l’erreur, peut faire en sorte que le modèle comprenne vraiment « ce qui ne va pas », puis éviter les absurdités.

Plus précisément, les chercheurs ont proposé un cadre d’alignement consistant à « apprendre de ses erreurs » et l’ont prouvé par des expériences :

Permettre aux grands modèles de « manger une tranchée et de devenir plus sages » surpasse les méthodes SFT et RLHF dans la correction des modèles mal alignés, et présente également un avantage dans la défense contre les attaques d’instructions avancées sur les modèles alignés.

Jetons un coup d’œil aux détails.

Cadre d’alignement pour apprendre de ses erreurs

Les algorithmes existants d’alignement de grands modèles de langage sont principalement divisés en deux catégories :

  • Mise au point supervisée (SFT)
  • Apprentissage par renforcement pour la rétroaction humaine (RLHF)

La méthode SFT s’appuie principalement sur un grand nombre de paires de questions et réponses annotées par l’homme, afin de faire apprendre au modèle des « réponses parfaites ». Cependant, l’inconvénient est qu’il est difficile pour le modèle d’obtenir la reconnaissance des « mauvaises réponses » à partir de cette méthode, ce qui peut limiter sa capacité de généralisation.

La méthode RLHF entraîne le modèle en notant les réponses par un annotateur humain, afin qu’il puisse distinguer la qualité relative des réponses. Dans ce mode, les modèles apprennent à faire la distinction entre les réponses hautes et faibles, mais ils ont peu de compréhension des « bonnes causes » et des « mauvaises causes » qui les sous-tendent.

Dans l’ensemble, ces algorithmes d’alignement sont obsédés par l’idée de faire en sorte que le modèle apprenne de « bonnes réponses », mais ils passent à côté d’une partie importante du processus de nettoyage des données : l’apprentissage des erreurs.

Pouvons-nous faire en sorte que les grands modèles comme les humains, « mangent une tranchée, deviennent plus sages », c’est-à-dire concevoir une méthode d’alignement afin que les grands modèles puissent apprendre des erreurs sans être affectés par des séquences de texte contenant des erreurs ?

△ Cadre d’alignement de modèles de langage « Apprendre de ses erreurs », qui se compose de 4 étapes, à savoir : (1) l’induction d’erreurs, (2) l’analyse d’erreurs basée sur un guidage rapide, (3) l’ajustement fin du modèle sans guidage, et (4) la génération de réponses basée sur un guidage rapide

Une équipe de recherche de l’Université des sciences et technologies de Hong Kong et du laboratoire de l’arche de Noé de Huawei a mené une expérience.

Grâce à l’analyse expérimentale de trois modèles, Alpaca-7B, GPT-3 et GPT-3.5, ils sont arrivés à une conclusion intéressante :

Pour ces modèles, il est souvent plus facile d’identifier les réponses incorrectes que de les éviter lors de la génération des réponses.

** △ La discrimination est plus facile que la génération

De plus, l’expérience a révélé que la précision du modèle dans l’identification des erreurs peut être considérablement améliorée en fournissant des informations d’orientation appropriées, par exemple en suggérant qu’il peut y avoir des erreurs dans les réponses.

Sur la base de ces résultats, l’équipe de recherche a conçu un nouveau cadre d’alignement qui utilise la capacité du modèle à discriminer les erreurs pour optimiser sa capacité générative.

Le processus d’alignement se présente comme suit :

(1) Erreur d’induction

Le but de cette étape est d’induire des erreurs dans le modèle et de découvrir les faiblesses du modèle afin que les erreurs puissent être analysées et corrigées par la suite.

Ces cas d’erreur peuvent provenir de données d’annotation existantes ou d’erreurs découvertes par les utilisateurs lors du fonctionnement réel du modèle.

L’étude a révélé qu’en utilisant de simples incitations à l’attaque de l’équipe rouge, telles que l’ajout de certains mots-clés inducteurs (tels que « contraire à l’éthique » et « offensant ») aux instructions du modèle, comme le montre la figure (a) ci-dessous, le modèle a tendance à produire un grand nombre de réponses inappropriées.

(2) Analyse des erreurs basée sur des conseils rapides

Lorsque suffisamment de paires question-réponse contenant des erreurs sont collectées, la méthode passe à la deuxième étape, qui consiste à guider le modèle pour effectuer une analyse approfondie de ces paires question-réponse.

Plus précisément, l’étude a demandé au modèle d’expliquer pourquoi ces réponses pourraient être incorrectes ou contraires à l’éthique.

Comme le montre la figure (b) ci-dessous, le modèle peut souvent fournir une explication raisonnable en fournissant des conseils analytiques explicites au modèle, par exemple en demandant « pourquoi cette réponse pourrait être erronée ».

(3) Réglage fin du modèle non guidé

Après avoir recueilli un grand nombre de paires questions-réponses d’erreur et leur analyse, l’étude a utilisé les données pour affiner davantage le modèle. En plus de ces paires de questions-réponses qui contiennent des erreurs, des paires de questions-réponses normales étiquetées par l’homme sont également ajoutées en tant que données d’entraînement.

Comme le montre la figure (c) ci-dessous, à cette étape, l’étude n’a pas donné d’indication directe au modèle quant à savoir si les réponses contenaient des erreurs. L’objectif est d’encourager le modèle à réfléchir, à évaluer et à comprendre par lui-même ce qui n’a pas fonctionné.

(4) Génération de réponses guidées par l’appel

La phase d’inférence utilise une stratégie de génération de réponses guidée qui incite explicitement le modèle à produire des réponses « correctes, éthiques et non offensantes », garantissant ainsi que le modèle adhère aux normes éthiques et n’est pas affecté par des séquences de texte incorrectes.

C’est-à-dire que dans le processus d’inférence, le modèle effectue une génération conditionnelle basée sur un guidage génératif conforme aux valeurs humaines, afin de produire des résultats appropriés.

△ Exemple d’instruction de cadre d’alignement de modèles de langage volumineux « Apprendre de ses erreurs »

Le cadre d’alignement ci-dessus ne nécessite pas d’annotation humaine et l’implication de modèles externes (tels que les modèles de récompense), qui facilitent leur génération en analysant les erreurs en utilisant leur capacité à identifier les erreurs.

De cette façon, « apprendre de ses erreurs » peut identifier avec précision les risques potentiels dans les instructions de l’utilisateur et y répondre avec une précision raisonnable :

Résultats expérimentaux

L’équipe de recherche a mené des expériences sur deux scénarios d’application pratique pour vérifier les effets pratiques de la nouvelle méthode.

Scénario 1 : Modèle de langage de grande taille non aligné

En prenant le modèle Alpaca-7B comme référence, l’ensemble de données PKU-SafeRLHF a été utilisé pour les expériences, et l’analyse comparative a été effectuée avec plusieurs méthodes d’alignement.

Les résultats de l’expérience sont présentés dans le tableau ci-dessous :

Lorsque l’utilité du modèle est maintenue, l’algorithme d’alignement « apprendre de l’erreur » améliore le taux de réussite sans risque d’environ 10 % par rapport à SFT, COH et RLHF, et de 21,6 % par rapport au modèle original.

Dans le même temps, l’étude a révélé que les erreurs générées par le modèle lui-même présentaient un meilleur alignement que les paires de questions et réponses d’erreurs provenant d’autres sources de données.

△Résultats expérimentaux de grands modèles de langage non alignés

Scénario 2 : Les modèles alignés font face à de nouvelles attaques d’instructions

L’équipe de recherche a ensuite exploré comment renforcer le modèle déjà aligné pour faire face aux modèles d’attaque d’instructions émergents.

Ici, ChatGLM-6B a été choisi comme modèle de base. ChatGLM-6B a été aligné en toute sécurité, mais il peut encore produire une sortie qui n’est pas conforme aux valeurs humaines lorsqu’il est confronté à des attaques de commande spécifiques.

Les chercheurs ont utilisé le modèle d’attaque de « détournement de cible » comme exemple et ont utilisé 500 éléments de données contenant ce modèle d’attaque pour affiner l’expérience. Comme le montre le tableau ci-dessous, l’algorithme d’alignement « apprendre des erreurs » montre une forte défensive face aux nouvelles attaques d’instructions : même avec seulement un petit nombre de nouvelles données d’échantillons d’attaques, le modèle maintient avec succès les capacités générales et réalise une amélioration de 16,9 % de la défense contre les nouvelles attaques (détournement de cible).

Des expériences prouvent en outre que la capacité de défense obtenue grâce à la stratégie « apprendre de ses erreurs » est non seulement efficace, mais qu’elle a également une forte généralisation, qui peut traiter un large éventail de sujets différents dans le même mode d’attaque.

△Les modèles alignés se défendent contre les nouveaux types d’attaques

Liens vers les articles :

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Partager
Commentaire
0/400
Aucun commentaire
  • Épingler
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)