DeepMind : Les grands modèles sont également exposés à des failles majeures et ne peuvent pas corriger leur raisonnement par eux-mêmes, à moins que la bonne réponse ne soit connue à l’avance

2023-10-23 01:58:10

Source originale : Shin Ji Yuan

Les chercheurs > DeepMind ont découvert que la LLM a un défaut inhérent : elle ne peut pas obtenir de meilleures réponses en s’auto-corrigeant pendant le raisonnement, à moins que des étiquettes de vérité ne soient prédéfinies dans l’ensemble de données. Marcus se réjouit de lui faire parvenir le papier.

Source de l’image : Généré par Unbounded AI

Une autre faille majeure du grand modèle de langage a été exposée par DeepMind !

LLM ne peut pas corriger les erreurs dans son propre raisonnement.

L’autocorrection, une technique permettant aux modèles de corriger leurs propres réponses, peut améliorer considérablement la qualité de sortie du modèle dans de nombreux types de tâches.

Mais récemment, des chercheurs de Google DeepMind et de l’UIUC ont découvert que le « mécanisme d’autocorrection » de LLM était soudainement inutile pour les tâches de raisonnement.

De plus, non seulement le LLM ne peut pas auto-corriger les réponses aux tâches de raisonnement, mais s’auto-corrige souvent, la qualité des réponses diminuera également de manière significative.

Marcus a également retweeté l’article, dans l’espoir d’attirer l’attention d’un plus grand nombre de chercheurs sur cette faille du grand modèle de langage.

La technique de « l’autocorrection » repose sur l’idée simple de permettre au LLM de corriger et d’améliorer son contenu généré selon certains critères. Cette méthode peut améliorer considérablement la qualité de sortie du modèle dans des tâches telles que des problèmes mathématiques.

Mais les chercheurs ont constaté que dans la tâche de raisonnement, le retour après l’autocorrection était parfois très bon, parfois l’effet était très médiocre et même les performances diminuaient.

Les chercheurs ont également étudié la littérature qui croyait que « l’autocorrection » pouvait améliorer le résultat du raisonnement et, après un examen plus approfondi, ont constaté que l’amélioration de « l’autocorrection » provenait de l’introduction d’informations externes pour guider le modèle vers l’autocorrection. Et lorsque l’information externe n’est pas introduite, ces améliorations disparaissent.

Plus précisément, l’autocorrection fonctionne efficacement lorsque le modèle a accès aux étiquettes de vérité terrain contenues dans le jeu de données de référence.

En effet, l’algorithme peut déterminer exactement quand arrêter le processus d’inférence et éviter de modifier la réponse lorsqu’elle est déjà correcte.

Les chercheurs pensent que les étiquettes réelles ont eu tendance à être utilisées dans des études antérieures pour empêcher les modèles de changer les bonnes réponses en réponses incorrectes. Mais comment prévenir cette situation de « bonne correction » est en fait la clé pour assurer le succès de l’autocorrection.

En effet, lorsque les chercheurs suppriment la véritable étiquette du processus d’autocorrection, les performances du modèle se dégradent considérablement.

Dans le but d’améliorer l’approche auto-correctrice de LLM pour les tâches de raisonnement, les chercheurs ont également exploré le potentiel du « débat multi-agents » comme moyen d’améliorer le raisonnement. Cependant, leurs résultats montrent que cette méthode ne fonctionne pas mieux que l’auto-cohérence lorsque l’on considère un nombre égal de réponses.

Les chercheurs ont en outre proposé les concepts de « pré-prompt » et de « post-prompt ».

Ils considèrent l’autocorrection comme une forme d’invite post-hoc, où l’invite corrective est saisie après la réponse de LLM.

L’analyse des chercheurs suggère que l’amélioration de l’autocorrection dans certaines tâches peut provenir d’invites de rétroaction bien conçues qui masquent des invites initiales grossières.

Dans ce cas, l’intégration d’un meilleur retour d’information dans les instructions initiales ou la conception de meilleures invites initiales peut donner de meilleurs résultats et réduire les coûts d’inférence.

Sur la base des résultats des chercheurs, les chercheurs se sont penchés sur les nuances de la capacité du LLM à s’autocorriger, exhortant la communauté des chercheurs à aborder la recherche sur l’autocorrection avec plus de rigueur.

Les grands modèles de langage peuvent-ils s’auto-corriger ? **

Les chercheurs ont essayé de prendre la méthode d’autocorrection existante, en utilisant sa configuration (en utilisant des étiquettes pour guider le processus d’autocorrection) pour examiner son efficacité dans l’amélioration des performances sur les tâches de raisonnement LLM.

Configuration de l’expérience

Mots d’invite

Les chercheurs ont utilisé une stratégie de repère en trois étapes pour s’autocorriger :

demander le modèle pour la génération initiale (c’est aussi le résultat d’invites standard) ;
inviter le modèle à revoir sa génération précédente et à générer un retour d’information ;
Répondez à nouveau à la question d’origine via le modèle d’invite de rétroaction.

Modèle

Le test principal des chercheurs a été effectué sur GPT-3.5-Turbo.

Les chercheurs ont également testé GPT-4, consulté le 29 août 2023, dans le but de tester les capacités d’autocorrection des itérations les plus récentes et les plus puissantes des modèles OpenAI.

Pour GPT-3.5, les chercheurs ont utilisé l’ensemble des évaluations mentionnées précédemment. Pour GPT-4, afin de réduire les coûts, les chercheurs ont échantillonné au hasard 200 questions pour chaque ensemble de données (100 questions pour HotpotQA) à tester.

Résultats et réflexions

Bien que les chercheurs n’aient pas utilisé de ressources ou d’outils externes dans leurs expériences, les chercheurs ont suivi des travaux antérieurs, en utilisant des étiquettes de vérité pour déterminer quand arrêter le cycle d’autocorrection.

Mais dans le monde réel, en particulier lorsque les chercheurs ont l’intention de résoudre des problèmes mathématiques avec le LLM, la plupart du temps, la bonne réponse n’est pas connue.

Par conséquent, l’amélioration des performances doit être considérée plus attentivement.

Pour confirmer cette idée, les chercheurs ont conçu une base de référence basée sur des suppositions aléatoires. Dans cette base de référence, les chercheurs continuent d’utiliser des étiquettes de vérité pour déterminer quand s’arrêter ; Cependant, les mesures correctives ne sont pas prises par LLM, mais sont basées sur des suppositions aléatoires des options restantes.

CommonSenseQA est un ensemble de questions à choix multiples qui propose cinq options candidates pour chaque question.

Si la précision de génération du k-ième tour (la génération initiale est arrondie 0) est exprimée sous la forme x, la précision attendue des builds suivants devient x + (1 − x)/(5 − k).

Les résultats de cette base de référence aléatoire sont présentés dans le tableau 2 ci-dessus.

Après 2 tours, ses performances sont comparables voire meilleures que l’auto-calibrage, et après 4 tours, sa précision atteint 100%.

Cependant, il est clair qu’une telle base de référence aléatoire ne peut pas être considérée comme une méthode de correction efficace. Pourtant, les résultats obtenus à l’aide d’étiquettes peuvent agir comme un oracle, indiquant qu’il existe des vérificateurs parfaits qui peuvent juger de l’exactitude d’une réponse.

Dans des tâches telles que la génération de code, cela est possible car les chercheurs peuvent utiliser des exécuteurs et des tests unitaires pour déterminer si le code généré s’exécute correctement (Chen et al., 2023b).

Cependant, pour les tâches de raisonnement, telles que la résolution de problèmes mathématiques, cette configuration semble contre-intuitive. Si les chercheurs ont déjà la vérité, il semble qu’il n’y ait aucune raison d’utiliser le LLM pour résoudre le problème.

Autocorrection intrinsèque

Pour GSM8K, il n’existe peut-être pas de base aléatoire similaire, mais la raison d’être reste la même.

De plus, les chercheurs peuvent concevoir une base de référence, par exemple en générant des nombres aléatoires un à la fois. Après un certain nombre de tours, il peut obtenir la bonne réponse, mais une telle amélioration n’a clairement pas de sens. La raison la plus immédiate : pourquoi les chercheurs feraient-ils cela s’ils connaissaient déjà la réponse ?

Le dispositif expérimental est défini plus haut. Pour y parvenir, les chercheurs ont simplement retiré l’étiquette d’utilisation pour déterminer quand arrêter et ont évalué les performances par le biais de deux séries d’autocorrection.

Le tableau 3 ci-dessus indique la précision et le nombre d’appels de modèle. Les chercheurs ont observé qu’après l’autocorrection, les performances du modèle se sont dégradées dans tous les benchmarks.

Pourquoi les performances se sont-elles dégradées ?

La figure 1 ci-dessus résume les résultats du changement de réponse après deux séries d’autocorrection à l’aide de GPT-3.5, et deux exemples sont présentés dans la figure 2 ci-dessous.

Pour le GSM8K, le modèle conserve sa réponse initiale avec une probabilité de 74,7%. Dans les autres cas, le modèle était plus susceptible de modifier la bonne réponse à la mauvaise réponse que de modifier la mauvaise réponse à la bonne réponse.

Pour CommonSenseQA, GPT-3.5 est plus susceptible de changer sa réponse. La raison principale en est que les mauvaises options de réponse dans CommonSenseQA semblent souvent quelque peu liées à la question, et l’utilisation d’indices autocorrecteurs peut biaiser le modèle en faveur du choix d’une autre option, ce qui entraîne un taux élevé d’erreur de ⇒ correcte.

Laissons les chercheurs jeter un autre coup d’œil aux résultats présentés dans le tableau 1 ci-dessus. Ces résultats utilisent des étiquettes de vérité pour empêcher le modèle de remplacer la bonne réponse par la mauvaise réponse.

Cependant, la façon d’éviter cette « erreur de correction » est en fait la clé pour assurer le succès de l’autocorrection.

L’explication intuitive est que si le modèle correspond à une invite initiale bien conçue, alors compte tenu de l’invite et de l’algorithme de décodage spécifique, la réponse initiale devrait déjà être optimale.

L’introduction d’un retour d’information peut être considérée comme l’ajout d’indices supplémentaires qui peuvent biaiser le modèle vers la production de réponses qui correspondent à cette combinaison d’entrées.

Dans un contexte d’autocorrection intrinsèque, dans une tâche d’inférence, cette invite supplémentaire peut ne pas fournir d’avantage supplémentaire pour répondre à la question.

En fait, cela peut même empêcher le modèle de produire la meilleure réponse à l’invite initiale, ce qui entraîne une dégradation des performances.

On peut se demander si les signaux autocorrecteurs testés par les chercheurs ne sont pas idéaux.

D’autres conseils peuvent-ils améliorer les performances ? La réponse est la suivante : il est tout à fait possible pour les chercheurs de trouver un indice qui améliore les performances du modèle sur un benchmark spécifique. Cependant, cela n’est plus cohérent avec la configuration d’autocorrection intrinsèque discutée dans cet article, similaire à la discussion d’une véritable configuration sans échantillon.

Cette recherche s’appuie essentiellement sur les commentaires d’humains ou d’exemples d’entraînement. En outre, la même stratégie peut être appliquée efficacement pour optimiser les conseils initiaux, ce qui permet d’obtenir de meilleures performances sans avoir besoin d’appels de modèle supplémentaires pour s’autocorriger.

Dans l’annexe B, les chercheurs ont testé différents conseils, mais ont constaté que les performances ne s’amélioraient toujours pas.

De plus, les chercheurs ne sont pas les premiers à observer que l’autocorrection n’améliore pas nécessairement la capacité de raisonnement LLM. En résumé, l’objectif des chercheurs n’est pas de répondre à des questions telles que : « Existe-t-il des indices autocorrecteurs qui peuvent améliorer la performance d’un indice de référence particulier ? » et ainsi de suite. De telles questions peuvent ne pas être particulièrement significatives.

Au lieu de cela, les chercheurs visent à résoudre une question plus fondamentale : « Les grands modèles de langage peuvent-ils vraiment corriger leur raisonnement par eux-mêmes en se basant uniquement sur leur capacité inhérente ? »

L’autocorrection après coup**

Dans des contenus précédents, les chercheurs ont observé que le LLM rencontrait des difficultés à auto-corriger son raisonnement.

Cependant, comme l’ont démontré des recherches antérieures, l’autocorrection dans certains cas a donné des résultats impressionnants.

Par conséquent, il est essentiel d’identifier les écarts et d’identifier les causes profondes.

Pour résoudre ce problème, il est important de saisir la nature fondamentale de l’autocorrection. Dans sa forme, l’autocorrection peut être considérée comme une réflexion après coup.

Il diffère des invites standard (appelées pré-invites ici) en ce sens que les invites sont faites au-dessus des réponses de LLM.

Les chercheurs appellent le processus d’amélioration de ces indices l’ingénierie des prompts post-événement.

Par conséquent, l’autocorrection améliore les réponses du modèle lorsque l’autocorrection peut fournir des conseils ou des commentaires précieux que les invites précédentes ne peuvent pas fournir.

Par exemple, lorsque l’objectif est de rendre la réponse plus sûre, il peut être difficile de guider le modèle pour produire une réponse totalement sans risque dès la première tentative en utilisant uniquement des indices pré-hoc. Dans ce cas, l’autocorrection peut être utilisée comme un moyen d’améliorer la sécurité de la réponse grâce à des contrôles post-mortem précis.

Cependant, cela peut ne pas être le cas pour les tâches d’inférence.

Des invites de commentaires, telles que « Passez en revue vos réponses précédentes et trouvez un problème avec vos réponses ». Il n’apporte pas nécessairement d’avantages tangibles pour le raisonnement.

De plus, même si une amélioration significative des performances après l’autocorrection est observée, un examen attentif de la conception rapide est nécessaire.

Par exemple, si la réponse doit répondre à des critères qui peuvent être facilement spécifiés dans l’instruction initiale (par exemple, la sortie doit contenir certains mots, le code généré doit être efficace, le sentiment doit être fortement négatif), plutôt que de fournir ces exigences sous forme de rétroaction dans l’invite post-mortem, une autre stratégie plus rentable consiste à intégrer ces exigences directement (explicitement) dans l’invite pré-mortem.

Les résultats du tableau 5 ci-dessus montrent que le « signal standard (de l’investigateur) » soigneusement conçu par les chercheurs était supérieur aux résultats auto-corrigés des études précédentes.

De plus, les performances se dégradent même lorsque les chercheurs utilisent leurs conseils pour améliorer le rendement des chercheurs.

Encore une fois, l’objectif des chercheurs ici n’est pas de discuter de la question de savoir s’il existe des invites a posteriori qui peuvent l’emporter sur celles que les chercheurs écrivent à volonté. L’objectif principal des chercheurs est d’encourager un examen plus rigoureux des expériences d’auto-étalonnage.

Cela n’a pas de sens d’utiliser des invites post-mortem bien conçues pour guider les modèles à « auto-corriger » les réponses générées par des pré-invites médiocres.

Afin de faire une comparaison équitable, des efforts égaux doivent être déployés avant et après l’événement.

Ressources:

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

Récompense
J'aime
Commentaire
Partager

Commentaire

0/400

Aucun commentaire

Rubrique
1/3
1CandyDrop Airdrop Event 6.0
55k Popularité
2White House Crypto Report
53k Popularité
3Join Alpha RION Airdrop to Earn $40
38k Popularité
4Fed Holds Rates Decision
9k Popularité
5July Spark Program TOP 10 Creators Announced
3k Popularité

Épingler

DeepMind : Les grands modèles sont également exposés à des failles majeures et ne peuvent pas corriger leur raisonnement par eux-mêmes, à moins que la bonne réponse ne soit connue à l’avance

Configuration de l’expérience

**Pourquoi les performances se sont-elles dégradées ? **

Pourquoi les performances se sont-elles dégradées ?