GPT-4 ne sait pas que c’est faux ! Les nouvelles failles de LLM ont été exposées, et le taux de réussite de l’autocorrection n’était que de 1%, et LeCun Marcus s’est exclamé que plus il corrigeait, plus il se trompait

2023-10-22 05:30:11

GPT-4 ne sait tout simplement pas qu’il fait une erreur ? Les dernières recherches ont montré que le LLM dans la tâche de raisonnement, après l’auto-correction, ne peut pas sauver la détérioration des performances, ce qui conduit le patron de l’IA LeCun Marcus à surveiller.

Source originale : Shin Ji Yuan

Source de l’image : Généré par Unbounded AI

Le grand modèle a été exposé à des défauts majeurs, ce qui a attiré l’attention de LeCun et Marcus en même temps !

Dans l’expérience d’inférence, le modèle qui prétendait améliorer la précision s’auto-corrigeait, « améliorait » le taux de précision de 16 % à 1 % !

En termes simples, le LLM ne peut pas améliorer le résultat sous la forme d’une autocorrection sous la forme de tâches d’inférence, à moins que le LLM ne connaisse déjà la bonne réponse dans le processus d’autocorrection.

Deux articles publiés par des chercheurs de l’ASU réfutent la méthode d'« autocorrection » proposée par de nombreuses études antérieures - permettre à de grands modèles d’auto-corriger leurs résultats de sortie peut améliorer la qualité de la sortie du modèle.

Adresse papier :

Le professeur Subbarao Kambhampati, co-auteur de l’article, s’est engagé dans la recherche sur la capacité de raisonnement de l’IA et a publié un article en septembre, niant même complètement la capacité de raisonnement et de planification de GPT-4.

Adresse papier :

En plus de ce professeur, des chercheurs récents de DeepMind et de l’Université UIUC ont également remis en question la capacité du LLM à « s’auto-corriger » dans les tâches de raisonnement.

L’article appelle même tous les chercheurs qui font de la recherche pertinente à prendre vos recherches au sérieux, et à ne pas dire au grand modèle la bonne réponse et à le laisser ensuite effectuer ce qu’on appelle une « autocorrection ».

Parce que si le modèle ne connaît pas la bonne réponse, la qualité de sortie se détériorera après que le modèle se soit « auto-corrigé ».

Ensuite, jetons un coup d’œil à ces deux derniers articles.

GPT-4 « auto-correcteur », la sortie est pire

Le premier article s’est concentré sur GPT-4, demandant à GPT-4 de fournir une solution au problème de l’ombrage graphique, puis de faire en sorte que GPT-4 « auto-corrige » sa propre solution.

Dans le même temps, les auteurs ont introduit un système d’évaluation externe pour évaluer la sortie directe de GPT-4 et la sortie après un cycle « auto-correcteur ».

Les résultats expérimentaux montrent que GPT-4 est précis à moins de 20% dans la devinette des couleurs, ce qui ne semble pas surprenant.

Mais étonnamment, la précision en mode « auto-correcteur » a considérablement chuté (la deuxième barre ci-dessous) - complètement contraire à toutes les intentions d’auto-correction !

Selon les auteurs, cette situation apparemment contre-intuitive peut s’expliquer par ceci : GPT-4 fait également un travail terrible pour vérifier les bonnes réponses !

Parce que même lorsque GPT-4 devine accidentellement la bonne couleur, son « auto-correction » lui fera penser que la bonne réponse est problématique, puis remplacera la bonne réponse.

D’autres recherches ont également révélé que GPT-4 améliorerait en effet sa solution si un validateur externe fournissait une réponse correcte vérifiable à la couleur qu’il a devinée.

Dans ce cas, l’invite générée par « l’autocorrection » peut en effet améliorer la qualité de la sortie (mesures 3-5 de la figure ci-dessus)

En résumé, pour la tâche de « problème de coloration », l'« autocorrection » indépendante de GPT-4 nuira aux performances de la sortie, car GPT-4 ne peut pas vérifier que la réponse est correcte.

Cependant, si le processus de vérification externe correct est fourni, l'« auto-correction » générée par GPT-4 peut en effet améliorer les performances.

Un autre article s’est penché sur la capacité des grands modèles de langage à « s’autocorriger » du point de vue de la planification des tâches, et les résultats étaient similaires à ceux de l’article précédent.

De plus, les chercheurs ont constaté que ce qui améliorait vraiment la précision de la sortie n’était pas « l’auto-correction » du LLM, mais le retour d’information d’un validateur externe indépendant.

En fin de compte, le LLM n’a aucun moyen d’effectuer une vérification indépendante et doit s’appuyer sur la « bonne réponse » donnée par un validateur externe afin de « s’auto-corriger » efficacement.

« Coloring Questions » a mal fonctionné et LLM n’a pas pu vérifier de manière indépendante les bonnes réponses

Cadre de conception de la recherche

Le « problème de coloration » est un problème de raisonnement très classique, même s’il n’est pas difficile, les réponses sont suffisamment diverses, et l’exactitude des réponses est facile à vérifier.

Les résultats de la diversité rendent difficile la couverture de l’ensemble des données d’entraînement de LLM, et la possibilité de contamination des données d’entraînement LLM est évitée autant que possible.

Ces raisons rendent le « problème de coloration » très approprié pour étudier la capacité de raisonnement de LLM, et il est également pratique d’étudier la capacité de LLM à « s’auto-corriger » dans le raisonnement.

Les chercheurs ont construit leur propre ensemble de données, en utilisant GrinPy2 pour gérer les manipulations de graphes courantes. Chaque graphe est construit selon la méthode d’Erdos-Rényi (̋p = 0,4).

Une fois la bonne réponse trouvée, elle est compilée dans le format standard DIMACS avec un commentaire contenant son numéro chromatique précalculé.

Pour l’expérience suivante, les chercheurs ont généré 100 instances, chacune avec une moyenne de 24 arêtes, réparties sur une plage de nœuds de 10 à 17 – une distribution qui a été démontrée par l’expérience comme étant une plage suffisamment variable.

Le diagramme utilisé par les chercheurs est illustré à la figure 1 ci-dessous, qui comprend la première réponse de LLM, l’invite de retour de la réponse et le schéma de couleurs final correct.

### Architecture pour le support itératif

Générateur d’invites :

Ce générateur d’invites prend une instance DIMACS, traduit chaque arête en une phrase, puis enveloppe le tout dans un ensemble d’instructions génériques pour construire une invite en langage naturel.

Les chercheurs ont intentionnellement réduit les différences entre les différentes invites d’instance afin de réduire les informations spécifiques au problème que les chercheurs ont divulguées à LLM. Des exemples de différents types d’invites se trouvent dans l’annexe.

Modèles de langage de grande taille :

GPT-4 est appelé via l’API OpenAI, qui est actuellement le modèle le plus avancé.

Les chercheurs fournissent un rôle système : « Vous êtes un solveur de satisfaction de contraintes qui résout divers CSP (problèmes de satisfaction de contraintes) ».

Génération de retour

En mode d’authentification, LLM reçoit un autre type d’invite.

En plus des instructions standard, il ne contient qu’une description du diagramme et un schéma de coloriage recommandé. Sa tâche est de vérifier l’exactitude, l’optimalité et que chaque sommet a été peint d’une couleur.

Si la réponse résultante présente un ensemble d’arêtes contradictoires, le schéma de coloration est erroné.

Pour comparer chaque point, les chercheurs ont également construit un validateur qui répertoriait chaque bord contradictoire.

Étant donné que les réponses de LLM sont également en langage naturel, les chercheurs les ont d’abord traduites dans un format facile à analyser. Pour rendre ce processus plus cohérent, les chercheurs ont conçu des conseils initiaux pour décrire le format de sortie précis qu’un modèle doit suivre. L’exactitude de la réponse est ensuite évaluée.

Pour juger des résultats de la validation LLM, les chercheurs examinent leur capacité à identifier les erreurs dans le schéma d’ombrage proposé.

Intuitivement, ceux-ci devraient être faciles à identifier : si deux sommets qui composent une arête partagent une couleur, revenez immédiatement à cette arête. D’un point de vue algorithmique, il suffit de détecter toutes les arêtes et de comparer la couleur de chaque sommet avec la couleur du point auquel il est connecté.

Vérification

Pour mieux comprendre les capacités de vérification de LLM, les chercheurs ont étudié leurs performances dans l’identification des erreurs dans le schéma de coloration proposé.

Intuitivement, ces erreurs devraient être faciles à identifier : si deux sommets qui composent une arête partagent une couleur, l’arête est renvoyée immédiatement. D’un point de vue algorithmique, il suffit d’itérer sur toutes les arêtes et de comparer la couleur de chaque sommet à la couleur du sommet correspondant.

Les chercheurs ont utilisé le même processus d’analyse, mais ont construit un nouveau domaine que les chercheurs ont appelé color_verification. LLM est guidé pour vérifier l’exactitude de l’ombrage, l’optimalité et si une couleur a été attribuée à chaque sommet.

Si l’ombrage est incorrect, il est demandé de répertorier les erreurs d’ombrage, c’est-à-dire que si deux nœuds connectés partagent une couleur, cette arête est renvoyée pour représenter l’erreur. Aucun dos n’est donné.

Les chercheurs ont utilisé le même exemple de graphique que précédemment, mais ont généré quatre schémas d’ombrage pour tester le modèle :

Correct : un schéma d’ombrage optimal sans erreur généré par un algorithme itératif et aléatoire (utilisant un nombre précalculé de couleurs pour assurer l’optimalité).

Ablated : modifie la couleur d’un noeud aléatoire d’un ensemble précédent de schémas d’ombrage vers ses voisins.

Non optimal : dans le jeu correct, une partie de couleur est sélectionnée au hasard et recolorée dans une nouvelle teinte.

Aléatoire : Couleurs attribuées de manière complètement aléatoire, le nombre de couleurs différentes est égal au nombre de couleurs de la figure.

LLM : un schéma de coloration sélectionné au hasard à partir de la sortie générée par LLM à partir d’expériences précédentes.

Conclusion

Le LLM est invité, les réponses sont évaluées et l’instance suivante est déplacée sans aucun retour, ce qui donne un score de base de 16 %.

Lorsque les chercheurs ont exécuté la même instance, mais cette fois-ci renvoyé l’invite en utilisant le retour généré par le même modèle de langage agissant comme un validateur, les performances ont chuté considérablement - seule une instance sur 100 a obtenu la bonne réponse.

Les résultats de l’invite de retour avec un validateur qualifié externe peuvent sembler plus efficaces au début.

Le nombre d’instances de réponses correctes est proche de 40%, mais si cela signifie que GPT-4 écoute, s’améliore et raisonne sur la base des commentaires, alors les chercheurs s’attendent à de meilleurs résultats avec des invites de retour plus précises.

Cependant, dans ce domaine, la fraction brute (voir figure 2 ci-dessus) ne le prouve pas.

Capacité de vérification LLM

Les chercheurs ont testé la capacité de GPT-4 à vérifier les schémas d’ombrage des graphes sur la même instance, générant cinq types différents de schémas d’ombrage pour chaque instance.

Le résultat évident est exactement le même que le résultat de l’autocorrection LLM ci-dessus : le modèle est presque réticent à marquer les réponses comme correctes. Sur 100 schémas d’ombrage optimaux, il convient que seuls 2 d’entre eux sont corrects.

Sur l’ensemble de la collection de 500 schémas de coloriage, dont 118 sont corrects, il ne prétend que 30 d’entre eux sont corrects. Sur ces 30, seuls 5 étaient réellement corrects.

Dans l’ensemble, cette tendance reste la même. Dans moins de 10 % des cas, le LLM a donné une réponse « correcte », « non optimale » ou « affectation manquante ». Dans ces cas, le comportement semble quelque peu aléatoire.

Dans environ un quart des cas, il répond par une validation « c’est incorrect » alors que l’interprétation correspond à la réalité, et il ne le fait qu’en n’indiquant pas plus d’un côté, minimisant ainsi le risque de déformer quelque chose.

Les résultats sont présentés dans le tableau 2 ci-dessus. Notez que lorsque le taux d’erreur du domaine augmente, le taux d’hallucination diminue. C’est-à-dire que lorsqu’il y a plus d’arêtes incorrectes, le modèle est plus susceptible de signaler où quelque chose s’est mal passé.

LLM autocritique, la performance n’augmente pas mais diminue

Dans l’article soumis le 12, les auteurs sont également arrivés à la même conclusion que ci-dessus.

Qu’il s’agisse de planification, d’arithmétique simple ou de logique, le GPT-4, le grand modèle actuel à la pointe de la technologie, n’est pas entièrement compétent.

De nombreux chercheurs l’ont exploré et amélioré, notamment en permettant au LLM d’apprendre l’auto-itération, l’auto-validation et d’autres stratégies pour améliorer les performances.

En conséquence, les gens de l’industrie sont optimistes quant au fait que le grand modèle peut encore être sauvé !

Cependant, la complexité de la tâche d’inférence au sens classique n’a rien à voir avec le grand modèle, car le LLM est un modèle qui utilise une récupération approximative plutôt qu’un raisonnement précis.

Dans un article présenté par arXiv le 12, les chercheurs de l’ASU ont systématiquement évalué et analysé la capacité du LLM à s’autocritiquer dans la planification des tâches et l’optimisation itérative.

Dans l’étude, les auteurs proposent un système de planification qui inclut le LLM générateur et le LLM validateur.

Parmi eux, le générateur GPT-4 est responsable de la génération des plans candidats, et le validateur GPT-4 est chargé de vérifier l’exactitude du plan et de fournir un retour d’information.

Les chercheurs ont ensuite mené des expériences dans le domaine de la planification de Blocksworld et ont procédé à des évaluations empiriques de :

L’impact de l’autocritique sur la performance de production planifiée de l’ensemble du système LLM+LLM
la performance du LLM du validateur par rapport à la vérification de la vérité terrain ;
Lorsque l’on critique la génération de LLM, le même niveau de rétroaction affecte les performances globales du système.

Les résultats montrent que l’autocritique réduit les performances de génération de planification LLM par rapport à l’utilisation d’un validateur externe fiable.

La dégradation des performances peut être directement attribuée aux mauvais résultats du LLM du validateur, qui produit un grand nombre de faux positifs, ce qui peut sérieusement nuire à la fiabilité du système.

La précision de la classification binaire du LLM du validateur n’est que de 61 %, et il y a un grand nombre de faux positifs (jugeant que le mauvais schéma est correct).

De plus, selon la comparaison du niveau de détail du retour d’information, on constate qu’il a peu d’impact sur les performances de la génération de planification.

Dans l’ensemble, l’étude systématique de cette étude fournit des preuves préliminaires qui remettent en question l’efficacité de la LLM en tant que validateur des tâches de planification dans un cadre itératif et autocritique.

À propos de l’auteur

Subbarao Kambhampati

Subbarao Kambhampati est professeur d’informatique à l’Université d’État de l’Arizona. Kambhampati mène des recherches sur les questions fondamentales de la planification et de la prise de décision, en particulier en raison des défis posés par les systèmes d’intelligence artificielle pour la perception humaine.

Ressources:

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

2 J'aime

Récompense
2
Commentaire
Partager

Commentaire

0/400

Aucun commentaire

Rubrique
1/3
1CandyDrop Airdrop Event 6.0
67k Popularité
2White House Crypto Report
62k Popularité
3Join Alpha RION Airdrop to Earn $40
46k Popularité
4Fed Holds Rates Decision
9k Popularité
5July Spark Program TOP 10 Creators Announced
3k Popularité

Épingler