triché? GPT-4 n'a en fait aucune capacité de raisonnement ? !

Organiser | Tu Min

Liste | CSDN (ID : CSDNnews)

Source de l'image : générée par l'outil d'IA illimitée

En mars de cette année, OpenAI a publié le grand modèle GPT-4, qui apportait des capacités de raisonnement, de calcul et de logique plus solides que GPT-3.5 derrière ChatGPT, et a également déclenché une recrudescence de l'utilisation universelle. Dans le processus d'utilisation de chercheurs, de développeurs et de concepteurs dans divers domaines, "GPT-4 est le grand modèle le plus important" semble être devenu un résultat reconnu.

Cependant, le 7 août, Konstantine Arkoudas, diplômé du Massachusetts Institute of Technology et actuellement directeur technique de Dyania Health, a récemment écrit une prépublication intitulée "GPT-4 Can't Reason" (GPT-4 Can't Reason) ( faisant référence à des projets d'articles dans la littérature scientifique qui n'ont pas encore été publiés dans des revues scientifiques à comité de lecture ont provoqué un tollé dans l'industrie.

Le document note que GPT-4 présente des améliorations substantielles à tous les niveaux par rapport à GPT 3.5. Cependant, bien qu'il réalise des améliorations impressionnantes, il y a de bonnes raisons d'être très sceptique quant aux capacités d'inférence de GPT-4. Cet article traite de la nature du raisonnement, critique la formulation actuelle des problèmes de raisonnement dans la communauté PNL et la manière actuelle d'évaluer les performances de raisonnement LLM, et partage une collection de 21 problèmes de raisonnement différents basés sur GPT-4.

Conclusion finale : **Malgré des éclairs occasionnels de brillance analytique, GPT-4 est actuellement complètement incapable de raisonner. **

Adresse papier :

Un mot a déclenché mille vagues, n'est-ce pas le raisonnement que GPT-4 a généré un code de jeu en quelques minutes auparavant ?

**Qu'est-ce que l'inférence ? **

En fait, début janvier de cette année, l'auteur de l'article, Konstantine Arkoudas, a partagé une évaluation informelle de ChatGPT sur la plate-forme Medium. L'évaluation impliquait un large éventail de disciplines, y compris la NLU traditionnelle, la physique populaire, la recherche d'informations, théorie de l'esprit, raisonnement spatial, raisonnement logique simple et mathématiques.

adresse:

Les principales conclusions tirées à l'époque étaient les suivantes : ChatGPT est une percée révolutionnaire ; les systèmes basés sur le LLM ne sont pas simplement des "perroquets aléatoires", mais construisent de véritables abstractions et peuvent faire preuve de créativité ; De tels systèmes apporteront de nombreuses nouvelles applications passionnantes ; malgré ce qui précède réalisations, ces systèmes restent sévèrement limités dans leurs capacités d'inférence.

À son avis, la version améliorée de GPT-4 est toujours la même aujourd'hui, et elle n'a même aucune capacité de raisonnement.

Dans l'article, Konstantine Arkoudas a souligné que le débat de l'industrie sur "la capacité de raisonnement du LLM" dure depuis longtemps.

  • D'une part, c'est la faction de soutien LLM. Leurs prédictions de la bonne capacité de raisonnement des grands modèles reposent souvent sur des "lois" changeantes, et ces soi-disant "lois", selon Konstantine Arkoudas, sont en fait des preuves empiriques fragiles, un grand nombre d'hypothèses de modélisation discutables, la compréhension de concepts ambigus (LLM fonctionnalités), et même un peu de croyance dogmatique selon laquelle la minimisation de la perte d'entropie croisée pour la prédiction du jeton suivant sur un grand corpus, fournit un moteur d'inférence à usage général.
  • D'autre part, il y a des sceptiques LLM. Ils ont tendance à avoir des arguments rigoureux, mais ces arguments sont principalement basés sur l'expérience et l'analyse passées, et sont quelque peu vagues (par exemple, LLM n'a pas de "modèle mondial", un modèle interne de la façon dont le monde fonctionne).

Sur la base de ces deux considérations, Konstantine Arkoudas soutient que les considérations a priori (expérience et analyse passées) les plus convaincantes pour la plausibilité d'inférences LLM robustes et fiables sont les résultats de la complexité des calculs. L'inférence est un problème de calcul très difficile. En fait, il est algorithmiquement indécidable dans le cas général (logique du premier ordre ou d'ordre supérieur).

Selon Konstantine Arkoudas, "Tout LLM, quelle que soit sa taille, sa largeur et son intelligence, ne peut pas résoudre les problèmes d'inférence arbitraire. Ceci est cohérent avec le célèbre théorème "pas de repas gratuit" dans l'apprentissage automatique, qui stipule que la généralité du modèle Une relation inverse similaire entre performance et performance".

Par conséquent, afin de vérifier "si GPT-4 a une capacité de raisonnement", la première chose à faire est d'unifier le concept, c'est-à-dire ce qu'est le raisonnement, et la méthode spécifique utilisée pour déterminer la capacité de raisonnement.

Concernant la définition du raisonnement, Konstantine Arkoudas a déclaré : « Raisonner, ce n'est pas obtenir la bonne réponse par des moyens peu scrupuleux, mais obtenir la bonne réponse pour la bonne raison ».

Plus précisément, le raisonnement est le processus d'élaboration d'un argument et, plus important encore, de le prouver. Un argument consiste en une conclusion (le résultat de l'argument, pour ainsi dire) et un ensemble de prémisses à partir desquelles la conclusion est dérivée. Les prémisses représentent des informations considérées comme données, même provisoirement, aux fins d'une argumentation. Les conclusions et les prémisses sont généralement des phrases déclaratives, exprimées en symboles du langage naturel ou de la logique symbolique, qui peuvent être vraies ou fausses, mais peuvent également être représentées par d'autres symboles tels que des diagrammes. Si toutes les phrases de S sont vraies, alors p est vrai, auquel cas l'argument est dit valide.

Quant à la méthodologie, l'évaluation adoptée par Konstantine Arkoudas dans l'article ne repose pas sur un corpus ou un ensemble de corpus. Au lieu de cela, il présente une analyse qualitative détaillée des performances de GPT-4 sur 21 problèmes de raisonnement simples dans un vaste domaine, dont la plupart ont été écrits à partir de zéro tandis que les autres (comme la tâche de choix de Wason) ont été réglés manuellement. la difficulté pour le modèle de les identifier est aussi d'éviter la pollution des données.

Vérifier le raisonnement GPT-4 avec des questions de test

Sur cette base, Konstantine Arkoudas a posé des questions sur GPT-4 à partir de plusieurs dimensions et a mené une analyse détaillée basée sur ses résultats.

Il convient de mentionner qu'en raison des propriétés de GPT-4, parfois même en utilisant le même "" peut obtenir des réponses différentes dans différentes exécutions.

Ensuite, la vérification commence (tous les temps de test ci-dessous sont basés sur les résultats des tests du 5 juillet 2023).

Arithmétique simple

Konstantine Arkoudas affirme que la capacité d'effectuer des opérations arithmétiques de base est une partie nécessaire du raisonnement général, en particulier dans les applications scientifiques et d'ingénierie. Pour s'assurer que GPT-4 ne le mémorise pas par cœur, il propose de laisser GPT-4 choisir au hasard deux entiers aléatoires dans sa plage choisie, puis d'effectuer des opérations sur les valeurs choisies.

KA donne :

Choisissez deux nombres aléatoires entre 1381 et 1453, multipliez-les et rapportez le résultat.

La réponse de GPT-4 est :

Bien sûr, choisissons deux nombres aléatoires dans la plage 1381 à 1453. Disons que les nombres sont 1405 et 1421.

Pour obtenir le produit, on multiplie simplement ces deux nombres : 1405*1421 = 1996025

Mais en fait, la bonne réponse est 1405*1421=1996505.

Il s'avère que GPT-4 ne peut toujours pas effectuer de manière fiable des opérations arithmétiques de base telles que l'addition et la multiplication.

Konstantine Arkoudas a déclaré que les partisans du LLM pourraient peut-être admettre à ce stade que GPT-4 n'est pas un cadre complet de Turing et ne peut pas effectuer de calculs à usage général: il ne peut pas additionner, multiplier ou diviser, trier des listes ou inverser des matrices Ou résoudre des équations différentielles, ne peut pas compiler des programmes arbitraires en code machine, ne peut pas dériver de théorèmes, etc.

Cependant, ces manques de puissance de calcul peuvent être compensés par des plug-ins tiers, tels que ReAct, framework MRKL. C'est cette façon de travailler qui a donné naissance à des systèmes comme LangChain et AutoGPT. L'idée ici est d'utiliser le LLM comme un planificateur pour décomposer de manière récursive un problème complexe en une série de sous-problèmes, qui sont envoyés à des agents spécialisés via des API appropriées.

Cependant, selon Konstantine Arkoudas, le problème de cette approche est sa nature circulaire. La planification elle-même nécessite un raisonnement, c'est donc un "dilemme" que nous ne pouvons pas résoudre le problème de raisonnement en déléguant le problème à un agent approprié, car trouver comment déléguer (comment décomposer le problème, quels agents appeler, comment appeler et comment le résultat de la décomposition) est informatiquement irréalisable par lui-même. Cela nécessite non seulement la capacité de comprendre le langage naturel, mais également la capacité de raisonner sur les conditions préalables et les effets. Même sous ces hypothèses trop simplistes, la planification est coûteuse en calcul (PSPACE-complet), nécessitant des simplifications radicales pour réduire la complexité aux niveaux NP-complet. Sous des hypothèses plus réalistes, la planification est effectuée avec des connaissances incomplètes et est mécaniquement indécidable. Il serait naïf de s'attendre à ce que les LLM généraux réussissent à résoudre les problèmes de planification tels que nous les comprenons aujourd'hui.

** Comptage simple **

Donnez à GPT-4 une variable propositionnelle précédée de 27 symboles de négation et demandez-lui de compter le nombre de négations. Pour les humains, c'est une tâche facile, d'autant plus que les symboles de négation sont écrits en cinq blocs, chacun avec cinq points, et une paire de symboles de négation à la fin, mais comment GPT-4 fonctionne-t-il ?

KA:

Combien de fois p est nié dans la formule suivante :



**La réponse de GPT-4 est :**


GPT-4 : La formule que vous avez donnée contient 28 symboles de négation ("∼") devant la variable propositionnelle "p". En logique, le signe de négation change la valeur de vérité d'un énoncé en son contraire. Si un énoncé est vrai, alors sa négation est fausse, et vice versa. La double négation, telle que "∼ ∼ p", équivaut à "p", car nier deux fois une proposition lui redonne sa valeur de vérité d'origine.


S'il y a un reste, alors il y a une négation. Sinon, il n'y a pas de négation.


28 divisé par 2 donne 14 sans reste, ce qui signifie qu'il n'y a pas de négation. Donc, en fait, dans la formule donnée, la variable "p" n'est pas niée. C'est juste équivalent à "p".


![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-dd39db081a-dd1a6f-1c6801) Konstantine Arkoudas a constaté que la différence dans l'ajout d'un seul symbole de négation par GPT-4 ne semble pas significative tant que nous ne réalisons pas toutes les différences dans son entrée logique, comme le souligne la propre explication (non sollicitée) de GPT-4. Même lorsqu'il a été explicitement dit au GPT-4 de prendre son temps et de compter avec soin, la répétition de l'expérience plusieurs fois a donné des résultats très différents.


**Question de connaissances générales**


Puis Konstantine Arkoudas a ajouté: "Le rythme cardiaque de Mable était de 75 à 9 heures du matin et sa tension artérielle était de 120/80 à 19 heures. Elle est décédée à 23 heures. Était-elle vivante à midi?"




![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-ed0007b40d-dd1a6f-1c6801) **GPT-4:**


Sur la base des informations fournies, nous ne pouvons pas être sûrs si Mable Noon est vivant ou non. Les points de données présentés (rythme cardiaque à 9 h et tension artérielle à 19 h) indiquent tous qu'elle était en vie à ce moment-là. Cependant, sans plus d'informations sur ce qui lui est arrivé entre 19h et 23h, ou plus précisément à midi, nous ne pouvons pas être sûrs de ce qu'elle était à midi.


Rappelez-vous que les informations médicales peuvent être complexes et délicates. Connaître l'état de santé d'une personne nécessite généralement un examen complet et doit être effectué par un professionnel de la santé. S'il s'agit d'une question hypothétique, rappelez-vous que la vraie vie nécessite des informations plus complètes.


Dans le contexte actuel, les arguments de bon sens peuvent en fait être considérés comme une dérivation directe de conclusions tirées d'informations données et de prémisses non déclarées qui constituent des connaissances de base généralement acceptées. Dans ce cas particulier, une telle connaissance de sens commun est la proposition selon laquelle "un homme vit jusqu'à sa mort, et il ne vit jamais après la mort". Dans l'article, Konstantine Arkoudas estime que la déclaration de GPT-4 selon laquelle "c'est un problème compliqué, assurez-vous de consulter un professionnel" semble ironique.


**Question de choix Wason**


La tâche de choix de Wason est un élément essentiel de la psychologie du raisonnement.


**KA:**


Sur la table se trouvent sept cartes à jouer, chacune avec un numéro d'un côté et un motif monochrome de l'autre. Les cartes montrent 50, 16, rouge, jaune, 23, vert, 30 respectivement. Si une carte montre un multiple de 4, alors la couleur opposée est jaune Quelle carte devez-vous retourner pour tester la véracité de cette proposition ?


**GPT-4:**


La proposition est : "Si le nombre sur une carte est un multiple de 4, alors la couleur de l'autre côté est jaune". Pour tester cette proposition, vous devez retourner les cartes suivantes :


Carte à jouer "16": Selon la proposition, la couleur de l'autre face doit être jaune. En retournant cette carte, vous pouvez vérifier si cette partie de la proposition tient.


Carte à jouer « Jaune » : retournez cette carte et vous pourrez vérifier si le nombre sur le côté opposé est un multiple de 4.


Cartes à jouer « 50 » et « 30 » : Bien que les nombres sur ces deux cartes ne soient pas des multiples de 4, vérifiez que l'autre face n'est pas jaune. Si l'autre côté est jaune, alors la proposition selon laquelle seuls les multiples de 4 sont jaunes de l'autre côté est renversée.


Vous n'avez pas besoin de retourner les cartes "23", "Rouge" ou "Verte". La carte "23" n'est pas un multiple de 4, donc peu importe la couleur de l'autre côté selon la proposition donnée. Si les nombres de l'autre côté des cartes "rouge" et "verte" sont des multiples de 4, ils ne réfutent pas non plus la proposition, puisque la proposition n'indique pas que le jaune est la seule couleur qui peut apparaître de l'autre côté de cartes avec des nombres multiples de 4.


![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-4050707d6b-dd1a6f-1c6801) En fait, seuls 16, rouge et vert doivent être retournés. Ainsi, en termes de précision, ces réponses montrent à nouveau que GPT-4 ne comprend pas la sémantique des conditionnels matériels.


Lorsque GPT-4 dit que les cartes à jouer "50" et "30" doivent être retournées, il semble avoir confondu le si avec un si et seulement si : "Lorsque les nombres indiqués sur ces cartes ne sont pas des multiples de 4, ils doit vérifier pour s'assurer sinon La couleur d'un côté n'est pas jaune Si l'autre côté est jaune, alors la proposition "il n'y a que des multiples de 4 qui sont jaunes de l'autre côté" est renversée". Bien sûr, la proposition testée n'exige pas que seuls des multiples de 4 soient jaunes de l'autre côté ; elle exige seulement que si l'autre côté d'une carte est un multiple de 4, alors l'autre côté doit être jaune ; ou dans d'autres mots, si un Si la face de la carte n'est pas jaune, alors le nombre sur l'autre face n'est pas un multiple de 4.


Mais méfiez-vous que même une mauvaise interprétation de la règle comme une double condition n'est pas systématiquement suivie. Si GPT-4 comprenait la règle testée comme une condition double et devait donc inverser 50 et 30, alors il devrait faire de même pour 23. Mais ça ne fait pas ça.


En fait, il déclare explicitement que la carte à jouer "23" n'est pas un multiple de 4, donc peu importe la couleur de l'autre côté selon la proposition donnée, ce qui est cohérent avec l'interprétation à deux conditions qu'il utilise comme un raison du retournement 50 et 30 Contradictoire. Cela illustre à nouveau un autre thème important qui ressort de ces exemples : les réponses GPT-4, bonnes ou mauvaises, sont souvent intrinsèquement incohérentes.


En outre, Konstantine Arkoudas a également vérifié les capacités de raisonnement spatial, d'entropie, l'exactitude des compilateurs simples et le raisonnement temporel dans l'article.


En raison du manque d'espace, nous ne sélectionnons que les quelques exemples ci-dessus à titre d'illustration dans cet article.






## **en conclusion**






Au final, diverses vérifications ont sans aucun doute prouvé le sombre tableau de la capacité de raisonnement du GPT-4.


Les résultats montrent que le modèle souffre d'incohérences internes, d'une application incorrecte des techniques de raisonnement de base et d'un manque de compréhension des concepts qui jouent un rôle fondamental dans le raisonnement, tels que les conditions matérielles.


Mais en réalité, ces problèmes sont souvent résumés comme des erreurs et des "illusions" provoquées par le grand modèle, mais en fait il n'a pas la capacité de raisonner.


Étant donné que GPT-4 est actuellement le LLM le plus performant, Konstantine Arkoudas tire trois conclusions principales de ces résultats :


1. L'utilisation de l'IA générative dans le développement de logiciels (ou la science et l'ingénierie en général) pour autre chose que des tâches fastidieuses (comme une sorte d'auto-complétion turbocompressée pour les problèmes de codage à forte intensité de connaissances) comporte de sérieux risques. Les normes canoniques d'exactitude sont essentielles et, dans ces domaines, les LLM actuels ne répondent pas à ces normes. Tout comme l'IA générative a commencé à polluer le Web avec de mauvaises publicités, elle a le potentiel de multiplier le code bogué à grande échelle.
2. Si le raisonnement LLM continue de s'améliorer, une vérification rigoureuse des preuves peut devenir de plus en plus importante. La confiance dans l'exactitude du raisonnement d'un système est essentielle pour les applications, en particulier dans les sciences, la médecine et l'ingénierie, et le contrôle de vérification est une technique qui peut fournir cette confiance. Cette approche pourrait être réalisée en demandant aux LLMS de régulariser leurs inférences (exprimées dans une notation symbolique facile à vérifier et à contrôler), ou éventuellement en formant d'autres LLMS à examiner une inférence exprimée en langage naturel.
3. Dans l'état actuel des choses, un scénario dystopique impliquant une IA voyou qui met les humains à genoux, ou même d'autres humains utilisant l'IA à des fins néfastes, est très tiré par les cheveux. Lorsque les systèmes d'IA les plus avancés ne peuvent même pas distinguer la gauche et la droite lors du raisonnement spatial, il est clairement prématuré d'avoir autant d'appels de l'industrie pour que les politiques et les institutions protègent les humains de leur IA.






## **Controverse**






De l'avis de Konstantine Arkoudas, l'IA générative actuelle en est encore aux premiers stades de développement, et elle est encore loin de la capacité de raisonnement et de l'ère de l'IAG.


Une fois que cet article a été publié, il a également attiré beaucoup d'attention et de discussions sur HN. Avons-nous tous été trompés au cours des 5 derniers mois ?


![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-ea9f41912f-dd1a6f-1c6801) Cependant, son point de vue unique a également été reconnu par de nombreux spécialistes de l'IA.


Gary Marcus, un "renégat" dans le domaine de l'intelligence artificielle et professeur émérite de psychologie et de neurosciences à l'université de New York, a tweeté : "Si cela est vrai - comme je l'ai dit plus tôt - nous ne sommes pas loin de l'intelligence artificielle générale, très loin."* *Peut-être que beaucoup de recalibrage est nécessaire : vous ne pouvez pas avoir d'IAG sans raisonnement**."


![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-5ce181c3b7-dd1a6f-1c6801) Nikos Tzagarakis, directeur de l'IA chez @SiSafLtd, a déclaré : "Les algorithmes d'apprentissage en profondeur sont conçus pour faire des prédictions basées sur la perception. Ils peuvent simuler un raisonnement, mais en réalité c'est de la perception."


Cependant, certains internautes ont émis des doutes :


J'ai parcouru le matériel et essayé de reproduire certains des problèmes signalés, à partir desquels je suis arrivé à deux conclusions.


1. L'auteur n'est pas doué pour ça. Il existe de nombreuses façons de réduire les hallucinations et de fournir aux modèles de meilleurs chemins de pensée.


2. L'auteur utilise le GPT-4 de ChatGPT, ce qui l'amène à confondre "GPT-4" avec "ChatGPT". Bien que vous puissiez affirmer qu'il s'agit d'un échec courant d'OpenAI, en raison d'une mauvaise communication d'OpenAI, toute personne évaluant sérieusement ces modèles saura que la première chose à faire est d'utiliser l'API et de verrouiller la version du modèle. En ce qui concerne l'auteur, il doit utiliser gpt-4-0314 ou gpt-4-0613. Je soupçonne qu'il utilise simplement le GPT-4 de ChatGPT, et très probablement le modèle par défaut. (Le mode par défaut ne doit être utilisé par personne. C'est le pire modèle optimisé en termes de performances, moins performant que le modèle Plugins sur les tâches d'inférence, même sur les tâches de taille contextuelle).


Si l'auteur a sérieusement évalué le modèle, expliquer le modèle est la première chose qu'il fera. Peut-être devrait-il expliquer son raisonnement.


Jusqu'ici, qu'en pensez-vous ?


référence:


Adresse papier :
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Partager
Commentaire
0/400
Aucun commentaire
  • Épingler
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)