Le raisonnement GPT-4 est trop scandaleux ! Le score total des mathématiques, de la physique et de la chimie à l'université est inférieur à la moitié, et les 21 types de questions de raisonnement sont annulés. Marcus : AGI est trop loin

2023-08-11 06:05:56

**Source :**Xinzhiyuan

Guide : Le GPT-4 le plus puissant en surface fait des erreurs dans le raisonnement des questions les unes après les autres ! Les dernières recherches menées par des anciens du MIT et des Chinois de l'UCLA ont attiré de nombreux internautes.

GPT-4 ne peut pas raisonner du tout !

Récemment, deux études ont rapporté que GPT-4 fonctionne mal dans le raisonnement.

Konstantine Arkoudas, un ancien élève du MIT, a évalué GPT-4 sur 21 types différents d'ensembles d'inférence.

Ensuite, une analyse qualitative détaillée des performances de GPT-4 sur ces problèmes est réalisée.

Des études ont montré que GPT-4 montre parfois le talent du "cerveau le plus fort", mais à l'heure actuelle, GPT-4 n'a aucune capacité de raisonnement.

Adresse papier :

Dès que la recherche est sortie, de nombreux internautes se sont rassemblés pour regarder.

Marcus a déclaré: "Si cela est vrai - comme je l'ai dit plus tôt - nous sommes encore loin de l'AGI. Nous devrons peut-être faire beaucoup de recalibrage : il ne peut y avoir d'AGI sans raisonnement".

Une autre étude de l'UCLA et de l'Université de Washington a également révélé que GPT-4 et GPT-3.5 avaient de mauvais résultats dans le raisonnement des tâches de mathématiques, de physique et de chimie à l'université.

Adresse papier :

Les chercheurs ont présenté SCIBENCH, une fondation universitaire de résolution de problèmes scientifiques, qui contient 2 ensembles de données : un ensemble de données ouvert et un ensemble de données fermé.

Grâce à des recherches approfondies sur GPT-4 et GPT-3.5 utilisant différentes stratégies d'incitation, les résultats montrent que le score total moyen de GPT-4 n'est que de 35,8 %.

Cette recherche a également une fois de plus attiré l'attention de Marcus :

Une enquête systématique sur le raisonnement en mathématiques, en chimie et en physique, montrant que les LLM actuels ne parviennent pas à fournir des performances satisfaisantes... aucune stratégie d'allusion n'est significativement meilleure que les autres.

Examinons de plus près comment GPT-4 a lamentablement échoué dans 21 ensembles de problèmes, mathématiques, physique et chimie.

21 ensembles de problèmes, basculement complet GPT-4

Cependant, avant de regarder GPT-4 pour répondre à la question, l'auteur donne une note :

GPT-4 est un système non déterministe et peut produire des réponses différentes dans différentes exécutions même avec les mêmes réglages de paramètres.

Bien que les échanges de test suivants soient textuels, d'après l'expérience de l'auteur, les choses discutées dans l'article où GPT-4 tourne mal ont tendance à être robustes.

1 arithmétique simple

Être capable d'effectuer des opérations de base est une condition nécessaire au raisonnement.

Cependant, GPT-4 ne peut toujours pas effectuer de manière fiable des opérations arithmétiques de base telles que l'addition et la multiplication.

Par exemple, laissez GPT-4 sélectionner au hasard deux nombres entre 1381 et 1453 pour multiplier et donner le résultat.

GPT-4 a choisi 1405 et 1421, mais le résultat final était évidemment faux. Parce que 1405×1421=1996505.

2 comptage simple

Bien que le comptage spécifique ne soit pas nécessairement une activité de raisonnement, c'est certainement une condition préalable à tout système de raisonnement ayant une capacité générale.

Ici, GPT-4 reçoit une variable propositionnelle et préfixée avec 27 symboles de négation, lui demandant de compter le nombre de symboles de négation.

Pour nous, c'était un jeu d'enfant, d'autant plus que les négations sont écrites à 5 d'intervalle, et qu'il y a 5 groupes, avec la dernière paire de négations qui suit immédiatement.

Cependant, GPT-4 a donné "28" réponses.

3 Bon sens (médical)

Pour l'instant, nous pouvons considérer les arguments de bon sens comme de simples inférences tirées d'informations données plus des conditions non énoncées (par défaut, connaissances de base généralement acceptées).

Dans ce cas particulier, la connaissance de sens commun est une proposition telle que "L'homme vit jusqu'à sa mort, et il ne vit jamais après la mort".

Par exemple, lorsque vous demandez GPT-4 : la fréquence cardiaque de Mable est de 75 bpm à 9 h 00 et sa tension artérielle est de 120/80 à 19 h 00. Elle est décédée à 23h. Est-elle vivante à midi ?

GPT-4 a en effet répondu : Selon les informations fournies, il est impossible de déterminer si Mable est encore en vie à midi.

Mais évidemment sur la base des informations fournies, l'inférence de bon sens (sans réflexion) conduit directement à des conclusions.

4 Logique élémentaire

Si P(x) contient Q(x), et que Q(a) ne tient pas, alors nous pouvons déduire du modèle que P(a) ne tient pas (car si P(a) tient, alors Q(a) sera tenir).

Il s'agit d'une tautologie de base, mais GPT-4 propose entièrement un anti-modèle :

值得注意的是，GPT-4认识到，P(x)实际上并不包含Q(x) , et a proposé que x puisse être un nombre pair négatif, "n'exclut pas l'existence de modèles avec d'autres conditions données".

En fait, un contre-modèle doit satisfaire toutes les conditions données et falsifier la conclusion en même temps.

De plus, quelques phrases plus tard, GPT-4 affirme que P(x) implique Q(x) selon l'interprétation donnée, contredisant sa propre déclaration précédente.

Notez que GPT-4 présente également des incohérences internes.

5 sémantiques de quantificateurs simples

Considérez les trois phrases suivantes :

[pour tous x . P(x) ==> Q(x)]
[existe x . P(x)]
[existe x . ∼ Q(x)]

Veuillez falsifier ou prouver l'affirmation suivante : Ces trois phrases sont conjointement satisfaisables.

显然，这三个句子都是共同可满足的，一个简单的模型是具有P(a1)、Q(a1)、¬P(a2) et le domaine {a1, a2} de ¬Q(a2), cependant, la conclusion tirée par GPT-4 est l'inverse.

** 6. Coloration graphique simple **

Considérons d'abord un problème de coloration de graphe sans solution.

Il n'est pas difficile de voir que deux couleurs ne suffisent pas pour le graphique décrit dans cette question (par exemple, les sommets 0, 2 et 4 forment un cluster, donc au moins 3 couleurs sont nécessaires).

Dans cette courte sortie, il y a des tonnes d'erreurs à couper le souffle.

GPT-4 commence par prétendre à tort que le graphe est complet (évidemment non, par exemple pas de bord entre les sommets 2 et 3).

Aussi, il est évident que si le graphe est vraiment complet, alors il est impossible de le colorer avec 2 couleurs, puisqu'un graphe complet à 6 sommets nécessite au moins 6 couleurs.

En d'autres termes, les affirmations de GPT-4 sont non seulement fausses, mais incohérentes : un moment nous dit (à tort) que ce graphe à 6 vertex est complet, ce qui signifie qu'il est impossible de le colorer avec 2 couleurs, et un autre moment fournit A deux -couleur "solution".

Il convient de noter que la raison pour laquelle GPT-4 fonctionne si mal n'est pas parce qu'il n'a pas suffisamment de connaissances ou de données sur les graphiques.

Lorsque les chercheurs ont demandé au GPT-4 sa compréhension des "graphes complets", il a donné la définition correcte des "graphes complets", ainsi qu'une longue liste de résultats pour K_n (graphes complets avec n sommets) .

Apparemment, GPT-4 a mémorisé toutes ces informations, mais ne peut pas les appliquer à de nouvelles conditions.

7. Somme du sous-ensemble

S = {2, 8, 6, 32, 22, 44, 28, 12, 18, 10, 14}. Alors, combien de sous-ensembles de S ont la somme de 37 ?

Dans ce problème, le sous-ensemble de S est pair et la somme des nombres pairs ne peut pas être impaire, donc la réponse est 0.

Cependant, au lieu de s'arrêter pour considérer ce que S contient, GPT-4 génère par réflexe ce qu'il pense être une réponse appropriée à la question, puis procède à la "magie" d'une réponse "4".

8 Mathématiques discrètes élémentaires

Dites au GPT-4 que A × B représente le produit cartésien des ensembles A et B, que la relation R de A à B est un sous-ensemble de A × B, et que & représente l'intersection de l'ensemble, puis demandez-lui de prouver ou de falsifier :

其中R1和R2是从A到B的二元关系，dom(R) Représente le domaine d'une relation binaire R.

La relation de sous-ensemble doit être vérifiée dans les deux sens de (2), mais elle n'est vérifiée que dans le sens gauche-droite. Les contre-exemples dans l'autre sens sont faciles à trouver (par exemple, prendre A = {(1, 2)} et B = {(1,3)}).

Cependant, GPT-4 en déduit que cela est vrai, ce qui est clairement incorrect.

** 9 plans d'arrangement simples **

Sur la question du timing, GPT-4 s'est également trompé.

Balayez vers le haut et vers le bas pour tout voir

10 Le paradoxe de Russell

Le paradoxe du barbier de Russell stipule qu'il existe un barbier b qui ne rase que ceux qui ne se rasent pas.

La négation de cette phrase est une tautologie, qui se déduit facilement en utilisant la logique du premier ordre.

Si nous comprenons R(a,b) comme étant rasé par b, alors nous pouvons proposer cette tautologie et demander à GPT-4 de la prouver ou de la réfuter, comme suit :

S'il existe un tel barbier x, alors pour tout y on aura R(y,x) <==> ∼ R(y,y), donc substituer x à y donnera R(x,x) <== > ∼ R(x,x), ce qui est une contradiction.

GPT-4 a une compréhension impeccable de la structure des phrases qui lui sont données et de ce qu'il doit faire. Les études de cas ultérieures, cependant, sont confuses.

** 11 monde de briques **

Il s'agit d'une tâche de raisonnement simple qui nécessite une analyse de cas de l'avant-dernier bloc de construction B3.

Tout d'abord, B3 est soit vert, soit il ne l'est pas.

S'il est vert, alors B3 est au-dessus du bloc non vert B4, donc la conclusion est valable.

Si ce n'est pas le cas, alors le deuxième bloc vert B2 à partir du haut se trouve sur le bloc non vert B3, donc la conclusion est toujours valable.

Cependant, les résultats ont montré que GPT-4 n'a pas bien fonctionné.

Il y a cinq blocs empilés de haut en bas : 1. Le deuxième bloc à partir du haut est vert 2. Le quatrième bloc à partir du haut n'est pas vert Dans les cas où ces conditions sont remplies, falsifient ou prouvent ce qui suit : Il y a un bloc vert directement au-dessus d'un bloc non vert.

Tout d'abord, lorsqu'il prouve la conjecture, il a déjà commis une erreur dans la stratégie de preuve - PT-4 suppose deux cas particuliers pour le raisonnement.

De plus, GPT-4 est parvenu à une conclusion (quoique erronée) dans son propre raisonnement, mais indique toujours à l'utilisateur que le problème n'a pas été résolu lors de la réponse. Et cela reflète l'incohérence interne du modèle.

12 Raisonnement spatial

Ici, l'auteur choisit un problème d'orientation du monde réel :

La réponse donnée par GPT-4 pour la première fois est à droite, mais l'auteur a souligné son erreur. Bien que Boston, Massachusetts, soit en effet à droite du Dakota du Sud sur la carte, il y a une condition supplémentaire ici : l'orientation du corps C'est le Texas.

Cela signifie que Boston est à gauche de l'auteur.

Plus tard, lorsque GPT-4 a répondu aux positions haute et basse de Boston et du Dakota du Sud, un problème plus sérieux est apparu : il a donné deux descriptions contradictoires dans la même réponse.

13 Raisonnement temporel

L'auteur donne ici une question de raisonnement temporel relativement simple, mais la réponse de GPT-4 est toujours un gâchis.

Tom et Nancy ont besoin d'un moyen de transport pour se rendre au travail. Le temps de trajet de Nancy est d'environ 30 à 40 minutes, tandis que celui de Tom est d'environ 40 à 50 minutes. Vendredi dernier, Nancy a quitté la maison entre 8 h 10 et 8 h 20 du matin et Tom est arrivé au travail entre 8 h 5 et 9 h 10 du matin. De plus, Nancy arrive au travail après que Tom ait quitté la maison, mais pas plus de 20 minutes plus tard. Pouvez-vous en déduire quand Tom et Nancy sont arrivés au travail vendredi dernier ?

Après avoir trié les informations dans la question, GPT-4 donne son processus de raisonnement :

"Si Tom quitte la maison au plus tard (8h20)..." Cette phrase commence mal.

En fait, le titre n'a pas donné la dernière heure à laquelle Tom devait quitter la maison, et GPT-4 a abusé du temps de Nancy ("Nancy a quitté la maison entre 8h10 et 8h20") à Tom.

Dans le même temps, l'énoncé conditionnel donné par GPT-4 est déroutant et l'hypothèse contient des informations (Tom) qui ne sont pas liées à la conclusion (heure d'arrivée de Nancy) : "Si Tom quitte la maison au plus tard (8h20 am), Nancy Elle part au plus tard (8h20), son trajet est de 40 minutes au maximum, et Nancy arrive au travail à 9h00 au plus tard."

Cela devrait être indiqué comme suit : "Si Nancy part à son heure la plus tardive (8h20) et que son trajet est d'au plus 40 minutes, alors Nancy arrivera au travail à 9h00 au plus tard."

GPT-4 déduit alors à tort ce qui suit : "Étant donné que le trajet de Tom est d'au moins 40 minutes, cela signifie qu'il arrivera au travail au plus tard à 9h00."

Cette conclusion n'est évidemment pas du tout tenable. Cette conclusion ne peut être tirée du fait connu que le temps de trajet de Tom est d'au moins 40 minutes.

La réponse suivante est toujours basée sur la fausse hypothèse que la première heure de départ de Tom est 8h10 (encore une fois, cette heure de départ est celle de Nancy, pas celle de Tom).

Il affirme ensuite que Nancy est arrivée à 8h45, ce qui ne correspond pas à un départ de la maison à 8h10 dans les 20 minutes.

En fin de compte, il conclut à tort que Tom et Nancy sont arrivés entre 8h50 et 9h00.

Au cours du processus de raisonnement, GPT-4 a affiché à plusieurs reprises des informations fausses, et la réponse finale est également une mauvaise réponse basée sur de mauvaises conditions.

**14. Meurtre ou suicide ? **

L'auteur a conçu un puzzle logique et énuméré 9 conditions pour demander au GPT-4 de découvrir qui a vraiment tué tante Agatha.

Quelqu'un qui vivait à Dreadbury Mansion a tué tante Agatha. 2. Les seuls occupants de Dreadbury Mansion sont tante Agatha, la gouvernante et Charles. 3. Un meurtrier hait toujours ses victimes et il ne devient jamais plus riche que ses victimes. 4. Charles ne déteste pas les gens que tante Agatha déteste. 5. Tante Agatha détestait tout le monde sauf la gouvernante. 6. Le majordome déteste tous ceux qui ne sont pas plus riches que tante Agatha. 7. Le majordome déteste tout le monde que tante Agatha déteste. 8. Personne ne déteste tout le monde. 9. Tante Agatha n'était pas femme de ménage.

La bonne réponse est que tante Agatha s'est suicidée.

Premièrement, selon la condition 5, tante Agatha doit se détester parce qu'elle déteste tout le monde sauf la gouvernante.

Par conséquent, selon la condition 4, il s'ensuit que Charles ne la déteste pas, donc il ne peut pas la tuer.

Selon les conditions 5 et 7, il est impossible pour le majordome de se haïr, car s'il se haïssait, la condition 8 ne tiendrait pas, et il haïrait tout le monde.

Selon la condition 6, on conclut que le majordome est plus riche que tante Agathe, sinon il se détesterait, ce qui est contraire à ce que nous avons conclu plus haut qu'il ne se déteste pas.

Selon la condition 3, le majordome ne sera pas non plus le meurtrier (condition 3).

Dans le raisonnement, GPT-4 a correctement exclu Charles, mais n'a pas pu exclure le majordome et est arrivé à la mauvaise conclusion : le majordome était le meurtrier.

Une autre erreur critique commise par GPT-4 : puisque tante Agatha déteste tout le monde sauf la gouvernante (Condition 5), cela signifie qu'au moins elle ne se déteste pas.

C'est une erreur étrange, car il découle de la 5ème condition que tante Agathe se déteste.

Dans le même temps, GPT-4 présentait une fois de plus des incohérences récurrentes - dans presque toutes les réponses, GPT-4 prétendait dériver une certaine proposition et sa forme négative.

15 tâche de sélection Watson

La tâche de choix de Watson est un contenu de base dans le domaine du raisonnement mental.

Dans l'article de janvier, GPT-3.5 a échoué à ce test, et dans cette étude, les performances de GPT-4 ne sont toujours pas idéales.

Il y a 7 cartes sur la table, chaque carte a un numéro écrit d'un côté et un bloc de couleur unique de l'autre côté. Le recto de ces cartes indique 50, 16, rouge, jaune, 23, vert, 30. Pour déterminer la véracité de la proposition "Si une carte présente un multiple de 4 au recto, la couleur au verso est jaune", quelles cartes faut-il retourner ?

Ces réponses montrent que GPT-4 ne comprend pas la sémantique des instructions conditionnelles. Lorsque GPT-4 dit que les cartes "50" et "30" doivent être retournées, il semble confondre la condition avec une condition nécessaire et suffisante.

Que la réponse de GPT-4 soit bonne ou mauvaise, ses déclarations internes sont incohérentes.

16 Entropie

Une conclusion de base de la théorie de l'information est la suivante : la borne supérieure de l'entropie du vecteur aléatoire Z ne dépasse pas la somme de l'entropie des variables aléatoires qui composent Z.

Par conséquent, la réponse à la question suivante devrait être "en aucun cas".

17 Exactitude du compilateur simple

Le dernier problème d'inférence pour GPT-4 est le plus difficile : prouver l'exactitude d'un simple compilateur d'expressions.

Mais dans ce test, GPT-4 a obtenu la preuve en définissant l'induction structurelle sur la structure syntaxique abstraite des expressions.

Cela peut être dû au fait qu'il a déjà vu des preuves similaires, et les exemples donnés par les auteurs sont le type d'exercices que l'on trouve couramment dans les cours de programmation et les manuels.

Cependant, GPT-4 a encore quelques erreurs dans les détails.

## Conclusion : La capacité de raisonnement est cruciale, mais GPT-4 ne le sera pas

Étant donné que GPT-4 est actuellement le LLM le plus performant, l'auteur donne trois conclusions principales basées sur l'analyse ci-dessus :

L'utilisation de l'IA générative dans le développement de logiciels (ou la science et l'ingénierie en général), à l'exception de certaines tâches fastidieuses (comme une sorte d'auto-complétion accélérée de problèmes de codage à forte intensité de connaissances), est pleine de risques. Dans ces domaines, la normativité et l'exactitude sont essentielles, et les LLM actuels ne répondent pas à ces normes.
À mesure que la capacité de raisonnement de LLM continue de s'améliorer, une vérification stricte des preuves deviendra de plus en plus importante. Cette approche peut examiner le raisonnement exprimé en langage naturel en demandant aux LLM de formaliser leur raisonnement, ou en formant d'autres LLM.
Dans l'état actuel des choses, les scénarios dystopiques d'IA conquérant des humains ou d'humains utilisant l'IA à des fins néfastes sont farfelus, voire absurdes. Lorsque les systèmes d'IA de pointe ne peuvent même pas distinguer la gauche de la droite (question 12 ci-dessus), demander des politiques pour en protéger les humains est au mieux prématuré, et au pire un gaspillage de ressources.

Inévitablement, certains diront que ces résultats sont des « données choisies ». Mais c'est parce qu'ils ont une mauvaise compréhension de ce que sont les données de curation. Selon la structure logique et le contexte général de la proposition en question, il est même parfois nécessaire de sélectionner des données.

Déboguer un programme informatique pour découvrir et comprendre ses faiblesses, essayer de falsifier une théorie scientifique, tester une nouvelle voiture, essayer de trouver un anti-modèle d'un théorème putatif, etc., sont tous fondamentalement pinailleur.

Par exemple, si vous découvrez que votre nouvelle voiture a un pneu crevé, le concessionnaire peut protester que vous « choisissez des données ». Après tout, en ce qui concerne l'ensemble de la voiture, le taux d'intégrité du pneu atteint 75 %.

De même, les applications en science, en médecine et en ingénierie, en particulier en génie logiciel, ont des normes rigoureuses.

Tout comme nous ne voulons pas d'un pont qui supporte des colonnes 90 % du temps, nous avons besoin d'algorithmes de tri qui fonctionnent sur toutes les entrées, pas seulement sur la plupart ; nous avons besoin de chariots qui facturent le montant correct à chaque fois, et pas seulement la plupart des temps, etc...

Et ces applications gourmandes en calcul et en raisonnement, contrairement aux moteurs de recommandation, doivent être très fiables.

A propos de l'auteur

Constantin Arkoudas

Jusqu'à l'année dernière, Konstantine Arkoudas était chercheur au Département des sciences cognitives de RPI et chercheur au CSAIL du MIT.

Actuellement, il est chercheur scientifique principal aux laboratoires de recherche Telcordia, se concentrant sur l'IA et appliquant des méthodes formelles aux problèmes du monde réel dans les industries des télécommunications et des réseaux.

Il a obtenu son doctorat en informatique du MIT en 2000. Auparavant, il a également obtenu une maîtrise en informatique, une maîtrise en philosophie et un baccalauréat en informatique avec une mineure en philosophie.

Mathématiques, physique et chimie universitaires, score GPT-4 de 35,8 %

Dans la recherche de l'UCLA, la capacité de raisonnement de GPT-4 et GPT-3.5 en mathématiques, chimie et physique a été principalement évaluée.

À l'heure actuelle, afin d'améliorer la capacité de LLM à résoudre des tâches telles que les mathématiques, certaines personnes ont proposé une stratégie CoT connectée à la pensée pour guider le grand modèle afin de générer progressivement des réponses, afin de réfléchir plus profondément au problème.

Cependant, même si une telle approche a ses avantages spécifiques, il est difficile de résoudre complètement des problèmes scientifiques complexes.

Ci-dessous, un exemple de problème en chimie physique universitaire et les solutions générées dans le cadre des deux stratégies d'indication.

GPT-4 avec la bénédiction CoT comporte des erreurs de calcul évidentes, et GPT-4, qui incite à utiliser Python comme outil externe, comprendra également mal les équations mathématiques.

Les erreurs sont marquées en rouge, les corrections en violet

À cette fin, SCIBENCH, un référentiel de niveau universitaire pour les questions scientifiques, a été introduit dans l'étude.

Parmi eux, le "jeu de données ouvertes" comprend 5 problèmes collectés à partir de manuels largement utilisés dans les cours universitaires, couvrant la physique de base, la thermodynamique, la mécanique classique, la chimie quantique, la chimie physique, le calcul, les statistiques et les équations différentielles.

Résumé des problèmes de manuels ouverts (comprend le pourcentage du nombre de problèmes et le pourcentage avec des solutions détaillées)

L'autre est un « ensemble de données fermé », qui contient 7 ensembles de questions d'examens intermédiaires et finaux pour trois cours universitaires en informatique et en mathématiques afin de simuler une évaluation dans le monde réel.

Ensemble de données d'examen fermé (contient le nombre d'instances de questions dans chaque examen et la proportion de questions de l'examen contenant des solutions détaillées. En outre, la proportion de questions dans différents formats, y compris les réponses libres, les choix multiples et le vrai-faux réponses. Pour référence, les nombres entre parenthèses indiquent les points de crédit pour les questions.)

Contrairement aux benchmarks existants, toutes les questions de SCIBENCH sont des questions ouvertes à réponse libre.

Avec l'ensemble de données disponible, l'étude s'est concentrée sur l'évaluation de deux LLM représentatifs, GPT-3.5 et GPT-4, et a utilisé différentes stratégies d'incitation, y compris le CoT, l'apprentissage à zéro coup et l'apprentissage à quelques coups.

De plus, les chercheurs ont également incité le modèle à utiliser des outils externes, tels que Python et Wolfram Language.

Les résultats expérimentaux montrent que sans aucun indice complexe ni utilisation d'outils externes, les taux de précision moyens de GPT-3.5 et GPT-4 dans les ensembles de données ouverts sont de 10,62 % et 16,81 %, respectivement.

Ensuite, après avoir ajouté CoT et des outils externes, le taux de précision le plus élevé sur le même ensemble de données n'est que de 35,8 %. Cependant, par rapport à avant, le taux de précision a été grandement amélioré.

Résultats de précision dans des ensembles de données ouverts

Dans la configuration la plus forte utilisant des conseils CoT + des outils externes, GPT-4 a obtenu un score moyen de 35,80 % sur l'ensemble de données ouvert et de 51,57 % sur l'ensemble de données fermé.

Ces résultats suggèrent que GPT-4 a un potentiel considérable d'amélioration dans les futurs LLM.

Les résultats expérimentaux du score total sous apprentissage zéro coup sur l'ensemble de données de test

Pour acquérir une compréhension globale des limites des LLM dans la résolution de problèmes scientifiques, les chercheurs proposent une nouvelle approche "d'auto-amélioration" pour découvrir les insuffisances dans les réponses apportées par les LLM.

Il s'agit de "l'accord d'évaluation" comme suit.

Tout d'abord, la solution correcte est comparée à la solution générée par LLM, et avec l'aide d'annotateurs humains, 10 compétences essentielles requises pour résoudre avec succès des problèmes scientifiques sont résumées.

Inclure spécifiquement : la décomposition logique et les compétences analytiques ; identifier les hypothèses ; la perception spatiale ; le raisonnement causal ; la déduction de problèmes ; le raisonnement abstrait ; la culture scientifique ; le changement de code ; le raisonnement logique ; la numératie.

L'équipe a ensuite utilisé une approche d'auto-évaluation basée sur le LLM pour classer automatiquement les compétences qui manquaient dans les solutions apportées par le LLM de base pour chaque configuration expérimentale.

Profils d'erreur de GPT-3.5 sur des ensembles de données textuelles sous 6 paramètres, révélant la distribution des défauts dans ses 10 capacités fondamentales de résolution de problèmes

Enfin, après analyse, il a été constaté que :

(1) Bien que CoT améliore considérablement la puissance de calcul, il est moins efficace dans d'autres aspects ;

(2) Les conseils d'utilisation d'outils externes peuvent nuire à d'autres compétences essentielles ;

(3) L'apprentissage en peu de temps n'améliore généralement pas la résolution de problèmes scientifiques.

En bref, les résultats de la recherche montrent que les modèles linguistiques actuels à grande échelle sont encore faibles en capacité de résolution de problèmes, et avec l'aide de divers outils, il y a encore des limites.

Les références:

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

Récompense
J'aime
Commentaire
Partager

Commentaire

0/400

Aucun commentaire

Rubrique
Gate 2025 Q2 Report Released
20k Popularité
CPI Data Incoming
53k Popularité
Altcoin Season Update
4k Popularité
4Gate Derivatives Volume Hits New High
16k Popularité
5Join Gate VIP to Win MacBook
30k Popularité
6MicroStrategy Buys More Bitcoin
988 Popularité
7BTC Hits New High
93k Popularité
8My Gate Moments
26k Popularité
9VIP Exclusive Airdrop Carnival
26k Popularité
10Fed June Meeting Minutes
7k Popularité

Épingler

Le raisonnement GPT-4 est trop scandaleux ! Le score total des mathématiques, de la physique et de la chimie à l'université est inférieur à la moitié, et les 21 types de questions de raisonnement sont annulés. Marcus : AGI est trop loin

** 21 ensembles de problèmes, basculement complet GPT-4 **

A propos de l'auteur

Mathématiques, physique et chimie universitaires, score GPT-4 de 35,8 %

21 ensembles de problèmes, basculement complet GPT-4