L’IA peut-elle comprendre ce qu’elle génère ? Après des expériences sur GPT-4 et Midjourney, quelqu’un a résolu l’affaire

Question

Source de l’article : Heart of the Machine

Edit : Grande assiette de poulet, sauce aux oeufs

Sans « compréhension », il ne peut y avoir de « création ».

Source de l’image : Générée par Unbounded AI

De ChatGPT à GPT4, de DALL・E 2/3 à Midjourney, l’IA générative a suscité une attention mondiale sans précédent. Le potentiel de l’IA est énorme, mais une grande intelligence peut aussi susciter des craintes et des inquiétudes. Récemment, il y a eu un débat féroce sur cette question. D’abord, les vainqueurs de Turing se sont « bagarrés », puis Andrew Ng s’est joint à eux.

Dans le domaine du langage et de la vision, les modèles génératifs d’aujourd’hui peuvent être générés en quelques secondes et peuvent mettre au défi même les experts ayant des années de compétences et de connaissances. Cela semble fournir une motivation convaincante pour l’affirmation selon laquelle les modèles ont dépassé l’intelligence humaine. Cependant, il est également important de noter qu’il y a souvent des erreurs de compréhension de base dans la sortie du modèle.

De cette façon, un paradoxe semble émerger : comment concilier les capacités apparemment surhumaines de ces modèles avec les erreurs fondamentales qui persistent et que la plupart des humains peuvent corriger ?

Récemment, l’Université de Washington et l’Allen Institute for AI ont publié conjointement un article pour étudier ce paradoxe.

Adresse:

Cet article soutient que ce phénomène se produit parce que la configuration des capacités dans les modèles génératifs d’aujourd’hui s’écarte de la configuration de l’intelligence humaine. Cet article propose et teste l’hypothèse paradoxale de l’IA générative : les modèles génératifs sont entraînés à produire directement des résultats de type expert, un processus qui saute la capacité de comprendre la capacité à générer cette sortie de qualité. Cependant, pour les humains, c’est très différent, et une compréhension de base est souvent une condition préalable aux capacités de sortie de niveau expert.

Dans cet article, les chercheurs testent cette hypothèse par le biais d’expériences contrôlées et analysent la capacité du modèle génératif à générer et à comprendre le texte et la vision. Dans cet article, nous parlerons d’abord de la conceptualisation « compréhension » des modèles génératifs sous deux angles :

1. Étant donné une tâche de génération, la mesure dans laquelle le modèle peut sélectionner la réponse correcte dans la version discriminante de la même tâche ;
1. Étant donné une réponse correctement générée, la mesure dans laquelle le modèle peut répondre au contenu et aux questions sur cette réponse. Il en résulte deux configurations expérimentales, sélective et interrogative.

Les chercheurs ont constaté que dans l’évaluation sélective, le modèle fonctionnait souvent aussi bien ou mieux que les humains dans le cadre de la tâche de génération, mais dans le cadre discriminant (compréhension), le modèle fonctionnait moins bien que les humains. Une analyse plus approfondie montre que par rapport à GPT-4, la capacité de discrimination humaine est plus étroitement liée à la capacité générative, et la capacité de discrimination humaine est plus robuste à l’entrée adverse, et l’écart entre le modèle et la capacité de discrimination humaine augmente avec l’augmentation de la difficulté de la tâche.

De même, dans les évaluations interrogatives, alors que les modèles peuvent produire des résultats de haute qualité dans différentes tâches, les chercheurs ont observé que les modèles font souvent des erreurs en répondant aux questions sur ces résultats, et que la compréhension du modèle est encore plus faible que celle des humains. Cet article traite d’une série de raisons potentielles de la divergence entre les modèles génératifs et les humains en termes de configuration des capacités, y compris les objectifs d’entraînement des modèles, la taille et la nature des entrées.

L’importance de cette recherche est que, tout d’abord, cela signifie que les concepts existants d’intelligence dérivés de l’expérience humaine peuvent ne pas être généralisables à l’IA, et même si les capacités de l’IA semblent imiter ou surpasser l’intelligence humaine à bien des égards, ses capacités peuvent être fondamentalement différentes des modèles attendus des humains. D’autre part, les résultats de cet article suggèrent également la prudence lors de l’étude de modèles génératifs pour mieux comprendre l’intelligence et la cognition humaines, car des résultats apparemment de niveau expert peuvent obscurcir les mécanismes non humains.

En conclusion, le paradoxe de l’IA générative encourage les gens à étudier les modèles comme une antithèse intéressante de l’intelligence humaine, plutôt que comme une antithèse parallèle.

« Le paradoxe de l’IA générative met en évidence l’idée intéressante que les modèles d’IA peuvent créer du contenu qu’ils ne comprennent peut-être pas entièrement eux-mêmes. Cela soulève les problèmes potentiels qui se cachent derrière les limites de la compréhension de l’IA et de ses puissantes capacités génératives. ont déclaré les internautes.

Qu’est-ce que le paradoxe de l’IA générative

Commençons par examiner le paradoxe de l’IA générative et le plan expérimental pour le tester.

*Figure 1 : L’IA générative dans le langage et la vision peut produire des résultats de haute qualité. Paradoxalement, cependant, le modèle a du mal à démontrer une compréhension sélective (A,C) ou interrogative (B,D) de ces modèles. *

Les modèles génératifs semblent être plus efficaces pour acquérir des capacités génératives que la compréhension, contrairement à l’intelligence humaine, qui est souvent plus difficile à acquérir.

Pour tester cette hypothèse, une définition opérationnelle des différents aspects du paradoxe est nécessaire. Tout d’abord, pour un modèle et une tâche t, avec l’intelligence humaine comme référence, ce que signifie être « plus efficace » que de comprendre la capacité. En utilisant g et u comme indicateurs de performance pour la génération et la compréhension, les chercheurs ont formalisé l’hypothèse du paradoxe de l’IA générative comme suit :

Pour faire simple, pour une tâche t, si la performance générative humaine g est la même que le modèle, alors la performance de compréhension humaine u sera significativement supérieure au modèle (> ε sous un ε raisonnable). En d’autres termes, le modèle a obtenu de moins bons résultats en termes de compréhension que ce à quoi les chercheurs s’attendraient de la part d’humains dotés de capacités génératives tout aussi puissantes.

La définition opérationnelle de la génération est simple : étant donné une entrée de tâche (question/invite), la génération consiste à générer du contenu observable pour satisfaire cette entrée. Par conséquent, la performance g (par exemple, le style, l’exactitude, la préférence) peut être évaluée automatiquement ou par des humains. Bien que la compréhension ne soit pas définie par quelques résultats observables, elle peut être testée en définissant clairement ses effets :

Évaluation sélective. Dans quelle mesure le modèle peut-il encore sélectionner une réponse précise parmi l’ensemble fourni de candidats dans une version discriminante de la même tâche pour une tâche donnée qui peut générer une réponse ? Un exemple courant est celui des réponses à choix multiples, qui sont l’un des moyens les plus courants de tester la compréhension humaine et la compréhension du langage naturel dans les modèles linguistiques. (Fig. 1, colonnes A, C)
Évaluation basée sur des questions. Dans quelle mesure le modèle peut-il répondre avec précision aux questions sur le contenu et la pertinence d’une sortie de modèle générée donnée ? C’est similaire à un examen oral dans l’éducation. (Figure 1, colonnes B, D).

Ces définitions de la compréhension fournissent un plan pour évaluer le « paradoxe de l’IA générative » et permettent aux chercheurs de tester si l’hypothèse 1 est vraie pour différents modèles, tâches et modèles.

Quand des modèles peuvent être générés, peuvent-ils être discriminés ? **

Tout d’abord, les chercheurs ont effectué une analyse de performance côte à côte des variantes de la tâche générative et de la tâche discriminative dans l’évaluation sélective afin d’évaluer la capacité de génération et de compréhension du modèle dans les modes linguistique et visuel. Ils ont comparé cette génération et les performances de discrimination à celles des humains.

La figure 2 ci-dessous compare les performances de génération et de discrimination de GPT-3.5, GPT-4 et humains. Vous pouvez voir que dans 10 des 13 ensembles de données, il y a au moins un modèle qui soutient la sous-hypothèse 1, avec des modèles qui sont meilleurs que les humains en termes de génération mais moins discriminants que les humains. Sur les 13 ensembles de données, 7 appuient la sous-hypothèse 1 pour les deux modèles.

S’attendre à ce que les humains génèrent des images détaillées comme des modèles visuels est irréaliste, et la personne moyenne ne peut pas égaler la qualité stylistique de modèles comme Midjourney, il est donc supposé que les humains ont des performances génératives inférieures. Seule la précision de génération et de discrimination du modèle est comparée à la précision de discrimination des humains. À l’instar du domaine du langage, la figure 3 montre que CLIP et OpenCLIP sont également moins précis que les humains en termes de performances discriminantes. On suppose que les humains sont moins capables de générer, ce qui est cohérent avec la sous-hypothèse 1 : l’IA visuelle est au-dessus de la moyenne humaine en termes de génération, mais à la traîne derrière les humains en termes de compréhension.

La figure 4 (à gauche) montre GPT-4 par rapport aux humains. En l’examinant, on peut voir que lorsque les réponses sont longues et difficiles, comme le résumé d’un long document, le modèle a tendance à faire le plus d’erreurs dans la tâche discriminante. **Les humains, en revanche, sont capables de maintenir un taux de précision élevé et constant dans des tâches de difficulté variable.

La figure 4 (à droite) montre les performances discriminantes d’OpenCLIP par rapport aux humains à différents niveaux de difficulté. Pris ensemble, ces résultats mettent en évidence la capacité des humains à discerner la bonne réponse même face à des échantillons difficiles ou contradictoires, mais cette capacité n’est pas aussi forte dans les modèles linguistiques. Cette divergence soulève des questions quant à la qualité de la compréhension de ces modèles.

La figure 5 illustre une tendance notable : les évaluateurs ont tendance à privilégier les réponses GPT-4 par rapport aux réponses générées par l’homme.

Le modèle comprend-il les résultats qu’il génère ? **

La section précédente a montré que les modèles sont généralement bons pour générer des réponses précises, mais qu’ils sont à la traîne par rapport aux humains dans la tâche de discrimination. Désormais, dans les évaluations basées sur des questions, les chercheurs posent des questions directement au modèle sur le contenu généré afin d’étudier dans quelle mesure le modèle peut démontrer une compréhension significative du contenu généré – ce qui est la force des humains.

La figure 6 (à gauche) montre les résultats de la modalité linguistique. Bien que le modèle excelle dans la génération, il fait souvent des erreurs lorsqu’il répond à des questions sur sa génération, ce qui suggère que le modèle fait des erreurs de compréhension. En supposant qu’un humain ne puisse pas générer un tel texte à la même vitesse ou à la même échelle, bien que la question porte sur la sortie du modèle lui-même, la précision de l’assurance qualité humaine a toujours été élevée par rapport au modèle. Comme décrit dans la sous-hypothèse 2, les chercheurs s’attendent à ce que les humains atteignent une plus grande précision dans leur propre texte généré. Dans le même temps, on peut noter que les humains de cette étude ne sont pas des experts et qu’il peut être très difficile de produire un texte aussi complexe que la sortie du modèle.

En conséquence, les chercheurs s’attendent à ce que si le modèle est comparé à un expert humain, l’écart de performance dans la compréhension du contenu qu’ils génèrent se creusera, car l’expert humain est susceptible de répondre à ces questions avec une précision presque parfaite.

La figure 6 (à droite) montre les résultats d’une question en mode visuel. Comme vous pouvez le constater, les modèles de compréhension d’images ne peuvent toujours pas être comparés aux humains en termes de précision lorsqu’ils répondent à des questions simples sur les éléments des images générées. Dans le même temps, les modèles SOTA de génération d’images surpassent la plupart des gens ordinaires en termes de qualité et de vitesse de génération d’images (on s’attend à ce qu’il soit difficile pour les gens ordinaires de générer des images réalistes similaires), ce qui suggère que l’IA visuelle est relativement loin derrière les humains en termes de génération (plus forte) et de compréhension (plus faible). Étonnamment, l’écart de performance entre les modèles simples et les humains est plus faible que celui des LLM multimodaux avancés (c’est-à-dire Bard et BingChat), qui ont une compréhension visuelle fascinante mais ont encore du mal à répondre à des questions simples sur les images générées.

Voir l'original