Les capacités multimodales de ChatGPT ont suscité un engouement, mais son propre article a révélé que GPT-4V présente encore des défauts.

Écrit par Kyle Wiggers

Source : TechCrunch

Source de l'image : générée par l'outil Unbounded AI

Lorsque OpenAI a lancé pour la première fois son modèle phare d'IA de génération de texte GPT-4, la société a vanté la multimodalité du modèle, en d'autres termes, sa capacité à comprendre non seulement le texte mais également les images. OpenAI affirme que GPT-4 peut sous-titrer et même expliquer des images relativement complexes, comme l'identification d'un adaptateur de câble Lightning à partir d'une image d'un iPhone branché dessus.

Mais depuis la sortie de GPT-4 fin mars, OpenAI a conservé les capacités d'imagerie du modèle, apparemment en raison de préoccupations concernant une utilisation abusive et des problèmes de confidentialité. Jusqu’à récemment, la nature exacte de ces préoccupations restait un mystère. Plus tôt cette semaine, OpenAI a publié un document technique détaillant ses travaux visant à réduire les aspects problématiques de l'outil d'analyse d'images GPT-4.

À ce jour, le GPT-4 compatible avec la vision (appelé en interne « GPT-4V » chez OpenAI) n'est utilisé régulièrement que par les milliers d'utilisateurs de Be My Eyes, une application qui aide les personnes malvoyantes et aveugles à naviguer dans leur environnement. Cependant, au cours des derniers mois, OpenAI a également commencé à travailler avec des « équipes rouges » pour explorer le modèle à la recherche de signes de comportement inattendu, selon le journal.

Dans le document, OpenAI affirme avoir mis en place des mesures de protection pour empêcher toute utilisation malveillante de GPT-4V, comme le déchiffrement de CAPTCHA, l'identification d'une personne ou l'estimation de son âge ou de sa race, et la conclusion basée sur des informations qui ne sont pas présentes sur la photo. . OpenAI a également déclaré avoir travaillé pour supprimer les préjugés les plus préjudiciables du GPT-4V, en particulier ceux liés à l'apparence, au sexe ou à la race d'une personne.

Mais comme pour tous les modèles d’IA, les mesures de protection ont leurs limites.

L'article montre que GPT-4V avait parfois du mal à faire des déductions correctes, par exemple en combinant incorrectement deux chaînes de texte dans une image pour créer un terme fictif. Comme le GPT-4 de base, le GPT-4V a tendance à halluciner ou à fabriquer des faits sur un ton autoritaire. De plus, il manque des mots ou des caractères, ignore les symboles mathématiques et ne parvient pas à reconnaître des objets et des couverts assez évidents.

Il n’est donc pas surprenant qu’OpenAI déclare explicitement que GPT-4V ne peut pas être utilisé pour détecter des substances ou produits chimiques dangereux dans les images. (Ce journaliste n’a même pas pensé à un tel cas d’utilisation, mais apparemment, OpenAI est suffisamment intéressé par cette perspective pour que l’entreprise ait jugé nécessaire de le signaler). Les équipes rouges ont découvert que même si le modèle identifiait parfois correctement les aliments toxiques, tels que les champignons vénéneux, il identifiait également de manière incorrecte des substances telles que le fentanyl, le carfentanil et la cocaïne dans les images de structures chimiques.

Le GPT-4V a également eu de mauvais résultats lorsqu'il a été appliqué à l'imagerie médicale, donnant parfois des réponses incorrectes à la même question alors qu'il avait répondu correctement dans des situations précédentes. De plus, GPT-4V ignore certaines pratiques standard, telles que la visualisation des images avec le patient face à vous (ce qui signifie que le côté droit de l'image correspond au côté gauche du patient), ce qui peut également conduire à un diagnostic erroné.

Ailleurs, prévient OpenAI, GPT-4V ne comprend pas non plus les nuances de certains symboles de haine – par exemple, il ne connaît pas la signification moderne de la Croix du Temple (pour la suprématie blanche) aux États-Unis. Encore plus étrange, et peut-être un symptôme de ses tendances hallucinatoires, GPT-4V a été observé en train de composer des chansons ou des poèmes faisant l'éloge de certaines figures ou groupes haineux lorsqu'on leur en donne des images, même si ces figures ou groupes ne sont pas représentés. Nommez-les clairement.

GPT-4V discrimine également certains sexes et types de corps, mais uniquement lorsque les garanties de rendement d'OpenAI sont désactivées. Dans un test, lorsqu'on lui a demandé de donner des conseils à une femme portant un maillot de bain, GPT-4V a donné des réponses qui étaient presque entièrement liées aux concepts de poids et de condition physique de la femme, écrit OpenAI. Nous pensons que ce ne serait pas le cas si la personne sur la photo était un homme.

À en juger par les mises en garde du document, GPT-4V est encore un travail en cours – encore à plusieurs pas de la vision originale d'OpenAI. Dans de nombreux cas, l’entreprise a dû mettre en œuvre des mesures de protection trop strictes pour empêcher les modèles de diffuser des informations toxiques ou erronées ou de compromettre la vie privée.

OpenAI affirme qu'il construit des « mesures d'atténuation » et des « processus » pour étendre les capacités du modèle de manière « sûre », par exemple en permettant à GPT-4V de décrire des visages et des personnes sans les nommer. Mais cet article montre que GPT-4V n’est pas omnipotent et qu’OpenAI a encore beaucoup de travail à faire.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Partager
Commentaire
0/400
Aucun commentaire
  • Épingler
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)