Mercredi, OpenAI vient d'annoncer la levée de l'interdiction des capacités multimodales de ChatGPT.
Désormais, dès sa mise en ligne, les internautes deviennent instantanément fous.
Voyons ensuite à quel point les capacités de reconnaissance d’images de ChatGPT sont puissantes.
Prenez une photo et téléchargez-la, et le code sera généré instantanément
Un internaute a enregistré une vidéo et téléchargé une image sur un tableau blanc lors d'une réunion, puis a demandé à ChatGPT d'écrire le code.
Vous pouvez également télécharger un croquis dessiné à la main et demander à ChatGPT de créer une page Web en HTML.
Whoosh whoosh, le code sortait toutes les minutes.
Il s’agit simplement de la capacité multimodale démontrée par Greg Brockman lors de la sortie de GPT-4 cette année.
Pour un autre exemple, prenez une photo de votre carnet de tâches.
Ensuite, laissez GPT-4 créer une interface graphique Python Tkinter, puis elle a été implémentée...
Manuscrits anciens parchemins, traduits en un coup d'œil
Voici un autre dessin manuscrit de l'alchimiste du XVIIe siècle Robert Boyle. GPT-4 peut-il le lire ?
C'est du gâteau pour cela.
Par exemple, "Manuel médicinal catalan sur les momies médicinales".
ChatGPT peut également transcrire et traduire.
Benjamin Breen, professeur agrégé d'histoire à l'UCSC, a déclaré :
Cela aura un impact significatif sur les historiens. Imaginez un GPT-4 multimodal personnalisé formé sur un ensemble spécifique de manuscrits. Il peut non seulement transcrire, mais aussi traduire et classer. (C'est ça, écrire sans LLM, qui est un gros problème à mon avis).
Le résumé du graphique est également très 6
Vous pouvez également commander à GPT-4 pour extraire des données basées sur le graphique.
Du code Python peut ensuite être créé pour répliquer le graphique et le rendre plus semblable à un graphique.
Ensuite, jetez-y le graphique de tendance boursière, et il peut également analyser et résumer les caractéristiques.
Reconnaître les images « QI supérieur »
Donnez à GPT-4 une image abstraite.
On peut effectivement identifier avec précision la métaphore de « l'importance de la communication » que ces quatre images veulent exprimer, ce qui est scandaleux.
GPT-4V peut même lire l’écriture manuscrite des médecins.
Certains internautes japonais ont directement utilisé Sun Wukong de "Dragon Ball" pour passer le test ChatGPT.
Il existe également divers codes de vérification pour « êtes-vous humain ? »
Téléchargez une partie de votre propre travail et GPT-4 peut également vous donner des suggestions d'amélioration.
Certains internautes ont découvert que GPT-4V avait donné la bonne réponse à cette question dans l'article kosmos-1, mais il y avait une erreur dans le processus de raisonnement.
Grâce à cette fonctionnalité, les enfants n'ont plus à faire leurs devoirs.
Résumé des internautes
En plus de l'expérience ci-dessus, certains internautes ont écrit un long article présentant leur propre test du GPT-4V.
Test 1 : Questions et réponses visuelles
Donnez-moi une émoticône et voyez dans quelle mesure GPT-4V la comprend ?
GPT-4V explique avec succès pourquoi il est intéressant et mentionne les différents composants de l'image et comment ils sont connectés.
Il convient de noter que GPT-4V est capable de lire et de répondre aux commentaires entre crochets fournis.
Malgré cela, GPT-4V a quand même commis une erreur en marquant le poulet frit comme « NVIDIA BURGER » au lieu de « GPU ».
Ensuite, testez-le à nouveau avec une pièce de monnaie, une photo d'un sou américain. GPT-4V est capable d'identifier avec succès l'origine et la dénomination de la pièce.
Mais s'il s'agit d'une image de plusieurs pièces et que l'on demande GPT-4V, de combien d'argent ai-je ?
À ce stade, il ne peut identifier que le nombre de pièces, mais pas le type de devise.
Test 2 : reconnaissance OCR
Capturez des images de texte à partir de pages Web et téléchargez-les. GPT-4V peut très bien lire le contenu.
Test 3 : OCR mathématique
L'OCR mathématique est une forme spéciale de reconnaissance optique de caractères qui cible les équations mathématiques.
Un internaute a posé à GPT-4V un problème mathématique et l'a présenté sous la forme d'une capture d'écran du document.
Ce problème consiste à calculer la longueur d'une ligne de fermeture à glissière étant donné 2 angles, avec l'invite « résoudre » sur l'image.
Le modèle identifie les problèmes qui peuvent être résolus à l'aide de la trigonométrie, identifie les fonctions à utiliser et fournit une présentation étape par étape de la façon de résoudre le problème. GPT-4V fournit alors la bonne réponse à la question.
Cela dit, la carte système GPT-4V indique qu'il peut manquer des symboles mathématiques dans le modèle.
Différents tests, y compris des tests avec des équations ou des expressions écrites à la main sur papier, peuvent indiquer la capacité insuffisante d'un modèle à répondre à des questions mathématiques.
Test 4 : Détection d'objets
En demandant à GPT-4V de détecter un chien dans une image et de fournir les valeurs x_min, y_min, x_max et y_max liées à la position du chien, les coordonnées du cadre de délimitation renvoyées par GPT-4V ne correspondent pas la position du chien.
Bien que GPT-4V soit très puissant pour répondre aux questions sur l'image, ce modèle ne peut pas remplacer le réglage fin des modèles de détection d'objets lorsque vous souhaitez savoir où se trouve un objet dans l'image.
Test 5 : Code de vérification
GPT-4V s’est avéré capable de reconnaître les images contenant des codes de vérification, mais a souvent échoué au test.
Dans un exemple de sélection de grilles de feux de circulation, GPT-4V a sélectionné moins de grilles contenant des feux de circulation.
Test 6 : Mots croisés et Sudoku
Dans le test Sudoku, GPT-4V a reconnu le jeu mais a mal compris la structure du plateau et a donc renvoyé des résultats inexacts.
À propos, la fonction réseau ChatGPT est de retour.
Les références:
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
L'interdiction multimodale de ChatGPT est levée, les internautes deviennent fous !
**Source :**Xinzhiyuan
Mercredi, OpenAI vient d'annoncer la levée de l'interdiction des capacités multimodales de ChatGPT.
Désormais, dès sa mise en ligne, les internautes deviennent instantanément fous.
Voyons ensuite à quel point les capacités de reconnaissance d’images de ChatGPT sont puissantes.
Prenez une photo et téléchargez-la, et le code sera généré instantanément
Un internaute a enregistré une vidéo et téléchargé une image sur un tableau blanc lors d'une réunion, puis a demandé à ChatGPT d'écrire le code.
Il s’agit simplement de la capacité multimodale démontrée par Greg Brockman lors de la sortie de GPT-4 cette année.
Manuscrits anciens parchemins, traduits en un coup d'œil
Voici un autre dessin manuscrit de l'alchimiste du XVIIe siècle Robert Boyle. GPT-4 peut-il le lire ?
Cela aura un impact significatif sur les historiens. Imaginez un GPT-4 multimodal personnalisé formé sur un ensemble spécifique de manuscrits. Il peut non seulement transcrire, mais aussi traduire et classer. (C'est ça, écrire sans LLM, qui est un gros problème à mon avis).
Le résumé du graphique est également très 6
Vous pouvez également commander à GPT-4 pour extraire des données basées sur le graphique.
Reconnaître les images « QI supérieur »
Donnez à GPT-4 une image abstraite.
On peut effectivement identifier avec précision la métaphore de « l'importance de la communication » que ces quatre images veulent exprimer, ce qui est scandaleux.
Résumé des internautes
En plus de l'expérience ci-dessus, certains internautes ont écrit un long article présentant leur propre test du GPT-4V.
Donnez-moi une émoticône et voyez dans quelle mesure GPT-4V la comprend ?
Il convient de noter que GPT-4V est capable de lire et de répondre aux commentaires entre crochets fournis.
Malgré cela, GPT-4V a quand même commis une erreur en marquant le poulet frit comme « NVIDIA BURGER » au lieu de « GPU ».
Ensuite, testez-le à nouveau avec une pièce de monnaie, une photo d'un sou américain. GPT-4V est capable d'identifier avec succès l'origine et la dénomination de la pièce.
À ce stade, il ne peut identifier que le nombre de pièces, mais pas le type de devise.
Capturez des images de texte à partir de pages Web et téléchargez-les. GPT-4V peut très bien lire le contenu.
L'OCR mathématique est une forme spéciale de reconnaissance optique de caractères qui cible les équations mathématiques.
Un internaute a posé à GPT-4V un problème mathématique et l'a présenté sous la forme d'une capture d'écran du document.
Ce problème consiste à calculer la longueur d'une ligne de fermeture à glissière étant donné 2 angles, avec l'invite « résoudre » sur l'image.
Cela dit, la carte système GPT-4V indique qu'il peut manquer des symboles mathématiques dans le modèle.
Différents tests, y compris des tests avec des équations ou des expressions écrites à la main sur papier, peuvent indiquer la capacité insuffisante d'un modèle à répondre à des questions mathématiques.
Test 4 : Détection d'objets
En demandant à GPT-4V de détecter un chien dans une image et de fournir les valeurs x_min, y_min, x_max et y_max liées à la position du chien, les coordonnées du cadre de délimitation renvoyées par GPT-4V ne correspondent pas la position du chien.
Test 5 : Code de vérification
GPT-4V s’est avéré capable de reconnaître les images contenant des codes de vérification, mais a souvent échoué au test.
Dans un exemple de sélection de grilles de feux de circulation, GPT-4V a sélectionné moins de grilles contenant des feux de circulation.
Dans le test Sudoku, GPT-4V a reconnu le jeu mais a mal compris la structure du plateau et a donc renvoyé des résultats inexacts.