Le modèle roi multimodal GPT-4V, 166 pages d'"instructions" est sorti ! Et il est produit par Microsoft Team.
Quel type de document peut être rédigé en 166 pages ?
Il évalue non seulement les performances de GPT-4V en détail sur les dix principales tâches, mais démontre également tout, de la reconnaissance d'images de base au raisonnement logique complexe ;
Il enseigne également un ensemble complet de grands modèles multimodaux compétences d'utilisation des mots——
Il vous apprend étape par étape comment écrire des mots d'invite de 0 à 1, et le niveau professionnel de la réponse est facile à comprendre en un coup d'œil. Cela rend vraiment le seuil d'utilisation de GPT-4V inexistant.
Il convient de mentionner que l'auteur de cet article est également une « classe entièrement chinoise » : les sept auteurs sont tous chinois et le leader est une femme directrice de recherche en chef qui travaille chez Microsoft depuis 17 ans.
Avant la publication du rapport de 166 pages, ils ont également participé à la recherche du dernier DALL·E 3 d'OpenAI et ont une compréhension approfondie de ce domaine.
Comparé au document GPT-4V de 18 pages d'OpenAI, ce « Guide alimentaire » de 166 pages a été immédiatement considéré comme une lecture incontournable pour les utilisateurs de GPT-4V :
Certains internautes ont déploré : ce n'est pas un journal, c'est presque un livre de 166 pages.
Certains internautes étaient déjà paniqués après avoir lu :
Ne vous contentez pas de regarder les détails de la réponse de GPT-4V, j'ai vraiment peur des capacités potentielles de l'IA.
Alors, de quoi parle exactement le « document » de Microsoft et quel « potentiel » montre-t-il à propos du GPT-4V ?
**Que dit le rapport de 166 pages de Microsoft ? **
Cet article étudie la méthode GPT-4V, dont le cœur repose sur un seul mot : "essayer".
Les chercheurs de Microsoft ont conçu une série d'entrées couvrant plusieurs domaines, les ont transmises à GPT-4V, puis ont observé et enregistré la sortie de GPT-4V.
Par la suite, ils ont évalué la capacité du GPT-4V à accomplir diverses tâches et ont également proposé de nouvelles techniques de mots d'invite pour l'utilisation du GPT-4V, comprenant quatre aspects principaux :
**1. Utilisation de GPT-4V : **
5 façons d'utiliser : images d'entrée (images), sous-images (sous-images), textes (textes), textes de scène (textes de scène) et pointeurs visuels (pointeurs visuels).
3 fonctionnalités prises en charge : suivi des instructions, chaîne de pensées et apprentissage en quelques étapes en contexte.
Par exemple, il s'agit de la capacité de suivi d'instruction démontrée par GPT-4V après avoir changé la méthode de questionnement en fonction de la chaîne de pensée :
**2. Performances du GPT-4V dans 10 tâches principales : **
Compréhension visuelle du monde ouvert, description visuelle, connaissances multimodales, bon sens, compréhension de textes de scène, raisonnement de documents, écriture Codage, raisonnement temporel, raisonnement abstrait, compréhension des émotions
Parmi elles se trouvent ce genre de « questions de raisonnement par image » qui nécessitent un certain QI pour être résolues :
**3. Compétences de mots rapides pour les grands modèles multimodaux similaires à GPT-4V : **
Une nouvelle technique multimodale de mots indicateurs "référence visuelle" est proposée, qui peut indiquer la tâche d'intérêt en éditant directement l'image d'entrée et utilisée en combinaison avec d'autres techniques de mots indicateurs.
**4. Potentiel de recherche et de mise en œuvre des grands modèles multimodaux : **
Deux types de domaines sur lesquels les chercheurs en apprentissage multimodal devraient se concentrer sont prévus, notamment la mise en œuvre (scénarios d'application potentiels) et les orientations de recherche.
Par exemple, c'est l'un des scénarios possibles pour GPT-4V trouvés par les chercheurs - détection de défauts :
Mais qu'il s'agisse de la nouvelle technologie des mots d'invite ou des scénarios d'application du GPT-4V, ce qui préoccupe le plus tout le monde, c'est la véritable force du GPT-4V.
Par conséquent, ce « manuel d’instructions » a ensuite utilisé plus de 150 pages pour montrer diverses démos, détaillant les capacités du GPT-4V face à différentes réponses.
Jetons un coup d'œil à l'évolution actuelle des capacités multimodales du GPT-4V.
Maîtrise des images dans les domaines professionnels et peut également acquérir des connaissances maintenant
Identification des images
L'identification la plus élémentaire est bien sûr un jeu d'enfant, comme les célébrités de tous horizons dans les cercles de la technologie, du sport et du divertissement :
Et non seulement vous pouvez voir qui sont ces personnes, mais vous pouvez également interpréter ce qu'elles font. Par exemple, dans l'image ci-dessous, Huang présente les nouveaux produits de cartes graphiques de Nvidia.
En plus des personnes, les points de repère sont également un jeu d'enfant pour GPT-4V. Il peut non seulement déterminer le nom et l'emplacement, mais également donner des introductions détaillées.
△Gauche : Times Square, New York, droite : Temple Kinkakuji, Kyoto
Cependant, plus les personnes et les lieux sont célèbres, plus il est facile de juger. Des images plus difficiles sont donc nécessaires pour montrer les capacités du GPT-4V.
Par exemple, en imagerie médicale, pour le scanner pulmonaire suivant, GPT-4V a donné cette conclusion :
Il existe des consolidations et des opacités en verre dépoli dans plusieurs zones des deux poumons, et il peut y avoir une infection ou une inflammation dans les poumons. Il peut également y avoir une masse ou un nodule dans le lobe supérieur du poumon droit.
Même sans indiquer au GPT-4V le type et l’emplacement de l’image, il peut la juger par lui-même.
Dans cette image, GPT-4V l’a identifié avec succès comme une image d’imagerie par résonance magnétique (IRM) du cerveau.
Dans le même temps, GPT-4V a également détecté une grande quantité d’accumulation de liquide, considérée comme un gliome de haut grade.
Après jugement professionnel, la conclusion donnée par GPT-4V est tout à fait correcte.
En plus de ces contenus « sérieux », les émoticônes du « patrimoine culturel immatériel » de la société humaine contemporaine ont également été capturées par GPT-4V.
△Traduction automatique, pour référence uniquement
Non seulement il peut interpréter les mèmes dans les émoticônes, mais les émotions exprimées par les expressions humaines dans le monde réel peuvent également être vues par GPT-4.
Outre ces images réelles, la reconnaissance de texte constitue également une tâche importante en vision industrielle.
À cet égard, GPT-4V peut non seulement reconnaître les langues orthographiées avec des caractères latins, mais également reconnaître d'autres langues telles que le chinois, le japonais et le grec.
Même des formules mathématiques manuscrites :
### Raisonnement d'images
La DÉMO présentée ci-dessus, aussi professionnelle soit-elle ou difficile à comprendre, est toujours à portée de reconnaissance, mais ce n'est que la pointe de l'iceberg des compétences de GPT-4V.
En plus de comprendre le contenu de l'image, GPT-4V possède également certaines capacités de raisonnement.
Pour faire simple, GPT-4V peut trouver les différences entre les deux images (même s'il reste encore quelques erreurs).
Dans la série d'images suivante, les différences entre la couronne et l'arc ont été découvertes par GPT-4V.
Si vous augmentez la difficulté, GPT-4V peut également résoudre les problèmes graphiques du test de QI.
Les caractéristiques ou relations logiques dans les trois questions ci-dessus sont relativement simples, mais la difficulté surviendra ensuite :
Bien entendu, la difficulté ne réside pas dans les graphiques eux-mêmes. Faites attention à la quatrième description textuelle de l'image. La disposition des graphiques dans la question d'origine n'est pas celle montrée dans l'image.
### Annotation d'image
En plus de répondre à diverses questions avec du texte, GPT-4V peut également effectuer une série d'opérations sur les images.
Par exemple, nous avons une photo de groupe de quatre géants de l'IA, et nous avons besoin de GPT-4V pour encadrer les personnages et étiqueter leurs noms et de brèves introductions.
GPT-4V a d'abord répondu à ces questions avec du texte, puis a donné l'image traitée :
### Analyse de contenu dynamique
En plus de ces contenus statiques, GPT-4V peut également effectuer une analyse dynamique, mais il n’alimente pas directement le modèle en vidéo.
Les cinq images ci-dessous sont tirées d'un didacticiel vidéo sur la préparation de sushis. La tâche de GPT-4V est de deviner l'ordre dans lequel ces images apparaissent (en fonction de la compréhension du contenu).
Pour une même série d'images, il peut y avoir différentes manières de les comprendre. C'est pourquoi GPT-4V portera des jugements basés sur des invites textuelles.
Par exemple, dans la série d'images suivante, que l'action de la personne soit d'ouvrir ou de fermer la porte entraînera des résultats de tri complètement opposés.
Bien sûr, à travers les changements de statut des personnages dans plusieurs images, nous pouvons également déduire ce qu'ils font.
Ou même prédire ce qui va se passer ensuite :
### "Apprentissage sur site"
GPT-4V possède non seulement de solides compétences visuelles, mais l’essentiel est qu’il peut être appris et vendu immédiatement.
Par exemple, si l’on demande à GPT-4V de lire le tableau de bord d’une voiture, la réponse initialement obtenue est fausse :
Ensuite j'ai donné la méthode à GPT-4V dans le texte, mais cette réponse est toujours fausse :
Ensuite, j'ai montré l'exemple de GPT-4V, et la réponse était similaire, mais malheureusement, les nombres étaient composés de manière aléatoire.
Un seul exemple est effectivement un peu petit, mais à mesure que le nombre d'échantillons augmente (en fait il n'y en a qu'un de plus), le travail acharné finit par payer, et GPT-4V donne la bonne réponse.
GPT-4V n'affiche qu'un nombre limité d'effets. Bien sûr, il prend également en charge davantage de champs et de tâches. Il est impossible de les afficher un par un ici. Si vous êtes intéressé, vous pouvez lire le rapport original.
Alors, quel genre d’équipe se cache derrière les effets de ces artefacts comme GPT-4V ?
Responsable des anciens élèves de Tsinghua
Il y a au total 7 auteurs de cet article, tous chinois, dont 6 sont des auteurs principaux.
L'auteur principal du projet, Lijuan Wang, est le principal responsable de recherche sur le cloud computing et l'IA chez Microsoft.
Elle est diplômée de l'Université des sciences et technologies de Huazhong et a obtenu son doctorat de l'Université Tsinghua en Chine. Elle a rejoint Microsoft Research Asia en 2006 et Microsoft Research à Redmond en 2016.
Son domaine de recherche est l'apprentissage profond et l'apprentissage automatique basés sur l'intelligence perceptuelle multimodale, qui comprend spécifiquement la pré-formation de modèles de langage visuel, la génération de sous-titres d'images, la détection de cibles et d'autres technologies d'IA.
Adresse d'origine :
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
Microsoft a rédigé un manuel GPT-4V : 166 pages d'explications complètes et détaillées, y compris des exemples de démonstration de mots rapides.
Source : Qubits
Le modèle roi multimodal GPT-4V, 166 pages d'"instructions" est sorti ! Et il est produit par Microsoft Team.
Quel type de document peut être rédigé en 166 pages ?
Il évalue non seulement les performances de GPT-4V en détail sur les dix principales tâches, mais démontre également tout, de la reconnaissance d'images de base au raisonnement logique complexe ;
Il enseigne également un ensemble complet de grands modèles multimodaux compétences d'utilisation des mots——
Il vous apprend étape par étape comment écrire des mots d'invite de 0 à 1, et le niveau professionnel de la réponse est facile à comprendre en un coup d'œil. Cela rend vraiment le seuil d'utilisation de GPT-4V inexistant.
Avant la publication du rapport de 166 pages, ils ont également participé à la recherche du dernier DALL·E 3 d'OpenAI et ont une compréhension approfondie de ce domaine.
Comparé au document GPT-4V de 18 pages d'OpenAI, ce « Guide alimentaire » de 166 pages a été immédiatement considéré comme une lecture incontournable pour les utilisateurs de GPT-4V :
**Que dit le rapport de 166 pages de Microsoft ? **
Cet article étudie la méthode GPT-4V, dont le cœur repose sur un seul mot : "essayer".
Les chercheurs de Microsoft ont conçu une série d'entrées couvrant plusieurs domaines, les ont transmises à GPT-4V, puis ont observé et enregistré la sortie de GPT-4V.
Par la suite, ils ont évalué la capacité du GPT-4V à accomplir diverses tâches et ont également proposé de nouvelles techniques de mots d'invite pour l'utilisation du GPT-4V, comprenant quatre aspects principaux :
**1. Utilisation de GPT-4V : **
5 façons d'utiliser : images d'entrée (images), sous-images (sous-images), textes (textes), textes de scène (textes de scène) et pointeurs visuels (pointeurs visuels).
3 fonctionnalités prises en charge : suivi des instructions, chaîne de pensées et apprentissage en quelques étapes en contexte.
Par exemple, il s'agit de la capacité de suivi d'instruction démontrée par GPT-4V après avoir changé la méthode de questionnement en fonction de la chaîne de pensée :
Compréhension visuelle du monde ouvert, description visuelle, connaissances multimodales, bon sens, compréhension de textes de scène, raisonnement de documents, écriture Codage, raisonnement temporel, raisonnement abstrait, compréhension des émotions
Parmi elles se trouvent ce genre de « questions de raisonnement par image » qui nécessitent un certain QI pour être résolues :
Une nouvelle technique multimodale de mots indicateurs "référence visuelle" est proposée, qui peut indiquer la tâche d'intérêt en éditant directement l'image d'entrée et utilisée en combinaison avec d'autres techniques de mots indicateurs.
Deux types de domaines sur lesquels les chercheurs en apprentissage multimodal devraient se concentrer sont prévus, notamment la mise en œuvre (scénarios d'application potentiels) et les orientations de recherche.
Par exemple, c'est l'un des scénarios possibles pour GPT-4V trouvés par les chercheurs - détection de défauts :
Jetons un coup d'œil à l'évolution actuelle des capacités multimodales du GPT-4V.
Maîtrise des images dans les domaines professionnels et peut également acquérir des connaissances maintenant
Identification des images
L'identification la plus élémentaire est bien sûr un jeu d'enfant, comme les célébrités de tous horizons dans les cercles de la technologie, du sport et du divertissement :
Cependant, plus les personnes et les lieux sont célèbres, plus il est facile de juger. Des images plus difficiles sont donc nécessaires pour montrer les capacités du GPT-4V.
Par exemple, en imagerie médicale, pour le scanner pulmonaire suivant, GPT-4V a donné cette conclusion :
Dans cette image, GPT-4V l’a identifié avec succès comme une image d’imagerie par résonance magnétique (IRM) du cerveau.
Dans le même temps, GPT-4V a également détecté une grande quantité d’accumulation de liquide, considérée comme un gliome de haut grade.
Après jugement professionnel, la conclusion donnée par GPT-4V est tout à fait correcte.
Non seulement il peut interpréter les mèmes dans les émoticônes, mais les émotions exprimées par les expressions humaines dans le monde réel peuvent également être vues par GPT-4.
À cet égard, GPT-4V peut non seulement reconnaître les langues orthographiées avec des caractères latins, mais également reconnaître d'autres langues telles que le chinois, le japonais et le grec.
La DÉMO présentée ci-dessus, aussi professionnelle soit-elle ou difficile à comprendre, est toujours à portée de reconnaissance, mais ce n'est que la pointe de l'iceberg des compétences de GPT-4V.
En plus de comprendre le contenu de l'image, GPT-4V possède également certaines capacités de raisonnement.
Pour faire simple, GPT-4V peut trouver les différences entre les deux images (même s'il reste encore quelques erreurs).
Dans la série d'images suivante, les différences entre la couronne et l'arc ont été découvertes par GPT-4V.
Bien entendu, la difficulté ne réside pas dans les graphiques eux-mêmes. Faites attention à la quatrième description textuelle de l'image. La disposition des graphiques dans la question d'origine n'est pas celle montrée dans l'image.
En plus de répondre à diverses questions avec du texte, GPT-4V peut également effectuer une série d'opérations sur les images.
Par exemple, nous avons une photo de groupe de quatre géants de l'IA, et nous avons besoin de GPT-4V pour encadrer les personnages et étiqueter leurs noms et de brèves introductions.
En plus de ces contenus statiques, GPT-4V peut également effectuer une analyse dynamique, mais il n’alimente pas directement le modèle en vidéo.
Les cinq images ci-dessous sont tirées d'un didacticiel vidéo sur la préparation de sushis. La tâche de GPT-4V est de deviner l'ordre dans lequel ces images apparaissent (en fonction de la compréhension du contenu).
Par exemple, dans la série d'images suivante, que l'action de la personne soit d'ouvrir ou de fermer la porte entraînera des résultats de tri complètement opposés.
GPT-4V possède non seulement de solides compétences visuelles, mais l’essentiel est qu’il peut être appris et vendu immédiatement.
Par exemple, si l’on demande à GPT-4V de lire le tableau de bord d’une voiture, la réponse initialement obtenue est fausse :
Alors, quel genre d’équipe se cache derrière les effets de ces artefacts comme GPT-4V ?
Responsable des anciens élèves de Tsinghua
Il y a au total 7 auteurs de cet article, tous chinois, dont 6 sont des auteurs principaux.
Son domaine de recherche est l'apprentissage profond et l'apprentissage automatique basés sur l'intelligence perceptuelle multimodale, qui comprend spécifiquement la pré-formation de modèles de langage visuel, la génération de sous-titres d'images, la détection de cibles et d'autres technologies d'IA.
Adresse d'origine :