GPT-4V a appris à faire fonctionner les ordinateurs automatiquement, et le jour est enfin arrivé.
Il vous suffit de brancher la souris et le clavier à GPT-4V, et il peut surfer sur Internet en fonction de l’interface du navigateur :
Vous pouvez même trouver rapidement le site Web du lecteur et le bouton pour « jouer de la musique », et vous offrir un morceau de musique :
N’est-ce pas un peu effrayant ?
Il s’agit d’un nouveau travail créé par un frère étudiant de premier cycle du MIT, nommé GPT-4V-Act.
Avec seulement quelques outils simples, GPT-4V peut apprendre à contrôler votre clavier et votre souris, à utiliser le navigateur pour publier en ligne, à acheter des produits d’épicerie et même à jouer à des jeux.
Si quelque chose ne va pas avec l’outil utilisé, GPT-4V en sera même conscient et essaiera de le réparer.
Voici comment.
Apprendre à GPT-4V à « surfer automatiquement sur Internet"
GPT-4V-Act, qui est essentiellement un assistant multimodal d’IA basé sur un navigateur Web (Chromium Copilot).
Il peut « voir » l’interface Web avec une souris, un clavier et un écran comme un humain, et utiliser les touches interactives de la page Web pour passer à l’étape suivante.
Pour obtenir cet effet, en plus de GPT-4V, trois outils sont utilisés.
L’une d’entre elles est l’interface utilisateur, qui permet à GPT-4V de « voir » des captures d’écran de pages Web, et permet également aux utilisateurs d’interagir avec GPT-4V.
De cette façon, GPT-4V peut refléter l’idée de chaque étape sous la forme d’une boîte de dialogue, et l’utilisateur peut décider de continuer à l’utiliser.
L’autre est l’outil Set-of-Mark ing (SoM), un outil qui permet à GPT-4V d’apprendre à interagir.
Cet outil a été inventé par Microsoft pour mieux concevoir des mots d’invite pour GPT-4V.
Au lieu de laisser GPT-4V directement « regarder l’image et parler », cet outil peut diviser les détails clés de l’image en différentes parties et les numéroter, de sorte que GPT-4V puisse être ciblé :
Il en va de même pour le Web, où le Set-of-Mark utilise une approche similaire pour permettre à GPT-4V de savoir dans quelle partie du navigateur Web chercher la réponse et interagir avec elle.
Enfin, vous devez également utiliser un auto-étiqueteur JS DOM, qui peut marquer tous les boutons interactifs du côté Web, et laisser GPT-4V décider sur lequel appuyer.
Après un ensemble de processus, GPT-4V peut non seulement déterminer avec précision quel contenu de l’image répond aux besoins, mais aussi trouver avec précision les boutons interactifs et apprendre à « surfer automatiquement sur Internet ».
Il s’agit d’un gros projet, et seules certaines des fonctionnalités ont été implémentées jusqu’à présent, notamment le clic, l’interaction de saisie, l’annotation automatique, etc.
Ensuite, il y a d’autres fonctionnalités à mettre en œuvre, comme essayer le marqueur AI (l’interaction actuelle côté web se fait toujours via l’interface JS pour savoir où interagir et non la reconnaissance de l’IA), et inviter l’utilisateur à saisir des informations détaillées.
En outre, l’auteur a également mentionné qu’il y a encore quelques points à prendre en compte dans l’utilisation de GPT-4V-Act à ce stade.
Par exemple, GPT-4V-Act peut être « confus » par les publicités pop-up écrasantes après l’ouverture de la page Web, et il y aura alors un bogue d’interaction.
Un autre exemple est que ce type de jeu peut enfreindre les règles d’utilisation des produits d’OpenAI :
Sauf dans les cas autorisés par l’API, vous ne pouvez pas utiliser de méthodes automatisées ou programmatiques pour extraire des données des Services et de la sortie, y compris le grattage, la collecte Web ou l’extraction de données Web.
Vous devez donc également être discret lorsque vous l’utilisez (doge)
Les auteurs de Microsoft SoM viennent aussi regarder
Après sa mise en ligne, le projet a attiré de nombreux spectateurs.
Par exemple, l’auteur de l’outil Set-of-Mark de Microsoft utilisé par mon frère a trouvé ce projet :
Excellent travail !
Certains internautes ont mentionné qu’il peut même être utilisé pour faire en sorte que l’IA lise le code de vérification par elle-même.
Comme mentionné dans le projet SoM, GPT-4V peut déchiffrer avec succès les CAPTCHA (vous ne saurez donc peut-être pas s’il s’agit d’un humain ou d’une machine qui surfera sur Internet à l’avenir).
)。
Dans le même temps, certains internautes imaginent déjà le fonctionnement de l’automatisation des postes de travail.
Ce à quoi l’auteur a répondu :
annotateur automatique de l’IA devrait être capable de le faire, et j’ai l’intention de créer un Copilot plus générique.
Cependant, à l’heure actuelle, GPT-4V doit encore être chargé, existe-t-il un autre moyen de le mettre en œuvre ?
Les auteurs disent également qu’il n’y en a pas encore, mais qu’ils pourraient essayer des modèles open source tels que Fuyu-8B ou LLa.
On peut s’attendre à ce qu’un assistant IA de streaming de bureau automatisé gratuit soit à portée de main.
Liens de référence :
[1]
[2]
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
2 J'aime
Récompense
2
1
Reposter
Partager
Commentaire
0/400
GoodFortuneComes
· 2023-11-05 05:24
L’IA se développe en adulte, n’est-ce pas effrayant [surpris]
GPT-4V a appris à surfer sur Internet avec un clavier et une souris, et les humains l’ont regardé poster et jouer à des jeux
Source de l’article : qubits
Il vous suffit de brancher la souris et le clavier à GPT-4V, et il peut surfer sur Internet en fonction de l’interface du navigateur :
Il s’agit d’un nouveau travail créé par un frère étudiant de premier cycle du MIT, nommé GPT-4V-Act.
Si quelque chose ne va pas avec l’outil utilisé, GPT-4V en sera même conscient et essaiera de le réparer.
Apprendre à GPT-4V à « surfer automatiquement sur Internet"
GPT-4V-Act, qui est essentiellement un assistant multimodal d’IA basé sur un navigateur Web (Chromium Copilot).
Il peut « voir » l’interface Web avec une souris, un clavier et un écran comme un humain, et utiliser les touches interactives de la page Web pour passer à l’étape suivante.
Pour obtenir cet effet, en plus de GPT-4V, trois outils sont utilisés.
L’une d’entre elles est l’interface utilisateur, qui permet à GPT-4V de « voir » des captures d’écran de pages Web, et permet également aux utilisateurs d’interagir avec GPT-4V.
De cette façon, GPT-4V peut refléter l’idée de chaque étape sous la forme d’une boîte de dialogue, et l’utilisateur peut décider de continuer à l’utiliser.
Au lieu de laisser GPT-4V directement « regarder l’image et parler », cet outil peut diviser les détails clés de l’image en différentes parties et les numéroter, de sorte que GPT-4V puisse être ciblé :
Enfin, vous devez également utiliser un auto-étiqueteur JS DOM, qui peut marquer tous les boutons interactifs du côté Web, et laisser GPT-4V décider sur lequel appuyer.
Il s’agit d’un gros projet, et seules certaines des fonctionnalités ont été implémentées jusqu’à présent, notamment le clic, l’interaction de saisie, l’annotation automatique, etc.
Ensuite, il y a d’autres fonctionnalités à mettre en œuvre, comme essayer le marqueur AI (l’interaction actuelle côté web se fait toujours via l’interface JS pour savoir où interagir et non la reconnaissance de l’IA), et inviter l’utilisateur à saisir des informations détaillées.
Par exemple, GPT-4V-Act peut être « confus » par les publicités pop-up écrasantes après l’ouverture de la page Web, et il y aura alors un bogue d’interaction.
Les auteurs de Microsoft SoM viennent aussi regarder
Après sa mise en ligne, le projet a attiré de nombreux spectateurs.
Par exemple, l’auteur de l’outil Set-of-Mark de Microsoft utilisé par mon frère a trouvé ce projet :
Ce à quoi l’auteur a répondu :
Les auteurs disent également qu’il n’y en a pas encore, mais qu’ils pourraient essayer des modèles open source tels que Fuyu-8B ou LLa.
Liens de référence :
[1]
[2]