GPT-4V aprendió a operar computadoras automáticamente, y finalmente llegó el día.
Solo necesita conectar mouse y teclado a GPT-4V, y puede navegar por Internet de acuerdo con la interfaz del navegador:
Incluso puedes averiguar rápidamente el sitio web del reproductor y el botón de "reproducir música", y darte una pieza musical:
¿No da un poco de miedo?
Este es un nuevo trabajo realizado por un hermano estudiante del MIT, llamado GPT-4V-Act.
Con solo unas pocas herramientas simples, GPT-4V puede aprender a controlar su teclado y mouse, usar el navegador para publicar en línea, comprar comestibles e incluso jugar.
Si algo sale mal con la herramienta utilizada, GPT-4V incluso lo sabrá e intentará solucionarlo.
A continuación, te explicamos cómo hacerlo.
Enseñar a GPT-4V a "navegar automáticamente por Internet"
GPT-4V-Act, que es esencialmente un asistente multimodal de IA basado en navegador web (Chromium Copilot).
Puede "ver" la interfaz web con un mouse, un teclado y una pantalla como un humano, y usar las teclas interactivas de la página web para dar el siguiente paso.
Para lograr este efecto, además de GPT-4V, se utilizan tres herramientas.
Una es la interfaz de usuario, que permite a GPT-4V "ver" capturas de pantalla de páginas web, y también permite a los usuarios interactuar con GPT-4V.
De esta manera, GPT-4V puede reflejar la idea de cada paso en forma de cuadro de diálogo, y el usuario puede decidir si continuar operándolo.
La otra es la herramienta Set-of-Mark ing (SoM), una herramienta que permite a GPT-4V aprender a interactuar.
Esta herramienta fue inventada por Microsoft para diseñar mejor las palabras de aviso para GPT-4V.
En lugar de dejar que GPT-4V "mire directamente la imagen y hable", esta herramienta puede dividir los detalles clave de la imagen en diferentes partes y numerarlas, de modo que se pueda apuntar a GPT-4V:
Lo mismo ocurre con la web, donde Set-of-Mark utiliza un enfoque similar para permitir que GPT-4V sepa en qué parte del navegador web buscar la respuesta e interactuar con ella.
Por último, también hay que utilizar un etiquetador automático JS DOM, que puede marcar todos los botones interactivos del lado web, y dejar que GPT-4V decida cuál pulsar.
Después de un conjunto de procesos, GPT-4V no solo puede determinar con precisión qué contenido de la imagen satisface las necesidades, sino también encontrar con precisión los botones interactivos y aprender a "navegar automáticamente por Internet".
Es un gran proyecto, y hasta ahora solo se han implementado algunas de las funciones, como hacer clic, escribir interacción, anotación automática, etc.
A continuación, hay otras características para implementar, como probar el marcador de IA (la interacción actual en el lado web sigue siendo a través de la interfaz JS para saber dónde interactuar y no el reconocimiento de IA) y solicitar al usuario que ingrese información detallada.
Además, el autor también mencionó que todavía hay algunos puntos a los que prestar atención en el uso de GPT-4V-Act en esta etapa.
Por ejemplo, GPT-4V-Act puede estar "confundido" por los abrumadores anuncios emergentes después de abrir la página web, y luego habrá un error de interacción.
Otro ejemplo es que este tipo de juego puede violar las regulaciones de uso de productos de OpenAI:
Salvo que lo permita la API, no puede utilizar ningún método automatizado o programático para extraer datos de los Servicios y la salida, incluido el raspado, la recolección web o la extracción de datos web.
Por lo tanto, también debe ser discreto al usarlo (doge)
Los autores de Microsoft SoM también vienen a ver
Después de que el proyecto se publicara en línea, atrajo a muchos espectadores.
Por ejemplo, el autor de la herramienta Set-of-Mark de Microsoft utilizada por mi hermano encontró este proyecto:
¡Excelente trabajo!
Algunos internautas mencionaron que incluso se puede usar para hacer que la IA lea el código de verificación por sí misma.
Como se menciona en el proyecto SoM, GPT-4V puede descifrar con éxito los CAPTCHA (por lo que es posible que no sepas si se trata de un humano o una máquina navegando por Internet en el futuro).
)。
Al mismo tiempo, algunos internautas ya están imaginando el funcionamiento de la automatización de escritorio.
A lo que el autor respondió:
anotador automático de IA debería poder hacer esto, y planeo hacer un Copilot más genérico.
Sin embargo, en la actualidad, GPT-4V todavía tiene que cargarse, ¿hay alguna otra forma de implementarlo?
Los autores también dicen que aún no los hay, pero que podrían probar modelos de código abierto como Fuyu-8B o LLa.
Se puede esperar que un asistente de IA de transmisión de escritorio automatizado gratuito esté a una ola de distancia.
Enlaces de referencia:
[1]
[2]
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
GPT-4V aprendió a navegar por Internet con un teclado y un ratón, y los humanos lo vieron publicar y jugar
Fuente del artículo: qubits
Solo necesita conectar mouse y teclado a GPT-4V, y puede navegar por Internet de acuerdo con la interfaz del navegador:
Este es un nuevo trabajo realizado por un hermano estudiante del MIT, llamado GPT-4V-Act.
Si algo sale mal con la herramienta utilizada, GPT-4V incluso lo sabrá e intentará solucionarlo.
Enseñar a GPT-4V a "navegar automáticamente por Internet"
GPT-4V-Act, que es esencialmente un asistente multimodal de IA basado en navegador web (Chromium Copilot).
Puede "ver" la interfaz web con un mouse, un teclado y una pantalla como un humano, y usar las teclas interactivas de la página web para dar el siguiente paso.
Para lograr este efecto, además de GPT-4V, se utilizan tres herramientas.
Una es la interfaz de usuario, que permite a GPT-4V "ver" capturas de pantalla de páginas web, y también permite a los usuarios interactuar con GPT-4V.
De esta manera, GPT-4V puede reflejar la idea de cada paso en forma de cuadro de diálogo, y el usuario puede decidir si continuar operándolo.
En lugar de dejar que GPT-4V "mire directamente la imagen y hable", esta herramienta puede dividir los detalles clave de la imagen en diferentes partes y numerarlas, de modo que se pueda apuntar a GPT-4V:
Por último, también hay que utilizar un etiquetador automático JS DOM, que puede marcar todos los botones interactivos del lado web, y dejar que GPT-4V decida cuál pulsar.
Es un gran proyecto, y hasta ahora solo se han implementado algunas de las funciones, como hacer clic, escribir interacción, anotación automática, etc.
A continuación, hay otras características para implementar, como probar el marcador de IA (la interacción actual en el lado web sigue siendo a través de la interfaz JS para saber dónde interactuar y no el reconocimiento de IA) y solicitar al usuario que ingrese información detallada.
Por ejemplo, GPT-4V-Act puede estar "confundido" por los abrumadores anuncios emergentes después de abrir la página web, y luego habrá un error de interacción.
Los autores de Microsoft SoM también vienen a ver
Después de que el proyecto se publicara en línea, atrajo a muchos espectadores.
Por ejemplo, el autor de la herramienta Set-of-Mark de Microsoft utilizada por mi hermano encontró este proyecto:
A lo que el autor respondió:
Los autores también dicen que aún no los hay, pero que podrían probar modelos de código abierto como Fuyu-8B o LLa.
Enlaces de referencia:
[1]
[2]