GPT-4V aprendeu a navegar na Internet com um teclado e mouse, e os seres humanos assistiram postar e jogar jogos

Fonte do artigo: qubits

GPT-4V aprendeu a operar computadores automaticamente, e o dia finalmente chegou.

Você só precisa conectar mouse e teclado ao GPT-4V, e ele pode navegar na Internet de acordo com a interface do navegador:

Você pode até descobrir rapidamente o site do player e o botão para "reproduzir música", e dar a si mesmo um pedaço de música:

Não é um pouco assustador?

Este é um novo trabalho feito por um irmão de graduação do MIT, chamado GPT-4V-Act.

Com apenas algumas ferramentas simples, o GPT-4V pode aprender a controlar seu teclado e mouse, usar o navegador para postar online, comprar mantimentos e até mesmo jogar.

Se algo der errado com a ferramenta usada, o GPT-4V estará ciente disso e tentará corrigi-lo.

Veja como.

Ensine o GPT-4V a "navegar automaticamente na Internet"

GPT-4V-Act, que é essencialmente um assistente multimodal de IA baseado em navegador web (Chromium Copilot).

Ele pode "ver" a interface da web com um mouse, teclado e tela, assim como um ser humano, e usar as teclas interativas na página da web para dar o próximo passo.

Para conseguir este efeito, além do GPT-4V, são utilizadas três ferramentas.

Um deles é a interface UI, que permite que o GPT-4V "veja" capturas de tela de páginas da web, e também permite que os usuários interajam com o GPT-4V.

Desta forma, o GPT-4V pode refletir a ideia de cada etapa na forma de uma caixa de diálogo, e o usuário pode decidir se deseja continuar a operá-la.

A outra é a ferramenta Set-of-Mark ing (SoM), uma ferramenta que permite que o GPT-4V aprenda a interagir.

Esta ferramenta foi inventada pela Microsoft para melhor projetar palavras de prompt para GPT-4V.

Em vez de deixar o GPT-4V diretamente "olhar para a imagem e falar", esta ferramenta pode dividir os principais detalhes da imagem em diferentes partes e numerá-los, para que o GPT-4V possa ser direcionado:

O mesmo é verdade para a web, onde o Set-of-Mark ing usa uma abordagem semelhante para permitir que o GPT-4V saiba qual parte do navegador da Web procurar a resposta e interagir com ela.

Finalmente, você também precisa usar um auto-labeler JS DOM, que pode marcar todos os botões interativos no lado da web, e deixar GPT-4V decidir qual pressionar.

Após um conjunto de processos, GPT-4V pode não só determinar com precisão qual conteúdo na imagem atende às necessidades, mas também encontrar com precisão os botões interativos e aprender a "navegar automaticamente na Internet".

É um grande projeto, e apenas alguns dos recursos foram implementados até agora, incluindo clique, interação de digitação, anotação automática, etc.

Em seguida, há outros recursos para implementar, como tentar o marcador de IA (a interação atual no lado da web ainda é através da interface JS para saber onde interagir e não reconhecimento de IA) e solicitar que o usuário insira informações detalhadas.

Além disso, o autor também mencionou que ainda existem alguns pontos a serem observados no uso do GPT-4V-Act nesta fase.

Por exemplo, GPT-4V-Act pode ser "confundido" pelos anúncios pop-up esmagadores depois que a página da web é aberta, e então haverá um bug de interação.

Outro exemplo é que este tipo de jogo pode violar os regulamentos de uso de produtos da OpenAI:

Exceto conforme permitido pela API, você não pode usar nenhum método automatizado ou programático para extrair dados dos Serviços e saída, incluindo raspagem, coleta da Web ou extração de dados da Web.

Portanto, você também deve ser discreto ao usá-lo (doge)

Autores do Microsoft SoM também vêm assistir

Depois que o projeto foi postado on-line, atraiu muitos espectadores.

Por exemplo, o autor da ferramenta Set-of-Mark da Microsoft usada pelo meu irmão encontrou este projeto:

Excelente trabalho!

Alguns internautas mencionaram que ele pode até ser usado para fazer a IA ler o código de verificação por si só.

Como mencionado no projeto SoM, o GPT-4V pode decifrar com sucesso CAPTCHAs (então você pode não saber se é um ser humano ou uma máquina navegando na Internet no futuro).

)。

Ao mesmo tempo, alguns internautas já estão imaginando o funcionamento da automação de desktop.

Ao que o autor respondeu:

anotador automático de IA deve ser capaz de fazer isso, e eu planejo fazer um Copilot mais genérico.

No entanto, no momento, GPT-4V ainda tem que ser cobrado, existe alguma outra maneira de implementá-lo?

Os autores também dizem que ainda não existem, mas que eles podem tentar modelos de código aberto como Fuyu-8B ou LLa.

Pode-se esperar que um assistente de IA de streaming de desktop automatizado gratuito esteja a uma onda de distância.

Links de referência:
[1]
[2]

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • 1
  • Repostar
  • Compartilhar
Comentário
0/400
GoodFortuneComesvip
· 2023-11-05 05:24
IA se desenvolve em um adulto, não é assustador [surpreso]
Ver originalResponder0
Faça trade de criptomoedas em qualquer lugar e a qualquer hora
qrCode
Escaneie o código para baixar o app da Gate
Comunidade
Português (Brasil)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)