GPT-4V aprendeu a operar computadores automaticamente, e o dia finalmente chegou.
Você só precisa conectar mouse e teclado ao GPT-4V, e ele pode navegar na Internet de acordo com a interface do navegador:
Você pode até descobrir rapidamente o site do player e o botão para "reproduzir música", e dar a si mesmo um pedaço de música:
Não é um pouco assustador?
Este é um novo trabalho feito por um irmão de graduação do MIT, chamado GPT-4V-Act.
Com apenas algumas ferramentas simples, o GPT-4V pode aprender a controlar seu teclado e mouse, usar o navegador para postar online, comprar mantimentos e até mesmo jogar.
Se algo der errado com a ferramenta usada, o GPT-4V estará ciente disso e tentará corrigi-lo.
Veja como.
Ensine o GPT-4V a "navegar automaticamente na Internet"
GPT-4V-Act, que é essencialmente um assistente multimodal de IA baseado em navegador web (Chromium Copilot).
Ele pode "ver" a interface da web com um mouse, teclado e tela, assim como um ser humano, e usar as teclas interativas na página da web para dar o próximo passo.
Para conseguir este efeito, além do GPT-4V, são utilizadas três ferramentas.
Um deles é a interface UI, que permite que o GPT-4V "veja" capturas de tela de páginas da web, e também permite que os usuários interajam com o GPT-4V.
Desta forma, o GPT-4V pode refletir a ideia de cada etapa na forma de uma caixa de diálogo, e o usuário pode decidir se deseja continuar a operá-la.
A outra é a ferramenta Set-of-Mark ing (SoM), uma ferramenta que permite que o GPT-4V aprenda a interagir.
Esta ferramenta foi inventada pela Microsoft para melhor projetar palavras de prompt para GPT-4V.
Em vez de deixar o GPT-4V diretamente "olhar para a imagem e falar", esta ferramenta pode dividir os principais detalhes da imagem em diferentes partes e numerá-los, para que o GPT-4V possa ser direcionado:
O mesmo é verdade para a web, onde o Set-of-Mark ing usa uma abordagem semelhante para permitir que o GPT-4V saiba qual parte do navegador da Web procurar a resposta e interagir com ela.
Finalmente, você também precisa usar um auto-labeler JS DOM, que pode marcar todos os botões interativos no lado da web, e deixar GPT-4V decidir qual pressionar.
Após um conjunto de processos, GPT-4V pode não só determinar com precisão qual conteúdo na imagem atende às necessidades, mas também encontrar com precisão os botões interativos e aprender a "navegar automaticamente na Internet".
É um grande projeto, e apenas alguns dos recursos foram implementados até agora, incluindo clique, interação de digitação, anotação automática, etc.
Em seguida, há outros recursos para implementar, como tentar o marcador de IA (a interação atual no lado da web ainda é através da interface JS para saber onde interagir e não reconhecimento de IA) e solicitar que o usuário insira informações detalhadas.
Além disso, o autor também mencionou que ainda existem alguns pontos a serem observados no uso do GPT-4V-Act nesta fase.
Por exemplo, GPT-4V-Act pode ser "confundido" pelos anúncios pop-up esmagadores depois que a página da web é aberta, e então haverá um bug de interação.
Outro exemplo é que este tipo de jogo pode violar os regulamentos de uso de produtos da OpenAI:
Exceto conforme permitido pela API, você não pode usar nenhum método automatizado ou programático para extrair dados dos Serviços e saída, incluindo raspagem, coleta da Web ou extração de dados da Web.
Portanto, você também deve ser discreto ao usá-lo (doge)
Autores do Microsoft SoM também vêm assistir
Depois que o projeto foi postado on-line, atraiu muitos espectadores.
Por exemplo, o autor da ferramenta Set-of-Mark da Microsoft usada pelo meu irmão encontrou este projeto:
Excelente trabalho!
Alguns internautas mencionaram que ele pode até ser usado para fazer a IA ler o código de verificação por si só.
Como mencionado no projeto SoM, o GPT-4V pode decifrar com sucesso CAPTCHAs (então você pode não saber se é um ser humano ou uma máquina navegando na Internet no futuro).
)。
Ao mesmo tempo, alguns internautas já estão imaginando o funcionamento da automação de desktop.
Ao que o autor respondeu:
anotador automático de IA deve ser capaz de fazer isso, e eu planejo fazer um Copilot mais genérico.
No entanto, no momento, GPT-4V ainda tem que ser cobrado, existe alguma outra maneira de implementá-lo?
Os autores também dizem que ainda não existem, mas que eles podem tentar modelos de código aberto como Fuyu-8B ou LLa.
Pode-se esperar que um assistente de IA de streaming de desktop automatizado gratuito esteja a uma onda de distância.
Links de referência:
[1]
[2]
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
2 Curtidas
Recompensa
2
1
Repostar
Compartilhar
Comentário
0/400
GoodFortuneComes
· 2023-11-05 05:24
IA se desenvolve em um adulto, não é assustador [surpreso]
GPT-4V aprendeu a navegar na Internet com um teclado e mouse, e os seres humanos assistiram postar e jogar jogos
Fonte do artigo: qubits
Você só precisa conectar mouse e teclado ao GPT-4V, e ele pode navegar na Internet de acordo com a interface do navegador:
Este é um novo trabalho feito por um irmão de graduação do MIT, chamado GPT-4V-Act.
Se algo der errado com a ferramenta usada, o GPT-4V estará ciente disso e tentará corrigi-lo.
Ensine o GPT-4V a "navegar automaticamente na Internet"
GPT-4V-Act, que é essencialmente um assistente multimodal de IA baseado em navegador web (Chromium Copilot).
Ele pode "ver" a interface da web com um mouse, teclado e tela, assim como um ser humano, e usar as teclas interativas na página da web para dar o próximo passo.
Para conseguir este efeito, além do GPT-4V, são utilizadas três ferramentas.
Um deles é a interface UI, que permite que o GPT-4V "veja" capturas de tela de páginas da web, e também permite que os usuários interajam com o GPT-4V.
Desta forma, o GPT-4V pode refletir a ideia de cada etapa na forma de uma caixa de diálogo, e o usuário pode decidir se deseja continuar a operá-la.
Em vez de deixar o GPT-4V diretamente "olhar para a imagem e falar", esta ferramenta pode dividir os principais detalhes da imagem em diferentes partes e numerá-los, para que o GPT-4V possa ser direcionado:
Finalmente, você também precisa usar um auto-labeler JS DOM, que pode marcar todos os botões interativos no lado da web, e deixar GPT-4V decidir qual pressionar.
É um grande projeto, e apenas alguns dos recursos foram implementados até agora, incluindo clique, interação de digitação, anotação automática, etc.
Em seguida, há outros recursos para implementar, como tentar o marcador de IA (a interação atual no lado da web ainda é através da interface JS para saber onde interagir e não reconhecimento de IA) e solicitar que o usuário insira informações detalhadas.
Por exemplo, GPT-4V-Act pode ser "confundido" pelos anúncios pop-up esmagadores depois que a página da web é aberta, e então haverá um bug de interação.
Autores do Microsoft SoM também vêm assistir
Depois que o projeto foi postado on-line, atraiu muitos espectadores.
Por exemplo, o autor da ferramenta Set-of-Mark da Microsoft usada pelo meu irmão encontrou este projeto:
Ao que o autor respondeu:
Os autores também dizem que ainda não existem, mas que eles podem tentar modelos de código aberto como Fuyu-8B ou LLa.
Links de referência:
[1]
[2]