O modelo rei multimodal GPT-4V, 166 páginas de "instruções" é lançado! E é produzido pela Microsoft Team.
Que tipo de artigo pode ser escrito em 166 páginas?
Ele não apenas avalia detalhadamente o desempenho do GPT-4V nas dez principais tarefas, mas também demonstra tudo, desde reconhecimento básico de imagem até raciocínio lógico complexo;
Ele também ensina um conjunto completo de modelos grandes multimodais dicas de habilidades de uso de palavras——
Ele ensina passo a passo como escrever palavras rápidas de 0 a 1, e o nível profissional da resposta é fácil de entender à primeira vista. Isso realmente torna inexistente o limite para o uso do GPT-4V.
Vale ressaltar que o autor deste artigo também é uma “classe totalmente chinesa”, os sete autores são todos chineses, e a líder é uma mulher gerente-chefe de pesquisa que trabalha na Microsoft há 17 anos.
Antes do lançamento do relatório de 166 páginas, eles também participaram da pesquisa do mais recente DALL·E 3 da OpenAI e possuem um profundo conhecimento desta área.
Comparado com o artigo GPT-4V de 18 páginas da OpenAI, este "Guia Alimentar" de 166 páginas foi imediatamente considerado uma leitura obrigatória para usuários do GPT-4V:
Alguns internautas lamentaram: Isto não é um jornal, é quase um livro de 166 páginas.
Alguns internautas já entraram em pânico após lerem:
Não olhe apenas para os detalhes da resposta do GPT-4V, estou realmente assustado com as capacidades potenciais da IA.
Então, sobre o que exatamente fala o “artigo” da Microsoft e que “potencial” ele mostra sobre o GPT-4V?
**O que diz o relatório de 166 páginas da Microsoft? **
Este artigo estuda o método GPT-4V, cujo núcleo se baseia em uma palavra: "tentar".
Os pesquisadores da Microsoft projetaram uma série de entradas cobrindo vários domínios, alimentaram-nas no GPT-4V e observaram e registraram a saída do GPT-4V.
Posteriormente, eles avaliaram a capacidade do GPT-4V de completar várias tarefas e também forneceram novas técnicas de prompt para usar o GPT-4V, incluindo quatro aspectos principais:
**1. Uso de GPT-4V: **
5 formas de uso: imagens de entrada (imagens), subimagens (subimagens), textos (textos), textos de cena (textos de cena) e ponteiros visuais (ponteiros visuais).
3 recursos suportados: seguimento de instruções, cadeia de pensamentos e aprendizado rápido no contexto.
Por exemplo, esta é a habilidade de seguir instruções demonstrada pelo GPT-4V após alterar o método de questionamento baseado na cadeia de pensamento:
**2. Desempenho do GPT-4V em 10 tarefas principais: **
Compreensão visual de mundo aberto, descrição visual, conhecimento multimodal, senso comum, compreensão de texto de cena, raciocínio de documentos, escrita Codificação, raciocínio temporal, raciocínio abstrato, compreensão de emoções
Entre elas estão este tipo de “questões de raciocínio de imagem” que requerem algum QI para serem resolvidas:
**3. Solicitar habilidades com palavras para grandes modelos multimodais semelhantes ao GPT-4V: **
É proposta uma nova técnica multimodal de palavras-chave "referência visual", que pode indicar a tarefa de interesse editando diretamente a imagem de entrada e usada em combinação com outras técnicas de palavras-chave.
**4. Potencial de pesquisa e implementação de grandes modelos multimodais: **
Estão previstos dois tipos de áreas nas quais os pesquisadores de aprendizagem multimodal devem se concentrar, incluindo implementação (cenários de aplicação potencial) e direções de pesquisa.
Por exemplo, este é um dos cenários possíveis para o GPT-4V encontrados pelos pesquisadores – detecção de falhas:
Mas seja a nova tecnologia de prompt word ou os cenários de aplicação do GPT-4V, o que mais preocupa todos é a verdadeira força do GPT-4V.
Portanto, este “manual de instruções” posteriormente utilizou mais de 150 páginas para mostrar diversas demonstrações, detalhando as capacidades do GPT-4V diante de diferentes respostas.
Vamos dar uma olhada em até que ponto as capacidades multimodais do GPT-4V evoluíram hoje.
Proficiente em imagens em áreas profissionais e também pode adquirir conhecimentos agora
Identificação da imagem
A identificação mais básica é, obviamente, moleza, como celebridades de todas as esferas da vida nos círculos de tecnologia, esportes e entretenimento:
E você não só pode ver quem são essas pessoas, mas também interpretar o que elas estão fazendo. Por exemplo, na imagem abaixo, Huang está apresentando os novos produtos de placas gráficas da Nvidia.
Além das pessoas, os edifícios de referência também são moleza para o GPT-4V. Ele pode não apenas determinar o nome e a localização, mas também fornecer apresentações detalhadas.
△Esquerda: Times Square, Nova York, direita: Templo Kinkakuji, Kyoto
No entanto, quanto mais pessoas e lugares famosos são, mais fácil é julgar, por isso são necessárias imagens mais difíceis para mostrar as capacidades do GPT-4V.
Por exemplo, em imagens médicas, para a seguinte tomografia computadorizada de pulmão, o GPT-4V deu esta conclusão:
Existem consolidações e opacidades em vidro fosco em diversas áreas de ambos os pulmões e pode haver infecção ou inflamação nos pulmões. Também pode haver uma massa ou nódulo no lobo superior do pulmão direito.
Mesmo sem informar ao GPT-4V o tipo e localização da imagem, ele pode julgá-la por si só.
Nesta imagem, o GPT-4V identificou-a com sucesso como uma imagem de ressonância magnética (MRI) do cérebro.
Ao mesmo tempo, o GPT-4V também encontrou um grande acúmulo de líquido, que foi considerado um glioma de alto grau.
Após julgamento profissional, a conclusão do GPT-4V é totalmente correta.
Além desses conteúdos “sérios”, os emoticons do “patrimônio cultural imaterial” da sociedade humana contemporânea também foram capturados pelo GPT-4V.
△Tradução automática, apenas para referência
Não só pode interpretar memes em emoticons, mas as emoções expressadas pelas expressões humanas no mundo real também podem ser vistas pelo GPT-4.
Além dessas imagens reais, o reconhecimento de texto também é uma tarefa importante na visão artificial.
Nesse sentido, o GPT-4V pode não apenas reconhecer idiomas escritos com caracteres latinos, mas também reconhecer outros idiomas, como chinês, japonês e grego.
Até fórmulas matemáticas manuscritas:
### Raciocínio da imagem
A DEMO mostrada acima, por mais profissional ou difícil de entender, ainda está no escopo do reconhecimento, mas esta é apenas a ponta do iceberg das habilidades do GPT-4V.
Além de compreender o conteúdo da imagem, o GPT-4V também possui certas capacidades de raciocínio.
Simplificando, o GPT-4V pode encontrar as diferenças entre as duas imagens (embora ainda existam alguns erros).
No conjunto de fotos a seguir, as diferenças entre a coroa e o arco foram descobertas pelo GPT-4V.
Se aumentar a dificuldade, o GPT-4V também pode resolver os problemas gráficos no teste de QI.
As características ou relações lógicas nas três questões acima são relativamente simples, mas a dificuldade surgirá a seguir:
É claro que a dificuldade não está nos gráficos em si. Preste atenção na quarta descrição do texto da imagem. A disposição dos gráficos na pergunta original não é a mostrada na imagem.
### Anotação de imagem
Além de responder diversas perguntas com texto, o GPT-4V também pode realizar uma série de operações em imagens.
Por exemplo, temos uma foto de grupo de quatro gigantes de IA e precisamos do GPT-4V para enquadrar os personagens e rotular seus nomes e breves apresentações.
O GPT-4V primeiro respondeu a estas perguntas com texto e depois forneceu as imagens processadas:
### Análise de conteúdo dinâmica
Além desses conteúdos estáticos, o GPT-4V também pode realizar análises dinâmicas, mas não alimenta diretamente o modelo com um vídeo.
As cinco imagens abaixo foram tiradas de um vídeo tutorial sobre como fazer sushi. A tarefa do GPT-4V é adivinhar a ordem em que essas imagens aparecem (com base na compreensão do conteúdo).
Para a mesma série de imagens, pode haver diferentes maneiras de compreendê-las. É por isso que o GPT-4V fará julgamentos com base em instruções de texto.
Por exemplo, no conjunto de imagens a seguir, se a ação da pessoa for abrir ou fechar a porta levará a resultados de classificação completamente opostos.
É claro que, através das mudanças no status dos personagens em múltiplas imagens, também podemos inferir o que eles estão fazendo.
Ou até mesmo prever o que acontecerá a seguir:
### "Aprendizagem no local"
O GPT-4V não só possui fortes habilidades visuais, mas o segredo é que pode ser aprendido e vendido imediatamente.
Por exemplo, se for solicitado ao GPT-4V que leia o painel de um carro, a resposta obtida inicialmente está errada:
Então dei o método para GPT-4V em texto, mas esta resposta ainda está errada:
Aí mostrei o exemplo para GPT-4V, e a resposta foi parecida, mas infelizmente os números foram formados aleatoriamente.
Apenas um exemplo é um pouco pequeno, mas à medida que o número de amostras aumenta (na verdade, há apenas mais uma), o trabalho árduo finalmente compensa e o GPT-4V dá a resposta correta.
GPT-4V mostra apenas alguns efeitos. Claro, ele também suporta mais campos e tarefas. É impossível mostrá-los um por um aqui. Se você estiver interessado, pode ler o relatório original.
Então, que tipo de equipe está por trás dos efeitos desses artefatos como o GPT-4V?
Líder de ex-alunos de Tsinghua
Há um total de 7 autores deste artigo, todos chineses, 6 dos quais são autores principais.
O principal autor do projeto, Lijuan Wang, é o principal gerente de pesquisa de computação em nuvem e IA da Microsoft.
Ela se formou na Universidade de Ciência e Tecnologia de Huazhong e recebeu seu doutorado na Universidade de Tsinghua, na China. Ela ingressou na Microsoft Research Asia em 2006 e na Microsoft Research em Redmond em 2016.
Seu campo de pesquisa é aprendizado profundo e aprendizado de máquina baseado em inteligência perceptiva multimodal, que inclui especificamente pré-treinamento de modelos de linguagem visual, geração de legendas de imagens, detecção de alvos e outras tecnologias de IA.
Endereço original:
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
A Microsoft escreveu um manual GPT-4V: 166 páginas de explicações completas e detalhadas, incluindo exemplos de demonstração de palavras rápidas.
Fonte: Qubits
O modelo rei multimodal GPT-4V, 166 páginas de "instruções" é lançado! E é produzido pela Microsoft Team.
Que tipo de artigo pode ser escrito em 166 páginas?
Ele não apenas avalia detalhadamente o desempenho do GPT-4V nas dez principais tarefas, mas também demonstra tudo, desde reconhecimento básico de imagem até raciocínio lógico complexo;
Ele também ensina um conjunto completo de modelos grandes multimodais dicas de habilidades de uso de palavras——
Ele ensina passo a passo como escrever palavras rápidas de 0 a 1, e o nível profissional da resposta é fácil de entender à primeira vista. Isso realmente torna inexistente o limite para o uso do GPT-4V.
Antes do lançamento do relatório de 166 páginas, eles também participaram da pesquisa do mais recente DALL·E 3 da OpenAI e possuem um profundo conhecimento desta área.
Comparado com o artigo GPT-4V de 18 páginas da OpenAI, este "Guia Alimentar" de 166 páginas foi imediatamente considerado uma leitura obrigatória para usuários do GPT-4V:
**O que diz o relatório de 166 páginas da Microsoft? **
Este artigo estuda o método GPT-4V, cujo núcleo se baseia em uma palavra: "tentar".
Os pesquisadores da Microsoft projetaram uma série de entradas cobrindo vários domínios, alimentaram-nas no GPT-4V e observaram e registraram a saída do GPT-4V.
Posteriormente, eles avaliaram a capacidade do GPT-4V de completar várias tarefas e também forneceram novas técnicas de prompt para usar o GPT-4V, incluindo quatro aspectos principais:
**1. Uso de GPT-4V: **
5 formas de uso: imagens de entrada (imagens), subimagens (subimagens), textos (textos), textos de cena (textos de cena) e ponteiros visuais (ponteiros visuais).
3 recursos suportados: seguimento de instruções, cadeia de pensamentos e aprendizado rápido no contexto.
Por exemplo, esta é a habilidade de seguir instruções demonstrada pelo GPT-4V após alterar o método de questionamento baseado na cadeia de pensamento:
Compreensão visual de mundo aberto, descrição visual, conhecimento multimodal, senso comum, compreensão de texto de cena, raciocínio de documentos, escrita Codificação, raciocínio temporal, raciocínio abstrato, compreensão de emoções
Entre elas estão este tipo de “questões de raciocínio de imagem” que requerem algum QI para serem resolvidas:
É proposta uma nova técnica multimodal de palavras-chave "referência visual", que pode indicar a tarefa de interesse editando diretamente a imagem de entrada e usada em combinação com outras técnicas de palavras-chave.
Estão previstos dois tipos de áreas nas quais os pesquisadores de aprendizagem multimodal devem se concentrar, incluindo implementação (cenários de aplicação potencial) e direções de pesquisa.
Por exemplo, este é um dos cenários possíveis para o GPT-4V encontrados pelos pesquisadores – detecção de falhas:
Vamos dar uma olhada em até que ponto as capacidades multimodais do GPT-4V evoluíram hoje.
Proficiente em imagens em áreas profissionais e também pode adquirir conhecimentos agora
Identificação da imagem
A identificação mais básica é, obviamente, moleza, como celebridades de todas as esferas da vida nos círculos de tecnologia, esportes e entretenimento:
No entanto, quanto mais pessoas e lugares famosos são, mais fácil é julgar, por isso são necessárias imagens mais difíceis para mostrar as capacidades do GPT-4V.
Por exemplo, em imagens médicas, para a seguinte tomografia computadorizada de pulmão, o GPT-4V deu esta conclusão:
Nesta imagem, o GPT-4V identificou-a com sucesso como uma imagem de ressonância magnética (MRI) do cérebro.
Ao mesmo tempo, o GPT-4V também encontrou um grande acúmulo de líquido, que foi considerado um glioma de alto grau.
Após julgamento profissional, a conclusão do GPT-4V é totalmente correta.
Não só pode interpretar memes em emoticons, mas as emoções expressadas pelas expressões humanas no mundo real também podem ser vistas pelo GPT-4.
Nesse sentido, o GPT-4V pode não apenas reconhecer idiomas escritos com caracteres latinos, mas também reconhecer outros idiomas, como chinês, japonês e grego.
A DEMO mostrada acima, por mais profissional ou difícil de entender, ainda está no escopo do reconhecimento, mas esta é apenas a ponta do iceberg das habilidades do GPT-4V.
Além de compreender o conteúdo da imagem, o GPT-4V também possui certas capacidades de raciocínio.
Simplificando, o GPT-4V pode encontrar as diferenças entre as duas imagens (embora ainda existam alguns erros).
No conjunto de fotos a seguir, as diferenças entre a coroa e o arco foram descobertas pelo GPT-4V.
É claro que a dificuldade não está nos gráficos em si. Preste atenção na quarta descrição do texto da imagem. A disposição dos gráficos na pergunta original não é a mostrada na imagem.
Além de responder diversas perguntas com texto, o GPT-4V também pode realizar uma série de operações em imagens.
Por exemplo, temos uma foto de grupo de quatro gigantes de IA e precisamos do GPT-4V para enquadrar os personagens e rotular seus nomes e breves apresentações.
Além desses conteúdos estáticos, o GPT-4V também pode realizar análises dinâmicas, mas não alimenta diretamente o modelo com um vídeo.
As cinco imagens abaixo foram tiradas de um vídeo tutorial sobre como fazer sushi. A tarefa do GPT-4V é adivinhar a ordem em que essas imagens aparecem (com base na compreensão do conteúdo).
Por exemplo, no conjunto de imagens a seguir, se a ação da pessoa for abrir ou fechar a porta levará a resultados de classificação completamente opostos.
O GPT-4V não só possui fortes habilidades visuais, mas o segredo é que pode ser aprendido e vendido imediatamente.
Por exemplo, se for solicitado ao GPT-4V que leia o painel de um carro, a resposta obtida inicialmente está errada:
Então, que tipo de equipe está por trás dos efeitos desses artefatos como o GPT-4V?
Líder de ex-alunos de Tsinghua
Há um total de 7 autores deste artigo, todos chineses, 6 dos quais são autores principais.
Seu campo de pesquisa é aprendizado profundo e aprendizado de máquina baseado em inteligência perceptiva multimodal, que inclui especificamente pré-treinamento de modelos de linguagem visual, geração de legendas de imagens, detecção de alvos e outras tecnologias de IA.
Endereço original: