Na quarta-feira, a OpenAI acaba de anunciar o levantamento da proibição dos recursos multimodais do ChatGPT.
Agora, assim que fica online, os internautas enlouquecem instantaneamente.
A seguir, vamos dar uma olhada em quão fortes são os recursos de reconhecimento de imagem do ChatGPT.
Tire uma foto e carregue-a, e o código será gerado instantaneamente
Um internauta gravou um vídeo e carregou uma imagem no quadro branco durante uma reunião e depois pediu ao ChatGPT para escrever o código.
Além disso, você pode fazer upload de um esboço desenhado à mão e pedir ao ChatGPT para criar uma página da web em HTML.
Whoosh whoosh, o código saiu a cada minuto.
Esta é simplesmente a capacidade multimodal demonstrada por Greg Brockman quando o GPT-4 foi lançado este ano.
Para outro exemplo, tire uma foto do seu caderno de lista de tarefas.
Então deixe o GPT-4 fazer uma GUI Python Tkinter, e então ela foi implementada...
Manuscritos de pergaminhos antigos, traduzidos rapidamente
Aqui está outro manuscrito do alquimista Robert Boyle do século 17. O GPT-4 pode lê-lo?
Isto é moleza para isso.
Por exemplo, "Manual Medicinal Catalão sobre Múmias Medicinais".
ChatGPT também pode transcrever e traduzir.
Benjamin Breen, professor associado de história da UCSC, disse:
Isso terá um impacto significativo sobre os historiadores. Imagine um GPT-4 multimodal personalizado treinado em um conjunto específico de manuscritos. Pode não apenas transcrever, mas também traduzir e classificar. (É isso, escrever sem LLM, que é importante na minha opinião).
O resumo do gráfico também é muito 6
Você também pode comandar o GPT-4 para extrair dados com base no gráfico.
O código Python pode então ser criado para replicar o gráfico e torná-lo mais parecido com um gráfico.
Em seguida, jogue o gráfico de tendências de ações nele, e ele também poderá analisar e resumir as características.
Reconhecer imagens de "QI Superior"
Dê ao GPT-4 uma imagem abstrata.
Na verdade, consegue identificar com precisão a metáfora da “importância da comunicação” que estas quatro imagens pretendem expressar, o que é ultrajante.
O GPT-4V pode até ler a caligrafia dos médicos.
Alguns internautas japoneses usaram diretamente Sun Wukong de "Dragon Ball" para fazer o teste ChatGPT.
Existem também vários códigos de verificação para “você é humano?”
Faça upload de um trabalho seu e o GPT-4 também poderá fornecer sugestões de melhorias.
Alguns internautas descobriram que o GPT-4V deu a resposta correta a esta pergunta no artigo do Kosmos-1, mas houve um erro no processo de raciocínio.
Com esse recurso, as crianças não precisam mais fazer lição de casa.
Resumo dos internautas
Além da experiência acima, alguns internautas escreveram um longo artigo apresentando seu próprio teste do GPT-4V.
Teste 1: perguntas e respostas visuais
Dê-me um emoticon e veja se o GPT-4V o entende bem?
GPT-4V explica com sucesso porque é interessante e menciona os componentes individuais da imagem e como eles estão conectados.
É importante notar que o GPT-4V é capaz de ler e responder aos comentários fornecidos entre colchetes.
Apesar disso, o GPT-4V ainda cometeu um erro, marcando o frango frito como “NVIDIA BURGER” em vez de “GPU”.
Depois, teste novamente com uma moeda, uma foto de um centavo americano. O GPT-4V é capaz de identificar com sucesso a origem e a denominação da moeda.
Mas se for uma imagem de várias moedas e perguntar GPT-4V, quanto dinheiro eu tenho?
Neste ponto, ele só consegue identificar o número de moedas, mas não o tipo de moeda.
Teste 2: reconhecimento de OCR
Capture imagens de texto de páginas da web e carregue-as. O GPT-4V pode ler o conteúdo muito bem.
Teste 3: OCR matemático
OCR matemático é uma forma especial de reconhecimento óptico de caracteres voltada para equações matemáticas.
Um internauta perguntou ao GPT-4V um problema matemático e o apresentou na forma de uma captura de tela do documento.
Este problema envolve calcular o comprimento de uma linha de zíper dados 2 ângulos, com o prompt "resolva" na imagem.
O modelo identifica problemas que podem ser resolvidos usando trigonometria, identifica as funções a serem usadas e fornece um passo a passo de como resolver o problema. O GPT-4V fornece então a resposta correta à pergunta.
Dito isto, a placa do sistema GPT-4V afirma que o modelo pode estar faltando símbolos matemáticos.
Diferentes testes, incluindo testes com equações ou expressões escritas à mão no papel, podem indicar a capacidade insuficiente de um modelo para responder a questões matemáticas.
Teste 4: Detecção de Objetos
Solicitando ao GPT-4V para detectar um cachorro em uma imagem e fornecer valores x_min, y_min, x_max e y_max relacionados à posição do cachorro, as coordenadas da caixa delimitadora retornadas pelo GPT-4V não correspondem a posição do cachorro.
Embora o GPT-4V seja muito poderoso para responder a perguntas sobre imagens, este modelo não pode substituir o ajuste fino dos modelos de detecção de objetos quando você deseja saber onde um objeto está na imagem.
Teste 5: Código de verificação
Descobriu-se que o GPT-4V é capaz de reconhecer imagens contendo códigos de verificação, mas muitas vezes falhou no teste.
Em um exemplo de seleção de grades de semáforos, o GPT-4V selecionou menos grades contendo semáforos.
Teste 6: Palavras Cruzadas e Sudoku
No teste de Sudoku, o GPT-4V reconheceu o jogo, mas entendeu mal a estrutura do tabuleiro e, portanto, retornou resultados imprecisos.
A propósito, a função de rede ChatGPT está de volta.
Referências:
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
A proibição multimodal do ChatGPT foi suspensa, os internautas estão enlouquecendo!
**Fonte:**Xinzhiyuan
Na quarta-feira, a OpenAI acaba de anunciar o levantamento da proibição dos recursos multimodais do ChatGPT.
Agora, assim que fica online, os internautas enlouquecem instantaneamente.
A seguir, vamos dar uma olhada em quão fortes são os recursos de reconhecimento de imagem do ChatGPT.
Tire uma foto e carregue-a, e o código será gerado instantaneamente
Um internauta gravou um vídeo e carregou uma imagem no quadro branco durante uma reunião e depois pediu ao ChatGPT para escrever o código.
Esta é simplesmente a capacidade multimodal demonstrada por Greg Brockman quando o GPT-4 foi lançado este ano.
Manuscritos de pergaminhos antigos, traduzidos rapidamente
Aqui está outro manuscrito do alquimista Robert Boyle do século 17. O GPT-4 pode lê-lo?
Isso terá um impacto significativo sobre os historiadores. Imagine um GPT-4 multimodal personalizado treinado em um conjunto específico de manuscritos. Pode não apenas transcrever, mas também traduzir e classificar. (É isso, escrever sem LLM, que é importante na minha opinião).
O resumo do gráfico também é muito 6
Você também pode comandar o GPT-4 para extrair dados com base no gráfico.
Reconhecer imagens de "QI Superior"
Dê ao GPT-4 uma imagem abstrata.
Na verdade, consegue identificar com precisão a metáfora da “importância da comunicação” que estas quatro imagens pretendem expressar, o que é ultrajante.
Resumo dos internautas
Além da experiência acima, alguns internautas escreveram um longo artigo apresentando seu próprio teste do GPT-4V.
Dê-me um emoticon e veja se o GPT-4V o entende bem?
É importante notar que o GPT-4V é capaz de ler e responder aos comentários fornecidos entre colchetes.
Apesar disso, o GPT-4V ainda cometeu um erro, marcando o frango frito como “NVIDIA BURGER” em vez de “GPU”.
Depois, teste novamente com uma moeda, uma foto de um centavo americano. O GPT-4V é capaz de identificar com sucesso a origem e a denominação da moeda.
Neste ponto, ele só consegue identificar o número de moedas, mas não o tipo de moeda.
Capture imagens de texto de páginas da web e carregue-as. O GPT-4V pode ler o conteúdo muito bem.
OCR matemático é uma forma especial de reconhecimento óptico de caracteres voltada para equações matemáticas.
Um internauta perguntou ao GPT-4V um problema matemático e o apresentou na forma de uma captura de tela do documento.
Este problema envolve calcular o comprimento de uma linha de zíper dados 2 ângulos, com o prompt "resolva" na imagem.
Dito isto, a placa do sistema GPT-4V afirma que o modelo pode estar faltando símbolos matemáticos.
Diferentes testes, incluindo testes com equações ou expressões escritas à mão no papel, podem indicar a capacidade insuficiente de um modelo para responder a questões matemáticas.
Teste 4: Detecção de Objetos
Solicitando ao GPT-4V para detectar um cachorro em uma imagem e fornecer valores x_min, y_min, x_max e y_max relacionados à posição do cachorro, as coordenadas da caixa delimitadora retornadas pelo GPT-4V não correspondem a posição do cachorro.
Teste 5: Código de verificação
Descobriu-se que o GPT-4V é capaz de reconhecer imagens contendo códigos de verificação, mas muitas vezes falhou no teste.
Em um exemplo de seleção de grades de semáforos, o GPT-4V selecionou menos grades contendo semáforos.
No teste de Sudoku, o GPT-4V reconheceu o jogo, mas entendeu mal a estrutura do tabuleiro e, portanto, retornou resultados imprecisos.