um novo método de sinalização visual SoM (Set-of-Mark), que melhorou a compreensão do conteúdo visual do modelo grande multimodal OpenAI GPT-4V.
Fonte original: Heart of the Machine
Fonte da imagem: Gerado por Unbounded AI
Nos últimos tempos, temos testemunhado avanços significativos em grandes modelos de linguagem (LLMs). Em particular, o lançamento de transformadores generativos pré-treinados, ou GPTs, levou a vários avanços na indústria e no meio acadêmico. Desde o lançamento do GPT-4, os grandes modelos multimodais (LMM) têm atraído um interesse crescente na comunidade de investigação, com muito trabalho dedicado à construção do GPT-4 multimodal.
Recentemente, o GPT-4V (ision) recebeu atenção especial devido à sua excelente perceção multimodal e capacidades de raciocínio. No entanto, apesar das capacidades de compreensão de linguagem visual sem precedentes do GPT-4V, seu aterramento visual refinado (entrada é uma imagem e descrição de objeto correspondente, saída é uma caixa descrevendo um objeto) é relativamente fraco, ou ainda não foi desenvolvido.
Por exemplo, quando um usuário pergunta "Qual objeto é colocado no lado esquerdo do laptop à direita?" na figura abaixo. GPT-4V dá a resposta errada para a caneca. O usuário então pergunta: "Quero encontrar um assento na janela, onde posso me sentar?" O GPT-4V também respondeu incorretamente.
Depois de perceber os problemas acima, pesquisadores da Microsoft, da Universidade de Ciência e Tecnologia de Hong Kong e de outras instituições propuseram um novo método de visão Set-of-Mark (SoM) para resolver o problema do GPT-4V em tarefas de visão refinada.
* Endereço em papel:
Página inicial do artigo:
Como mostrado na Figura 1 (à direita), o SoM usa um modelo de segmentação interativo, como o SAM, para dividir a imagem em regiões em diferentes níveis de granularidade e adicionar um conjunto de marcadores a essas regiões, como alfanumérico, máscara, caixa. Use uma imagem com uma tag como entrada para resolver o problema acima.
Vamos dar uma olhada no efeito primeiro, GPT-4V à esquerda, GPT-4V + SoM à direita, é claro que a última classificação é mais detalhada e precisa.
O exemplo abaixo ainda é o mesmo, e o efeito GPT-4V+SoM é mais óbvio.
Além disso, para este estudo, alguém perguntou: "O SoM é manual (entrada manual) ou automático?"
De acordo com Jianwei Yang, o SoM é automático ou semiautomático. Eles compilaram muitas de suas próprias ferramentas de segmentação, como SEEM, Semantic-SAM e SAM, para ajudar os usuários a segmentar imagens automaticamente para si mesmos. Ao mesmo tempo, os utilizadores também podem escolher a sua própria região.
SoM para Visão
A vantagem única de usar o SoM GPT-4V é que ele pode produzir saída além do texto. Como cada marcador está especificamente associado a uma área de imagem representada por uma máscara, a máscara de qualquer marcador mencionado na saída de texto pode ser rastreada.
A capacidade de gerar texto emparelhado e máscaras permite que o SoM GPT-4V gere texto visualmente associativo e, mais importante, suporte uma variedade de tarefas de visão refinadas, o que é um desafio para modelos GPT-4V comuns.
Através de engenharia simples, o SoM permite que o GPT-4V seja amplamente utilizado para uma variedade de tarefas de visão, tais como:
Open Vocabulary Image Segmentation: O estudo exigiu GPT-4V para dar uma representação exaustiva das categorias de todas as regiões rotuladas, bem como as categorias selecionadas a partir de um pool pré-determinado.
Segmentação de referência: Dada uma expressão de referência, a tarefa do GPT-4V é selecionar a região que melhor corresponde às regiões candidatas geradas pela Image Partitioning Toolbox.
Fundamentação da frase: Ligeiramente diferente da segmentação de referência, a associação de frases usa frases completas que consistem em várias frases nominais. O estudo exigiu que o GPT-4V atribuísse regiões apropriadas a todas as frases rotuladas.
Video Object Segmentation: Tome duas imagens como entrada. A primeira imagem é uma imagem de consulta que contém alguns dos objetos na segunda imagem que precisam ser reconhecidos. Dado que o GPT-4V suporta várias imagens como entrada, os SoMs também podem ser aplicados a visuais correlacionados entre quadros em vídeo.
Experiências e Resultados
Os investigadores utilizam uma estratégia de "dividir para conquistar" para realizar experiências e avaliações. Para cada caso, eles usam uma nova janela de bate-papo para que não haja vazamento de contexto durante a avaliação.
Especificamente, os pesquisadores selecionaram um pequeno subconjunto de dados de validação de cada conjunto de dados. Para cada imagem no conjunto de dados, eles sobrepuseram um conjunto de marcadores na área extraída usando a caixa de ferramentas Segmentação de Imagem. Ao mesmo tempo, com base em tarefas específicas, os pesquisadores usam diferentes ferramentas de segmentação para propor regiões.
A Tabela 1 abaixo lista os detalhes de configuração para cada tarefa.
Os investigadores compararam o seu método com os seguintes modelos:
Modelo de linha de base GPT-4V para coordenadas previstas
Modelo específico da SOTA
LMM de código aberto
Resultados Quantitativos
Os resultados experimentais detalhados são apresentados na Tabela 2 abaixo.
A primeira é a tarefa de segmentação de imagem. Os pesquisadores compararam GPT-4V+SoM com o poderoso modelo de segmentação MaskDINO no conjunto de dados de segmentação panóptica COCO e OpenSeeD no conjunto de dados de segmentação panóptica ADE20K.
Os resultados mostram que o desempenho de amostra zero do GPT-4V + SoM está próximo do MaskDINO ajustado e significativamente melhor do que o OpenSeeD. O desempenho semelhante do GPT-4V no COCO e ADE20K demonstra seus poderosos recursos de generalização para uma ampla gama de tarefas de domínio visual e semântico.
Em seguida, veio a tarefa de referência, onde os pesquisadores avaliaram o modelo RES e REC no conjunto de dados RefCOCOg. Eles usaram o MaskDINO para criar uma máscara e sobrepor a máscara e os números na imagem. Ambos os mIoU foram usados como métrica de avaliação e comparados com os modelos específicos da SOTA, PolyFormer e SEESURE.
Os resultados mostram que o GPT-4V+SoM supera modelos especializados, como Grounding DINO, Polyformer, e LMMs de código aberto recentes, como Shikra, LLaVA-1.5, MiniGPT-v2 e Ferret.
Seguiu-se a tarefa de associação de frases no Flickr30K, onde os investigadores utilizaram o Grounding DINO para gerar sugestões de caixas para cada imagem. O GPT-4V+SoM alcança um desempenho de amostra zero mais forte do que o GLIPv2 e o Grounding INO.
Finalmente, os pesquisadores avaliaram a tarefa de segmentação de vídeo no conjunto de dados DAVIS2017. O GPT-4V+SoM alcança o melhor desempenho de rastreamento (78,8 J&F) em relação a outros modelos de visão especializados.
Estudos de ablação
Os pesquisadores exploram como os tipos de tags afetam o desempenho final das tarefas de associação de frases no conjunto de dados do Flickr30k e comparam os dois tipos de tags. O primeiro são números e máscaras, e o segundo são números, máscaras e caixas.
Os resultados são mostrados na Tabela 3 abaixo, e adicionar caixas adicionais pode melhorar significativamente o desempenho.
Além disso, os pesquisadores exploraram como o GPT-4V se comporta ao gerar tokens com anotações de verdade. Eles optaram por substituir a máscara de segmentação prevista por uma máscara verdade no conjunto de validação RefCOCOg. Isso significa que o GPT-4V só precisa selecionar um na área de frase de anotação. Como esperado, o desempenho da segmentação de referência pode ser melhorado, especialmente se o modelo de segmentação tiver algumas regiões ausentes.
Como mostrado na Tabela 4 abaixo, o uso de máscaras de verdade em SoM pode melhorar o desempenho no RefCOCOg em 14,5% (mIoU).
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
Adicione "marcadores" às pistas visuais, a Microsoft e outros tornam o GPT-4V mais preciso e detalhado
Fonte original: Heart of the Machine
Nos últimos tempos, temos testemunhado avanços significativos em grandes modelos de linguagem (LLMs). Em particular, o lançamento de transformadores generativos pré-treinados, ou GPTs, levou a vários avanços na indústria e no meio acadêmico. Desde o lançamento do GPT-4, os grandes modelos multimodais (LMM) têm atraído um interesse crescente na comunidade de investigação, com muito trabalho dedicado à construção do GPT-4 multimodal.
Recentemente, o GPT-4V (ision) recebeu atenção especial devido à sua excelente perceção multimodal e capacidades de raciocínio. No entanto, apesar das capacidades de compreensão de linguagem visual sem precedentes do GPT-4V, seu aterramento visual refinado (entrada é uma imagem e descrição de objeto correspondente, saída é uma caixa descrevendo um objeto) é relativamente fraco, ou ainda não foi desenvolvido.
Por exemplo, quando um usuário pergunta "Qual objeto é colocado no lado esquerdo do laptop à direita?" na figura abaixo. GPT-4V dá a resposta errada para a caneca. O usuário então pergunta: "Quero encontrar um assento na janela, onde posso me sentar?" O GPT-4V também respondeu incorretamente.
Como mostrado na Figura 1 (à direita), o SoM usa um modelo de segmentação interativo, como o SAM, para dividir a imagem em regiões em diferentes níveis de granularidade e adicionar um conjunto de marcadores a essas regiões, como alfanumérico, máscara, caixa. Use uma imagem com uma tag como entrada para resolver o problema acima.
Vamos dar uma olhada no efeito primeiro, GPT-4V à esquerda, GPT-4V + SoM à direita, é claro que a última classificação é mais detalhada e precisa.
A vantagem única de usar o SoM GPT-4V é que ele pode produzir saída além do texto. Como cada marcador está especificamente associado a uma área de imagem representada por uma máscara, a máscara de qualquer marcador mencionado na saída de texto pode ser rastreada.
Através de engenharia simples, o SoM permite que o GPT-4V seja amplamente utilizado para uma variedade de tarefas de visão, tais como:
Experiências e Resultados
Os investigadores utilizam uma estratégia de "dividir para conquistar" para realizar experiências e avaliações. Para cada caso, eles usam uma nova janela de bate-papo para que não haja vazamento de contexto durante a avaliação.
Especificamente, os pesquisadores selecionaram um pequeno subconjunto de dados de validação de cada conjunto de dados. Para cada imagem no conjunto de dados, eles sobrepuseram um conjunto de marcadores na área extraída usando a caixa de ferramentas Segmentação de Imagem. Ao mesmo tempo, com base em tarefas específicas, os pesquisadores usam diferentes ferramentas de segmentação para propor regiões.
A Tabela 1 abaixo lista os detalhes de configuração para cada tarefa.
Resultados Quantitativos
Os resultados experimentais detalhados são apresentados na Tabela 2 abaixo.
Os resultados mostram que o desempenho de amostra zero do GPT-4V + SoM está próximo do MaskDINO ajustado e significativamente melhor do que o OpenSeeD. O desempenho semelhante do GPT-4V no COCO e ADE20K demonstra seus poderosos recursos de generalização para uma ampla gama de tarefas de domínio visual e semântico.
Em seguida, veio a tarefa de referência, onde os pesquisadores avaliaram o modelo RES e REC no conjunto de dados RefCOCOg. Eles usaram o MaskDINO para criar uma máscara e sobrepor a máscara e os números na imagem. Ambos os mIoU foram usados como métrica de avaliação e comparados com os modelos específicos da SOTA, PolyFormer e SEESURE.
Os resultados mostram que o GPT-4V+SoM supera modelos especializados, como Grounding DINO, Polyformer, e LMMs de código aberto recentes, como Shikra, LLaVA-1.5, MiniGPT-v2 e Ferret.
Seguiu-se a tarefa de associação de frases no Flickr30K, onde os investigadores utilizaram o Grounding DINO para gerar sugestões de caixas para cada imagem. O GPT-4V+SoM alcança um desempenho de amostra zero mais forte do que o GLIPv2 e o Grounding INO.
Finalmente, os pesquisadores avaliaram a tarefa de segmentação de vídeo no conjunto de dados DAVIS2017. O GPT-4V+SoM alcança o melhor desempenho de rastreamento (78,8 J&F) em relação a outros modelos de visão especializados.
Estudos de ablação
Os pesquisadores exploram como os tipos de tags afetam o desempenho final das tarefas de associação de frases no conjunto de dados do Flickr30k e comparam os dois tipos de tags. O primeiro são números e máscaras, e o segundo são números, máscaras e caixas.
Os resultados são mostrados na Tabela 3 abaixo, e adicionar caixas adicionais pode melhorar significativamente o desempenho.
Como mostrado na Tabela 4 abaixo, o uso de máscaras de verdade em SoM pode melhorar o desempenho no RefCOCOg em 14,5% (mIoU).