GPT-4V frontalmente resistente! Ex-alunos da Universidade de Zhejiang, modelo grande multimodal de código aberto LLaVA-1.5, 13 bilhões de parâmetros e 8 A100s podem ser treinados em um dia

Fonte original: Xinzhiyuan

Fonte da imagem: gerada por Unbounded AI

No final de setembro, a OpenAI anunciou o levantamento da proibição dos recursos multimodais do ChatGPT. As capacidades mágicas do GPT-4V multimodal fizeram todos exclamar: Este é o GPT-4.5?

Pouco tempo depois, o concorrente de código aberto do GPT-4V, LLaVA-1.5, já estava aqui!

Em abril, pesquisadores da Universidade de Wisconsin-Madison, da Microsoft Research e da Universidade de Columbia abriram o código-fonte de um novo modelo grande multimodal de ponta a ponta LLaVA.

Agora, o LLaVA-1.5 atualizado não apenas alcança SOTA em 11 testes de benchmark, mas pode até competir diretamente com o GPT-4V.

Os pesquisadores melhoraram significativamente o desempenho do LLaVA-1.5 usando CLIP-ViT-L-336px com mapeamento MLP e adicionando dados VQA orientados a tarefas acadêmicas com prompts de formato de resposta simples.

Os resultados mostram que o LLaVA-1.5, que possui uma arquitetura mais simples, necessita apenas de 1,2 milhão de dados públicos, o que pode superar o Qwen-VL que utiliza 1,45 bilhão de dados de treinamento e o HuggingFace IDEFICS (um modelo 80B semelhante ao Flamingo) que utiliza 130 milhões de dados.

Entre eles, o treinamento do modelo 13B pode ser concluído em 1 dia com apenas 8 A100.

Barra rígida LLaVA-1.5 GPT-4V

Diz-se que é capaz de competir com o GPT-4V, mas qual é a força do LLaVA-1.5?

Vamos deixar GPT-4V, LLaVA e LLaVA-1.5 pk.

endereço do projeto:

Pergunta: "Se houver erros factuais, por favor aponte-os. Caso contrário, diga-me, por favor, o que está acontecendo no deserto?"

A resposta do GPT-4V foi um pouco estúpida: “Desculpe, não posso responder a esta pergunta porque não há contexto para mostrar o deserto que você mencionou”.

LLaVA respondeu corretamente: “Na foto, a cidade e a praia formam o horizonte da cidade, e as pessoas estão curtindo o pôr do sol. Essa cena de praia é na verdade no deserto, o que é bastante incomum”.

O único pontuador perfeito, LLaVA-1.5, deu a resposta perfeita: "Não há nenhum deserto na foto, mas há palmeiras, praias, horizontes de cidades e um grande corpo de água."

Além disso, o LLaVA-1.5 também pode extrair informações do gráfico e responder no formato necessário, como exibi-las no formato JSON.

Pode-se observar que o LLaVA-1.5 basicamente completou a tarefa, e ainda existem algumas falhas em comparação com o GPT-4V.

Da mesma forma, dê ao LLaVA-1.5 uma imagem cheia de frutas e vegetais, e ele poderá converter a imagem em JSON como GPT-4V.

Análise visual e transformação inteligente de dados, é simples assim!

A seguinte pergunta não é tão fácil – o que significa esta imagem?

Descobriu-se que se tratava de um esboço simplificado baseado em "Inception" de Nolan.Para aumentar a dificuldade, o nome do personagem foi alterado para um pseudônimo.

LLaVA-1.5 não ficou perplexo e respondeu com segurança: "Esta é uma imagem sobre o filme "Inception". Ela mostra os diferentes níveis do mundo dos sonhos, e cada nível é representado por uma linha. Imagem Escreva em um pedaço de papel e coloque o papel sobre uma mesa."

Os gourmets se alegram! O que você deve fazer se vir uma foto de dar água na boca e dar vontade de comê-la?

Envie diretamente para o LLaVA-1.5 e ele irá gerar rapidamente uma receita para você.

Além disso, o LLaVA-1.5 pode reconhecer códigos de verificação sem “jailbreak”.

Ele também pode detectar qual moeda está na imagem.

O que é particularmente impressionante é que o LLaVA-1.5 também pode dizer qual é a raça do cão na foto.

Alguns internautas usaram o Bing para gerar a foto de um homem vestindo um casaco de inverno em uma praia ensolarada de verão e pediram ao LLaVA 1.5 que apontasse quais problemas havia na foto.

Seu olho perspicaz é muito aguçado——

Esta é uma foto manipulada ou photoshopada de um homem vestindo uma jaqueta parado na praia. O homem abriu o casaco e o sol brilhou sobre ele. O problema com esta imagem é que não é uma cena real de praia. O homem não estava realmente parado na praia e o sol não brilhava sobre ele. Esta imagem foi photoshopada para criar a ilusão de uma cena de praia, mas não representa verdadeiramente a cena.

No entanto, a capacidade do LLaVA-1.5 de escrever código front-end de acordo com o design é mais fraca.

A julgar pelos resultados, sua produção é de fato relativamente bruta...

8 A100, treinamento concluído em um dia

A arquitetura do modelo LLaVA conecta um codificador visual pré-treinado (CLIP ViT-L/14) com um modelo de linguagem em larga escala (Vicuna).

Os dois modelos são conectados por uma matriz de mapeamento simples, responsável por alinhar ou transformar características visuais e linguísticas para que possam ser manipuladas em um espaço unificado.

Na instrução multimodal seguindo o conjunto de dados, o LLaVA teve um bom desempenho, com uma pontuação de 85,1% em comparação com o GPT-4. No Science QA, a precisão do LLaVA estabeleceu um novo recorde, atingindo 92,53%.

Desta vez, os pesquisadores estabeleceram uma linha de base mais poderosa e prática baseada na estrutura LLaVA.

Endereço do papel:

Os conectores multimodais MLP e a fusão de dados relacionados a tarefas acadêmicas (como VQA) trazem capacidades de compreensão multimodal mais fortes para o LLaVA.

Comparado com InstructBLIP ou Qwen-VL, que são reamostradores visuais especialmente projetados e treinados em centenas de milhões ou até bilhões de dados emparelhados de imagem e texto, o LLaVA usa o design de arquitetura LMM mais simples, que requer apenas imagens de 600K. -Em pares de texto, treine um camada de mapeamento simples e totalmente conectada.

O modelo final pode ser treinado em 8 A100 em um dia e alcançou SOTA em vários testes de benchmark.

Além disso, o Qwen-VL inclui dados internos durante o treinamento, mas o LLaVA só precisa de dados públicos.

Não há dúvida de que esses desempenhos básicos melhorados e facilmente reproduzíveis fornecerão uma referência valiosa para o futuro do LMM de código aberto.

O desempenho foi bastante melhorado e 11 itens SOTA foram atualizados

Como um modelo de ajuste fino de instrução visual de código aberto, o LLaVA tem um desempenho muito bom em capacidades de raciocínio visual - em testes de benchmark baseados em instruções visuais da vida real seguindo tarefas, o LLaVA supera até mesmo os modelos mais recentes.

No entanto, o LLaVA não teve um desempenho tão bom em parâmetros acadêmicos que muitas vezes exigem respostas curtas, como palavras. A razão é que o LLaVA não é pré-treinado em dados de grande escala.

Escalonamento do modelo

Primeiro, os pesquisadores aumentaram a resolução da imagem de entrada para que o LLM pudesse “ver” claramente os detalhes da imagem e adicionaram o conjunto de dados GQA como uma fonte adicional de conhecimento visual. Além disso, os dados ShareGPT também são adicionados para ampliar o LLM para 13B.

Os resultados do MM-Vet mostram que a melhoria é mais significativa quando o LLM é estendido para 13B, o que também mostra que a capacidade do LLM básico no diálogo visual é muito importante.

O modelo final após todas as melhorias, conhecido como LLaVA-1.5, teve um desempenho impressionante, superando o LLaVA original por larga margem.

Dimensionando resultados para dados, modelo e resolução

Comparação com SOTA

Os pesquisadores então testaram o LLaVA-1.5 em uma série de benchmarks acadêmicos de VQA e benchmarks propostos especificamente para LMMs de acompanhamento de instruções.

Os resultados mostram que o LLaVA-1.5 não apenas usa menos dados de pré-treinamento e ajuste fino de instrução, mas também aproveita a arquitetura mais simples, a computação acadêmica e os conjuntos de dados públicos para alcançar o melhor desempenho - em 11 dos 12 benchmarks obtidos SOTA.

Além disso, o estudo também descobriu que o ajuste fino da instrução visual desempenha um papel mais importante do que o pré-treinamento na melhoria das capacidades do LMM.

Isso também nos faz repensar as vantagens dos amostradores visuais e a necessidade de pré-treinamento adicional em grande escala em termos de capacidades de acompanhamento de instruções multimodais.

Comparação com métodos SOTA em 12 benchmarks

Dicas de formato de resposta

Os pesquisadores descobriram que métodos anteriores, como o InstructBLIP, não conseguiam alcançar um equilíbrio entre VQA de formato curto e longo. O principal motivo é que——

Primeiro, as instruções relativas ao formato da resposta eram vagas.

Por exemplo, "Q: {Pergunta} A: {Resposta}" não indica claramente o formato de saída ideal. Mesmo o diálogo visual natural pode fazer com que o LLM se ajuste demais a respostas de formato curto.

Em segundo lugar, o LLM não foi ajustado.

Por exemplo, o InstructBLIP apenas ajusta as instruções do Qformer. Embora seja possível usar o token de saída visual do Qformer para controlar o comprimento da saída do LLM, o Qformer tem uma capacidade relativamente limitada em comparação com LLMs como o LLaMA, portanto, pode não ser capaz de fazer isso corretamente.

Para resolver esse problema, os pesquisadores sugeriram adicionar uma dica no final da pergunta VQA que esclareceria o formato de saída, permitindo que o modelo gerasse respostas curtas. Por exemplo: "Responda à pergunta com uma palavra ou frase."

Quando o LLM usa essa dica para ajuste fino, o LLaVA é capaz de ajustar corretamente o formato de saída de acordo com as instruções do usuário e não requer processamento adicional de dados VQA usando ChatGPT.

Os resultados mostram que simplesmente adicionando VQAv2 no treinamento, o desempenho do LLaVA no MME é significativamente melhorado (1323,8 vs 502,8), o que é 111 pontos a mais que o InstructBLIP!

### Dados para tarefas acadêmicas

Os pesquisadores adicionaram ainda conjuntos de dados VQA para tarefas acadêmicas para VQA, OCR e percepção em nível regional para melhorar as capacidades do modelo em diferentes aspectos.

Eles primeiro incluíram quatro conjuntos de dados adicionais usados pelo InstructBLIP: Open Knowledge VQA.

Entre eles, o A-OKVQA é convertido em um formato de pergunta de múltipla escolha e utiliza um prompt de formato de resposta específico - responda diretamente com as letras nas opções fornecidas.

Usando apenas um subconjunto do conjunto de dados usado pelo InstructBLIP, o LLaVA superou o InstructBLIP em todas as três tarefas da Tabela 1, o que mostra que o design do LLaVA é muito eficaz.

Além disso, os pesquisadores descobriram que a capacidade do modelo de localizar detalhes visuais refinados poderia ser melhorada adicionando ainda mais conjuntos de dados VQA em nível de região.

Generalização de instruções no formato zero-shot

Embora o LLaVA-1.5 use apenas instruções de formato limitado para treinamento, ele pode generalizar para outras instruções de formato.

Por exemplo, VizWiz exige que o modelo produza "irrespondível" quando o conteúdo fornecido não é suficiente para responder à pergunta, e os prompts de formato de resposta do LLaVA podem efetivamente instruir o modelo a fazê-lo (perguntas sem resposta representam 11,1% → 67,8%).

### Capacidade multilíngue de disparo zero

Ao mesmo tempo, o LLaVA-1.5 não está ajustado para instruções em vários idiomas. No entanto, como o ShareGPT contém uma grande quantidade de dados relevantes, ele ainda pode implementar comandos multimodais em vários idiomas.

Os pesquisadores avaliaram quantitativamente a capacidade de generalização do modelo para o chinês no MMBenchCN, onde as perguntas do MMBench foram convertidas para o chinês.

É importante notar que o LLaVA-1.5 é 7,3% mais preciso que o Qwen-VL-Chat (63,6% vs 56,7%). Entre eles, Qwen fez ajustes finos em instruções multimodais chinesas, enquanto LLaVA-1.5 não.

Custos de computação

Para o LLaVA-1.5, os pesquisadores usaram o mesmo conjunto de dados de pré-treinamento do LCS-558K e mantiveram aproximadamente o mesmo número de iterações de treinamento de ajuste fino de instruções e tamanhos de lote que o LLaVA.

Como a resolução de entrada da imagem foi aumentada para 336px, o tempo de treinamento do LLaVA-1.5 é 2 vezes maior que o do LLaVA: 6 horas de pré-treinamento e 20 horas de ajuste fino de instrução visual usando 8 A100s.

Limitações

Embora o LLaVA-1.5 tenha alcançado resultados muito bons, deve-se admitir que ainda apresenta algumas limitações.

Primeiro, o LLaVA utiliza patches de imagem completos, o que pode estender o tempo de cada iteração de treinamento.

Em segundo lugar, o LLaVA-1.5 ainda não é capaz de lidar com múltiplas imagens devido à falta de tais instruções para seguir os dados e à limitação do comprimento do contexto.

Terceiro, embora o LLaVA-1.5 possa seguir instruções complexas com proficiência, suas capacidades de resolução de problemas ainda serão limitadas em algumas áreas, o que pode ser alcançado através do ajuste fino dos dados com modelos de linguagem mais poderosos e instruções visuais direcionadas de alta qualidade.

Finalmente, o LLaVA-1.5 é inevitavelmente propenso a alucinações e desinformação e deve, portanto, ser usado com cautela em aplicações críticas, como a médica.

Sobre o autor

Haotian Liu

Haotian Liu é estudante de doutorado em ciência da computação na Universidade de Wisconsin-Madison, orientado pelo professor Yong Jae Lee. Anteriormente, ele recebeu o diploma de bacharel pela Universidade de Zhejiang.

Seus interesses de pesquisa estão em visão computacional e aprendizado de máquina, especialmente algoritmos eficientes para percepção e compreensão visual. Pesquisas recentes concentraram-se na construção de grandes modelos personalizáveis com base nas intenções humanas.

Chunyuan Li

Chunyuan Li é pesquisador principal da Microsoft Research Redmond.

Anteriormente, ele recebeu um PhD em aprendizado de máquina pela Duke University, onde seu orientador foi o professor Lawrence Carin. Ele atuou como presidente de campo do NeurIPS, ICML, ICLR, EMNLP e AAAI, bem como editor convidado do IJCV.

Sua pesquisa recente concentra-se no pré-treinamento em larga escala em visão computacional e processamento de linguagem natural. Por exemplo, construir modelos multimodais em grande escala que sigam as intenções humanas, pré-formação visual e linguística e modelos generativos profundos em grande escala.

YuhengLi

Yuheng Li é estudante de doutorado em ciência da computação na Universidade de Wisconsin-Madison, supervisionado pelo professor Yong Jae Lee. Anteriormente, ele recebeu seu diploma de bacharel pela Universidade de Ciência e Tecnologia Huazhong.

Seus interesses de pesquisa estão na geração e processamento controlável de imagens multimodais e em outros problemas relacionados à visão criativa.

Referências:

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Compartilhar
Comentário
0/400
Sem comentários
Faça trade de criptomoedas em qualquer lugar e a qualquer hora
qrCode
Escaneie o código para baixar o app da Gate
Comunidade
Português (Brasil)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)