Saiu o modelo de linguagem visual PaLI-3 do Google, com parâmetros de apenas 5B, menores, mais rápidos e mais fortes

No campo dos modelos multimodais (linguagem visual) de grande porte, enquanto parâmetros concorrentes para ganhar desempenho, perseguindo parâmetros menores, velocidade mais rápida e desempenho mais forte é outro caminho de pesquisa.

Fonte da imagem: Gerado por Unbounded AI

Na era dos grandes modelos, os parâmetros dos modelos de linguagem visual (VLMs) expandiram-se para dezenas ou mesmo centenas de bilhões, fazendo com que o desempenho continuasse a aumentar. Ao mesmo tempo, os modelos mais pequenos continuam a ser importantes, são mais fáceis de treinar e de prestar, são mais amigos do ambiente e proporcionam ciclos de investigação mais rápidos para a conceção de modelos.

Nesta área, o Google Research lançou um modelo chamado PaLI (Pathways Language and Image) no ano passado. Como um modelo multimodal grande, uma das principais estruturas do PaLI é reutilizar grandes backbones monomodais para linguagem e modelagem visual, reutilizar mT5-XXL com parâmetros 13B em termos de linguagem, e ViT-G com parâmetros 2B e ViT-e com parâmetros 4B em termos de visão. Naquela época, o PaLI alcançou um desempenho melhor do que a maioria dos modelos antigos e novos.

Desde então, o Google continuou a se concentrar na modelagem em menor escala e, recentemente, propôs o PaLI-3, o modelo de terceira geração da série PaLI. Com um modelo de linha de base pré-treinado com apenas parâmetros 5B, eles otimizaram o método de treinamento e alcançaram resultados competitivos e novos SOTA em vários benchmarks VLM.

O método consiste em três partes principais, ou seja, pré-treinamento comparativo de codificadores de imagem em dados de texto de imagem em escala web, conjunto de dados híbrido melhorado para treinamento multimodal PaLI e treinamento de alta resolução.

*Os autores são do Google Research, Google DeepMind e Google Cloud. *

Endereço em papel:

A figura abaixo mostra uma visão geral do modelo 5B PaLI-3, onde as imagens são codificadas individualmente em um token visual comparando o modelo de visão SigLIP 2B pré-treinado. Em seguida, juntamente com a consulta, esses tokens visuais são passados para o transformador UL2 da estrutura codificador-decodificador 3B, que gera a resposta esperada. Nesta configuração, em comparação com o modelo PaLI anterior de um modelo pré-treinado de classificação única, o modelo pré-treinado fornece um token significativamente mais útil.

Qual é a sua eficácia? O PaLI-3 implementa o novo SOTA em tarefas que exigem compreensão de texto posicionada visualmente e posicionamento de destino, incluindo 8 tarefas de compreensão de texto posicionadas visualmente e tarefas de segmentação de expressão de referência no conjunto de dados RefCOCO. O PaLI-3 também se destaca em uma variedade de tarefas de visão classificada.

Além disso, os pesquisadores também realizaram experimentos de ablação para comparar com o modelo de linha de base ViT pré-treinado de classificação, e confirmaram ainda mais a viabilidade de codificadores visuais pré-treinados em dados de texto de imagem barulhentos em escala web, tornando-se assim uma alternativa preferida para treinamento em dados classificados.

Além do modelo 5B PaLI-3, os pesquisadores também usaram o método SigLIP recentemente proposto para construir um modelo de visão contrastiva multilíngue SOTA com parâmetros estendidos a 2B.

Introdução ao modelo

Arquitetura

Em um nível superior, a arquitetura do PaLI-3 segue a de Chen et al (2023b; a): O modelo ViT codifica a imagem como um token e é passado para o transformador da estrutura codificador-decodificador juntamente com entradas de texto, como perguntas, prompts e instruções, resultando em uma saída de texto.

Vamos começar com o componente visual. Os pesquisadores usaram o método de treinamento SigLIP para inicializar a espinha dorsal visual do PaLI-3 a partir de um modelo ViT-G/14 pré-treinado de comparação (o parâmetro é cerca de 2B). Em suma, eles treinaram o modelo ViT-G/14 para incorporação de imagens e o modelo transformador de incorporação de texto para incorporar imagens e texto, respectivamente, para que classificadores binários com entropia cruzada sigmoide usando o produto de incorporação de pontos de imagem e texto possam classificar com precisão se suas respetivas imagens e texto correspondem entre si.

ISSO É SEMELHANTE AO CLIP AND ALIGN, MAS MAIS EFICIENTE, ESCALÁVEL E ROBUSTO. Ao mesmo tempo, este método é pré-treinar o componente de incorporação de imagem ViT, de modo que, quando o ViT é inserido no PaLI, o transformador de incorporação de texto é descartado.

Vejamos o modelo PaLI completo. A saída do codificador de imagem ViT forma um token visual antes do pool e é mapeada linearmente e adicionada ao token de texto de entrada incorporado. Esses tokens são então passados para um modelo de codificador-decodificador 3B UL2 pré-treinado para gerar saída de texto. A entrada de texto para o modelo normalmente contém prompts que descrevem o tipo de tarefa e codificam a entrada de texto necessária para a tarefa.

Formação

O processo de formação consiste em várias etapas.

Fase 0: Pré-treino unimodal. De acordo com o protocolo de treinamento SigLIP, o codificador de imagem tem uma resolução de treinamento de 224×224; O codificador-decodificador de texto é um modelo 3B UL2 treinado seguindo o procedimento híbrido de redução de ruído descrito por Tay et al.

Fase 1: Formação multimodal. O modelo PaLI combinado é treinado em tarefas multimodais e dados combinando um codificador de imagem com um codificador-decodificador de texto, momento em que o codificador de imagem permanece congelado em uma resolução de 224×224. Através da filtragem heurística da qualidade do texto e usando o destino de treinamento SplitCap, os principais componentes de mistura são novamente derivados do conjunto de dados WebLI.

Fase 2: Upscale. A entrada de alta resolução é uma maneira amplamente aceita de melhorar o desempenho, tanto porque mais detalhes na imagem podem ser percebidos quanto porque o modelo é melhorado aumentando o comprimento da sequência. Este artigo aumenta a resolução do PaLI-3 descongelando o codificador de imagem, mantendo os pontos de verificação nas resoluções 812×812 e 1064×1064.

Migração de tarefas. Finalmente, para cada tarefa individual (benchmark), este artigo ajusta o modelo PaLI-3 nos dados de treinamento da tarefa usando um codificador de imagem ViT congelado; Para a maioria das tarefas, este artigo ajusta o ponto de verificação da resolução 812×812, mas para ambas as tarefas de compreensão de documentos, este artigo aumenta a resolução para 1064×1064.

Experiências e Resultados

O experimento primeiro comparou os resultados de diferentes modelos ViT sob a estrutura PaLI, e os pesquisadores consideraram dois modelos ViT: Classif e SigLIP.

Os resultados, apresentados na Tabela 1, mostram que, enquanto o modelo SigLIP fica para trás na classificação linear de pequenas amostras, ao usar PaLI-3, o modelo SigLIP proporciona ganhos modestos em tarefas mais simples, como legendagem e resposta a perguntas, e enormes ganhos em cenários mais complexos, nomeadamente tarefas de texto e compreensão espacial.

Além disso, os pesquisadores avaliaram o PaLI-3 nos conjuntos de dados TextCaps, TextVQA, STVQA, OCRVQA, InfographicVQA, DocVQA, ChartQA, Scree2Words, WidgetCap. Os resultados são apresentados na Tabela 2, onde o PaLI-3 é apenas 0,7 pontos menor do que o método SOTA quando se utiliza um sistema OCR externo. No entanto, na ausência de tal sistema externo, PaLI-3 é 4,4 pontos maior do que a combinação de todos os métodos SOTA. Para TextCaps, TextVQA, InfographicVQA e DocVQA, o PaLI-3 tem uma vantagem de 8 pontos ou mais.

Segmentação da expressão de referência

Os pesquisadores estenderam o PaLI-3 para prever máscaras de segmentação com saída semelhante à linguagem. Para isso, utilizaram Ning et al (2023) Vectorized Variational Autoencoder (VQ-VAE). O VQ-VAE é treinado para aprender 128 tokens de máscara, e seu codificador pode marcar uma máscara de segmentação de 64 × 64 pixels como 16 tokens de máscara, que o decodificador pode converter de volta.

Os pesquisadores treinaram PaLI-3 para prever uma única máscara de segmentação, primeiro emitindo 4 coordenadas como texto e representando-as como caixas delimitadoras. Isso é seguido por 16 tokens de máscara, que representam as máscaras dentro da caixa delimitadora.

A Tabela 1 mostra que o pré-treinamento com contraste é mais eficaz do que o pré-treinamento de classificação para essas tarefas de segmentação. A Tabela 3 abaixo mostra que o modelo PaLI-3 completo é ligeiramente superior ao da técnica anterior em termos de segmentação da expressão de referência.

Compreensão da imagem

Em seguida, os pesquisadores avaliaram o PaLI-3 em uma tarefa geral de compreensão da linguagem visual. Tal como no seu trabalho anterior, não utilizaram um módulo OCR externo porque estes benchmarks raramente envolviam texto em imagens.

Os resultados mostram que o PaLI-3 é muito menor em tamanho em comparação com modelos SOTA recentes, mas mostra um desempenho muito forte nesses benchmarks. Para o COCO, o PaLI-3 é superior a todos os modelos, exceto BEiT-3 e PaLI 17B e 55B. No VQAv2 e TallyQA, o PaLI-3 supera todos os modelos anteriores, exceto o PaLI-X. Para missões OKVQA, o PaLI-3 fica atrás apenas do PaLM-E (562B) e PaLI-X (55B), mas ainda supera o modelo Flamingo (80B) de 32 tiros.

Legendas de vídeo e P&R

O estudo ajustou e avaliou o modelo PaLI-3 em 4 benchmarks de legendas de vídeo: MSR-VTT, VATEX, ActivityNet Captions e Spoken Moments in Time. Além disso, o estudo fez o mesmo em 3 perguntas de vídeo respondendo benchmarks: NExT-QA, MSR-VTT-QA, e ActivityNet-QA.

Apesar de não usar dados de vídeo para pré-treinamento, o PaLI-3 alcançou excelentes resultados de QA de vídeo com um tamanho de modelo pequeno: desempenho de última geração em MSR-VTT-QA e ActivityNet-QA, e resultados competitivos no NextQA. Melhorias contínuas no QA de imagem e vídeo destacam os benefícios da adoção de um ViT comparativo.

Além disso, o PaLI-3 alcança resultados de legendas de vídeo muito bons, com uma média de apenas 3 pontos CIDEr abaixo dos resultados SOTA. Considerando o tamanho do modelo, o PaLI-3 parece ser uma excelente escolha tanto em termos de desempenho quanto de praticidade.

Avaliação direta do codificador de imagem

Os pesquisadores também avaliaram o modelo ViT-G, que pode ser entendido como não um PaLI-3 completo, como mostra a Tabela 6.

Primeiro, o estudo testou os recursos de classificação de imagens usando o benchmark padrão ImageNet e suas duas variantes mais populares. Os resultados mostram que o SigLIP fica ligeiramente atrás na precisão do top-1 e v2, mas resultados comparáveis no ReaL.

Em segundo lugar, o estudo relata os resultados de diferentes modelos no benchmark Crossmodal-3600. Os resultados mostram que o modelo SigLIP ViT-G é significativamente melhor do que o modelo ViT-e maior.

Finalmente, o estudo também relatou resultados de sondagem linear, que mostraram que o SigLIP era inferior a outros modelos.

As Tabelas 7 e 8 avaliam a equidade, a parcialidade e outros problemas potenciais com o modelo.

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Compartilhar
Comentário
0/400
Sem comentários
Faça trade de criptomoedas em qualquer lugar e a qualquer hora
qrCode
Escaneie o código para baixar o app da Gate
Comunidade
Português (Brasil)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)