No mês passado, o ChatGPT lançou oficialmente os recursos de reconhecimento de imagem e fala.
No início deste mês, a Microsoft lançou uma versão multimodal de 166 páginas de documentos relacionados ao GPT-4V, detalhando as funções e o uso do GPT-4V, que atraiu ampla atenção na indústria.
No entanto, o Google não deve ser superado na corrida por modelos de linguagem visual. **
Recentemente, o Google Research, o Google DeepMind e o Google Cloud lançaram em conjunto um modelo de linguagem visual (VLM) menor, mais rápido e mais poderoso, o PaLI-3, que é significativamente competitivo com modelos semelhantes que são 10 vezes maiores.
Os pesquisadores compararam o modelo de transformador visual (ViT) pré-treinado usando alvos categóricos com o modelo contrastivo pré-treinado (SigLIP) e descobriram que, enquanto o PaLI-3 teve um desempenho ligeiramente ruim em benchmarks de classificação de imagem padrão, o PaLI baseado em SigLIP mostrou excelente desempenho em vários benchmarks multimodais, especialmente em localização e compreensão de texto.
O artigo de pesquisa, intitulado "PaLI-3 Vision Language Models: Smaller, Faster, Stronger", foi publicado no site de pré-impressão arXiv.
A equipe de pesquisa acredita que o PaLI-3 com apenas 5 bilhões de parâmetros reacendeu a pesquisa sobre os componentes centrais de VLMs complexos, potencialmente impulsionando o desenvolvimento de uma nova geração de modelos maiores.
Aprendizagem multimodal de maior resolução
Mais recentemente, grandes modelos de linguagem visual têm usado codificadores de imagem pré-treinados em seus modelos maiores, alguns dos quais são pré-treinados usando classificação supervisionada (por exemplo, PaLI, PaLI-X, Flamingo, PaLM-E), alguns usando codificadores CLIP pré-treinados (por exemplo, BLIPv2, CrossTVR, ChatBridge) e alguns usando pré-treinamento multimodal personalizado (por exemplo, BEiT3, CoCa, SimVLM).
**O método de treinamento para este estudo consiste em três componentes principais: pré-treinamento contrastivo de codificadores de imagem em dados de texto de imagem em escala de rede, mistura de dados de treinamento multimodal PaLI melhorado e treinamento em resoluções mais altas. **
Na etapa de pré-treinamento monomodal, o codificador de imagem usa o protocolo de treinamento SigLIP para pré-treinamento comparativo no emparelhamento de texto de imagem na web. Os pesquisadores empregaram um método de filtragem baseado em modelos que preservou cerca de 40% dos pares. O codificador de imagem é treinado em uma resolução de 224×224. O codificador-decodificador de texto é um modelo 3B UL2 treinado em um programa de denoising híbrido.
Na fase de treinamento multimodal, os pesquisadores combinaram um codificador de imagem com um codificador-decodificador de texto para formar um modelo PaLI. Este modelo é treinado para tarefas multimodais, mantendo o codificador de imagem congelado, usando resolução nativa (224×224).
O principal mix de dados vem de conjuntos de dados WebLI, filtrados e usados com alvos de treinamento específicos. Outros elementos incluem legendas multilíngues, processamento de OCR, VQA e VQG multilíngues, VQA com reconhecimento de objeto e deteção de objetos. Embora não inclua tarefas ou dados de vídeo, o PaLI-3 ainda é competitivo nesses benchmarks graças ao seu poderoso codificador de imagem. Além disso, a compreensão de documentos e imagens foi melhorada com a adição de documentos PDF contendo texto denso e imagens da web, como cartazes ou documentos, bem como texto em mais de 100 idiomas, ao WebLI.
Durante a fase de aumento da resolução, a resolução do PaLI-3 é estudada ajustando todo o modelo (descongelando o codificador de imagem) e usando lições curtas que aumentam gradualmente a resolução, mantendo os pontos de verificação nas resoluções 812×812 e 1064×1064. A mistura de dados é focada principalmente nas partes que envolvem o posicionamento visual de texto e deteção de objetos.
Melhorar a compreensão de imagens e a tarefa de posicionamento de texto
Primeiro, os pesquisadores realizaram uma comparação controlada de diferentes modelos ViT dentro da estrutura do PaLI. Verificou-se que, embora o modelo SigLIP tenha tido um desempenho fraco na classificação linear de amostras pequenas, quando usado no PaLI-3, o modelo SigLIP proporcionou ganhos de desempenho modestos em tarefas "simples", como legendagem e resposta a perguntas, e grandes melhorias em tarefas mais "complexas" de texto de cena e compreensão espacial, como as variantes TextVQA e RefCOCO. **
O PaLI-3 foi então avaliado em uma tarefa de compreensão de texto posicionada visualmente, com imagens em conjuntos de dados que variam de imagens naturais, ilustrações, documentos e interfaces de usuário. **O PaLI-3 alcança um desempenho de última geração na maioria dos benchmarks de legendas e VQA, com ou sem entrada OCR externa. As únicas exceções são AI2D e ChartQA, que exigem não apenas compreensão, mas também raciocínio poderoso sobre gráficos. Para ambos os benchmarks, o PaLI-3 fica ligeiramente atrás do PaLI-X.
Além disso, os pesquisadores ampliaram as capacidades do PaLI-3 para prever máscaras de segmentação com saída semelhante à linguagem. Os resultados experimentais mostram que, para este tipo de tarefa de localização, o pré-treino comparativo é mais eficaz do que o pré-treino de classificação. **O modelo PaLI-3 completo é ligeiramente superior aos métodos de última geração em termos de representação dos dedos. **
Na seção Natural Image Understanding, o PaLI-3 foi avaliado em tarefas gerais de compreensão da linguagem visual, incluindo legendas COCO e VQAv2,** embora muito menor em escala em comparação com modelos SOTA recentes, o PaLI-3 teve um desempenho muito bom nesses benchmarks. **
Nas seções de legendas de vídeo e perguntas e respostas, os pesquisadores ajustaram e avaliaram o modelo PaLI-3 em 4 benchmarks de legendas de vídeo: MSR-VTT, VATEX, ActivityNet Captions e Spoken Moments in Time. O mesmo teste foi então realizado em 3 benchmarks de resposta a perguntas em vídeo: NExT-QA, MSR-VTT-QA e ActivityNet-QA. **Apesar de não ter pré-treinamento com dados de vídeo, o PaLI-3 alcançou excelentes resultados de garantia de qualidade de vídeo em um tamanho de modelo menor. **
Em suma, neste estudo, os pesquisadores se aprofundaram no pré-treinamento de codificadores de imagem em VLM, especificamente modelos do tipo PaLI. Pela primeira vez, os dois métodos de pré-treinamento de classificação e pré-treinamento de texto de imagem (contraste) são claramente comparados e verifica-se que este último leva a VLM melhor e mais eficiente, especialmente em tarefas de localização e compreensão de texto.
Além disso, os pesquisadores observam no artigo: "Este é apenas um pequeno aspeto do VLM, e esperamos que este estudo e seus resultados inspirem uma exploração mais profunda de muitos outros aspetos do treinamento do VLM." "
Link do artigo:
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
Cara GPT-4V! O modelo de linguagem visual PaLI-3 do Google saiu, menor, mais rápido e mais forte
Fonte: Manchetes Académicas
No mês passado, o ChatGPT lançou oficialmente os recursos de reconhecimento de imagem e fala.
No início deste mês, a Microsoft lançou uma versão multimodal de 166 páginas de documentos relacionados ao GPT-4V, detalhando as funções e o uso do GPT-4V, que atraiu ampla atenção na indústria.
Recentemente, o Google Research, o Google DeepMind e o Google Cloud lançaram em conjunto um modelo de linguagem visual (VLM) menor, mais rápido e mais poderoso, o PaLI-3, que é significativamente competitivo com modelos semelhantes que são 10 vezes maiores.
Os pesquisadores compararam o modelo de transformador visual (ViT) pré-treinado usando alvos categóricos com o modelo contrastivo pré-treinado (SigLIP) e descobriram que, enquanto o PaLI-3 teve um desempenho ligeiramente ruim em benchmarks de classificação de imagem padrão, o PaLI baseado em SigLIP mostrou excelente desempenho em vários benchmarks multimodais, especialmente em localização e compreensão de texto.
O artigo de pesquisa, intitulado "PaLI-3 Vision Language Models: Smaller, Faster, Stronger", foi publicado no site de pré-impressão arXiv.
Aprendizagem multimodal de maior resolução
Mais recentemente, grandes modelos de linguagem visual têm usado codificadores de imagem pré-treinados em seus modelos maiores, alguns dos quais são pré-treinados usando classificação supervisionada (por exemplo, PaLI, PaLI-X, Flamingo, PaLM-E), alguns usando codificadores CLIP pré-treinados (por exemplo, BLIPv2, CrossTVR, ChatBridge) e alguns usando pré-treinamento multimodal personalizado (por exemplo, BEiT3, CoCa, SimVLM).
**O método de treinamento para este estudo consiste em três componentes principais: pré-treinamento contrastivo de codificadores de imagem em dados de texto de imagem em escala de rede, mistura de dados de treinamento multimodal PaLI melhorado e treinamento em resoluções mais altas. **
Na etapa de pré-treinamento monomodal, o codificador de imagem usa o protocolo de treinamento SigLIP para pré-treinamento comparativo no emparelhamento de texto de imagem na web. Os pesquisadores empregaram um método de filtragem baseado em modelos que preservou cerca de 40% dos pares. O codificador de imagem é treinado em uma resolução de 224×224. O codificador-decodificador de texto é um modelo 3B UL2 treinado em um programa de denoising híbrido.
Na fase de treinamento multimodal, os pesquisadores combinaram um codificador de imagem com um codificador-decodificador de texto para formar um modelo PaLI. Este modelo é treinado para tarefas multimodais, mantendo o codificador de imagem congelado, usando resolução nativa (224×224).
Durante a fase de aumento da resolução, a resolução do PaLI-3 é estudada ajustando todo o modelo (descongelando o codificador de imagem) e usando lições curtas que aumentam gradualmente a resolução, mantendo os pontos de verificação nas resoluções 812×812 e 1064×1064. A mistura de dados é focada principalmente nas partes que envolvem o posicionamento visual de texto e deteção de objetos.
Melhorar a compreensão de imagens e a tarefa de posicionamento de texto
Primeiro, os pesquisadores realizaram uma comparação controlada de diferentes modelos ViT dentro da estrutura do PaLI. Verificou-se que, embora o modelo SigLIP tenha tido um desempenho fraco na classificação linear de amostras pequenas, quando usado no PaLI-3, o modelo SigLIP proporcionou ganhos de desempenho modestos em tarefas "simples", como legendagem e resposta a perguntas, e grandes melhorias em tarefas mais "complexas" de texto de cena e compreensão espacial, como as variantes TextVQA e RefCOCO. **
Além disso, os pesquisadores ampliaram as capacidades do PaLI-3 para prever máscaras de segmentação com saída semelhante à linguagem. Os resultados experimentais mostram que, para este tipo de tarefa de localização, o pré-treino comparativo é mais eficaz do que o pré-treino de classificação. **O modelo PaLI-3 completo é ligeiramente superior aos métodos de última geração em termos de representação dos dedos. **
Na seção Natural Image Understanding, o PaLI-3 foi avaliado em tarefas gerais de compreensão da linguagem visual, incluindo legendas COCO e VQAv2,** embora muito menor em escala em comparação com modelos SOTA recentes, o PaLI-3 teve um desempenho muito bom nesses benchmarks. **
Em suma, neste estudo, os pesquisadores se aprofundaram no pré-treinamento de codificadores de imagem em VLM, especificamente modelos do tipo PaLI. Pela primeira vez, os dois métodos de pré-treinamento de classificação e pré-treinamento de texto de imagem (contraste) são claramente comparados e verifica-se que este último leva a VLM melhor e mais eficiente, especialmente em tarefas de localização e compreensão de texto.
Além disso, os pesquisadores observam no artigo: "Este é apenas um pequeno aspeto do VLM, e esperamos que este estudo e seus resultados inspirem uma exploração mais profunda de muitos outros aspetos do treinamento do VLM." "
Link do artigo: