O MiniGPT-5, que unifica a geração de imagens e textos, está aqui: o token se torna Voken, e o modelo pode não apenas continuar escrevendo, mas também adicionar imagens automaticamente.
O grande modelo GPT-5 da OpenAI parece estar longe, mas alguns pesquisadores assumiram a liderança no lançamento do inovador modelo visual e de linguagem de geração cruzada MiniGPT-5. Isto tem implicações importantes para a geração de imagens com descrições textuais coerentes.
Fonte da imagem: gerada por Unbounded AI
Grandes modelos estão dando o salto entre a linguagem e a visão, prometendo compreender e gerar perfeitamente conteúdo de texto e imagem. Numa série de estudos recentes, a integração de recursos multimodais não é apenas uma tendência crescente, mas já levou a avanços importantes que vão desde conversas multimodais até ferramentas de criação de conteúdo. Grandes modelos de linguagem demonstraram capacidades incomparáveis na compreensão e geração de texto. Contudo, gerar simultaneamente imagens com narrativas textuais coerentes ainda é uma área a ser desenvolvida.
Recentemente, uma equipe de pesquisa da Universidade da Califórnia, em Santa Cruz, propôs o MiniGPT-5, uma tecnologia inovadora de geração de linguagem visual intercalada baseada no conceito de “voto generativo”.
* Endereço do papel:
*endereço do projeto:
Ao combinar o mecanismo de difusão estável com LLM por meio de um "voto generativo" de token visual especial, o MiniGPT-5 anuncia um novo modelo para geração multimodal qualificada. Ao mesmo tempo, o método de treinamento em dois estágios proposto neste artigo enfatiza a importância do estágio básico livre de descrição, permitindo que o modelo “prospere” mesmo quando os dados são escassos. A fase geral do método não requer anotações específicas de domínio, o que torna nossa solução distinta dos métodos existentes. A fim de garantir que o texto e as imagens gerados sejam harmoniosos, a estratégia de dupla perda deste artigo entra em jogo, e o método de voto generativo e o método de classificação aumentam ainda mais esse efeito.
Com base nessas técnicas, este trabalho marca uma abordagem transformadora. Usando ViT (Vision Transformer) e Qformer, bem como grandes modelos de linguagem, a equipe de pesquisa converte entradas multimodais em votos generativos e os combina perfeitamente com Stable Diffusion2.1 de alta resolução para obter geração de imagens conscientes do contexto. Este artigo combina imagens como entrada auxiliar com métodos de ajuste de instruções e é pioneiro no uso de perdas de geração de texto e imagem, expandindo assim a sinergia entre texto e visão.
O MiniGPT-5 combina modelos como restrições CLIP e integra de forma inteligente o modelo de difusão com o MiniGPT-4 para obter melhores resultados multimodais sem depender de anotações específicas de domínio. Mais importante ainda, a nossa estratégia pode tirar partido dos avanços nos modelos básicos de linguagem visual multimodal e fornecer um novo modelo para melhorar as capacidades geradoras multimodais.
Conforme mostrado na figura abaixo, além de sua capacidade original de compreensão multimodal e geração de texto, o MiniGPT5 também pode fornecer saída multimodal razoável e coerente:
A contribuição deste artigo se reflete em três aspectos:
Recomenda-se usar um codificador multimodal, que representa uma nova técnica de uso geral e provou ser mais eficaz que LLM e votos gerativos invertidos, e combiná-lo com Difusão Estável para gerar saídas visuais e de linguagem intercaladas (Multimodal modelo de linguagem capaz de geração multimodal).
Destaca uma nova estratégia de treinamento em duas etapas para geração multimodal sem descrição. O estágio de alinhamento monomodal obtém recursos visuais alinhados com texto de alta qualidade a partir de um grande número de pares texto-imagem. A fase de aprendizagem multimodal inclui uma nova tarefa de formação, geração de contexto, garantindo que a visão e o texto possam ser bem coordenados e gerados. Adicionar orientação sem classificador durante a fase de treinamento melhora ainda mais a qualidade da geração.
Comparado com outros modelos generativos multimodais, o MiniGPT-5 atinge desempenho de última geração no conjunto de dados CC3M. O MiniGPT-5 também estabeleceu novos benchmarks em conjuntos de dados famosos como VIST e MMDialog.
A seguir, vamos dar uma olhada nos detalhes do estudo.
Visão geral do método
Para permitir que modelos de linguagem em grande escala tenham capacidades de geração multimodal, os pesquisadores introduziram uma estrutura estruturada que integra modelos de linguagem multimodais pré-treinados em grande escala e modelos de geração de texto para imagem. Para resolver as diferenças entre os diferentes campos do modelo, eles introduziram símbolos visuais especiais "votos geradores" (votos geradores), que podem ser treinados diretamente nas imagens originais. Além disso, um método de treinamento em dois estágios é avançado, combinado com uma estratégia de bootstrapping sem classificador, para melhorar ainda mais a qualidade da geração.
Estágio de entrada multimodal
Avanços recentes em grandes modelos multimodais (como o MiniGPT-4) concentram-se principalmente na compreensão multimodal, capaz de processar imagens como entrada contínua. A fim de estender sua funcionalidade à geração multimodal, os pesquisadores introduziram Vokens generativos projetados especificamente para gerar recursos visuais. Além disso, eles também adotaram técnicas de ajuste fino com eficiência de parâmetros dentro de uma estrutura de modelo de linguagem grande (LLM) para aprendizagem de resultados multimodais.
Geração de saída multimodal
Para alinhar com precisão os tokens generativos aos modelos generativos, formulamos um módulo de mapeamento compacto para correspondência de dimensionalidade e incorporamos várias perdas supervisionadas, incluindo perda de espaço de texto e perda de modelo de difusão latente. A perda de espaço de texto ajuda o modelo a aprender a localização correta dos tokens, enquanto a perda de difusão latente alinha diretamente os tokens com recursos visuais apropriados. Como as características dos símbolos generativos são diretamente guiadas por imagens, este método não requer descrições abrangentes de imagens, permitindo um aprendizado livre de descrições.
Estratégia de treinamento
Dado que há uma mudança de domínio não negligenciável entre o domínio do texto e o domínio da imagem, os pesquisadores descobriram que o treinamento direto em um conjunto limitado de dados de texto e imagem intercalados pode levar ao desalinhamento e à degradação da qualidade da imagem.
Portanto, eles empregaram duas estratégias de treinamento diferentes para aliviar esse problema. A primeira estratégia envolve o emprego de técnicas de bootstrapping sem classificador para melhorar a eficácia dos tokens gerados ao longo do processo de difusão; a segunda estratégia se desdobra em duas fases: uma fase inicial de pré-treinamento com foco no alinhamento aproximado dos recursos, seguida por uma fase de ajuste fino. no aprendizado de recursos complexos.
Experiência e resultados
Para avaliar a eficácia do modelo, os pesquisadores realizaram uma série de avaliações em vários benchmarks. O experimento visa abordar várias questões-chave:
O MiniGPT-5 pode gerar imagens confiáveis e texto sensato?
Qual é o desempenho do MiniGPT-5 em comparação com outros modelos SOTA em tarefas de geração de linguagem visual intercaladas de rodada única e múltipla?
Qual o impacto que o design de cada módulo tem no desempenho geral?
A fim de avaliar o desempenho do modelo em diferentes benchmarks em diferentes estágios de treinamento, as amostras de análise quantitativa do MiniGPT-5 são mostradas na Figura 3 abaixo:
A avaliação aqui abrange os domínios visual (métricas relacionadas à imagem) e linguístico (métricas de texto) para demonstrar a generalidade e robustez do modelo proposto.
Avaliação da etapa final do VIST
O primeiro conjunto de experimentos envolve avaliação em etapa única, ou seja, geração de imagens correspondentes com base no modelo da última etapa, e os resultados são apresentados na Tabela 1.
O MiniGPT-5 supera o SD 2 ajustado em todas as três configurações. Notavelmente, a pontuação CLIP do modelo MiniGPT-5 (LoRA) supera consistentemente outras variantes em vários tipos, especialmente ao combinar imagens e texto. Por outro lado, a pontuação FID destaca a competitividade do modelo MiniGPT-5 (Prefix), indicando que pode haver um compromisso entre a qualidade de incorporação de imagem (refletida pela pontuação CLIP) e a diversidade e autenticidade da imagem (refletida pela pontuação FID). Comparado a um modelo treinado diretamente no VIST sem incluir um estágio de registro de modalidade única (MiniGPT-5 sem UAS), embora o modelo retenha a capacidade de gerar imagens significativas, a qualidade e a consistência da imagem são significativamente reduzidas. Esta observação destaca a importância de uma estratégia de formação em duas fases.
Avaliação em várias etapas do VIST
Numa avaliação mais detalhada e abrangente, os investigadores forneceram sistematicamente ao modelo um contexto histórico prévio e posteriormente avaliaram as imagens e narrativas resultantes em cada etapa.
As Tabelas 2 e 3 resumem os resultados desses experimentos, resumindo o desempenho das métricas de imagem e linguagem, respectivamente. Os resultados experimentais mostram que o MiniGPT-5 é capaz de gerar imagens coerentes e de alta qualidade usando entradas multimodais horizontais longas em todos os dados, sem afetar as capacidades de compreensão multimodal do modelo original. Isto destaca a eficácia do MiniGPT-5 em diferentes ambientes.
Avaliação Humana VIST
Conforme mostrado na Tabela 4, o MiniGPT-5 gerou narrativas de texto mais apropriadas em 57,18% dos casos, proporcionou melhor qualidade de imagem em 52,06% dos casos e gerou multimodo mais coerente em 57,62% das cenas. Em comparação com a linha de base de dois estágios que adota narração de texto para imagem sem modo subjuntivo, esses dados demonstram claramente suas capacidades de geração multimodal mais fortes.
MMDialog múltiplas rodadas de avaliação
Os resultados são mostrados na Tabela 5. O MiniGPT-5 supera o modelo de linha de base Divter na geração de respostas de texto mais precisas. Embora as imagens geradas sejam de qualidade semelhante, o MiniGPT-5 supera o modelo de linha de base na correlação MM, indicando que pode aprender melhor como posicionar a geração de imagens de forma adequada e gerar respostas multimodais altamente consistentes.
Qual é o efeito? Vamos dar uma olhada na saída do MiniGPT-5. A Figura 7 abaixo mostra a comparação dos modelos básicos nos conjuntos de validação MiniGPT-5 e CC3M.
A Figura 8 abaixo mostra a comparação entre o MiniGPT-5 e o modelo de linha de base no conjunto de validação VIST.
A Figura 9 abaixo mostra a comparação entre o MiniGPT-5 e o modelo de linha de base no conjunto de teste MMDialog.
Para obter mais detalhes da pesquisa, consulte o artigo original.
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
O MiniGPT-5, que unifica a geração de imagens e textos, está aqui: o token se torna Voken, e o modelo pode não apenas continuar escrevendo, mas também adicionar imagens automaticamente.
Grandes modelos estão dando o salto entre a linguagem e a visão, prometendo compreender e gerar perfeitamente conteúdo de texto e imagem. Numa série de estudos recentes, a integração de recursos multimodais não é apenas uma tendência crescente, mas já levou a avanços importantes que vão desde conversas multimodais até ferramentas de criação de conteúdo. Grandes modelos de linguagem demonstraram capacidades incomparáveis na compreensão e geração de texto. Contudo, gerar simultaneamente imagens com narrativas textuais coerentes ainda é uma área a ser desenvolvida.
Recentemente, uma equipe de pesquisa da Universidade da Califórnia, em Santa Cruz, propôs o MiniGPT-5, uma tecnologia inovadora de geração de linguagem visual intercalada baseada no conceito de “voto generativo”.
Ao combinar o mecanismo de difusão estável com LLM por meio de um "voto generativo" de token visual especial, o MiniGPT-5 anuncia um novo modelo para geração multimodal qualificada. Ao mesmo tempo, o método de treinamento em dois estágios proposto neste artigo enfatiza a importância do estágio básico livre de descrição, permitindo que o modelo “prospere” mesmo quando os dados são escassos. A fase geral do método não requer anotações específicas de domínio, o que torna nossa solução distinta dos métodos existentes. A fim de garantir que o texto e as imagens gerados sejam harmoniosos, a estratégia de dupla perda deste artigo entra em jogo, e o método de voto generativo e o método de classificação aumentam ainda mais esse efeito.
Com base nessas técnicas, este trabalho marca uma abordagem transformadora. Usando ViT (Vision Transformer) e Qformer, bem como grandes modelos de linguagem, a equipe de pesquisa converte entradas multimodais em votos generativos e os combina perfeitamente com Stable Diffusion2.1 de alta resolução para obter geração de imagens conscientes do contexto. Este artigo combina imagens como entrada auxiliar com métodos de ajuste de instruções e é pioneiro no uso de perdas de geração de texto e imagem, expandindo assim a sinergia entre texto e visão.
O MiniGPT-5 combina modelos como restrições CLIP e integra de forma inteligente o modelo de difusão com o MiniGPT-4 para obter melhores resultados multimodais sem depender de anotações específicas de domínio. Mais importante ainda, a nossa estratégia pode tirar partido dos avanços nos modelos básicos de linguagem visual multimodal e fornecer um novo modelo para melhorar as capacidades geradoras multimodais.
Conforme mostrado na figura abaixo, além de sua capacidade original de compreensão multimodal e geração de texto, o MiniGPT5 também pode fornecer saída multimodal razoável e coerente:
A seguir, vamos dar uma olhada nos detalhes do estudo.
Visão geral do método
Para permitir que modelos de linguagem em grande escala tenham capacidades de geração multimodal, os pesquisadores introduziram uma estrutura estruturada que integra modelos de linguagem multimodais pré-treinados em grande escala e modelos de geração de texto para imagem. Para resolver as diferenças entre os diferentes campos do modelo, eles introduziram símbolos visuais especiais "votos geradores" (votos geradores), que podem ser treinados diretamente nas imagens originais. Além disso, um método de treinamento em dois estágios é avançado, combinado com uma estratégia de bootstrapping sem classificador, para melhorar ainda mais a qualidade da geração.
Avanços recentes em grandes modelos multimodais (como o MiniGPT-4) concentram-se principalmente na compreensão multimodal, capaz de processar imagens como entrada contínua. A fim de estender sua funcionalidade à geração multimodal, os pesquisadores introduziram Vokens generativos projetados especificamente para gerar recursos visuais. Além disso, eles também adotaram técnicas de ajuste fino com eficiência de parâmetros dentro de uma estrutura de modelo de linguagem grande (LLM) para aprendizagem de resultados multimodais.
Geração de saída multimodal
Para alinhar com precisão os tokens generativos aos modelos generativos, formulamos um módulo de mapeamento compacto para correspondência de dimensionalidade e incorporamos várias perdas supervisionadas, incluindo perda de espaço de texto e perda de modelo de difusão latente. A perda de espaço de texto ajuda o modelo a aprender a localização correta dos tokens, enquanto a perda de difusão latente alinha diretamente os tokens com recursos visuais apropriados. Como as características dos símbolos generativos são diretamente guiadas por imagens, este método não requer descrições abrangentes de imagens, permitindo um aprendizado livre de descrições.
Estratégia de treinamento
Dado que há uma mudança de domínio não negligenciável entre o domínio do texto e o domínio da imagem, os pesquisadores descobriram que o treinamento direto em um conjunto limitado de dados de texto e imagem intercalados pode levar ao desalinhamento e à degradação da qualidade da imagem.
Portanto, eles empregaram duas estratégias de treinamento diferentes para aliviar esse problema. A primeira estratégia envolve o emprego de técnicas de bootstrapping sem classificador para melhorar a eficácia dos tokens gerados ao longo do processo de difusão; a segunda estratégia se desdobra em duas fases: uma fase inicial de pré-treinamento com foco no alinhamento aproximado dos recursos, seguida por uma fase de ajuste fino. no aprendizado de recursos complexos.
Experiência e resultados
Para avaliar a eficácia do modelo, os pesquisadores realizaram uma série de avaliações em vários benchmarks. O experimento visa abordar várias questões-chave:
A fim de avaliar o desempenho do modelo em diferentes benchmarks em diferentes estágios de treinamento, as amostras de análise quantitativa do MiniGPT-5 são mostradas na Figura 3 abaixo:
Avaliação da etapa final do VIST
O primeiro conjunto de experimentos envolve avaliação em etapa única, ou seja, geração de imagens correspondentes com base no modelo da última etapa, e os resultados são apresentados na Tabela 1.
O MiniGPT-5 supera o SD 2 ajustado em todas as três configurações. Notavelmente, a pontuação CLIP do modelo MiniGPT-5 (LoRA) supera consistentemente outras variantes em vários tipos, especialmente ao combinar imagens e texto. Por outro lado, a pontuação FID destaca a competitividade do modelo MiniGPT-5 (Prefix), indicando que pode haver um compromisso entre a qualidade de incorporação de imagem (refletida pela pontuação CLIP) e a diversidade e autenticidade da imagem (refletida pela pontuação FID). Comparado a um modelo treinado diretamente no VIST sem incluir um estágio de registro de modalidade única (MiniGPT-5 sem UAS), embora o modelo retenha a capacidade de gerar imagens significativas, a qualidade e a consistência da imagem são significativamente reduzidas. Esta observação destaca a importância de uma estratégia de formação em duas fases.
Numa avaliação mais detalhada e abrangente, os investigadores forneceram sistematicamente ao modelo um contexto histórico prévio e posteriormente avaliaram as imagens e narrativas resultantes em cada etapa.
As Tabelas 2 e 3 resumem os resultados desses experimentos, resumindo o desempenho das métricas de imagem e linguagem, respectivamente. Os resultados experimentais mostram que o MiniGPT-5 é capaz de gerar imagens coerentes e de alta qualidade usando entradas multimodais horizontais longas em todos os dados, sem afetar as capacidades de compreensão multimodal do modelo original. Isto destaca a eficácia do MiniGPT-5 em diferentes ambientes.
Conforme mostrado na Tabela 4, o MiniGPT-5 gerou narrativas de texto mais apropriadas em 57,18% dos casos, proporcionou melhor qualidade de imagem em 52,06% dos casos e gerou multimodo mais coerente em 57,62% das cenas. Em comparação com a linha de base de dois estágios que adota narração de texto para imagem sem modo subjuntivo, esses dados demonstram claramente suas capacidades de geração multimodal mais fortes.
Os resultados são mostrados na Tabela 5. O MiniGPT-5 supera o modelo de linha de base Divter na geração de respostas de texto mais precisas. Embora as imagens geradas sejam de qualidade semelhante, o MiniGPT-5 supera o modelo de linha de base na correlação MM, indicando que pode aprender melhor como posicionar a geração de imagens de forma adequada e gerar respostas multimodais altamente consistentes.