A geração multimodal sempre foi uma área de pesquisa importante para gigantes da tecnologia como OpenAI, Microsoft e Baidu, mas como alcançar texto coerente e imagens relacionadas é um problema complicado.
A fim de quebrar o gargalo técnico, a Universidade da Califórnia, Santa Cruz desenvolveu o modelo MiniGPT-5** e propôs um novo conceito técnico "Generative Vokens", que se torna uma "ponte" entre o espaço de recurso de texto e o espaço de recurso de imagem**, realizando o alinhamento efetivo de dados de treinamento comuns e gerando texto e imagens de alta qualidade ao mesmo tempo.
Para avaliar os efeitos do MiniGPT-5, os pesquisadores o testaram em vários conjuntos de dados, incluindo CC3M, VIST e MMDialog. Os resultados mostram que o MiniGPT-5 supera várias linhas de base de comparação em vários indicadores e é capaz de gerar texto e imagens coerentes e de alta qualidade.
Por exemplo, no conjunto de dados VIT, a pontuação CLIP da imagem gerada pelo MiniGPT-5 é maior do que a do Thin-tunedStable Diffusion 2; Na avaliação humana, o MiniGPT-5 gerou melhor coerência de linguagem (57,18%), maior qualidade de imagem (52,06%) e maior coerência multimodal (57,62%).
No conjunto de dados MMDialog, o índice de correlação MM do MiniGPT-5 atingiu 0,67, excedendo 0,62 do modelo de referência Divter. Isso prova totalmente a forte adaptabilidade do MiniGPT-5 em diferentes modos de dados.
Endereço Open Source:
Endereço:
O modelo MiniGPT-5 tem três grandes inovações: 1) Ele usa um codificador multimodal para extrair recursos de texto e imagem, o que representa uma nova tecnologia de alinhamento texto-imagem, que é melhor do que o método de usar diretamente grandes modelos de linguagem para gerar tokens visuais.
Foi proposta uma estratégia de treinamento em duas etapas sem descrição completa da imagem: a primeira etapa focada no simples alinhamento de texto e imagem; Na segunda etapa, é realizada a aprendizagem multimodal de recursos refinados.
A tecnologia "orientação sem classificador" é introduzida na formação, o que pode efetivamente melhorar a qualidade do conteúdo da geração multimodal. A arquitetura do módulo principal é a seguinte.
Vokens Generativos
A principal inovação do MiniGPT-5 é apresentar o conceito técnico de "Vokens Generativos", que realiza a conexão perfeita entre grandes modelos de linguagem e modelos de geração de imagem.
Especificamente, os pesquisadores adicionaram oito tokens Voken especiais ao léxico do modelo[IMG1] [IMG8]- 。 Esses Vokens são usados como espaços reservados para imagens durante o treinamento do modelo.
No lado da entrada, os recursos de imagem são emendados com vetores de palavras de Voken para formar uma entrada de sequência. Na saída, o modelo prevê a posição desses Vokens, e o estado oculto correspondente h_voken é usado para representar o conteúdo da imagem.
Em seguida, o h_voken é convertido em recursos condicionais de imagem ˆh_voken alinhados com a saída do codificador de texto Stable Diffusion através de um módulo de mapeamento de recursos.
Em Difusão Estável, ˆh_voken é usado como uma entrada condicional para orientar a geração de imagens. Todo o pipeline realiza o encaixe de imagens para modelos de linguagem para geração de imagens.
Este método de alinhamento através do Voken é mais simples do que a computação reversa e mais versátil do que o uso de descrições de imagens. Para simplificar, o Generative Vokens atua como uma "ponte" que torna a transferência de informações entre diferentes domínios de modelo mais suave.
Estratégia de Formação em Duas Fases
Considerando que existem certas diferenças de domínio no espaço de recurso de texto e imagens, o MiniGPT-5 adota uma estratégia de treinamento em duas etapas.
A primeira etapa é a fase de alinhamento unimodal: apenas dados de um único par imagem-texto, como CC3M, são usados. O modelo aprende a gerar o Voken correspondente a partir da legenda da imagem. Ao mesmo tempo, uma perda de título de imagem secundária foi adicionada para ajudar a Voken a se alinhar com o conteúdo da imagem.
A segunda etapa é a fase de aprendizagem multimodal: ajuste fino usando dados contendo amostras multimodais contíguas, como o VIST. Configure diferentes tarefas de treinamento, incluindo geração de texto, geração de imagens e ambos. A capacidade do modelo para processar informações multimodais foi melhorada.
Esta estratégia faseada pode aliviar o problema da formação diretamente com base em dados limitados. O alinhamento de grão grosso foi realizado primeiro e, em seguida, as características de grão fino ajustadas, o que melhorou a expressividade e a robustez do modelo.
Sem Orientação do Classificador
A fim de melhorar ainda mais a coerência do texto e imagens gerados, MiniGPT-5 também adota a tecnologia de "orientação sem classificador".
A ideia central é que, no processo de difusão de imagem, o Voken condicional é substituído por zero características com uma certa probabilidade de alcançar a geração incondicional.
Ao inferir, os resultados condicionais e incondicionais são usados como amostras positivas e negativas, e o modelo pode usar melhor o contraste entre os dois para produzir uma saída multimodal coerente. Este método é simples e eficiente, não necessita de introduzir classificadores adicionais, e orienta a aprendizagem do modelo através da natureza de comparação de dados.
Modelo de geração de texto para imagem
MiniGPT-5 usa Stable Diffusion 2.1 e o modelo multimodal MiniGPT-4 como o modelo de geração de texto para imagem. Imagens de alta qualidade e alta resolução podem ser geradas a partir de descrições de texto.
A Difusão Estável utiliza o modelo de Difusão e a U-Net como componentes principais. O modelo de difusão pode representar a imagem como dados de ruído, que podem ser denoizados e reconstruídos passo a passo.
A U-Net utiliza funcionalidades de texto como condições para orientar o processo de denoising para gerar as imagens correspondentes. Em comparação com o GAN, o modelo Diffusion é mais estável e o efeito de geração é mais claro e realista.
Para alinhar com precisão os marcadores generativos com o modelo generativo, os pesquisadores desenvolveram um módulo de mapeamento compacto para correspondência de dimensões e incorporaram algumas perdas supervisionadas, incluindo perda de espaço de texto e perda de modelo de difusão latente.
A perda espacial textual ajuda o modelo a aprender a posição correta do marcador, enquanto a perda de difusão potencial alinha diretamente o marcador com a característica visual apropriada. Uma vez que os recursos que geram Vokens são diretamente guiados por imagem, a aprendizagem descritiva pode ser alcançada sem a necessidade de uma descrição abrangente da imagem.
De acordo com os pesquisadores, a maior contribuição do MiniGPT-5 reside na integração efetiva da geração de texto e geração de imagem. Apenas texto e imagens comuns são necessários para o pré-treinamento, e a geração multimodal coerente pode ser realizada sem descrição de imagem complexa. Isto proporciona uma solução uniforme e eficiente para tarefas multimodais.
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
Tecnologia inovadora! Modelo multimodal de código aberto — MiniGPT-5
Fonte original: AIGC Open Community
A geração multimodal sempre foi uma área de pesquisa importante para gigantes da tecnologia como OpenAI, Microsoft e Baidu, mas como alcançar texto coerente e imagens relacionadas é um problema complicado.
A fim de quebrar o gargalo técnico, a Universidade da Califórnia, Santa Cruz desenvolveu o modelo MiniGPT-5** e propôs um novo conceito técnico "Generative Vokens", que se torna uma "ponte" entre o espaço de recurso de texto e o espaço de recurso de imagem**, realizando o alinhamento efetivo de dados de treinamento comuns e gerando texto e imagens de alta qualidade ao mesmo tempo.
Para avaliar os efeitos do MiniGPT-5, os pesquisadores o testaram em vários conjuntos de dados, incluindo CC3M, VIST e MMDialog. Os resultados mostram que o MiniGPT-5 supera várias linhas de base de comparação em vários indicadores e é capaz de gerar texto e imagens coerentes e de alta qualidade.
Por exemplo, no conjunto de dados VIT, a pontuação CLIP da imagem gerada pelo MiniGPT-5 é maior do que a do Thin-tunedStable Diffusion 2; Na avaliação humana, o MiniGPT-5 gerou melhor coerência de linguagem (57,18%), maior qualidade de imagem (52,06%) e maior coerência multimodal (57,62%).
Endereço Open Source:
Endereço:
Foi proposta uma estratégia de treinamento em duas etapas sem descrição completa da imagem: a primeira etapa focada no simples alinhamento de texto e imagem; Na segunda etapa, é realizada a aprendizagem multimodal de recursos refinados.
A tecnologia "orientação sem classificador" é introduzida na formação, o que pode efetivamente melhorar a qualidade do conteúdo da geração multimodal. A arquitetura do módulo principal é a seguinte.
Vokens Generativos
A principal inovação do MiniGPT-5 é apresentar o conceito técnico de "Vokens Generativos", que realiza a conexão perfeita entre grandes modelos de linguagem e modelos de geração de imagem.
Especificamente, os pesquisadores adicionaram oito tokens Voken especiais ao léxico do modelo[IMG1] [IMG8]- 。 Esses Vokens são usados como espaços reservados para imagens durante o treinamento do modelo.
No lado da entrada, os recursos de imagem são emendados com vetores de palavras de Voken para formar uma entrada de sequência. Na saída, o modelo prevê a posição desses Vokens, e o estado oculto correspondente h_voken é usado para representar o conteúdo da imagem.
Em Difusão Estável, ˆh_voken é usado como uma entrada condicional para orientar a geração de imagens. Todo o pipeline realiza o encaixe de imagens para modelos de linguagem para geração de imagens.
Este método de alinhamento através do Voken é mais simples do que a computação reversa e mais versátil do que o uso de descrições de imagens. Para simplificar, o Generative Vokens atua como uma "ponte" que torna a transferência de informações entre diferentes domínios de modelo mais suave.
Estratégia de Formação em Duas Fases
Considerando que existem certas diferenças de domínio no espaço de recurso de texto e imagens, o MiniGPT-5 adota uma estratégia de treinamento em duas etapas.
A primeira etapa é a fase de alinhamento unimodal: apenas dados de um único par imagem-texto, como CC3M, são usados. O modelo aprende a gerar o Voken correspondente a partir da legenda da imagem. Ao mesmo tempo, uma perda de título de imagem secundária foi adicionada para ajudar a Voken a se alinhar com o conteúdo da imagem.
A segunda etapa é a fase de aprendizagem multimodal: ajuste fino usando dados contendo amostras multimodais contíguas, como o VIST. Configure diferentes tarefas de treinamento, incluindo geração de texto, geração de imagens e ambos. A capacidade do modelo para processar informações multimodais foi melhorada.
Esta estratégia faseada pode aliviar o problema da formação diretamente com base em dados limitados. O alinhamento de grão grosso foi realizado primeiro e, em seguida, as características de grão fino ajustadas, o que melhorou a expressividade e a robustez do modelo.
Sem Orientação do Classificador
A fim de melhorar ainda mais a coerência do texto e imagens gerados, MiniGPT-5 também adota a tecnologia de "orientação sem classificador".
A ideia central é que, no processo de difusão de imagem, o Voken condicional é substituído por zero características com uma certa probabilidade de alcançar a geração incondicional.
Ao inferir, os resultados condicionais e incondicionais são usados como amostras positivas e negativas, e o modelo pode usar melhor o contraste entre os dois para produzir uma saída multimodal coerente. Este método é simples e eficiente, não necessita de introduzir classificadores adicionais, e orienta a aprendizagem do modelo através da natureza de comparação de dados.
Modelo de geração de texto para imagem
MiniGPT-5 usa Stable Diffusion 2.1 e o modelo multimodal MiniGPT-4 como o modelo de geração de texto para imagem. Imagens de alta qualidade e alta resolução podem ser geradas a partir de descrições de texto.
A Difusão Estável utiliza o modelo de Difusão e a U-Net como componentes principais. O modelo de difusão pode representar a imagem como dados de ruído, que podem ser denoizados e reconstruídos passo a passo.
A U-Net utiliza funcionalidades de texto como condições para orientar o processo de denoising para gerar as imagens correspondentes. Em comparação com o GAN, o modelo Diffusion é mais estável e o efeito de geração é mais claro e realista.
A perda espacial textual ajuda o modelo a aprender a posição correta do marcador, enquanto a perda de difusão potencial alinha diretamente o marcador com a característica visual apropriada. Uma vez que os recursos que geram Vokens são diretamente guiados por imagem, a aprendizagem descritiva pode ser alcançada sem a necessidade de uma descrição abrangente da imagem.
De acordo com os pesquisadores, a maior contribuição do MiniGPT-5 reside na integração efetiva da geração de texto e geração de imagem. Apenas texto e imagens comuns são necessários para o pré-treinamento, e a geração multimodal coerente pode ser realizada sem descrição de imagem complexa. Isto proporciona uma solução uniforme e eficiente para tarefas multimodais.