Interpretação do modelo de grafos literários mais forte da OpenAI—DALL· E 3

Fonte original: AIGC Open Community

Fonte da imagem: Gerado por Unbounded AI

Midjourney e Stable Difusion alcançaram grande sucesso em monetização comercial e aterrissagem baseada em cenários, o que permitiu à OpenAI ver novas oportunidades de negócios e lançar DALL· Uma das razões importantes para E 3.

Na semana passada, a OpenAI anunciou a disponibilidade total do modelo gráfico Vensheng DALL· entre os usuários do ChatGPT Plus e Enterprise Edition. E3, e ao mesmo tempo uma rara liberação de trabalhos de pesquisa.

DALL· E 3 e as duas gerações anteriores de DALL· E、DALL· Em comparação com E 2, alcançou um salto qualitativo na compreensão semântica, qualidade de imagem, modificação de imagem, interpretação de imagem, entrada de texto longo, etc., especialmente em combinação com ChatGPT, tornando-se uma nova aplicação de trunfo da OpenAI.

Endereço em papel:

A seguinte "AIGC Open Community" será baseada em DALL· O documento E3 explica os principais princípios técnicos e as funções de cada módulo.

Os pesquisadores descobriram que os modelos de imagem gerados por texto muitas vezes tinham várias dificuldades em seguir descrições detalhadas de imagens, ignorando palavras no prompt ou confundindo seus significados, devido à baixa qualidade das descrições de imagens no conjunto de dados de treinamento.

Para testar essa hipótese, os pesquisadores primeiro treinaram um modelo que gera legendas para imagens descritivas. O modelo é cuidadosamente treinado para gerar descrições detalhadas e precisas para imagens.

Depois de usar esse modelo para regenerar descrições para o conjunto de dados de treinamento, os pesquisadores compararam vários modelos de imagem gerados por texto treinados na descrição original e na descrição recém-gerada.

Os resultados mostram que o modelo treinado na nova descrição é significativamente melhor do que o modelo de descrição original ao seguir os prompts. Este método foi posteriormente treinado em conjuntos de dados de grande escala – DALL-E 3.

Do ponto de vista da arquitetura técnica do DALL-E 3, ele é dividido principalmente em dois módulos: geração de descrição de imagem e geração de imagem.

Módulo de Geração de Descrição de Imagem

Este módulo usa um codificador de imagem CLIP (Contrastive Language-Image Pretraining) e GPT Language Model (GPT-4) para gerar descrições de texto detalhadas para cada imagem.

Ao construir conjuntos de dados de descrição de assunto em pequena escala, conjuntos de dados de descrição detalhada em grande escala e definir regras de geração, os pesquisadores aumentam consideravelmente a quantidade de informações de descrição de imagem saída pelo módulo e fornecem forte suporte para a geração de imagens subsequente. As principais funções de cada módulo são as seguintes:

1) Codificador de imagem CLIP

CLIP é um modelo de correspondência de texto de imagem treinado que codifica uma imagem em um vetor de comprimento fixo que contém as informações semânticas da imagem. O DALL-E 3 utiliza o codificador de imagem do CLIP para codificar a imagem de treinamento em um vetor de recurso de imagem como parte da entrada de geração de texto condicional.

2) Modelo de linguagem GPT

DALL-E 3 constrói um modelo de linguagem baseado na arquitetura GPT e aprende a gerar descrições de texto coerentes maximizando a probabilidade conjunta de amostragem aleatória de sequências de texto.

3) Geração de texto condicional

Ao combinar os dois acima, o vetor de recurso de imagem é inserido no modelo de linguagem GPT juntamente com a sequência de palavras anterior, e a geração de texto condicional da imagem pode ser realizada. Através de treinamento, o módulo aprende a gerar descrições Deive detalhadas para cada imagem.

4) Otimizar a formação

Embora a infraestrutura para DALL-E 3 tenha sido concluída, os resultados do treinamento direto não são ideais o suficiente para gerar descrições detalhadas. Por isso, os pesquisadores fizeram as seguintes otimizações técnicas:

* Construir conjuntos de dados em pequena escala, coletar especificamente descrições detalhadas de assuntos, ajustar modelos de linguagem e tendem a descrever assuntos de imagem.

  • Construir conjuntos de dados de descrição detalhada em grande escala, descrever vários aspetos, como assunto, fundo, cor, texto, etc., e melhorar ainda mais a qualidade da descrição através de ajuste fino.
  • Defina regras como comprimento e estilo das descrições geradas para evitar que os modelos de linguagem se desviem do estilo humano.

Módulo de Geração de Imagem

Este módulo primeiro usa o VAE para comprimir imagens de alta resolução em vetores de baixa dimensão para reduzir a dificuldade de aprendizagem. O texto é então codificado em vetores usando o T5 Transformer e injetado no modelo de difusão através da camada GroupNorm para guiar a direção de geração da imagem.

Os pesquisadores acreditam que a adição do modelo Diffusion aumenta significativamente o efeito da geração de detalhes de imagem. O processo específico é o seguinte:

1) Compressão de imagem

As imagens de alta resolução são primeiro comprimidas em vetores de baixa dimensão pelo modelo VAE para reduzir a dificuldade de geração de imagens. O DALL-E 3 emprega uma redução de amostragem de 8x, e as imagens de 256px são compactadas em um vetor latente de tamanho 32x32.

2) Codificador de texto

Use redes como o T5 Transformer para codificar prompts de texto em vetores para injeção em modelos de geração de imagem.

3)Difusão latente

Esta é a técnica central de geração de imagem, que decompõe o problema de geração de imagem em várias perturbações de pequena escala do vetor de ruído, aproximando-se gradualmente da imagem alvo. A chave é projetar os processos para frente e para trás apropriados.

  1. Injeção de texto**

O vetor de texto codificado é injetado no modelo de Difusão Latente através da camada GroupNorm para guiar a direção de geração de imagem para cada rodada de iteração.

5) Otimizar a formação

Os pesquisadores descobriram que treinar um modelo de difusão adicional no espaço latente de imagem comprimido poderia melhorar ainda mais a qualidade da geração de detalhes. Esta é uma das razões pelas quais o DALL-E 3 produz imagens de melhor qualidade do que as duas gerações anteriores.

Dados de avaliação CLIP

Os pesquisadores primeiro usaram o modelo CLIP para calcular a semelhança entre a imagem gerada pelo DALL-E 3 e o texto de descrição original, ou seja, a pontuação CLIP. Eles selecionaram aleatoriamente 4096 descrições de imagens do conjunto de dados MSCOCO como texto de prompt, pediram DALL-E 2, DALL-E 3 e Stable Diffusion XL para gerar imagens correspondentes e, em seguida, calcularam as pontuações médias do CLIP dos três.

Os resultados mostraram que a pontuação CLIP do DALL-E 3 atingiu 32,0, superando os 31,4 do DALL-E 2 e os 30,5 do Stable Diffusion XL.

Isso mostra que a imagem gerada pelo DALL-E 3 se encaixa melhor com o texto de descrição original, e o texto guia melhor a geração de imagens.

Dados de avaliação do Drawbench

O desempenho dos modelos foi comparado no conjunto de dados Drawbench. O conjunto de dados contém muitos prompts de texto frágeis, testando a compreensão do modelo sobre os prompts.

Os pesquisadores usaram o GPT-V, um modelo de linguagem visual, para julgar automaticamente a correção das imagens geradas.

No subteste de prompts de texto curto, a porcentagem de imagens geradas corretamente pelo DALL-E 3 atingiu 70,4%, excedendo significativamente 49% do DALL-E 2 e 46,9% do Stable Diffusion XL.

Em longos prompts de texto, o DALL-E 3 também obteve 81% de acerto, continuando a superar outros modelos.

Avaliação T2I-CompBench

Através do subteste de correlação no T2I-CompBench, a capacidade do modelo de processar os prompts de classe de combinação é investigada. Nos três testes de ligação de cores, ligação de forma e ligação de textura, o DALL-E 3 ficou em primeiro lugar entre os modelos na proporção de ligação correta, demonstrando plenamente sua capacidade de entender as pistas de combinação.

Avaliação Manual

Os pesquisadores também convidaram os humanos a julgar as amostras geradas em termos de seguir pistas, coerência estilística e assim por diante. Em uma avaliação de 170 pontas, o DALL-E 3 superou significativamente o Midjourney e o Stable Diffusion XL.

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Compartilhar
Comentário
0/400
Sem comentários
  • Marcar
Faça trade de criptomoedas em qualquer lugar e a qualquer hora
qrCode
Escaneie o código para baixar o app da Gate
Comunidade
Português (Brasil)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)