Interpretación del modelo de grafos literarios más sólido de OpenAI: DALL· E 3

Fuente original: AIGC Open Community

Fuente de la imagen: Generado por Unbounded AI

Midjourney y Stable Difusion han logrado un gran éxito en la monetización comercial y el aterrizaje basado en escenarios, lo que ha permitido a OpenAI ver nuevas oportunidades de negocio y lanzar DALL· Una de las razones importantes de E 3.

La semana pasada, OpenAI anunció la disponibilidad total del modelo de gráficos Vensheng DALL· entre los usuarios de ChatGPT Plus y Enterprise Edition. E3, y al mismo tiempo un raro lanzamiento de trabajos de investigación.

DALL· E 3 y las dos generaciones anteriores de DALL· E、DALL· En comparación con E 2, ha logrado un salto cualitativo en la comprensión semántica, la calidad de la imagen, la modificación de la imagen, la interpretación de la imagen, la entrada de texto largo, etc., especialmente en combinación con ChatGPT, convirtiéndose en una nueva aplicación de la carta de triunfo de OpenAI.

Dirección del papel:

La siguiente "Comunidad Abierta de AIGC" se basará en DALL· El documento E3 explica los principales principios técnicos y las funciones de cada módulo.

Los investigadores descubrieron que los modelos de imágenes generadas por texto a menudo tenían varias dificultades para seguir descripciones detalladas de las imágenes, ignorar las palabras en el mensaje o confundir sus significados, debido a la mala calidad de las descripciones de las imágenes en el conjunto de datos de entrenamiento.

Para probar esta hipótesis, los investigadores primero entrenaron un modelo que genera leyendas para imágenes descriptivas. El modelo se entrena cuidadosamente para generar descripciones detalladas y precisas de las imágenes.

Después de usar este modelo para regenerar descripciones para el conjunto de datos de entrenamiento, los investigadores compararon varios modelos de imágenes generadas por texto entrenados en la descripción original y la descripción recién generada.

Los resultados muestran que el modelo entrenado en la nueva descripción es significativamente mejor que el modelo de descripción original al seguir las indicaciones. Este método se entrenó posteriormente en conjuntos de datos a gran escala: DALL-E 3.

Desde el punto de vista de la arquitectura técnica de DALL-E 3, se divide principalmente en dos módulos: generación de descripción de imágenes y generación de imágenes.

Módulo de Generación de Descripción de Imágenes

Este módulo utiliza un codificador de imágenes CLIP (Contrastive Language-Image Pretraining) y un modelo de lenguaje GPT (GPT-4) para generar descripciones de texto detalladas para cada imagen.

Mediante la construcción de conjuntos de datos de descripción de sujetos a pequeña escala, conjuntos de datos de descripción detallada a gran escala y el establecimiento de reglas de generación, los investigadores aumentan en gran medida la cantidad de información de descripción de imágenes que genera el módulo y proporcionan un fuerte soporte para la generación posterior de imágenes. Las principales funciones de cada módulo son las siguientes:

1) Codificador de imagen CLIP

CLIP es un modelo de coincidencia de texto de imagen entrenado que codifica una imagen en un vector de longitud fija que contiene la información semántica de la imagen. DALL-E 3 utiliza el codificador de imágenes de CLIP para codificar la imagen de entrenamiento en un vector de características de imagen como parte de la entrada de generación de texto condicional.

2) Modelo de lenguaje GPT

DALL-E 3 construye un modelo de lenguaje basado en la arquitectura GPT y aprende a generar descripciones de texto coherentes maximizando la probabilidad conjunta de muestrear secuencias de texto al azar.

3) Generación de texto condicional

Al combinar los dos anteriores, el vector de características de la imagen se ingresa en el modelo de lenguaje GPT junto con la secuencia de palabras anterior, y se puede realizar la generación de texto condicional de la imagen. A través de la capacitación, el módulo aprende a generar descripciones detalladas de Deive para cada imagen.

4) Optimizar el entrenamiento

Aunque la infraestructura para DALL-E 3 se ha completado, los resultados de la capacitación directa no son lo suficientemente ideales como para generar descripciones detalladas. Por lo tanto, los investigadores realizaron las siguientes optimizaciones técnicas:

* Construir conjuntos de datos a pequeña escala, recopilar específicamente descripciones detalladas de los temas, ajustar los modelos de lenguaje y tender a describir los temas de las imágenes.

  • Construya conjuntos de datos de descripción detallada a gran escala, describa varios aspectos como el tema, el fondo, el color, el texto, etc., y mejore aún más la calidad de la descripción a través del ajuste.
  • Establecer reglas como la longitud y el estilo de las descripciones generadas para evitar que los modelos de lenguaje se desvíen del estilo humano.

Módulo de generación de imágenes

Este módulo utiliza primero VAE para comprimir imágenes de alta resolución en vectores de baja dimensión para reducir la dificultad de aprendizaje. A continuación, el texto se codifica en vectores utilizando el transformador T5 y se inyecta en el modelo de difusión a través de la capa GroupNorm para guiar la dirección de generación de la imagen.

Los investigadores creen que la adición del modelo de difusión mejora significativamente el efecto de la generación de detalles de la imagen. El proceso específico es el siguiente:

1) Compresión de imágenes

Las imágenes de alta resolución se comprimen primero en vectores de baja dimensión mediante el modelo VAE para reducir la dificultad de la generación de imágenes. DALL-E 3 emplea un muestreo descendente de 8x, y las imágenes de 256px se comprimen en un vector latente de tamaño 32x32.

2) Codificador de texto

Utilice redes como T5 Transformer para codificar solicitudes de texto en vectores para inyectarlas en modelos de generación de imágenes.

3)Difusión latente

Esta es la técnica central de generación de imágenes, que descompone el problema de generación de imágenes en múltiples perturbaciones a pequeña escala del vector de ruido, acercándose gradualmente a la imagen objetivo. La clave está en diseñar los procesos adecuados hacia adelante y hacia atrás.

  1. Inyección de texto**

El vector de texto codificado se inyecta en el modelo de difusión latente a través de la capa GroupNorm para guiar la dirección de generación de imágenes para cada ronda de iteración.

5) Optimizar el entrenamiento

Los investigadores descubrieron que el entrenamiento de un modelo de difusión adicional en el espacio latente de imágenes comprimidas podría mejorar aún más la calidad de la generación de detalles. Esta es una de las razones por las que el DALL-E 3 produce imágenes de mejor calidad que las dos generaciones anteriores.

Datos de evaluación de CLIP

En primer lugar, los investigadores utilizaron el modelo CLIP para calcular la similitud entre la imagen generada por DALL-E 3 y el texto de descripción original, es decir, la puntuación CLIP. Seleccionaron aleatoriamente 4096 descripciones de imágenes del conjunto de datos MSCOCO como texto de solicitud, pidieron a DALL-E 2, DALL-E 3 y Stable Diffusion XL que generaran las imágenes correspondientes y, a continuación, calcularon las puntuaciones medias de CLIP de las tres.

Los resultados mostraron que la puntuación CLIP de DALL-E 3 alcanzó 32,0, superando el 31,4 de DALL-E 2 y el 30,5 de Stable Diffusion XL.

Esto demuestra que la imagen generada por DALL-E 3 encaja mejor con el texto de la descripción original, y el texto guía mejor la generación de imágenes.

Datos de evaluación de Drawbench

El rendimiento de los modelos se comparó en el conjunto de datos de Drawbench. El conjunto de datos contiene muchas peticiones de datos de texto frágiles, lo que pone a prueba la comprensión de las peticiones de datos por parte del modelo.

Los investigadores utilizaron GPT-V, un modelo de lenguaje visual, para juzgar automáticamente la exactitud de las imágenes generadas.

En la subprueba de indicaciones de texto corto, el porcentaje de imágenes generadas correctamente por DALL-E 3 alcanzó el 70,4%, superando significativamente el 49% de DALL-E 2 y el 46,9% de Stable Diffusion XL.

En las indicaciones de texto largo, el DALL-E 3 también obtuvo un 81% de aciertos, superando a otros modelos.

Evaluación T2I-CompBench

A través de la subprueba de correlación en T2I-CompBench, se investiga la capacidad del modelo para procesar las indicaciones de clase de combinación. En las tres pruebas de unión de color, unión de formas y unión de texturas, DALL-E 3 ocupó el primer lugar entre los modelos en la relación de unión correcta, lo que demuestra plenamente su capacidad para comprender las señales de combinación.

Evaluación manual

Los investigadores también invitaron a los humanos a juzgar las muestras generadas en términos de seguir señales, coherencia estilística, etc. En una evaluación de 170 puntas, DALL-E 3 superó significativamente a Midjourney y Stable Diffusion XL.

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Compartir
Comentar
0/400
Sin comentarios
Opere con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)