¡Tecnología innovadora! Modelo multimodal de código abierto: MiniGPT-5

Fuente original: AIGC Open Community

Fuente de la imagen: Generado por Unbounded AI

La generación multimodal siempre ha sido un área de investigación importante para gigantes tecnológicos como OpenAI, Microsoft y Baidu, pero cómo lograr texto coherente e imágenes relacionadas es un problema complicado.

Con el fin de superar el cuello de botella técnico, la Universidad de California, Santa Cruz, desarrolló el modelo MiniGPT-5** y propuso un nuevo concepto técnico "Generative Vokens", que se convierte en un "puente" entre el espacio de características de texto y el espacio de características de imagen**, realizando la alineación efectiva de datos de entrenamiento ordinarios y generando texto e imágenes de alta calidad al mismo tiempo.

Para evaluar los efectos de MiniGPT-5, los investigadores lo probaron en múltiples conjuntos de datos, incluidos CC3M, VIST y MMDialog. Los resultados muestran que MiniGPT-5 supera múltiples líneas de base de comparación en múltiples indicadores, y es capaz de generar texto e imágenes coherentes y de alta calidad.

Por ejemplo, en el conjunto de datos VIST, la puntuación CLIP de la imagen generada por MiniGPT-5 es mayor que la de fine-tunedStable Diffusion 2; En la evaluación humana, MiniGPT-5 generó una mejor coherencia lingüística (57,18%), una mayor calidad de imagen (52,06%) y una mayor coherencia multimodal (57,62%).

En el conjunto de datos MMDialog, el índice de correlación MM de MiniGPT-5 alcanzó 0,67, superando el 0,62 del modelo de referencia Divter. Esto demuestra plenamente la gran adaptabilidad de MiniGPT-5 en diferentes modos de datos.

Dirección de código abierto:

Dirección:

El modelo MiniGPT-5 tiene tres innovaciones principales: 1) Utiliza un codificador multimodal para extraer características de texto e imagen, lo que representa una nueva tecnología de alineación texto-imagen, que es mejor que el método de usar directamente grandes modelos de lenguaje para generar tokens visuales.

  1. Se propuso una estrategia de entrenamiento en dos etapas sin descripción completa de la imagen: la primera etapa se centró en la simple alineación de texto e imagen; En la segunda etapa, se lleva a cabo el aprendizaje multimodal de características de grano fino.

  2. Se introduce en la capacitación la tecnología de "guía sin clasificador", que puede mejorar efectivamente la calidad del contenido de la generación multimodal. La arquitectura del módulo principal es la siguiente.

Vokens generativos

La principal innovación de MiniGPT-5 es presentar el concepto técnico de "Generative Vokens", que realiza la conexión perfecta entre los grandes modelos de lenguaje y los modelos de generación de imágenes.

Específicamente, los investigadores agregaron ocho tokens especiales de Voken al léxico del modelo[IMG1] [IMG8]- 。 Estos Vokens se utilizan como marcadores de posición para las imágenes durante el entrenamiento del modelo.

En el lado de entrada, las entidades de imagen se empalman con los vectores de palabras de Voken para formar una entrada de secuencia. En la salida, el modelo predice la posición de estos Vokens y se utiliza el estado oculto correspondiente h_voken para representar el contenido de la imagen.

A continuación, h_voken se convierte en características condicionales de imagen ˆh_voken se alinea con la salida del codificador de texto Stable Diffusion a través de un módulo de mapeo de características.

En Stable Diffusion, ˆh_voken se utiliza como entrada condicional para guiar la generación de imágenes. Toda la canalización realiza el acoplamiento de las imágenes a los modelos de lenguaje y a la generación de imágenes.

Este método de alineación a través de Voken es más sencillo que el cálculo inverso y más versátil que el uso de descripciones de imágenes. En pocas palabras, Generative Vokens actúa como un "puente" que hace que la transferencia de información entre diferentes dominios del modelo sea más fluida.

Estrategia de formación en dos fases

Teniendo en cuenta que existen ciertas diferencias de dominio en el espacio de características del texto y las imágenes, MiniGPT-5 adopta una estrategia de entrenamiento en dos etapas.

La primera etapa es la fase de alineación unimodal: solo se utilizan datos de un solo par imagen-texto, como CC3M. El modelo aprende a generar el Voken correspondiente a partir de la leyenda de la imagen. Al mismo tiempo, se ha agregado una pérdida de título de imagen secundaria para ayudar a Voken a alinearse con el contenido de la imagen.

La segunda etapa es la fase de aprendizaje multimodal: ajuste fino utilizando datos que contienen muestras multimodales contiguas, como VIST. Configure diferentes tareas de entrenamiento, incluida la generación de texto, la generación de imágenes y ambas. Se ha mejorado la capacidad del modelo para procesar información multimodal.

Esta estrategia por fases puede aliviar el problema del entrenamiento directo con datos limitados. Primero se realizó una alineación de grano grueso y luego se ajustaron las características de grano fino, lo que mejoró la expresividad y la robustez del modelo.

Sin guía de clasificador

Con el fin de mejorar aún más la coherencia del texto y las imágenes generados, MiniGPT-5 también adopta la tecnología de "guía sin clasificador".

La idea central es que en el proceso de difusión de la imagen, el Voken condicional se reemplaza por características cero con una cierta probabilidad de lograr la generación incondicional.

Al inferir, los resultados condicionales e incondicionales se utilizan como muestras positivas y negativas, y el modelo puede utilizar mejor el contraste entre los dos para producir una salida multimodal coherente. Este método es simple y eficiente, no necesita introducir clasificadores adicionales y guía el aprendizaje del modelo a través de la naturaleza de comparación de datos.

Modelo de generación de texto a imagen

MiniGPT-5 utiliza Stable Diffusion 2.1 y el modelo multimodal MiniGPT-4 como modelo de generación de texto a imagen. Se pueden generar imágenes de alta calidad y alta resolución a partir de descripciones de texto.

Stable Diffusion utiliza el modelo Diffusion y U-Net como componentes principales. El modelo de difusión puede representar la imagen como datos de ruido, que luego se pueden eliminar de ruido y reconstruir paso a paso.

U-Net utiliza características de texto como condiciones para guiar el proceso de eliminación de ruido para generar las imágenes correspondientes. En comparación con GAN, el modelo de difusión es más estable y el efecto de generación es más claro y realista.

Para alinear con precisión los marcadores generativos con el modelo generativo, los investigadores desarrollaron un módulo de mapeo compacto para la coincidencia de dimensiones e incorporaron algunas pérdidas supervisadas, incluida la pérdida de espacio de texto y la pérdida del modelo de difusión latente.

La pérdida espacial textual ayuda al modelo a aprender la posición correcta del marcador, mientras que la pérdida potencial de difusión alinea directamente el marcador con la característica visual adecuada. Dado que las características que generan Vokens están guiadas directamente por imágenes, se puede lograr un aprendizaje descriptivo sin la necesidad de una descripción completa de la imagen.

Según los investigadores, la mayor contribución de MiniGPT-5 radica en la integración efectiva de la generación de texto y la generación de imágenes. Solo se requieren texto e imágenes ordinarios para el entrenamiento previo, y la generación multimodal coherente se puede llevar a cabo sin una descripción compleja de la imagen. Esto proporciona una solución uniforme y eficiente para tareas multimodales.

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Compartir
Comentar
0/400
Sin comentarios
  • Anclado
Opere con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)