MiniGPT-5, que unifica la generación de imágenes y texto, está aquí: el token se convierte en Voken y el modelo no solo puede continuar escribiendo, sino que también puede agregar imágenes automáticamente.
El modelo grande GPT-5 de OpenAI parece estar muy lejos, pero algunos investigadores han tomado la iniciativa en el lanzamiento del innovador modelo multigeneración visual y de lenguaje MiniGPT-5. Esto tiene implicaciones importantes para generar imágenes con descripciones textuales coherentes.
Fuente de la imagen: Generada por IA ilimitada
Los modelos grandes están dando el salto entre el lenguaje y la visión, y prometen comprender y generar contenido de texto e imágenes sin problemas. En una serie de estudios recientes, la integración de funciones multimodales no sólo es una tendencia creciente, sino que ya ha dado lugar a avances clave que van desde conversaciones multimodales hasta herramientas de creación de contenidos. Los grandes modelos de lenguaje han demostrado capacidades incomparables en la comprensión y generación de textos. Sin embargo, generar simultáneamente imágenes con narrativas textuales coherentes es aún un área por desarrollar.
Recientemente, un equipo de investigación de la Universidad de California en Santa Cruz propuso MiniGPT-5, una innovadora tecnología de generación de lenguaje visual entrelazado basada en el concepto de "voto generativo".
* Dirección del papel:
dirección del proyecto:
Al combinar el mecanismo de Difusión Estable con LLM a través de un token visual especial "voto generativo", MiniGPT-5 presagia un nuevo modelo para la generación multimodal calificada. Al mismo tiempo, el método de entrenamiento de dos etapas propuesto en este artículo enfatiza la importancia de la etapa básica sin descripción, lo que permite que el modelo "prospere" incluso cuando los datos son escasos. La fase general del método no requiere anotaciones específicas de dominio, lo que diferencia nuestra solución de los métodos existentes. Para garantizar que el texto y las imágenes generados sean armoniosos, entra en juego la estrategia de doble pérdida de este documento, y el método de voto generativo y el método de clasificación mejoran aún más este efecto.
A partir de estas técnicas, este trabajo marca un enfoque transformador. Al utilizar ViT (Vision Transformer) y Qformer, así como grandes modelos de lenguaje, el equipo de investigación convierte entradas multimodales en votos generativos y los combina perfectamente con Stable Diffusion2.1 de alta resolución para lograr una generación de imágenes consciente del contexto. Este artículo combina imágenes como entrada auxiliar con métodos de ajuste de instrucciones y es pionero en el uso de pérdidas de generación de texto e imágenes, ampliando así la sinergia entre texto y visión.
MiniGPT-5 coincide con modelos como las restricciones CLIP e integra inteligentemente el modelo de difusión con MiniGPT-4 para lograr mejores resultados multimodales sin depender de anotaciones específicas de dominio. Lo más importante es que nuestra estrategia puede aprovechar los avances en los modelos básicos de lenguaje visual multimodal y proporcionar un nuevo modelo para mejorar las capacidades generativas multimodales.
Como se muestra en la figura siguiente, además de sus capacidades originales de generación de texto y comprensión multimodal, MiniGPT5 también puede proporcionar resultados multimodales razonables y coherentes:
El aporte de este artículo se refleja en tres aspectos:
Se recomienda utilizar un codificador multimodal, que representa una técnica novedosa de propósito general y se ha demostrado que es más efectivo que LLM y Vokens generativos invertidos, y combinarlo con Difusión estable para generar resultados visuales y de lenguaje intercalados (Multimodal modelo de lenguaje capaz de generación multimodal).
Destaca una nueva estrategia de capacitación en dos etapas para la generación multimodal sin descripción. La etapa de alineación unimodal obtiene características visuales alineadas con texto de alta calidad a partir de una gran cantidad de pares de texto-imagen. La fase de aprendizaje multimodal incluye una tarea de capacitación novedosa, la generación de contexto, que garantiza que la visión y el texto puedan coordinarse y generarse bien. Agregar orientación sin clasificador durante la fase de capacitación mejora aún más la calidad de la generación.
En comparación con otros modelos generativos multimodales, MiniGPT-5 logra un rendimiento de última generación en el conjunto de datos CC3M. MiniGPT-5 también estableció nuevos puntos de referencia en conjuntos de datos famosos como VIST y MMDialog.
A continuación, echemos un vistazo a los detalles del estudio.
Resumen del método
Para permitir que los modelos de lenguaje a gran escala tengan capacidades de generación multimodal, los investigadores introdujeron un marco estructurado que integra modelos de lenguaje multimodal a gran escala previamente entrenados y modelos de generación de texto a imagen. Para resolver las diferencias entre los diferentes campos del modelo, introdujeron símbolos visuales especiales "votos generativos", que se pueden entrenar directamente en las imágenes originales. Además, se avanza un método de entrenamiento de dos etapas, combinado con una estrategia de arranque sin clasificador, para mejorar aún más la calidad de la generación.
Etapa de entrada multimodal
Los avances recientes en modelos multimodales de gran tamaño (como MiniGPT-4) se centran principalmente en la comprensión multimodal, capaz de procesar imágenes como entrada continua. Para ampliar su funcionalidad a la generación multimodal, los investigadores introdujeron Vokens generativos diseñados específicamente para generar características visuales. Además, también adoptaron técnicas de ajuste eficiente de parámetros dentro de un marco de modelo de lenguaje grande (LLM) para el aprendizaje de resultados multimodal.
Generación de producción multimodal
Para alinear con precisión los tokens generativos con los modelos generativos, formulamos un módulo de mapeo compacto para la coincidencia de dimensionalidad e incorporamos varias pérdidas supervisadas, incluida la pérdida de espacio de texto y la pérdida del modelo de difusión latente. La pérdida de espacio de texto ayuda al modelo a aprender la localización correcta de los tokens, mientras que la pérdida de difusión latente alinea directamente los tokens con las características visuales apropiadas. Dado que las características de los símbolos generativos están guiadas directamente por imágenes, este método no requiere descripciones completas de las imágenes, lo que permite un aprendizaje sin descripciones.
Estrategia de entrenamiento
Dado que existe un cambio de dominio no despreciable entre el dominio del texto y el dominio de la imagen, los investigadores descubrieron que entrenar directamente en un conjunto limitado de datos de texto e imágenes entrelazados puede provocar desalineación y degradación de la calidad de la imagen.
Por lo tanto, emplearon dos estrategias de entrenamiento diferentes para aliviar este problema. La primera estrategia implica el empleo de técnicas de arranque sin clasificador para mejorar la efectividad de los tokens generados durante todo el proceso de difusión; la segunda estrategia se desarrolla en dos fases: una fase inicial de preentrenamiento que se centra en la alineación aproximada de las características, seguida de una fase de ajuste. sobre el aprendizaje de funciones complejas.
Experimento y resultados
Para evaluar la eficacia del modelo, los investigadores realizaron una serie de evaluaciones en múltiples puntos de referencia. El experimento tiene como objetivo abordar varias preguntas clave:
¿Puede MiniGPT-5 generar imágenes creíbles y texto sensible?
¿Cómo se desempeña MiniGPT-5 en comparación con otros modelos SOTA en tareas de generación de lenguaje visual intercalado de una o varias rondas?
¿Qué impacto tiene el diseño de cada módulo en el rendimiento general?
Para evaluar el rendimiento del modelo en diferentes puntos de referencia en diferentes etapas de entrenamiento, las muestras de análisis cuantitativo de MiniGPT-5 se muestran en la Figura 3 a continuación:
La evaluación aquí abarca dominios visuales (métricas relacionadas con imágenes) y lingüísticos (métricas de texto) para demostrar la generalidad y solidez del modelo propuesto.
Evaluación del paso final de VIST
El primer conjunto de experimentos implica una evaluación de un solo paso, es decir, generar imágenes correspondientes basadas en el modelo en el último paso, y los resultados se muestran en la Tabla 1.
MiniGPT-5 supera al SD 2 ajustado en las tres configuraciones. En particular, la puntuación CLIP del modelo MiniGPT-5 (LoRA) supera consistentemente a otras variantes en múltiples tipos, especialmente cuando combina imágenes y texto. Por otro lado, la puntuación FID destaca la competitividad del modelo MiniGPT-5 (Prefix), lo que indica que puede haber un equilibrio entre la calidad de incrustación de la imagen (reflejada por la puntuación CLIP) y la diversidad y autenticidad de la imagen (reflejada por la puntuación FID). En comparación con un modelo entrenado directamente en VIST sin incluir una etapa de registro de modalidad única (MiniGPT-5 sin UAS), aunque el modelo conserva la capacidad de generar imágenes significativas, la calidad y consistencia de la imagen se reducen significativamente. Esta observación resalta la importancia de una estrategia de capacitación en dos etapas.
Evaluación de varios pasos de VIST
En una evaluación más detallada y completa, los investigadores proporcionaron sistemáticamente al modelo un contexto histórico previo y posteriormente evaluaron las imágenes y narrativas resultantes en cada paso.
Las tablas 2 y 3 resumen los resultados de estos experimentos, resumiendo el rendimiento de las métricas de imagen y lenguaje respectivamente. Los resultados experimentales muestran que MiniGPT-5 es capaz de generar imágenes coherentes y de alta calidad utilizando entradas multimodales horizontales largas en todos los datos sin afectar las capacidades de comprensión multimodal del modelo original. Esto destaca la eficacia de MiniGPT-5 en diferentes entornos.
Evaluación humana VIST
Como se muestra en la Tabla 4, MiniGPT-5 generó narrativas de texto más apropiadas en el 57,18% de los casos, proporcionó una mejor calidad de imagen en el 52,06% de los casos y generó resultados multimodo más coherentes en el 57,62% de las escenas. En comparación con la línea de base de dos etapas que adopta la narración de texto a imagen sin modo subjuntivo, estos datos demuestran claramente sus capacidades de generación multimodal más sólidas.
MMDialog múltiples rondas de evaluación
Los resultados se muestran en la Tabla 5. MiniGPT-5 supera al modelo básico Divter en la generación de respuestas de texto más precisas. Si bien las imágenes generadas son de calidad similar, MiniGPT-5 supera al modelo de referencia en correlación MM, lo que indica que puede aprender mejor cómo posicionar adecuadamente la generación de imágenes y generar respuestas multimodales altamente consistentes.
¿Cuál es el efecto? Echemos un vistazo al resultado de MiniGPT-5. La Figura 7 a continuación muestra la comparación de los modelos de referencia en los conjuntos de validación MiniGPT-5 y CC3M.
La Figura 8 a continuación muestra la comparación entre MiniGPT-5 y el modelo de referencia en el conjunto de validación VIST.
La Figura 9 a continuación muestra la comparación entre MiniGPT-5 y el modelo de referencia en el conjunto de prueba MMDialog.
Para obtener más detalles de la investigación, consulte el artículo original.
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
MiniGPT-5, que unifica la generación de imágenes y texto, está aquí: el token se convierte en Voken y el modelo no solo puede continuar escribiendo, sino que también puede agregar imágenes automáticamente.
Los modelos grandes están dando el salto entre el lenguaje y la visión, y prometen comprender y generar contenido de texto e imágenes sin problemas. En una serie de estudios recientes, la integración de funciones multimodales no sólo es una tendencia creciente, sino que ya ha dado lugar a avances clave que van desde conversaciones multimodales hasta herramientas de creación de contenidos. Los grandes modelos de lenguaje han demostrado capacidades incomparables en la comprensión y generación de textos. Sin embargo, generar simultáneamente imágenes con narrativas textuales coherentes es aún un área por desarrollar.
Recientemente, un equipo de investigación de la Universidad de California en Santa Cruz propuso MiniGPT-5, una innovadora tecnología de generación de lenguaje visual entrelazado basada en el concepto de "voto generativo".
Al combinar el mecanismo de Difusión Estable con LLM a través de un token visual especial "voto generativo", MiniGPT-5 presagia un nuevo modelo para la generación multimodal calificada. Al mismo tiempo, el método de entrenamiento de dos etapas propuesto en este artículo enfatiza la importancia de la etapa básica sin descripción, lo que permite que el modelo "prospere" incluso cuando los datos son escasos. La fase general del método no requiere anotaciones específicas de dominio, lo que diferencia nuestra solución de los métodos existentes. Para garantizar que el texto y las imágenes generados sean armoniosos, entra en juego la estrategia de doble pérdida de este documento, y el método de voto generativo y el método de clasificación mejoran aún más este efecto.
A partir de estas técnicas, este trabajo marca un enfoque transformador. Al utilizar ViT (Vision Transformer) y Qformer, así como grandes modelos de lenguaje, el equipo de investigación convierte entradas multimodales en votos generativos y los combina perfectamente con Stable Diffusion2.1 de alta resolución para lograr una generación de imágenes consciente del contexto. Este artículo combina imágenes como entrada auxiliar con métodos de ajuste de instrucciones y es pionero en el uso de pérdidas de generación de texto e imágenes, ampliando así la sinergia entre texto y visión.
MiniGPT-5 coincide con modelos como las restricciones CLIP e integra inteligentemente el modelo de difusión con MiniGPT-4 para lograr mejores resultados multimodales sin depender de anotaciones específicas de dominio. Lo más importante es que nuestra estrategia puede aprovechar los avances en los modelos básicos de lenguaje visual multimodal y proporcionar un nuevo modelo para mejorar las capacidades generativas multimodales.
Como se muestra en la figura siguiente, además de sus capacidades originales de generación de texto y comprensión multimodal, MiniGPT5 también puede proporcionar resultados multimodales razonables y coherentes:
A continuación, echemos un vistazo a los detalles del estudio.
Resumen del método
Para permitir que los modelos de lenguaje a gran escala tengan capacidades de generación multimodal, los investigadores introdujeron un marco estructurado que integra modelos de lenguaje multimodal a gran escala previamente entrenados y modelos de generación de texto a imagen. Para resolver las diferencias entre los diferentes campos del modelo, introdujeron símbolos visuales especiales "votos generativos", que se pueden entrenar directamente en las imágenes originales. Además, se avanza un método de entrenamiento de dos etapas, combinado con una estrategia de arranque sin clasificador, para mejorar aún más la calidad de la generación.
Los avances recientes en modelos multimodales de gran tamaño (como MiniGPT-4) se centran principalmente en la comprensión multimodal, capaz de procesar imágenes como entrada continua. Para ampliar su funcionalidad a la generación multimodal, los investigadores introdujeron Vokens generativos diseñados específicamente para generar características visuales. Además, también adoptaron técnicas de ajuste eficiente de parámetros dentro de un marco de modelo de lenguaje grande (LLM) para el aprendizaje de resultados multimodal.
Generación de producción multimodal
Para alinear con precisión los tokens generativos con los modelos generativos, formulamos un módulo de mapeo compacto para la coincidencia de dimensionalidad e incorporamos varias pérdidas supervisadas, incluida la pérdida de espacio de texto y la pérdida del modelo de difusión latente. La pérdida de espacio de texto ayuda al modelo a aprender la localización correcta de los tokens, mientras que la pérdida de difusión latente alinea directamente los tokens con las características visuales apropiadas. Dado que las características de los símbolos generativos están guiadas directamente por imágenes, este método no requiere descripciones completas de las imágenes, lo que permite un aprendizaje sin descripciones.
Estrategia de entrenamiento
Dado que existe un cambio de dominio no despreciable entre el dominio del texto y el dominio de la imagen, los investigadores descubrieron que entrenar directamente en un conjunto limitado de datos de texto e imágenes entrelazados puede provocar desalineación y degradación de la calidad de la imagen.
Por lo tanto, emplearon dos estrategias de entrenamiento diferentes para aliviar este problema. La primera estrategia implica el empleo de técnicas de arranque sin clasificador para mejorar la efectividad de los tokens generados durante todo el proceso de difusión; la segunda estrategia se desarrolla en dos fases: una fase inicial de preentrenamiento que se centra en la alineación aproximada de las características, seguida de una fase de ajuste. sobre el aprendizaje de funciones complejas.
Experimento y resultados
Para evaluar la eficacia del modelo, los investigadores realizaron una serie de evaluaciones en múltiples puntos de referencia. El experimento tiene como objetivo abordar varias preguntas clave:
Para evaluar el rendimiento del modelo en diferentes puntos de referencia en diferentes etapas de entrenamiento, las muestras de análisis cuantitativo de MiniGPT-5 se muestran en la Figura 3 a continuación:
Evaluación del paso final de VIST
El primer conjunto de experimentos implica una evaluación de un solo paso, es decir, generar imágenes correspondientes basadas en el modelo en el último paso, y los resultados se muestran en la Tabla 1.
MiniGPT-5 supera al SD 2 ajustado en las tres configuraciones. En particular, la puntuación CLIP del modelo MiniGPT-5 (LoRA) supera consistentemente a otras variantes en múltiples tipos, especialmente cuando combina imágenes y texto. Por otro lado, la puntuación FID destaca la competitividad del modelo MiniGPT-5 (Prefix), lo que indica que puede haber un equilibrio entre la calidad de incrustación de la imagen (reflejada por la puntuación CLIP) y la diversidad y autenticidad de la imagen (reflejada por la puntuación FID). En comparación con un modelo entrenado directamente en VIST sin incluir una etapa de registro de modalidad única (MiniGPT-5 sin UAS), aunque el modelo conserva la capacidad de generar imágenes significativas, la calidad y consistencia de la imagen se reducen significativamente. Esta observación resalta la importancia de una estrategia de capacitación en dos etapas.
En una evaluación más detallada y completa, los investigadores proporcionaron sistemáticamente al modelo un contexto histórico previo y posteriormente evaluaron las imágenes y narrativas resultantes en cada paso.
Las tablas 2 y 3 resumen los resultados de estos experimentos, resumiendo el rendimiento de las métricas de imagen y lenguaje respectivamente. Los resultados experimentales muestran que MiniGPT-5 es capaz de generar imágenes coherentes y de alta calidad utilizando entradas multimodales horizontales largas en todos los datos sin afectar las capacidades de comprensión multimodal del modelo original. Esto destaca la eficacia de MiniGPT-5 en diferentes entornos.
Como se muestra en la Tabla 4, MiniGPT-5 generó narrativas de texto más apropiadas en el 57,18% de los casos, proporcionó una mejor calidad de imagen en el 52,06% de los casos y generó resultados multimodo más coherentes en el 57,62% de las escenas. En comparación con la línea de base de dos etapas que adopta la narración de texto a imagen sin modo subjuntivo, estos datos demuestran claramente sus capacidades de generación multimodal más sólidas.
Los resultados se muestran en la Tabla 5. MiniGPT-5 supera al modelo básico Divter en la generación de respuestas de texto más precisas. Si bien las imágenes generadas son de calidad similar, MiniGPT-5 supera al modelo de referencia en correlación MM, lo que indica que puede aprender mejor cómo posicionar adecuadamente la generación de imágenes y generar respuestas multimodales altamente consistentes.