En la generación de imágenes y vídeos, el modelo de lenguaje derrotó por primera vez al modelo de difusión, y el tokenizador es la clave

¿Por qué los modelos de lenguaje van a la zaga de los modelos de difusión en términos de generación visual? La investigación de Google, CMU muestra que el tokenizador es clave.

Fuente de la imagen: Generado por Unbounded AI

Los grandes modelos de lenguaje (LLM o LM) comenzaron para generar lenguajes, pero con el tiempo se han vuelto capaces de generar contenido en múltiples modalidades y se han vuelto dominantes en audio, voz, generación de código, aplicaciones médicas, robótica y más.

Por supuesto, LM también puede generar imágenes y vídeos. Durante este proceso, los tokenizadores visuales asignan los píxeles de la imagen a una serie de tokens discretos. A continuación, estos tokens se introducen en el transformador LM y se utilizan para el modelado generativo como un vocabulario. Aunque LM ha logrado avances significativos en la generación visual, LM todavía tiene un rendimiento peor que los modelos de difusión. Por ejemplo, cuando se evaluó en el conjunto de datos ImageNet, el punto de referencia de oro para la generación de imágenes, el mejor modelo de lenguaje funcionó hasta un 48% peor que el modelo de difusión (FID 3.41 frente a 1.79 cuando se generaron imágenes con una resolución de 256ˆ256).

¿Por qué los modelos de lenguaje van a la zaga de los modelos de difusión en términos de generación visual? Los investigadores de Google, CMU, creen que la razón principal es la falta de una buena representación visual, similar a nuestro sistema de lenguaje natural, para modelar eficazmente el mundo visual. Para confirmar esta hipótesis, realizaron un estudio.

Enlace de papel:

Este estudio muestra que con un buen tokenizador visual, los modelos de lenguaje de enmascaramiento superan a los modelos de difusión de SOTA en términos de fidelidad generativa y eficiencia de los puntos de referencia de imagen y video para los mismos datos de entrenamiento, tamaños de modelo comparables y presupuesto de entrenamiento. Esta es la primera evidencia de que un modelo de lenguaje supera a un modelo de difusión en el icónico punto de referencia de ImageNet.

Cabe destacar que el propósito de los investigadores no es afirmar si el modelo de lenguaje es superior a otros modelos, sino promover la exploración de métodos de tokenización visual LLM. La diferencia fundamental entre LLM y otros modelos, como los modelos de difusión, es que LLM utiliza un formato latente discreto, es decir, tokens obtenidos de la visualización de tokenizadores. Este estudio muestra que el valor de estos tokens visuales discretos no debe pasarse por alto debido a sus siguientes ventajas:

  1. Compatibilidad con LLM. La principal ventaja de la representación de tokens es que comparte la misma forma que el token de lenguaje, lo que le permite aprovechar directamente las optimizaciones que la comunidad ha realizado a lo largo de los años para desarrollar LLM, incluido un entrenamiento e inferencia más rápidos, avances en la infraestructura de modelos, formas de escalar modelos e innovaciones como la optimización de GPU/TPU. Unificar la visión y el lenguaje a través del mismo espacio simbólico puede sentar las bases para un LLM verdaderamente multimodal que pueda ser entendido, generado y razonado en nuestro entorno visual.

  2. Representación de compresión. Los tokens discretos pueden proporcionar una nueva perspectiva sobre la compresión de vídeo. Los tokens visuales se pueden usar como un nuevo formato de compresión de video para reducir el almacenamiento en disco y el ancho de banda ocupado por los datos durante la transmisión a través de Internet. A diferencia de los píxeles RGB comprimidos, estos tokens se pueden introducir directamente en el modelo generativo, evitando la descompresión tradicional y los posibles pasos de codificación. Esto puede acelerar el procesamiento de la creación de aplicaciones de vídeo, lo que es especialmente beneficioso en escenarios de edge computing.

  3. Ventajas de la comprensión visual. Estudios anteriores han demostrado que los tokens discretos son valiosos como objetivos previos al entrenamiento en el aprendizaje de representación autosupervisado, como se discute en BEiT y BEVT. Además, el estudio encontró que el uso de tokens como entradas del modelo mejoró la robustez y la generalización.

En este artículo, los investigadores proponen un tokenizador de video llamado MAGVIT-v2, que tiene como objetivo mapear videos (e imágenes) en tokens discretos compactos.

El modelo se basa en el tokenizador de vídeo SOTA – MAGVIT dentro del marco VQ-VAE. En base a esto, los investigadores proponen dos nuevas tecnologías: 1) un novedoso método de cuantificación sin búsquedas que permite aprender un gran número de palabras para mejorar la calidad de la generación de modelos lingüísticos; 2) A través de un extenso análisis empírico, identificaron modificaciones en MAGVIT que no solo mejoran la calidad de construcción, sino que también permiten que las imágenes y los videos se tokenicen utilizando un vocabulario compartido.

Los resultados experimentales muestran que el nuevo modelo supera al anterior tokenizador de vídeo con mejor rendimiento, MAGVIT, en tres áreas clave. En primer lugar, el nuevo modelo mejora significativamente la calidad de construcción de MAGVIT, actualizando SOTA en los puntos de referencia comunes de imagen y video. En segundo lugar, los estudios de usuarios han demostrado que su calidad de compresión supera a la de MAGVIT y al estándar de compresión de vídeo actual HEVC. Además, es comparable al códec de vídeo VVC de próxima generación. Finalmente, los investigadores demostraron que su nuevo token tuvo un mejor desempeño en la tarea de comprensión de video con dos configuraciones y tres conjuntos de datos en comparación con MAGVIT.

Introducción al método

Este artículo presenta un nuevo tokenizador de video que tiene como objetivo mapear dinámicamente el tiempo-espacio en escenas visuales en tokens discretos compactos adecuados para modelos de lenguaje. Además, el método se basa en MAGVIT.

A continuación, el estudio destacó dos diseños novedosos: la cuantificación sin búsquedas (LFQ) y las mejoras en el modelo de tokenizador.

Sin cuantificación de búsqueda

Recientemente, el modelo VQ-VAE ha hecho grandes progresos, pero un inconveniente de este método es que la relación entre la mejora de la calidad de la reconstrucción y la calidad de la generación posterior no está clara. Muchas personas piensan erróneamente que mejorar la reconstrucción equivale a mejorar la generación de modelos lingüísticos, por ejemplo, ampliar el vocabulario puede mejorar la calidad de la reconstrucción. Sin embargo, esta mejora solo se aplica a la generación de vocabulario pequeño, lo que puede perjudicar el rendimiento del modelo lingüístico cuando el vocabulario es muy amplio.

En este artículo se reduce la dimensión de incrustación del libro de códigos VQ-VAE a 0, que es el libro de códigos

se reemplaza por un conjunto de números enteros

A partir de ahí

A diferencia del modelo VQ-VAE, este nuevo diseño elimina por completo la necesidad de búsquedas integradas, de ahí el nombre LFQ. Este artículo encuentra que LFQ puede mejorar la calidad de la generación de modelos lingüísticos al aumentar el vocabulario. Como se muestra en la curva azul de la Figura 1, tanto la reconstrucción como la generación mejoran a medida que aumenta el vocabulario, una característica que no se observa en los enfoques actuales de VQ-VAE.

Hasta ahora, hay muchos métodos LFQ disponibles, pero este artículo analiza una variante simple. Específicamente, el espacio latente de LFQ se descompone en productos cartesianos de variables unidimensionales, es decir,

。 Supongamos que dado un vector de características

, representando cuantitativamente cada dimensión de q (z) obtenida a partir de lo siguiente:

Para LFQ, el índice de token para q (z) es:

Además, este artículo también agrega la penalización de entropía durante el entrenamiento:

Mejoras en el modelo de tokenizador visual

Imágenes federadas: tokenización de vídeo. Para crear un tokenizador de imagen y vídeo federado, se necesita un nuevo diseño. Este artículo encuentra que las CNN 3D funcionan mejor que los transformadores espaciales.

Este artículo explora dos posibles opciones de diseño, como la Figura 2b que combina C-ViViT con MAGVIT; La Figura 2c utiliza convolución 3D causal temporal en lugar de una CNN 3D normal.

En la Tabla 5a se compara empíricamente el diseño de la Figura 2 y se encuentra que las CNN 3D causales funcionan mejor.

Además de utilizar la capa CNN 3D causal, se han realizado otras modificaciones arquitectónicas para mejorar el rendimiento de MAGVIT, como cambiar el muestreador descendente del codificador de agrupación promedio a convolución por pasos; Otro ejemplo es agregar una capa de normalización de grupo adaptable antes del bloque residual de cada resolución en el decodificador.

Resultados experimentales

Los experimentos verifican el rendimiento del tokenizador propuesto en este artículo a partir de tres partes: generación de video e imagen, compresión de video y reconocimiento de movimiento. La Figura 3 compara visualmente los resultados de Tokenizer con estudios anteriores.

Generación de vídeo. La Tabla 1 muestra que este modelo supera a todo el estado de la técnica en ambos puntos de referencia, lo que demuestra que un buen tokenizador visual desempeña un papel importante para permitir que los LM produzcan videos de alta calidad.

La Figura 4 muestra una muestra cualitativa del modelo.

Generación de imágenes. En este artículo, los resultados de la generación de imágenes de MAGVIT-v2 se evalúan bajo la configuración estándar de la condición de clase ImageNet. Los resultados muestran que el modelo propuesto supera al modelo de difusión con mejor desempeño en términos de calidad de muestreo (ID e IS) y eficiencia del tiempo de inferencia (paso de muestreo).

En la figura 5 se muestra la visualización.

Compresión de vídeo. Los resultados se muestran en la Tabla 3, y el modelo supera a MAGVIT en todas las métricas y supera a todos los métodos en LPIPS.

Comprensión del video. Como se muestra en la Tabla 4, MAGVIT-v2 supera al mejor MAGVIT anterior en estas evaluaciones.

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Compartir
Comentar
0/400
Sin comentarios
Opere con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)