acostumbrados a Stable Diffusion, y ahora por fin tiene un modelo Matryoshka Diffusion, de nuevo fabricado por Apple.
Fuente original: Heart of the Machine
Fuente de la imagen: Generado por Unbounded AI
En la era de la IA generativa, los modelos de difusión se han convertido en una herramienta popular para aplicaciones de IA generativa como la generación de imágenes, vídeo, 3D, audio y texto. Sin embargo, extender el modelo de difusión al dominio de alta resolución sigue siendo un desafío importante, ya que el modelo debe recodificar todas las entradas de alta resolución en cada paso. Resolver estos desafíos requiere el uso de arquitecturas profundas con bloques de atención, lo que dificulta la optimización y consume más potencia de cálculo y memoria.
¿Qué hacer? Algunos trabajos recientes se han centrado en arquitecturas de red eficientes para imágenes de alta resolución. Sin embargo, ninguno de los métodos existentes muestra resultados más allá de la resolución 512×512, y la calidad de la generación está por detrás de la de los métodos convencionales en cascada o latentes.
Tomemos como ejemplos OpenAI DALL-E 2, Google IMAGEN y NVIDIA eDiffI, que ahorran potencia de cálculo al aprender un único modelo de baja resolución y múltiples modelos de difusión de superresolución, en los que cada componente se entrena por separado. Por otro lado, los modelos de difusión latente (LDM) solo aprenden modelos de difusión de baja resolución y se basan en autocodificadores de alta resolución entrenados individualmente. En ambos escenarios, las canalizaciones de varias fases complican el entrenamiento y la inferencia, lo que a menudo requiere un ajuste fino o una hiperparametrización.
En este artículo, los investigadores proponen los modelos de difusión de Matryoshka (MDM), un novedoso modelo de difusión para la generación de imágenes de alta resolución de extremo a extremo. El código se publicará pronto.
Dirección:
La idea principal presentada en el estudio es realizar un proceso de difusión conjunta a múltiples resoluciones utilizando una arquitectura UNet anidada como parte de la generación de alta resolución.
El estudio encontró que MDM, junto con la arquitectura anidada UNet, logró 1) pérdida de resolución múltiple: mejoró en gran medida la velocidad de convergencia de la eliminación de ruido de entrada de alta resolución; 2) Un plan de entrenamiento progresivo eficiente, comenzando con el entrenamiento de un modelo de difusión de baja resolución y agregando progresivamente entradas y salidas de alta resolución según lo planeado. Los resultados experimentales muestran que la combinación de pérdida de resolución múltiple y entrenamiento progresivo puede lograr un mejor equilibrio entre el costo del entrenamiento y la calidad del modelo.
El estudio evaluó MDM en términos de generación de imágenes condicionales de clase, así como generación de imágenes y videos condicionales de texto. MDM permite entrenar modelos de alta resolución sin necesidad de cascadas o difusión latente. Los estudios de ablación han demostrado que tanto la pérdida de resolución múltiple como el entrenamiento progresivo mejoran en gran medida la eficiencia y la calidad del entrenamiento.
Echemos un vistazo a las siguientes imágenes y vídeos generados por MDM.
Descripción general de la metodología
Según los investigadores, el modelo de difusión MDM se entrena de extremo a extremo en alta resolución mientras se utiliza la formación jerárquica de datos. MDM primero generaliza el modelo de difusión estándar en el espacio de difusión y, a continuación, propone una arquitectura anidada dedicada y un proceso de entrenamiento.
Primero, veamos cómo generalizar el modelo de difusión estándar en el espacio extendido.
A diferencia de los enfoques en cascada o latentes, MDM aprende un único proceso de difusión con una estructura jerárquica mediante la introducción de un proceso de difusión de resolución múltiple en un espacio extendido. Esto se muestra en la Figura 2 a continuación.
Específicamente, dado un punto de datos x ∈ R^N, el investigador define la variable latente dependiente del tiempo z_t = z_t^1 , . . . , z_t^R ∈ R^N_1+... NR.
Según los investigadores, el modelado de difusión en un espacio extendido tiene dos ventajas. Por un lado, generalmente nos preocupa la salida de resolución completa z_t^R durante la inferencia, y todas las demás salidas de resolución media se tratan como variables latentes adicionales z_t^r, lo que agrega complejidad a la distribución del modelado. En segundo lugar, las dependencias de resolución múltiple brindan la oportunidad de compartir ponderaciones y cálculos a través de z_t^r, lo que redistribuye el cálculo de una manera más eficiente y permite un entrenamiento e inferencia eficientes.
Echemos un vistazo a cómo funciona nestedUNet.
De manera similar a los modelos de difusión típicos, los investigadores implementaron MDM utilizando una estructura de red UNet, en la que las conexiones residuales y los bloques computacionales se utilizan en paralelo para preservar la información de entrada detallada. Los bloques computacionales aquí contienen convoluciones multicapa y capas de autoatención. Los códigos para NestedUNet y UNet estándar son los siguientes.
Además de su simplicidad en comparación con otros métodos jerárquicos, NestedUNet permite asignar los cálculos de la manera más eficiente. Como se muestra en la Figura 3 a continuación, los primeros investigadores encontraron que MDM logró una escalabilidad significativamente mejor cuando la mayoría de los parámetros y cálculos se asignaron a la resolución más baja.
Por último, está el aprendizaje.
Los investigadores entrenaron MDM a múltiples resoluciones utilizando objetivos convencionales de eliminación de ruido, como se muestra en la ecuación (3) a continuación.
Aquí se utiliza el entrenamiento progresivo. Los investigadores entrenaron MDM directamente de extremo a extremo siguiendo la ecuación anterior (3) y demostraron una mejor convergencia que el método de referencia original. Descubrieron que el entrenamiento de modelos de alta resolución se aceleró en gran medida utilizando un método de entrenamiento progresivo simple similar al propuesto en el artículo de GAN.
Este método de entrenamiento evita desde el principio un entrenamiento costoso y de alta resolución y acelera la convergencia general. No solo eso, sino que también incorporaron el entrenamiento de resolución mixta, que entrena muestras con diferentes resoluciones finales simultáneamente en un solo lote.
Experimentos y resultados
MDM es una tecnología de uso general para cualquier problema que pueda comprimir gradualmente las dimensiones de entrada. La comparación de MDM con el enfoque de referencia se muestra en la Figura 4 a continuación.
La Tabla 1 muestra una comparación entre ImageNet (FID-50K) y COCO (FID-30K).
Las figuras 5, 6 y 7 a continuación ilustran los resultados de MDM en la generación de imágenes (Figura 5), texto a imagen (Figura 6) y texto a video (Figura 7). A pesar de haber sido entrenado en un conjunto de datos relativamente pequeño, MDM ha demostrado una gran capacidad de disparo cero para producir imágenes y videos de alta resolución.
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
Se dio a conocer el gran modelo del diagrama de Wensheng de Apple: difusión matrioska, compatible con una resolución de 1024x1024
Fuente original: Heart of the Machine
En la era de la IA generativa, los modelos de difusión se han convertido en una herramienta popular para aplicaciones de IA generativa como la generación de imágenes, vídeo, 3D, audio y texto. Sin embargo, extender el modelo de difusión al dominio de alta resolución sigue siendo un desafío importante, ya que el modelo debe recodificar todas las entradas de alta resolución en cada paso. Resolver estos desafíos requiere el uso de arquitecturas profundas con bloques de atención, lo que dificulta la optimización y consume más potencia de cálculo y memoria.
¿Qué hacer? Algunos trabajos recientes se han centrado en arquitecturas de red eficientes para imágenes de alta resolución. Sin embargo, ninguno de los métodos existentes muestra resultados más allá de la resolución 512×512, y la calidad de la generación está por detrás de la de los métodos convencionales en cascada o latentes.
Tomemos como ejemplos OpenAI DALL-E 2, Google IMAGEN y NVIDIA eDiffI, que ahorran potencia de cálculo al aprender un único modelo de baja resolución y múltiples modelos de difusión de superresolución, en los que cada componente se entrena por separado. Por otro lado, los modelos de difusión latente (LDM) solo aprenden modelos de difusión de baja resolución y se basan en autocodificadores de alta resolución entrenados individualmente. En ambos escenarios, las canalizaciones de varias fases complican el entrenamiento y la inferencia, lo que a menudo requiere un ajuste fino o una hiperparametrización.
En este artículo, los investigadores proponen los modelos de difusión de Matryoshka (MDM), un novedoso modelo de difusión para la generación de imágenes de alta resolución de extremo a extremo. El código se publicará pronto.
La idea principal presentada en el estudio es realizar un proceso de difusión conjunta a múltiples resoluciones utilizando una arquitectura UNet anidada como parte de la generación de alta resolución.
El estudio encontró que MDM, junto con la arquitectura anidada UNet, logró 1) pérdida de resolución múltiple: mejoró en gran medida la velocidad de convergencia de la eliminación de ruido de entrada de alta resolución; 2) Un plan de entrenamiento progresivo eficiente, comenzando con el entrenamiento de un modelo de difusión de baja resolución y agregando progresivamente entradas y salidas de alta resolución según lo planeado. Los resultados experimentales muestran que la combinación de pérdida de resolución múltiple y entrenamiento progresivo puede lograr un mejor equilibrio entre el costo del entrenamiento y la calidad del modelo.
El estudio evaluó MDM en términos de generación de imágenes condicionales de clase, así como generación de imágenes y videos condicionales de texto. MDM permite entrenar modelos de alta resolución sin necesidad de cascadas o difusión latente. Los estudios de ablación han demostrado que tanto la pérdida de resolución múltiple como el entrenamiento progresivo mejoran en gran medida la eficiencia y la calidad del entrenamiento.
Echemos un vistazo a las siguientes imágenes y vídeos generados por MDM.
Según los investigadores, el modelo de difusión MDM se entrena de extremo a extremo en alta resolución mientras se utiliza la formación jerárquica de datos. MDM primero generaliza el modelo de difusión estándar en el espacio de difusión y, a continuación, propone una arquitectura anidada dedicada y un proceso de entrenamiento.
Primero, veamos cómo generalizar el modelo de difusión estándar en el espacio extendido.
A diferencia de los enfoques en cascada o latentes, MDM aprende un único proceso de difusión con una estructura jerárquica mediante la introducción de un proceso de difusión de resolución múltiple en un espacio extendido. Esto se muestra en la Figura 2 a continuación.
Echemos un vistazo a cómo funciona nestedUNet.
De manera similar a los modelos de difusión típicos, los investigadores implementaron MDM utilizando una estructura de red UNet, en la que las conexiones residuales y los bloques computacionales se utilizan en paralelo para preservar la información de entrada detallada. Los bloques computacionales aquí contienen convoluciones multicapa y capas de autoatención. Los códigos para NestedUNet y UNet estándar son los siguientes.
Los investigadores entrenaron MDM a múltiples resoluciones utilizando objetivos convencionales de eliminación de ruido, como se muestra en la ecuación (3) a continuación.
Este método de entrenamiento evita desde el principio un entrenamiento costoso y de alta resolución y acelera la convergencia general. No solo eso, sino que también incorporaron el entrenamiento de resolución mixta, que entrena muestras con diferentes resoluciones finales simultáneamente en un solo lote.
Experimentos y resultados
MDM es una tecnología de uso general para cualquier problema que pueda comprimir gradualmente las dimensiones de entrada. La comparación de MDM con el enfoque de referencia se muestra en la Figura 4 a continuación.