Texto, imagen, audio y video... ¿Qué tan poderoso es el modelo multimodal CoDi de Microsoft?

Question

![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-f937af10e0-dd1a6f-7649e1) Fuente de la imagen: Generada por Unbounded AIEl equipo de investigación de Microsoft Azure y los investigadores de la Universidad de Carolina del Norte publicaron un artículo "Generación arbitraria mediante difusión componible", que presenta un nuevo modelo de generación multimodal: CoDi (difusión componible).CoDi es capaz de generar cualquier combinación de modalidades de salida a partir de cualquier combinación de modalidades de entrada, como lenguaje, imagen, video o audio. A diferencia de los sistemas de IA generativa existentes, CoDi puede generar múltiples modalidades en paralelo, y su entrada no se limita a subconjuntos de modalidades como texto o imágenes. CoDi es libre de condicionar cualquier combinación de entradas y generar cualquier conjunto de modalidades, incluso si no están presentes en los datos de entrenamiento.CoDi presenta un nivel sin precedentes de generación de contenido mediante el procesamiento y la generación simultánea de contenido multimodal, como texto, imágenes, audio y video. Usando modelos de difusión y técnicas componibles, CoDi puede generar resultados diversos y de alta calidad a partir de entradas únicas o múltiples, transformando la creación de contenido, la accesibilidad y el aprendizaje personalizado.CoDi es altamente personalizable y flexible, lo que permite una sólida calidad de generación de modalidad conjunta que supera o rivaliza con la síntesis de modalidad única de última generación.Recientemente, CoDi ha hecho nuevos avances y está oficialmente disponible en la plataforma Microsoft Azure, se puede usar de forma gratuita durante 12 meses.## **Qué poderoso es CoDi**CoDi surgió como parte del ambicioso proyecto i-Code de Microsoft, una iniciativa de investigación dedicada al avance de las capacidades de IA multimodal. Se espera que la capacidad de CoDi para integrar sin problemas información de varias fuentes y generar resultados consistentes revolucione múltiples áreas de interacción humano-computadora.Una de las áreas en las que CoDi podría generar cambios es la tecnología de asistencia, que permite a las personas con discapacidades interactuar con las computadoras de manera más efectiva. Al generar contenido sin problemas a través de texto, imágenes, video y audio, CoDi puede brindar a los usuarios una experiencia informática más inmersiva y accesible.Además, CoDi tiene el potencial de reinventar herramientas de aprendizaje personalizadas al proporcionar un entorno de aprendizaje interactivo integral. Los estudiantes interactúan con contenido multimodal que integra a la perfección información de una variedad de fuentes, mejorando su comprensión y compromiso con el tema.CoDi también revolucionará la generación de contenido. El modelo puede generar resultados de alta calidad en múltiples modalidades, lo que puede simplificar el proceso de creación de contenido y reducir la carga de los creadores. Ya sea generando publicaciones atractivas en las redes sociales, elaborando presentaciones multimedia interactivas o creando experiencias narrativas atractivas, las capacidades de CoDi tienen el potencial de remodelar el panorama de generación de contenido.Para abordar las limitaciones de los modelos tradicionales de IA unimodal, CoDi proporciona una solución al tedioso y lento proceso de combinar modelos generativos específicos de modalidad.Este novedoso modelo emplea una estrategia única de generación componible que une la alineación durante la difusión y facilita la generación simultánea de modalidades entrelazadas, como video y audio alineados en el tiempo.El proceso de entrenamiento del modelo de CoDi también es bastante distintivo. Implica proyectar modalidades de entrada como imagen, video, audio y lenguaje en un espacio semántico común. Esto permite un manejo flexible de entradas multimodales y, a través del módulo de atención cruzada y el codificador de entorno, puede generar simultáneamente combinaciones arbitrarias de modalidades de salida.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-9bc9f58601-dd1a6f-7649e1) (Arriba) Arquitectura del modelo de CoDi: CoDi utiliza un esquema de capacitación de múltiples etapas capaz de capacitar solo en un número lineal de tareas pero infiriendo en todas las combinaciones de modalidades de entrada y salida.## **丨Entradas únicas o múltiples --> salidas múltiples**Los modelos CoDi pueden tomar señales únicas o múltiples (que incluyen video, imagen, texto o audio) para generar múltiples salidas alineadas, como video con sonido adjunto.Por ejemplo:**1. Texto+Imagen+Audio——>Audio+Video**"Un oso de peluche en una patineta, 4k, alta resolución" + una foto de Times Square en Nueva York + un audio lluvioso --> Después de la generación CoDi, una pieza de "Un oso de peluche patineta en Times Square bajo la lluvia, acompañado de el sonido simultáneo de la lluvia y el ruido de la calle".![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-17f537e017-dd1a6f-7649e1) ¿Cómo se genera?> CoDi puede generar conjuntamente cualquier combinación de video, imagen, audio y texto a través de la difusión componible. CoDi primero recibe pistas de audio para generar subtítulos de texto, luego recibe imágenes para imagen+audio-audio, y luego recibe imagen+audio+texto para combinar su información para generar una nueva imagen+subtítulo conjunto. Finalmente, CoDi también puede recibir imagen+audio+texto y generar video+audio.**2 texto+audio+imagen -->texto+imagen**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-6467153927-dd1a6f-7649e1) 1. **3.** **Audio + Imagen --> Texto + Imagen**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-f959317814-dd1a6f-7649e1) 1. **4. Texto+Imagen ——>Texto+Imagen**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-d32b2de333-dd1a6f-7649e1) **5. Texto——>Video+Audio**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-fcc4d70bb8-dd1a6f-7649e1) **6. Texto——>Texto+Audio+Imagen**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-247b38d9d6-dd1a6f-7649e1)## **丨Entradas múltiples --> salida única****1. Texto+Audio——Imagen**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-586363abe2-dd1a6f-7649e1) **2. Texto + Imagen --> Imagen**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-77e8f7810d-dd1a6f-7649e1) **3 Texto+Audio -->Video**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-1799ea0bcd-dd1a6f-7649e1) **4 texto + imagen --> vídeo**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-e145e766ea-dd1a6f-7649e1) **5. También hay video + audio --> texto, imagen + audio --> audio, texto + imagen --> audio...etc**## **丨Entrada única——salida única****1 Texto --> Imagen**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-3b57b17518-dd1a6f-7649e1) **2 Audio --> Imagen**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-97ced2f7d6-dd1a6f-7649e1) **3 Imagen --> Vídeo**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-12e68d0230-dd1a6f-7649e1) **4 Imagen --> Audio**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-a34494b67f-dd1a6f-7649e1) **5 Audio --> Texto**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-f1beb7662f-dd1a6f-7649e1) **6 Imagen --> Texto**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-5aa0a798f4-dd1a6f-7649e1) Referencias:***