Texte, image, audio et vidéo... Quelle est la puissance du modèle intermodal CoDi de Microsoft ?

Question

![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-f937af10e0-dd1a6f-7649e1) Source de l'image : générée par l'IA illimitéeL'équipe de recherche Microsoft Azure et les chercheurs de l'Université de Caroline du Nord ont publié un article intitulé « Génération arbitraire par diffusion composable », présentant un nouveau modèle de génération multimodale - CoDi (Composable Diffusion).CoDi est capable de générer n'importe quelle combinaison de modalités de sortie à partir de n'importe quelle combinaison de modalités d'entrée, telles que la langue, l'image, la vidéo ou l'audio. Contrairement aux systèmes d'IA générative existants, CoDi peut générer plusieurs modalités en parallèle, et sa contribution n'est pas limitée à des sous-ensembles de modalités telles que du texte ou des images. CoDi est libre de conditionner n'importe quelle combinaison d'entrées et de générer n'importe quel ensemble de modalités, même si elles ne sont pas présentes dans les données d'apprentissage.CoDi introduit un niveau sans précédent de génération de contenu en traitant et en générant simultanément du contenu multimodal tel que du texte, des images, de l'audio et de la vidéo. En utilisant des modèles de diffusion et des techniques composables, CoDi peut générer des sorties diverses et de haute qualité à partir d'entrées uniques ou multiples, transformant la création de contenu, l'accessibilité et l'apprentissage personnalisé.CoDi est hautement personnalisable et flexible, permettant une qualité de génération de modalités conjointes robuste qui surpasse ou rivalise avec la synthèse de mode unique à la pointe de la technologie.Récemment, CoDi a fait de nouveaux progrès et est officiellement disponible sur la plate-forme Microsoft Azure et peut être utilisé gratuitement pendant 12 mois.## ** Quelle est la puissance de CoDi **CoDi est apparu dans le cadre de l'ambitieux projet i-Code de Microsoft, une initiative de recherche dédiée à l'avancement des capacités d'IA multimodale. La capacité de CoDi à intégrer de manière transparente des informations provenant de diverses sources et à générer des résultats cohérents devrait révolutionner de nombreux domaines de l'interaction homme-ordinateur.L'un des domaines où CoDi pourrait apporter des changements est la technologie d'assistance, permettant aux personnes handicapées d'interagir plus efficacement avec les ordinateurs. En générant de manière transparente du contenu à travers du texte, des images, de la vidéo et de l'audio, CoDi peut offrir aux utilisateurs une expérience informatique plus immersive et accessible.De plus, CoDi a le potentiel de réinventer les outils d'apprentissage personnalisés en fournissant un environnement d'apprentissage interactif complet. Les élèves interagissent avec un contenu multimodal qui intègre de manière transparente des informations provenant de diverses sources, améliorant ainsi leur compréhension et leur engagement avec le sujet.CoDi révolutionnera également la génération de contenu. Le modèle est capable de générer une sortie de haute qualité sur plusieurs modalités, ce qui peut simplifier le processus de création de contenu et réduire la charge des créateurs. Qu'il s'agisse de générer des publications engageantes sur les réseaux sociaux, de créer des présentations multimédias interactives ou de créer des expériences de narration engageantes, les capacités de CoDi ont le potentiel de remodeler le paysage de la génération de contenu.Pour répondre aux limites des modèles d'IA unimodaux traditionnels, CoDi fournit une solution au processus fastidieux et lent de combinaison de modèles génératifs spécifiques à la modalité.Ce nouveau modèle utilise une stratégie de génération composable unique qui relie l'alignement pendant la diffusion et facilite la génération simultanée de modalités entrelacées, telles que la vidéo et l'audio alignés dans le temps.Le processus de formation des modèles de CoDi est également assez distinctif. Il s'agit de projeter des modalités d'entrée telles que l'image, la vidéo, l'audio et le langage dans un espace sémantique commun. Cela permet une gestion flexible des entrées multimodales et, grâce au module d'attention croisée et à l'encodeur d'environnement, il est capable de générer simultanément des combinaisons arbitraires de modalités de sortie.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-9bc9f58601-dd1a6f-7649e1) (Ci-dessus) Architecture du modèle de CoDi : CoDi utilise un schéma de formation en plusieurs étapes capable de s'entraîner uniquement sur un nombre linéaire de tâches mais d'inférer sur toutes les combinaisons de modalités d'entrée et de sortie.## **丨Entrées simples ou multiples --> sorties multiples**Les modèles CoDi peuvent prendre des repères uniques ou multiples (y compris vidéo, image, texte ou audio) pour générer plusieurs sorties alignées, telles que la vidéo avec le son qui l'accompagne.Par exemple:**1. Texte+Image+Audio——>Audio+Vidéo**"Un ours en peluche sur un skateboard, 4k, haute résolution" + une photo de Times Square à New York + un son pluvieux --> Après la génération CoDi, un morceau de "Un ours en peluche fait du skateboard à Times Square sous la pluie, Accompagné de le bruit simultané de la pluie et du bruit de la rue."![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-17f537e017-dd1a6f-7649e1) Comment est-il généré ?> CoDi peut générer conjointement n'importe quelle combinaison de vidéo, d'image, d'audio et de texte via une diffusion composable. CoDi reçoit d'abord des pistes audio pour générer des sous-titres textuels, puis reçoit des images pour image+audio-audio, puis reçoit image+audio+texte pour combiner leurs informations afin de générer une nouvelle image+sous-titre conjointe. Enfin, CoDi peut également recevoir image+audio+texte et générer vidéo+audio.**2 texte+audio+image -->texte+image**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-6467153927-dd1a6f-7649e1) 1. **3.** **Audio + Image --> Texte + Image**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-f959317814-dd1a6f-7649e1) 1. **4. Texte+Image ——>Texte+Image**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-d32b2de333-dd1a6f-7649e1) **5. Texte——>Vidéo+Audio**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-fcc4d70bb8-dd1a6f-7649e1) **6. Texte——>Texte+Audio+Image**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-247b38d9d6-dd1a6f-7649e1)## **丨Plusieurs entrées --> une seule sortie**** 1. Texte + Audio —— Image **![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-586363abe2-dd1a6f-7649e1) **2. Texte + Image --> Image**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-77e8f7810d-dd1a6f-7649e1) **3 Texte+Audio -->Vidéo**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-1799ea0bcd-dd1a6f-7649e1) **4 texte + image --> vidéo**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-e145e766ea-dd1a6f-7649e1) **5. Il y a aussi vidéo + audio --> texte, image + audio --> audio, texte + image --> audio...etc**## **丨Entrée unique——sortie unique****1 Texte --> Image**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-3b57b17518-dd1a6f-7649e1) **2 Audio --> Image**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-97ced2f7d6-dd1a6f-7649e1) **3 images --> vidéo**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-12e68d0230-dd1a6f-7649e1) **4 Image --> Audio**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-a34494b67f-dd1a6f-7649e1) **5 Audio --> Texte**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-f1beb7662f-dd1a6f-7649e1) **6 Image --> Texte**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-5aa0a798f4-dd1a6f-7649e1) Les références:***