Texto, imagem, áudio e vídeo... Quão poderoso é o modelo cross-modal CoDi da Microsoft?

Question

![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-f937af10e0-dd1a6f-7649e1) Fonte da imagem: Gerada por Unbounded AIA equipe de pesquisa do Microsoft Azure e os pesquisadores da Universidade da Carolina do Norte publicaram um artigo "Arbitrary Generation Through Composable Diffusion", apresentando um novo modelo de geração multimodal - CoDi (Composable Diffusion).O CoDi é capaz de gerar qualquer combinação de modalidades de saída a partir de qualquer combinação de modalidades de entrada, como linguagem, imagem, vídeo ou áudio. Ao contrário dos sistemas de IA generativos existentes, o CoDi pode gerar várias modalidades em paralelo e sua entrada não se limita a subconjuntos de modalidades, como texto ou imagens. O CoDi é livre para condicionar qualquer combinação de entradas e gerar qualquer conjunto de modalidades, mesmo que não estejam presentes nos dados de treinamento.O CoDi apresenta um nível sem precedentes de geração de conteúdo ao processar e gerar conteúdo multimodal simultaneamente, como texto, imagens, áudio e vídeo. Usando modelos de difusão e técnicas combináveis, o CoDi pode gerar saídas diversas e de alta qualidade a partir de entradas únicas ou múltiplas, transformando a criação de conteúdo, acessibilidade e aprendizado personalizado.O CoDi é altamente personalizável e flexível, permitindo qualidade de geração de modalidade conjunta robusta que supera ou rivaliza com a síntese de modalidade única de última geração.Recentemente, o CoDi deu novos passos e está oficialmente disponível na plataforma Microsoft Azure, podendo ser usado gratuitamente por 12 meses.## **Quão poderoso é o CoDi**O CoDi surgiu como parte do ambicioso projeto i-Code da Microsoft, uma iniciativa de pesquisa dedicada ao avanço das capacidades multimodais de IA. Espera-se que a capacidade do CoDi de integrar informações de várias fontes e gerar resultados consistentes revolucione várias áreas da interação humano-computador.Uma das áreas em que o CoDi pode trazer mudanças é a tecnologia assistiva, permitindo que pessoas com deficiência interajam com computadores de maneira mais eficaz. Ao gerar conteúdo de forma integrada em texto, imagens, vídeo e áudio, o CoDi pode fornecer aos usuários uma experiência de computação mais imersiva e acessível.Além disso, o CoDi tem o potencial de reinventar ferramentas de aprendizado personalizadas, fornecendo um ambiente de aprendizado interativo abrangente. Os alunos se envolvem com conteúdo multimodal que integra informações de várias fontes, aprimorando sua compreensão e envolvimento com o tópico.O CoDi também revolucionará a geração de conteúdo. O modelo é capaz de gerar resultados de alta qualidade em várias modalidades, o que pode simplificar o processo de criação de conteúdo e reduzir a carga dos criadores. Seja gerando postagens de mídia social envolventes, elaborando apresentações multimídia interativas ou criando experiências de narrativa envolventes, os recursos da CoDi têm o potencial de remodelar o cenário de geração de conteúdo.Para abordar as limitações dos modelos tradicionais de IA unimodal, o CoDi fornece uma solução para o processo tedioso e lento de combinar modelos generativos específicos da modalidade.Este novo modelo emprega uma estratégia única de geração composable que liga o alinhamento durante a difusão e facilita a geração simultânea de modalidades entrelaçadas, como vídeo e áudio alinhados no tempo.O processo de treinamento do modelo CoDi também é bastante distinto. Envolve a projeção de modalidades de entrada, como imagem, vídeo, áudio e linguagem em um espaço semântico comum. Isso permite o manuseio flexível de entradas multimodais e, por meio do módulo de atenção cruzada e do codificador de ambiente, é capaz de gerar simultaneamente combinações arbitrárias de modalidades de saída.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-9bc9f58601-dd1a6f-7649e1) (Acima) Arquitetura do modelo CoDi: CoDi usa um esquema de treinamento em vários estágios capaz de treinar apenas em um número linear de tarefas, mas inferir em todas as combinações de modalidades de entrada e saída.## **丨Entradas simples ou múltiplas --> saídas múltiplas**Os modelos CoDi podem receber sugestões únicas ou múltiplas (incluindo vídeo, imagem, texto ou áudio) para gerar várias saídas alinhadas, como vídeo com som de acompanhamento.Por exemplo:**1. Texto+Imagem+Áudio——>Áudio+Vídeo**"Um ursinho de skate, 4k, alta resolução" + uma foto da Times Square em Nova York + um áudio chuvoso --> Após a geração do CoDi, um pedaço de "Um ursinho de skate na Times Square na chuva, Acompanhado de o som simultâneo da chuva e do barulho da rua."![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-17f537e017-dd1a6f-7649e1) Como é gerado?> O CoDi pode gerar conjuntamente qualquer combinação de vídeo, imagem, áudio e texto por meio de difusão componível. O CoDi primeiro recebe faixas de áudio para gerar legendas de texto, depois recebe imagens para imagem+áudio-áudio e, em seguida, recebe imagem+áudio+texto para combinar suas informações para gerar uma nova imagem+legenda conjunta. Por fim, o CoDi também pode receber imagem+áudio+texto e gerar vídeo+áudio.**2 texto+áudio+imagem -->texto+imagem**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-6467153927-dd1a6f-7649e1) 1. **3.** **Áudio + Imagem --> Texto + Imagem**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-f959317814-dd1a6f-7649e1) 1. **4. Texto+Imagem ——>Texto+Imagem**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-d32b2de333-dd1a6f-7649e1) **5. Texto——>Vídeo+Áudio**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-fcc4d70bb8-dd1a6f-7649e1) **6. Texto——>Texto+Áudio+Imagem**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-247b38d9d6-dd1a6f-7649e1)## **丨Entradas múltiplas --> saída única****1. Texto+Áudio——Imagem**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-586363abe2-dd1a6f-7649e1) **2. Texto + Imagem --> Imagem**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-77e8f7810d-dd1a6f-7649e1) **3 Texto+Áudio -->Vídeo**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-1799ea0bcd-dd1a6f-7649e1) **4 texto + imagem --> vídeo**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-e145e766ea-dd1a6f-7649e1) **5. Há também vídeo + áudio --> texto, imagem + áudio --> áudio, texto + imagem --> áudio...etc**## **丨Single input——single output****1 Texto --> Imagem**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-3b57b17518-dd1a6f-7649e1) **2 Áudio --> Imagem**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-97ced2f7d6-dd1a6f-7649e1) **3 Imagem --> Vídeo**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-12e68d0230-dd1a6f-7649e1) **4 Imagem --> Áudio**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-a34494b67f-dd1a6f-7649e1) **5 Áudio --> Texto**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-f1beb7662f-dd1a6f-7649e1) **6 Imagem --> Texto**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-5aa0a798f4-dd1a6f-7649e1) Referências:***