A equipe de pesquisa do Microsoft Azure e os pesquisadores da Universidade da Carolina do Norte publicaram um artigo "Arbitrary Generation Through Composable Diffusion", apresentando um novo modelo de geração multimodal - CoDi (Composable Diffusion).
O CoDi é capaz de gerar qualquer combinação de modalidades de saída a partir de qualquer combinação de modalidades de entrada, como linguagem, imagem, vídeo ou áudio. Ao contrário dos sistemas de IA generativos existentes, o CoDi pode gerar várias modalidades em paralelo e sua entrada não se limita a subconjuntos de modalidades, como texto ou imagens. O CoDi é livre para condicionar qualquer combinação de entradas e gerar qualquer conjunto de modalidades, mesmo que não estejam presentes nos dados de treinamento.
O CoDi apresenta um nível sem precedentes de geração de conteúdo ao processar e gerar conteúdo multimodal simultaneamente, como texto, imagens, áudio e vídeo. Usando modelos de difusão e técnicas combináveis, o CoDi pode gerar saídas diversas e de alta qualidade a partir de entradas únicas ou múltiplas, transformando a criação de conteúdo, acessibilidade e aprendizado personalizado.
O CoDi é altamente personalizável e flexível, permitindo qualidade de geração de modalidade conjunta robusta que supera ou rivaliza com a síntese de modalidade única de última geração.
Recentemente, o CoDi deu novos passos e está oficialmente disponível na plataforma Microsoft Azure, podendo ser usado gratuitamente por 12 meses.
Quão poderoso é o CoDi
O CoDi surgiu como parte do ambicioso projeto i-Code da Microsoft, uma iniciativa de pesquisa dedicada ao avanço das capacidades multimodais de IA. Espera-se que a capacidade do CoDi de integrar informações de várias fontes e gerar resultados consistentes revolucione várias áreas da interação humano-computador.
Uma das áreas em que o CoDi pode trazer mudanças é a tecnologia assistiva, permitindo que pessoas com deficiência interajam com computadores de maneira mais eficaz. Ao gerar conteúdo de forma integrada em texto, imagens, vídeo e áudio, o CoDi pode fornecer aos usuários uma experiência de computação mais imersiva e acessível.
Além disso, o CoDi tem o potencial de reinventar ferramentas de aprendizado personalizadas, fornecendo um ambiente de aprendizado interativo abrangente. Os alunos se envolvem com conteúdo multimodal que integra informações de várias fontes, aprimorando sua compreensão e envolvimento com o tópico.
O CoDi também revolucionará a geração de conteúdo. O modelo é capaz de gerar resultados de alta qualidade em várias modalidades, o que pode simplificar o processo de criação de conteúdo e reduzir a carga dos criadores. Seja gerando postagens de mídia social envolventes, elaborando apresentações multimídia interativas ou criando experiências de narrativa envolventes, os recursos da CoDi têm o potencial de remodelar o cenário de geração de conteúdo.
Para abordar as limitações dos modelos tradicionais de IA unimodal, o CoDi fornece uma solução para o processo tedioso e lento de combinar modelos generativos específicos da modalidade.
Este novo modelo emprega uma estratégia única de geração composable que liga o alinhamento durante a difusão e facilita a geração simultânea de modalidades entrelaçadas, como vídeo e áudio alinhados no tempo.
O processo de treinamento do modelo CoDi também é bastante distinto. Envolve a projeção de modalidades de entrada, como imagem, vídeo, áudio e linguagem em um espaço semântico comum. Isso permite o manuseio flexível de entradas multimodais e, por meio do módulo de atenção cruzada e do codificador de ambiente, é capaz de gerar simultaneamente combinações arbitrárias de modalidades de saída.
(Acima) Arquitetura do modelo CoDi: CoDi usa um esquema de treinamento em vários estágios capaz de treinar apenas em um número linear de tarefas, mas inferir em todas as combinações de modalidades de entrada e saída.
丨Entradas simples ou múltiplas --> saídas múltiplas
Os modelos CoDi podem receber sugestões únicas ou múltiplas (incluindo vídeo, imagem, texto ou áudio) para gerar várias saídas alinhadas, como vídeo com som de acompanhamento.
Por exemplo:
1. Texto+Imagem+Áudio——>Áudio+Vídeo
"Um ursinho de skate, 4k, alta resolução" + uma foto da Times Square em Nova York + um áudio chuvoso --> Após a geração do CoDi, um pedaço de "Um ursinho de skate na Times Square na chuva, Acompanhado de o som simultâneo da chuva e do barulho da rua."
Como é gerado?
O CoDi pode gerar conjuntamente qualquer combinação de vídeo, imagem, áudio e texto por meio de difusão componível. O CoDi primeiro recebe faixas de áudio para gerar legendas de texto, depois recebe imagens para imagem+áudio-áudio e, em seguida, recebe imagem+áudio+texto para combinar suas informações para gerar uma nova imagem+legenda conjunta. Por fim, o CoDi também pode receber imagem+áudio+texto e gerar vídeo+áudio.
2 texto+áudio+imagem -->texto+imagem
1. 3.Áudio + Imagem --> Texto + Imagem
1. 4. Texto+Imagem ——>Texto+Imagem
5. Texto——>Vídeo+Áudio
6. Texto——>Texto+Áudio+Imagem
丨Entradas múltiplas --> saída única
1. Texto+Áudio——Imagem
2. Texto + Imagem --> Imagem
3 Texto+Áudio -->Vídeo
4 texto + imagem --> vídeo
5. Há também vídeo + áudio --> texto, imagem + áudio --> áudio, texto + imagem --> áudio...etc
丨Single input——single output
1 Texto --> Imagem
2 Áudio --> Imagem
3 Imagem --> Vídeo
4 Imagem --> Áudio
5 Áudio --> Texto
6 Imagem --> Texto
Referências:
Ver original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Texto, imagem, áudio e vídeo... Quão poderoso é o modelo cross-modal CoDi da Microsoft?
A equipe de pesquisa do Microsoft Azure e os pesquisadores da Universidade da Carolina do Norte publicaram um artigo "Arbitrary Generation Through Composable Diffusion", apresentando um novo modelo de geração multimodal - CoDi (Composable Diffusion).
O CoDi é capaz de gerar qualquer combinação de modalidades de saída a partir de qualquer combinação de modalidades de entrada, como linguagem, imagem, vídeo ou áudio. Ao contrário dos sistemas de IA generativos existentes, o CoDi pode gerar várias modalidades em paralelo e sua entrada não se limita a subconjuntos de modalidades, como texto ou imagens. O CoDi é livre para condicionar qualquer combinação de entradas e gerar qualquer conjunto de modalidades, mesmo que não estejam presentes nos dados de treinamento.
O CoDi apresenta um nível sem precedentes de geração de conteúdo ao processar e gerar conteúdo multimodal simultaneamente, como texto, imagens, áudio e vídeo. Usando modelos de difusão e técnicas combináveis, o CoDi pode gerar saídas diversas e de alta qualidade a partir de entradas únicas ou múltiplas, transformando a criação de conteúdo, acessibilidade e aprendizado personalizado.
O CoDi é altamente personalizável e flexível, permitindo qualidade de geração de modalidade conjunta robusta que supera ou rivaliza com a síntese de modalidade única de última geração.
Recentemente, o CoDi deu novos passos e está oficialmente disponível na plataforma Microsoft Azure, podendo ser usado gratuitamente por 12 meses.
Quão poderoso é o CoDi
O CoDi surgiu como parte do ambicioso projeto i-Code da Microsoft, uma iniciativa de pesquisa dedicada ao avanço das capacidades multimodais de IA. Espera-se que a capacidade do CoDi de integrar informações de várias fontes e gerar resultados consistentes revolucione várias áreas da interação humano-computador.
Uma das áreas em que o CoDi pode trazer mudanças é a tecnologia assistiva, permitindo que pessoas com deficiência interajam com computadores de maneira mais eficaz. Ao gerar conteúdo de forma integrada em texto, imagens, vídeo e áudio, o CoDi pode fornecer aos usuários uma experiência de computação mais imersiva e acessível.
Além disso, o CoDi tem o potencial de reinventar ferramentas de aprendizado personalizadas, fornecendo um ambiente de aprendizado interativo abrangente. Os alunos se envolvem com conteúdo multimodal que integra informações de várias fontes, aprimorando sua compreensão e envolvimento com o tópico.
O CoDi também revolucionará a geração de conteúdo. O modelo é capaz de gerar resultados de alta qualidade em várias modalidades, o que pode simplificar o processo de criação de conteúdo e reduzir a carga dos criadores. Seja gerando postagens de mídia social envolventes, elaborando apresentações multimídia interativas ou criando experiências de narrativa envolventes, os recursos da CoDi têm o potencial de remodelar o cenário de geração de conteúdo.
Para abordar as limitações dos modelos tradicionais de IA unimodal, o CoDi fornece uma solução para o processo tedioso e lento de combinar modelos generativos específicos da modalidade.
Este novo modelo emprega uma estratégia única de geração composable que liga o alinhamento durante a difusão e facilita a geração simultânea de modalidades entrelaçadas, como vídeo e áudio alinhados no tempo.
O processo de treinamento do modelo CoDi também é bastante distinto. Envolve a projeção de modalidades de entrada, como imagem, vídeo, áudio e linguagem em um espaço semântico comum. Isso permite o manuseio flexível de entradas multimodais e, por meio do módulo de atenção cruzada e do codificador de ambiente, é capaz de gerar simultaneamente combinações arbitrárias de modalidades de saída.
丨Entradas simples ou múltiplas --> saídas múltiplas
Os modelos CoDi podem receber sugestões únicas ou múltiplas (incluindo vídeo, imagem, texto ou áudio) para gerar várias saídas alinhadas, como vídeo com som de acompanhamento.
Por exemplo:
1. Texto+Imagem+Áudio——>Áudio+Vídeo
"Um ursinho de skate, 4k, alta resolução" + uma foto da Times Square em Nova York + um áudio chuvoso --> Após a geração do CoDi, um pedaço de "Um ursinho de skate na Times Square na chuva, Acompanhado de o som simultâneo da chuva e do barulho da rua."
2 texto+áudio+imagem -->texto+imagem
丨Entradas múltiplas --> saída única
1. Texto+Áudio——Imagem
丨Single input——single output
1 Texto --> Imagem