acostumado com Stable Diffusion, e agora finalmente tem um modelo Matryoshka Diffusion, novamente feito pela Apple.
Fonte original: Heart of the Machine
Fonte da imagem: Gerado por Unbounded AI
Na era da IA generativa, os modelos de difusão tornaram-se uma ferramenta popular para aplicações de IA generativa, como geração de imagem, vídeo, 3D, áudio e texto. No entanto, estender o modelo de difusão para o domínio de alta resolução ainda é um grande desafio, pois o modelo deve recodificar todas as entradas de alta resolução em cada etapa. Resolver esses desafios requer o uso de arquiteturas profundas com blocos de atenção, o que torna a otimização mais difícil e consome mais poder de computação e memória.
O que fazer? Alguns trabalhos recentes centraram-se em arquiteturas de rede eficientes para imagens de alta resolução. No entanto, nenhum dos métodos existentes apresenta resultados além da resolução 512×512, e a qualidade da geração fica aquém da dos métodos convencionais em cascata ou latentes.
Tomemos como exemplos o OpenAI DALL-E 2, o Google IMAGEN e o NVIDIA eDiffI, que economizam poder de computação ao aprender um único modelo de baixa resolução e vários modelos de difusão de super-resolução, onde cada componente é treinado separadamente. Por outro lado, os modelos de difusão latente (LDMs) aprendem apenas modelos de difusão de baixa resolução e dependem de autocodificadores de alta resolução treinados individualmente. Para ambos os cenários, os pipelines de vários estágios complicam o treinamento e a inferência, muitas vezes exigindo ajuste fino ou hiperparametrização.
Neste artigo, os pesquisadores propõem Matryoshka Diffusion Models (MDM), um novo modelo de difusão para geração de imagens de alta resolução de ponta a ponta. O código será lançado em breve.
Endereço:
A ideia principal apresentada no estudo é realizar um processo de difusão conjunta em múltiplas resoluções usando uma arquitetura UNet aninhada como parte da geração de alta resolução.
O estudo descobriu que o MDM, juntamente com a arquitetura UNet aninhada, alcançou 1) perda de multi-resolução: melhorou muito a velocidade de convergência da denoising; 2) Um plano de treinamento progressivo eficiente, começando com o treinamento de um modelo de difusão de baixa resolução e adicionando progressivamente entradas e saídas de alta resolução conforme planejado. Os resultados experimentais mostram que a combinação de perda de multi-resolução e treinamento progressivo pode alcançar um melhor equilíbrio entre o custo do treinamento e a qualidade do modelo.
O estudo avaliou o MDM em termos de geração de imagem condicional de classe, bem como geração de imagem e vídeo condicional de texto. O MDM permite treinar modelos de alta resolução sem a necessidade de cascatas ou difusão latente. Estudos de ablação mostraram que tanto a perda de multi-resolução quanto o treinamento progressivo melhoram muito a eficiência e a qualidade do treinamento.
Vamos dar uma olhada nas seguintes imagens e vídeos gerados pelo MDM.
Visão Geral da Metodologia
De acordo com os pesquisadores, o modelo de difusão MDM é treinado de ponta a ponta em alta resolução, usando a formação hierárquica de dados. O MDM primeiro generaliza o modelo de difusão padrão no espaço de difusão e, em seguida, propõe uma arquitetura aninhada dedicada e um processo de treinamento.
Primeiro, vamos ver como generalizar o modelo de difusão padrão no espaço estendido.
Ao contrário das abordagens em cascata ou latentes, o MDM aprende um único processo de difusão com uma estrutura hierárquica, introduzindo um processo de difusão de várias resoluções em um espaço estendido. Isso é mostrado na Figura 2 abaixo.
Especificamente, dado um ponto de dados x ∈ R^N, o pesquisador define a variável latente dependente do tempo z_t = z_t^1 , . . . , z_t^R ∈ R^N_1+... NR。
De acordo com os pesquisadores, a modelagem de difusão em um espaço estendido tem duas vantagens. Por um lado, geralmente estamos preocupados com a saída de resolução total z_t^R durante a inferência, e todas as outras saídas de resolução média são tratadas como variáveis latentes adicionais z_t^r, adicionando complexidade à distribuição de modelagem. Em segundo lugar, as dependências de várias resoluções oferecem uma oportunidade de compartilhar pesos e cálculos em z_t^r, redistribuindo a computação de forma mais eficiente e permitindo treinamento e inferência eficientes.
Vamos dar uma olhada em como nestedUNet funciona.
Semelhante aos modelos de difusão típicos, os pesquisadores implementaram o MDM usando uma estrutura de rede UNet, na qual conexões residuais e blocos computacionais são usados em paralelo para preservar informações de entrada refinadas. Os blocos computacionais aqui contêm convoluções multicamadas e camadas de auto-atenção. Os códigos para NestedUNet e UNet padrão são os seguintes.
Além de sua simplicidade em comparação com outros métodos hierárquicos, o NestedUNet permite que os cálculos sejam alocados da maneira mais eficiente. Como mostrado na Figura 3 abaixo, os primeiros investigadores descobriram que o MDM alcançou uma escalabilidade significativamente melhor quando a maioria dos parâmetros e cálculos foram alocados na resolução mais baixa.
Finalmente, há aprendizagem.
Os investigadores treinaram MDM em múltiplas resoluções usando alvos convencionais de denoização, como mostrado na equação (3) abaixo.
O treinamento progressivo é usado aqui. Os investigadores treinaram MDM diretamente de ponta a ponta seguindo a equação acima (3) e demonstraram melhor convergência do que o método basal original. Eles descobriram que o treinamento de modelos de alta resolução foi muito acelerado usando um método de treinamento progressivo simples semelhante ao proposto no artigo do GAN.
Este método de formação evita a formação dispendiosa e de alta resolução desde o início e acelera a convergência global. Não só isso, mas também incorporaram treinamento de resolução mista, que treina amostras com diferentes resoluções finais simultaneamente em um único lote.
Experiências e Resultados
MDM é uma tecnologia de uso geral para qualquer problema que pode comprimir gradualmente as dimensões de entrada. A comparação do MDM com a abordagem basal é mostrada na Figura 4 abaixo.
A Tabela 1 mostra uma comparação no ImageNet (FID-50K) e COCO (FID-30K).
As Figuras 5, 6 e 7 abaixo ilustram os resultados do MDM na geração de imagens (Figura 5), text-to-image (Figura 6) e text-to-video (Figura 7). Apesar de ser treinado em um conjunto de dados relativamente pequeno, o MDM demonstrou uma forte capacidade de captura zero para produzir imagens e vídeos de alta resolução.
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
O grande modelo do diagrama de Wensheng da Apple foi revelado: difusão matryoshka, suportando resolução 1024x1024
Fonte original: Heart of the Machine
Na era da IA generativa, os modelos de difusão tornaram-se uma ferramenta popular para aplicações de IA generativa, como geração de imagem, vídeo, 3D, áudio e texto. No entanto, estender o modelo de difusão para o domínio de alta resolução ainda é um grande desafio, pois o modelo deve recodificar todas as entradas de alta resolução em cada etapa. Resolver esses desafios requer o uso de arquiteturas profundas com blocos de atenção, o que torna a otimização mais difícil e consome mais poder de computação e memória.
O que fazer? Alguns trabalhos recentes centraram-se em arquiteturas de rede eficientes para imagens de alta resolução. No entanto, nenhum dos métodos existentes apresenta resultados além da resolução 512×512, e a qualidade da geração fica aquém da dos métodos convencionais em cascata ou latentes.
Tomemos como exemplos o OpenAI DALL-E 2, o Google IMAGEN e o NVIDIA eDiffI, que economizam poder de computação ao aprender um único modelo de baixa resolução e vários modelos de difusão de super-resolução, onde cada componente é treinado separadamente. Por outro lado, os modelos de difusão latente (LDMs) aprendem apenas modelos de difusão de baixa resolução e dependem de autocodificadores de alta resolução treinados individualmente. Para ambos os cenários, os pipelines de vários estágios complicam o treinamento e a inferência, muitas vezes exigindo ajuste fino ou hiperparametrização.
Neste artigo, os pesquisadores propõem Matryoshka Diffusion Models (MDM), um novo modelo de difusão para geração de imagens de alta resolução de ponta a ponta. O código será lançado em breve.
A ideia principal apresentada no estudo é realizar um processo de difusão conjunta em múltiplas resoluções usando uma arquitetura UNet aninhada como parte da geração de alta resolução.
O estudo descobriu que o MDM, juntamente com a arquitetura UNet aninhada, alcançou 1) perda de multi-resolução: melhorou muito a velocidade de convergência da denoising; 2) Um plano de treinamento progressivo eficiente, começando com o treinamento de um modelo de difusão de baixa resolução e adicionando progressivamente entradas e saídas de alta resolução conforme planejado. Os resultados experimentais mostram que a combinação de perda de multi-resolução e treinamento progressivo pode alcançar um melhor equilíbrio entre o custo do treinamento e a qualidade do modelo.
O estudo avaliou o MDM em termos de geração de imagem condicional de classe, bem como geração de imagem e vídeo condicional de texto. O MDM permite treinar modelos de alta resolução sem a necessidade de cascatas ou difusão latente. Estudos de ablação mostraram que tanto a perda de multi-resolução quanto o treinamento progressivo melhoram muito a eficiência e a qualidade do treinamento.
Vamos dar uma olhada nas seguintes imagens e vídeos gerados pelo MDM.
De acordo com os pesquisadores, o modelo de difusão MDM é treinado de ponta a ponta em alta resolução, usando a formação hierárquica de dados. O MDM primeiro generaliza o modelo de difusão padrão no espaço de difusão e, em seguida, propõe uma arquitetura aninhada dedicada e um processo de treinamento.
Primeiro, vamos ver como generalizar o modelo de difusão padrão no espaço estendido.
Ao contrário das abordagens em cascata ou latentes, o MDM aprende um único processo de difusão com uma estrutura hierárquica, introduzindo um processo de difusão de várias resoluções em um espaço estendido. Isso é mostrado na Figura 2 abaixo.
Vamos dar uma olhada em como nestedUNet funciona.
Semelhante aos modelos de difusão típicos, os pesquisadores implementaram o MDM usando uma estrutura de rede UNet, na qual conexões residuais e blocos computacionais são usados em paralelo para preservar informações de entrada refinadas. Os blocos computacionais aqui contêm convoluções multicamadas e camadas de auto-atenção. Os códigos para NestedUNet e UNet padrão são os seguintes.
Os investigadores treinaram MDM em múltiplas resoluções usando alvos convencionais de denoização, como mostrado na equação (3) abaixo.
Este método de formação evita a formação dispendiosa e de alta resolução desde o início e acelera a convergência global. Não só isso, mas também incorporaram treinamento de resolução mista, que treina amostras com diferentes resoluções finais simultaneamente em um único lote.
Experiências e Resultados
MDM é uma tecnologia de uso geral para qualquer problema que pode comprimir gradualmente as dimensões de entrada. A comparação do MDM com a abordagem basal é mostrada na Figura 4 abaixo.