Conseguir uma foto bonita está cada vez mais fácil.
Ao viajar durante as férias, tirar fotos é obrigatório. No entanto, a maioria das fotos tiradas em locais pitorescos são mais ou menos lamentáveis: ou há algo extra no fundo ou algo está faltando.
Fonte da imagem: gerada por Unbounded AI
Obter uma imagem “perfeita” tem sido um dos objetivos de longo prazo dos pesquisadores de CV. Recentemente, pesquisadores do Google Research e da Universidade Cornell colaboraram para propor uma tecnologia de “Completamento de Imagem Autêntica” – RealFill, um modelo generativo para preenchimento de imagem.
A vantagem dos modelos RealFill é que eles podem ser personalizados com um pequeno número de imagens de referência de cena que não precisam estar alinhadas com a imagem alvo e podem até variar muito em termos de ângulo de visão, condições de iluminação, abertura da câmera ou estilo de imagem . Uma vez concluída a personalização, o RealFill pode complementar a imagem alvo com conteúdo visualmente envolvente, fiel à cena original.
* Link do artigo:
*Página do projeto:
Modelos de pintura interna e externa são tecnologias que podem gerar conteúdo de imagem razoável e de alta qualidade em áreas desconhecidas da imagem. No entanto, o conteúdo gerado por esses modelos é necessariamente irrealista porque esses modelos operam no contexto de cenas reais. Existem deficiências de informação . Em contraste, o RealFill gera conteúdo que “deveria” estar lá, tornando os resultados da conclusão da imagem mais realistas.
Os autores apontaram no artigo que definiram um novo problema de conclusão de imagem - “Completação de imagem autêntica”. Diferente da restauração tradicional de imagem generativa (o conteúdo que substitui a área faltante pode ser inconsistente com a cena original), o objetivo da conclusão da imagem real é tornar o conteúdo concluído o mais fiel possível à cena original, usando conteúdo que "deveria aparecer lá". Complete a imagem alvo com conteúdo que “pode estar por aí”.
Os autores afirmam que o RealFill é o primeiro método para estender o poder expressivo dos modelos generativos de pintura de imagens, adicionando mais condições ao processo (ou seja, adicionando imagens de referência).
O RealFill supera significativamente os métodos existentes em um novo benchmark de conclusão de imagem que cobre um conjunto diversificado e desafiador de cenários.
método
O objetivo do RealFill é usar um pequeno número de imagens de referência para completar as partes faltantes de uma determinada imagem alvo, mantendo o máximo de autenticidade possível. Especificamente, você recebe até 5 imagens de referência e uma imagem de destino que captura aproximadamente a mesma cena (mas pode ter um layout ou aparência diferente).
Para uma determinada cena, os pesquisadores primeiro criaram um modelo generativo personalizado, ajustando um modelo de difusão de pintura pré-treinado em imagens de referência e de destino. Esse processo de ajuste fino é projetado para que o modelo ajustado não apenas mantenha boas imagens anteriores, mas também aprenda o conteúdo, a iluminação e o estilo da cena na imagem de entrada. Este modelo ajustado é então usado para preencher regiões ausentes na imagem alvo por meio de um processo padrão de amostragem por difusão.
Vale a pena notar que, para fins de aplicação prática, este modelo se concentra especificamente no caso mais desafiador e irrestrito, onde a imagem alvo e a imagem de referência podem ter pontos de vista, condições ambientais, aberturas de câmera, estilos de imagem e até movimentos muito diferentes. .
Resultados experimentais
Com base na imagem de referência à esquerda, o RealFill é capaz de expandir (descortar) ou reparar (pintar) a imagem alvo à direita. O resultado gerado não é apenas visualmente atraente, mas também consistente com a imagem de referência, mesmo que a referência imagem e a imagem alvo estão no mesmo ponto de vista. , existem grandes diferenças na abertura, iluminação, estilo de imagem e movimento do objeto.
Efeito de saída do modelo RealFill. Dada uma imagem de referência à esquerda, o RealFill pode expandir a imagem de destino correspondente à direita. As áreas dentro da caixa branca são fornecidas à rede como pixels conhecidos, enquanto as áreas fora da caixa branca são geradas. Os resultados mostram que o RealFill pode gerar imagens de alta qualidade que são fiéis à imagem de referência, mesmo que existam grandes diferenças entre a imagem de referência e a imagem alvo, incluindo ponto de vista, abertura, iluminação, estilo de imagem e movimento do objeto. Fonte: Papel
Experimento controlado
Os pesquisadores compararam o modelo RealFill com outros métodos básicos. Em comparação, o RealFill produz resultados de alta qualidade e tem melhor desempenho em termos de fidelidade de cena e consistência com imagens de referência.
O Paint-by-Example não pode alcançar alta fidelidade de cena porque depende da incorporação de CLIP, que só pode capturar informações semânticas de alto nível.
Embora a pintura por difusão estável possa produzir resultados aparentemente razoáveis, devido às suas capacidades expressivas limitadas, os resultados finais gerados não são consistentes com a imagem de referência.
Comparação do RealFill com dois outros métodos de linha de base. A área coberta por uma máscara branca transparente é a parte não modificada da imagem alvo. Fonte: realfill.github.io
Limitações
Os pesquisadores também discutiram alguns possíveis problemas e limitações do modelo RealFill, incluindo velocidade de processamento, capacidade de lidar com mudanças de ponto de vista e capacidade de lidar com situações desafiadoras para o modelo subjacente. Especificamente:
O RealFill requer um processo de ajuste fino baseado em gradiente na imagem de entrada, o que torna sua execução relativamente lenta.
Quando a mudança de ponto de vista entre a imagem de referência e a imagem de destino é muito grande, o RealFill muitas vezes não consegue restaurar a cena 3D, especialmente quando há apenas uma imagem de referência.
Como o RealFill depende principalmente de imagens anteriores herdadas do modelo base pré-treinado, ele não pode lidar com situações desafiadoras para o modelo base, como modelos de difusão estáveis que não conseguem lidar bem com texto.
Por fim, o autor expressa sua gratidão aos colaboradores:
Gostaríamos de agradecer a Rundi Wu, Qianqian Wang, Viraj Shah, Ethan Weber, Zhengqi Li, Kyle Genova, Boyang Deng, Maya Goldenberg, Noah Snavely, Ben Poole, Ben Mildenhall, Alex Rav-Acha, Pratul Srinivasan, Dor Verbin e Jon Barron pelas valiosas discussões e comentários, e obrigado também a Zeya Peng, Rundi Wu e Shan Nan pelas suas contribuições para o conjunto de dados de avaliação. Somos particularmente gratos a Jason Baldridge, Kihyuk Sohn, Kathy Meier-Hellstern e Nicole Brichtova pelo seu feedback e apoio ao projeto.
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
A autenticidade é incrível. Google e Cornell propõem tecnologia de completação de imagem real RealFill
Ao viajar durante as férias, tirar fotos é obrigatório. No entanto, a maioria das fotos tiradas em locais pitorescos são mais ou menos lamentáveis: ou há algo extra no fundo ou algo está faltando.
Obter uma imagem “perfeita” tem sido um dos objetivos de longo prazo dos pesquisadores de CV. Recentemente, pesquisadores do Google Research e da Universidade Cornell colaboraram para propor uma tecnologia de “Completamento de Imagem Autêntica” – RealFill, um modelo generativo para preenchimento de imagem.
A vantagem dos modelos RealFill é que eles podem ser personalizados com um pequeno número de imagens de referência de cena que não precisam estar alinhadas com a imagem alvo e podem até variar muito em termos de ângulo de visão, condições de iluminação, abertura da câmera ou estilo de imagem . Uma vez concluída a personalização, o RealFill pode complementar a imagem alvo com conteúdo visualmente envolvente, fiel à cena original.
Modelos de pintura interna e externa são tecnologias que podem gerar conteúdo de imagem razoável e de alta qualidade em áreas desconhecidas da imagem. No entanto, o conteúdo gerado por esses modelos é necessariamente irrealista porque esses modelos operam no contexto de cenas reais. Existem deficiências de informação . Em contraste, o RealFill gera conteúdo que “deveria” estar lá, tornando os resultados da conclusão da imagem mais realistas.
Os autores apontaram no artigo que definiram um novo problema de conclusão de imagem - “Completação de imagem autêntica”. Diferente da restauração tradicional de imagem generativa (o conteúdo que substitui a área faltante pode ser inconsistente com a cena original), o objetivo da conclusão da imagem real é tornar o conteúdo concluído o mais fiel possível à cena original, usando conteúdo que "deveria aparecer lá". Complete a imagem alvo com conteúdo que “pode estar por aí”.
Os autores afirmam que o RealFill é o primeiro método para estender o poder expressivo dos modelos generativos de pintura de imagens, adicionando mais condições ao processo (ou seja, adicionando imagens de referência).
O RealFill supera significativamente os métodos existentes em um novo benchmark de conclusão de imagem que cobre um conjunto diversificado e desafiador de cenários.
método
O objetivo do RealFill é usar um pequeno número de imagens de referência para completar as partes faltantes de uma determinada imagem alvo, mantendo o máximo de autenticidade possível. Especificamente, você recebe até 5 imagens de referência e uma imagem de destino que captura aproximadamente a mesma cena (mas pode ter um layout ou aparência diferente).
Para uma determinada cena, os pesquisadores primeiro criaram um modelo generativo personalizado, ajustando um modelo de difusão de pintura pré-treinado em imagens de referência e de destino. Esse processo de ajuste fino é projetado para que o modelo ajustado não apenas mantenha boas imagens anteriores, mas também aprenda o conteúdo, a iluminação e o estilo da cena na imagem de entrada. Este modelo ajustado é então usado para preencher regiões ausentes na imagem alvo por meio de um processo padrão de amostragem por difusão.
Vale a pena notar que, para fins de aplicação prática, este modelo se concentra especificamente no caso mais desafiador e irrestrito, onde a imagem alvo e a imagem de referência podem ter pontos de vista, condições ambientais, aberturas de câmera, estilos de imagem e até movimentos muito diferentes. .
Resultados experimentais
Com base na imagem de referência à esquerda, o RealFill é capaz de expandir (descortar) ou reparar (pintar) a imagem alvo à direita. O resultado gerado não é apenas visualmente atraente, mas também consistente com a imagem de referência, mesmo que a referência imagem e a imagem alvo estão no mesmo ponto de vista. , existem grandes diferenças na abertura, iluminação, estilo de imagem e movimento do objeto.
Experimento controlado
Os pesquisadores compararam o modelo RealFill com outros métodos básicos. Em comparação, o RealFill produz resultados de alta qualidade e tem melhor desempenho em termos de fidelidade de cena e consistência com imagens de referência.
O Paint-by-Example não pode alcançar alta fidelidade de cena porque depende da incorporação de CLIP, que só pode capturar informações semânticas de alto nível.
Embora a pintura por difusão estável possa produzir resultados aparentemente razoáveis, devido às suas capacidades expressivas limitadas, os resultados finais gerados não são consistentes com a imagem de referência.
Limitações
Os pesquisadores também discutiram alguns possíveis problemas e limitações do modelo RealFill, incluindo velocidade de processamento, capacidade de lidar com mudanças de ponto de vista e capacidade de lidar com situações desafiadoras para o modelo subjacente. Especificamente:
O RealFill requer um processo de ajuste fino baseado em gradiente na imagem de entrada, o que torna sua execução relativamente lenta.
Quando a mudança de ponto de vista entre a imagem de referência e a imagem de destino é muito grande, o RealFill muitas vezes não consegue restaurar a cena 3D, especialmente quando há apenas uma imagem de referência.
Como o RealFill depende principalmente de imagens anteriores herdadas do modelo base pré-treinado, ele não pode lidar com situações desafiadoras para o modelo base, como modelos de difusão estáveis que não conseguem lidar bem com texto.
Gostaríamos de agradecer a Rundi Wu, Qianqian Wang, Viraj Shah, Ethan Weber, Zhengqi Li, Kyle Genova, Boyang Deng, Maya Goldenberg, Noah Snavely, Ben Poole, Ben Mildenhall, Alex Rav-Acha, Pratul Srinivasan, Dor Verbin e Jon Barron pelas valiosas discussões e comentários, e obrigado também a Zeya Peng, Rundi Wu e Shan Nan pelas suas contribuições para o conjunto de dados de avaliação. Somos particularmente gratos a Jason Baldridge, Kihyuk Sohn, Kathy Meier-Hellstern e Nicole Brichtova pelo seu feedback e apoio ao projeto.