A autenticidade é incrível. Google e Cornell propõem tecnologia de completação de imagem real RealFill

Conseguir uma foto bonita está cada vez mais fácil.

Ao viajar durante as férias, tirar fotos é obrigatório. No entanto, a maioria das fotos tiradas em locais pitorescos são mais ou menos lamentáveis: ou há algo extra no fundo ou algo está faltando.

Fonte da imagem: gerada por Unbounded AI

Obter uma imagem “perfeita” tem sido um dos objetivos de longo prazo dos pesquisadores de CV. Recentemente, pesquisadores do Google Research e da Universidade Cornell colaboraram para propor uma tecnologia de “Completamento de Imagem Autêntica” – RealFill, um modelo generativo para preenchimento de imagem.

A vantagem dos modelos RealFill é que eles podem ser personalizados com um pequeno número de imagens de referência de cena que não precisam estar alinhadas com a imagem alvo e podem até variar muito em termos de ângulo de visão, condições de iluminação, abertura da câmera ou estilo de imagem . Uma vez concluída a personalização, o RealFill pode complementar a imagem alvo com conteúdo visualmente envolvente, fiel à cena original.

* Link do artigo: *Página do projeto:

Modelos de pintura interna e externa são tecnologias que podem gerar conteúdo de imagem razoável e de alta qualidade em áreas desconhecidas da imagem. No entanto, o conteúdo gerado por esses modelos é necessariamente irrealista porque esses modelos operam no contexto de cenas reais. Existem deficiências de informação . Em contraste, o RealFill gera conteúdo que “deveria” estar lá, tornando os resultados da conclusão da imagem mais realistas.

Os autores apontaram no artigo que definiram um novo problema de conclusão de imagem - “Completação de imagem autêntica”. Diferente da restauração tradicional de imagem generativa (o conteúdo que substitui a área faltante pode ser inconsistente com a cena original), o objetivo da conclusão da imagem real é tornar o conteúdo concluído o mais fiel possível à cena original, usando conteúdo que "deveria aparecer lá". Complete a imagem alvo com conteúdo que “pode estar por aí”.

Os autores afirmam que o RealFill é o primeiro método para estender o poder expressivo dos modelos generativos de pintura de imagens, adicionando mais condições ao processo (ou seja, adicionando imagens de referência).

O RealFill supera significativamente os métodos existentes em um novo benchmark de conclusão de imagem que cobre um conjunto diversificado e desafiador de cenários.

método

O objetivo do RealFill é usar um pequeno número de imagens de referência para completar as partes faltantes de uma determinada imagem alvo, mantendo o máximo de autenticidade possível. Especificamente, você recebe até 5 imagens de referência e uma imagem de destino que captura aproximadamente a mesma cena (mas pode ter um layout ou aparência diferente).

Para uma determinada cena, os pesquisadores primeiro criaram um modelo generativo personalizado, ajustando um modelo de difusão de pintura pré-treinado em imagens de referência e de destino. Esse processo de ajuste fino é projetado para que o modelo ajustado não apenas mantenha boas imagens anteriores, mas também aprenda o conteúdo, a iluminação e o estilo da cena na imagem de entrada. Este modelo ajustado é então usado para preencher regiões ausentes na imagem alvo por meio de um processo padrão de amostragem por difusão.

Vale a pena notar que, para fins de aplicação prática, este modelo se concentra especificamente no caso mais desafiador e irrestrito, onde a imagem alvo e a imagem de referência podem ter pontos de vista, condições ambientais, aberturas de câmera, estilos de imagem e até movimentos muito diferentes. .

Resultados experimentais

Com base na imagem de referência à esquerda, o RealFill é capaz de expandir (descortar) ou reparar (pintar) a imagem alvo à direita. O resultado gerado não é apenas visualmente atraente, mas também consistente com a imagem de referência, mesmo que a referência imagem e a imagem alvo estão no mesmo ponto de vista. , existem grandes diferenças na abertura, iluminação, estilo de imagem e movimento do objeto.

Efeito de saída do modelo RealFill. Dada uma imagem de referência à esquerda, o RealFill pode expandir a imagem de destino correspondente à direita. As áreas dentro da caixa branca são fornecidas à rede como pixels conhecidos, enquanto as áreas fora da caixa branca são geradas. Os resultados mostram que o RealFill pode gerar imagens de alta qualidade que são fiéis à imagem de referência, mesmo que existam grandes diferenças entre a imagem de referência e a imagem alvo, incluindo ponto de vista, abertura, iluminação, estilo de imagem e movimento do objeto. Fonte: Papel

Experimento controlado

Os pesquisadores compararam o modelo RealFill com outros métodos básicos. Em comparação, o RealFill produz resultados de alta qualidade e tem melhor desempenho em termos de fidelidade de cena e consistência com imagens de referência.

O Paint-by-Example não pode alcançar alta fidelidade de cena porque depende da incorporação de CLIP, que só pode capturar informações semânticas de alto nível.

Embora a pintura por difusão estável possa produzir resultados aparentemente razoáveis, devido às suas capacidades expressivas limitadas, os resultados finais gerados não são consistentes com a imagem de referência.

Comparação do RealFill com dois outros métodos de linha de base. A área coberta por uma máscara branca transparente é a parte não modificada da imagem alvo. Fonte: realfill.github.io

Limitações

Os pesquisadores também discutiram alguns possíveis problemas e limitações do modelo RealFill, incluindo velocidade de processamento, capacidade de lidar com mudanças de ponto de vista e capacidade de lidar com situações desafiadoras para o modelo subjacente. Especificamente:

O RealFill requer um processo de ajuste fino baseado em gradiente na imagem de entrada, o que torna sua execução relativamente lenta.

Quando a mudança de ponto de vista entre a imagem de referência e a imagem de destino é muito grande, o RealFill muitas vezes não consegue restaurar a cena 3D, especialmente quando há apenas uma imagem de referência.

Como o RealFill depende principalmente de imagens anteriores herdadas do modelo base pré-treinado, ele não pode lidar com situações desafiadoras para o modelo base, como modelos de difusão estáveis que não conseguem lidar bem com texto.

Por fim, o autor expressa sua gratidão aos colaboradores:

Gostaríamos de agradecer a Rundi Wu, Qianqian Wang, Viraj Shah, Ethan Weber, Zhengqi Li, Kyle Genova, Boyang Deng, Maya Goldenberg, Noah Snavely, Ben Poole, Ben Mildenhall, Alex Rav-Acha, Pratul Srinivasan, Dor Verbin e Jon Barron pelas valiosas discussões e comentários, e obrigado também a Zeya Peng, Rundi Wu e Shan Nan pelas suas contribuições para o conjunto de dados de avaliação. Somos particularmente gratos a Jason Baldridge, Kihyuk Sohn, Kathy Meier-Hellstern e Nicole Brichtova pelo seu feedback e apoio ao projeto.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Partilhar
Comentar
0/400
Nenhum comentário
  • Pino
Negocie cripto em qualquer lugar e a qualquer hora
qrCode
Digitalizar para transferir a aplicação Gate
Novidades
Português (Portugal)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)