Cuando se viaja durante las vacaciones, tomar fotografías es imprescindible. Sin embargo, la mayoría de las fotografías tomadas en lugares pintorescos son más o menos lamentables: o hay algo extra en el fondo o falta algo.
Fuente de la imagen: Generada por IA ilimitada
Obtener una imagen "perfecta" ha sido uno de los objetivos a largo plazo de los investigadores del CV. Recientemente, investigadores de Google Research y la Universidad de Cornell colaboraron para proponer una tecnología de "completación de imágenes auténticas": RealFill, un modelo generativo para completar imágenes.
La ventaja de los modelos RealFill es que se pueden personalizar con una pequeña cantidad de imágenes de referencia de escenas que no necesitan alinearse con la imagen de destino e incluso pueden variar mucho en términos de ángulo de visión, condiciones de iluminación, apertura de la cámara o estilo de imagen. . Una vez completada la personalización, RealFill puede complementar la imagen de destino con contenido visualmente atractivo de una manera fiel a la escena original.
* Enlace del artículo:
*Página del proyecto:
Los modelos de pintura y pintura son tecnologías que pueden generar contenido de imagen razonable y de alta calidad en áreas desconocidas de la imagen. Sin embargo, el contenido generado por estos modelos es necesariamente poco realista porque estos modelos operan en el contexto de escenas reales. Hay deficiencias en la información. . Por el contrario, RealFill genera contenido que "debería" estar allí, lo que hace que los resultados de la finalización de la imagen sean más realistas.
Los autores señalaron en el artículo que definieron un nuevo problema de finalización de imágenes: "Finalización de imágenes auténticas". A diferencia de la restauración de imágenes generativas tradicional (el contenido que reemplaza el área faltante puede ser inconsistente con la escena original), el objetivo de la finalización de imágenes reales es hacer que el contenido completo sea lo más fiel posible a la escena original, utilizando contenido que "debería aparecer". allí". Complete la imagen de destino con contenido que "podría estar disponible".
Los autores afirman que RealFill es el primer método que extiende el poder expresivo de la imagen generativa en los modelos de pintura agregando más condiciones al proceso (es decir, agregando imágenes de referencia).
RealFill supera significativamente a los métodos existentes en un nuevo punto de referencia de finalización de imágenes que cubre un conjunto diverso y desafiante de escenarios.
método
El objetivo de RealFill es utilizar una pequeña cantidad de imágenes de referencia para completar las partes faltantes de una imagen de destino determinada manteniendo la mayor autenticidad posible. Específicamente, se le proporcionan hasta 5 imágenes de referencia y una imagen de destino que captura aproximadamente la misma escena (pero puede tener un diseño o apariencia diferente).
Para una escena determinada, los investigadores primero crearon un modelo generativo personalizado ajustando un modelo de difusión de pintura previamente entrenado en imágenes de referencia y de destino. Este proceso de ajuste está diseñado para que el modelo ajustado no solo mantenga buenos antecedentes de imagen, sino que también aprenda el contenido de la escena, la iluminación y el estilo en la imagen de entrada. Este modelo ajustado luego se utiliza para completar las regiones faltantes en la imagen de destino mediante un proceso de muestreo de difusión estándar.
Vale la pena señalar que, por su valor de aplicación práctica, este modelo se centra específicamente en el caso más desafiante y sin restricciones, donde la imagen de destino y la imagen de referencia pueden tener puntos de vista, condiciones ambientales, aperturas de cámara, estilos de imagen e incluso movimientos muy diferentes. .
Resultados experimentales
Basado en la imagen de referencia de la izquierda, RealFill puede expandir (recortar) o reparar (pintar) la imagen de destino de la derecha. El resultado generado no solo es visualmente atractivo, sino que también es consistente con la imagen de referencia, incluso si la imagen de referencia y La imagen de destino está en el mismo punto de vista. , existen grandes diferencias en apertura, iluminación, estilo de imagen y movimiento del objeto.
Efecto de salida del modelo RealFill. Dada una imagen de referencia a la izquierda, RealFill puede expandir la imagen de destino correspondiente a la derecha. Las áreas dentro del cuadro blanco se proporcionan a la red como píxeles conocidos, mientras que las áreas fuera del cuadro blanco se generan. Los resultados muestran que RealFill puede generar imágenes de alta calidad que son fieles a la imagen de referencia incluso si existen grandes diferencias entre la imagen de referencia y la imagen de destino, incluido el punto de vista, la apertura, la iluminación, el estilo de la imagen y el movimiento del objeto. Fuente: Papel
Experimento controlado
Los investigadores compararon el modelo RealFill con otros métodos de referencia. En comparación, RealFill produce resultados de alta calidad y funciona mejor en términos de fidelidad de escena y coherencia con las imágenes de referencia.
Paint-by-Example no puede lograr una alta fidelidad de escena porque se basa en la incrustación CLIP, que solo puede capturar información semántica de alto nivel.
Aunque Stable Diffusion Inpainting puede producir resultados aparentemente razonables, debido a sus capacidades expresivas limitadas, los resultados finales generados no son consistentes con la imagen de referencia.
Comparación de RealFill con otros dos métodos de referencia. El área cubierta por una máscara blanca transparente es la parte no modificada de la imagen de destino. Fuente: realfill.github.io
Limitaciones
Los investigadores también discutieron algunos problemas y limitaciones potenciales del modelo RealFill, incluida la velocidad de procesamiento, la capacidad de manejar cambios de puntos de vista y la capacidad de manejar situaciones que son desafiantes para el modelo subyacente. Específicamente:
RealFill requiere un proceso de ajuste fino basado en gradientes en la imagen de entrada, lo que hace que su ejecución sea relativamente lenta.
Cuando el cambio de punto de vista entre la imagen de referencia y la imagen de destino es muy grande, RealFill a menudo no puede restaurar la escena 3D, especialmente cuando solo hay una imagen de referencia.
Dado que RealFill se basa principalmente en imágenes anteriores heredadas del modelo base previamente entrenado, no puede manejar situaciones que son desafiantes para el modelo base, como modelos de difusión estables que no pueden manejar bien el texto.
Finalmente, el autor expresa su agradecimiento a los colaboradores:
Nos gustaría agradecer a Rundi Wu, Qianqian Wang, Viraj Shah, Ethan Weber, Zhengqi Li, Kyle Genova, Boyang Deng, Maya Goldenberg, Noah Snavely, Ben Poole, Ben Mildenhall, Alex Rav-Acha, Pratul Srinivasan, Dor Verbin y Jon Barron por sus valiosos debates y comentarios, y gracias también a Zeya Peng, Rundi Wu y Shan Nan por sus contribuciones al conjunto de datos de evaluación. Estamos especialmente agradecidos a Jason Baldridge, Kihyuk Sohn, Kathy Meier-Hellstern y Nicole Brichtova por sus comentarios y apoyo al proyecto.
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
La autenticidad es asombrosa: Google y Cornell proponen la tecnología de finalización de imágenes reales RealFill
Cuando se viaja durante las vacaciones, tomar fotografías es imprescindible. Sin embargo, la mayoría de las fotografías tomadas en lugares pintorescos son más o menos lamentables: o hay algo extra en el fondo o falta algo.
Obtener una imagen "perfecta" ha sido uno de los objetivos a largo plazo de los investigadores del CV. Recientemente, investigadores de Google Research y la Universidad de Cornell colaboraron para proponer una tecnología de "completación de imágenes auténticas": RealFill, un modelo generativo para completar imágenes.
La ventaja de los modelos RealFill es que se pueden personalizar con una pequeña cantidad de imágenes de referencia de escenas que no necesitan alinearse con la imagen de destino e incluso pueden variar mucho en términos de ángulo de visión, condiciones de iluminación, apertura de la cámara o estilo de imagen. . Una vez completada la personalización, RealFill puede complementar la imagen de destino con contenido visualmente atractivo de una manera fiel a la escena original.
Los modelos de pintura y pintura son tecnologías que pueden generar contenido de imagen razonable y de alta calidad en áreas desconocidas de la imagen. Sin embargo, el contenido generado por estos modelos es necesariamente poco realista porque estos modelos operan en el contexto de escenas reales. Hay deficiencias en la información. . Por el contrario, RealFill genera contenido que "debería" estar allí, lo que hace que los resultados de la finalización de la imagen sean más realistas.
Los autores señalaron en el artículo que definieron un nuevo problema de finalización de imágenes: "Finalización de imágenes auténticas". A diferencia de la restauración de imágenes generativas tradicional (el contenido que reemplaza el área faltante puede ser inconsistente con la escena original), el objetivo de la finalización de imágenes reales es hacer que el contenido completo sea lo más fiel posible a la escena original, utilizando contenido que "debería aparecer". allí". Complete la imagen de destino con contenido que "podría estar disponible".
Los autores afirman que RealFill es el primer método que extiende el poder expresivo de la imagen generativa en los modelos de pintura agregando más condiciones al proceso (es decir, agregando imágenes de referencia).
RealFill supera significativamente a los métodos existentes en un nuevo punto de referencia de finalización de imágenes que cubre un conjunto diverso y desafiante de escenarios.
método
El objetivo de RealFill es utilizar una pequeña cantidad de imágenes de referencia para completar las partes faltantes de una imagen de destino determinada manteniendo la mayor autenticidad posible. Específicamente, se le proporcionan hasta 5 imágenes de referencia y una imagen de destino que captura aproximadamente la misma escena (pero puede tener un diseño o apariencia diferente).
Para una escena determinada, los investigadores primero crearon un modelo generativo personalizado ajustando un modelo de difusión de pintura previamente entrenado en imágenes de referencia y de destino. Este proceso de ajuste está diseñado para que el modelo ajustado no solo mantenga buenos antecedentes de imagen, sino que también aprenda el contenido de la escena, la iluminación y el estilo en la imagen de entrada. Este modelo ajustado luego se utiliza para completar las regiones faltantes en la imagen de destino mediante un proceso de muestreo de difusión estándar.
Vale la pena señalar que, por su valor de aplicación práctica, este modelo se centra específicamente en el caso más desafiante y sin restricciones, donde la imagen de destino y la imagen de referencia pueden tener puntos de vista, condiciones ambientales, aperturas de cámara, estilos de imagen e incluso movimientos muy diferentes. .
Resultados experimentales
Basado en la imagen de referencia de la izquierda, RealFill puede expandir (recortar) o reparar (pintar) la imagen de destino de la derecha. El resultado generado no solo es visualmente atractivo, sino que también es consistente con la imagen de referencia, incluso si la imagen de referencia y La imagen de destino está en el mismo punto de vista. , existen grandes diferencias en apertura, iluminación, estilo de imagen y movimiento del objeto.
Experimento controlado
Los investigadores compararon el modelo RealFill con otros métodos de referencia. En comparación, RealFill produce resultados de alta calidad y funciona mejor en términos de fidelidad de escena y coherencia con las imágenes de referencia.
Paint-by-Example no puede lograr una alta fidelidad de escena porque se basa en la incrustación CLIP, que solo puede capturar información semántica de alto nivel.
Aunque Stable Diffusion Inpainting puede producir resultados aparentemente razonables, debido a sus capacidades expresivas limitadas, los resultados finales generados no son consistentes con la imagen de referencia.
Limitaciones
Los investigadores también discutieron algunos problemas y limitaciones potenciales del modelo RealFill, incluida la velocidad de procesamiento, la capacidad de manejar cambios de puntos de vista y la capacidad de manejar situaciones que son desafiantes para el modelo subyacente. Específicamente:
RealFill requiere un proceso de ajuste fino basado en gradientes en la imagen de entrada, lo que hace que su ejecución sea relativamente lenta.
Cuando el cambio de punto de vista entre la imagen de referencia y la imagen de destino es muy grande, RealFill a menudo no puede restaurar la escena 3D, especialmente cuando solo hay una imagen de referencia.
Dado que RealFill se basa principalmente en imágenes anteriores heredadas del modelo base previamente entrenado, no puede manejar situaciones que son desafiantes para el modelo base, como modelos de difusión estables que no pueden manejar bien el texto.
Nos gustaría agradecer a Rundi Wu, Qianqian Wang, Viraj Shah, Ethan Weber, Zhengqi Li, Kyle Genova, Boyang Deng, Maya Goldenberg, Noah Snavely, Ben Poole, Ben Mildenhall, Alex Rav-Acha, Pratul Srinivasan, Dor Verbin y Jon Barron por sus valiosos debates y comentarios, y gracias también a Zeya Peng, Rundi Wu y Shan Nan por sus contribuciones al conjunto de datos de evaluación. Estamos especialmente agradecidos a Jason Baldridge, Kihyuk Sohn, Kathy Meier-Hellstern y Nicole Brichtova por sus comentarios y apoyo al proyecto.