L'authenticité est étonnante. Google et Cornell proposent une véritable technologie de complétion d'image RealFill

2023-10-01 07:47:27

Obtenir une belle photo devient de plus en plus facile.

Lorsque vous voyagez pendant les vacances, prendre des photos est un incontournable. Cependant, la plupart des photos prises dans des lieux pittoresques sont plus ou moins regrettables : soit il y a quelque chose de plus en arrière-plan, soit il manque quelque chose.

Source de l'image : générée par Unbounded AI

Obtenir une image « parfaite » est l’un des objectifs à long terme des chercheurs en CV. Récemment, des chercheurs de Google Research et de l'Université Cornell ont collaboré pour proposer une technologie de « complétion authentique d'images » : RealFill, un modèle génératif pour la complétion d'images.

L'avantage des modèles RealFill est qu'ils peuvent être personnalisés avec un petit nombre d'images de référence de scène qui n'ont pas besoin d'être alignées avec l'image cible et peuvent même varier considérablement en termes d'angle de vue, de conditions d'éclairage, d'ouverture de la caméra ou de style d'image. . Une fois la personnalisation terminée, RealFill peut compléter l'image cible avec un contenu visuellement attrayant, fidèle à la scène originale.

* Lien papier : *Page du projet :

Les modèles d'inpainting et d'outpainting sont des technologies qui peuvent générer un contenu d'image raisonnable et de haute qualité dans des zones inconnues de l'image. Cependant, le contenu généré par ces modèles est nécessairement irréaliste car ces modèles fonctionnent dans le contexte de scènes réelles. . En revanche, RealFill génère du contenu qui « devrait » être là, rendant les résultats de complétion d'image plus réalistes.

Les auteurs ont souligné dans l'article qu'ils avaient défini un nouveau problème de complétion d'image : la « complétion authentique d'image ». Différent de la restauration d'image générative traditionnelle (le contenu qui remplace la zone manquante peut être incohérent avec la scène d'origine), l'objectif de la complétion d'image réelle est de rendre le contenu complété aussi fidèle que possible à la scène d'origine, en utilisant un contenu qui « devrait apparaître » là-bas". Complétez l'image cible avec du contenu qui "pourrait être là-bas".

Les auteurs déclarent que RealFill est la première méthode permettant d'étendre le pouvoir expressif des modèles d'inpainting d'images génératifs en ajoutant davantage de conditions au processus (c'est-à-dire en ajoutant des images de référence).

RealFill surpasse considérablement les méthodes existantes sur un nouveau benchmark de complétion d'images couvrant un ensemble diversifié et stimulant de scénarios.

méthode

Le but de RealFill est d'utiliser un petit nombre d'images de référence pour compléter les parties manquantes d'une image cible donnée tout en conservant autant d'authenticité que possible. Plus précisément, vous disposez de jusqu'à 5 images de référence et d'une image cible qui capture à peu près la même scène (mais peut avoir une disposition ou une apparence différente).

Pour une scène donnée, les chercheurs ont d’abord créé un modèle génératif personnalisé en affinant un modèle de diffusion d’inpainting pré-entraîné sur des images de référence et cibles. Ce processus de réglage fin est conçu de manière à ce que le modèle affiné non seulement conserve de bons a priori d'image, mais apprenne également le contenu de la scène, l'éclairage et le style de l'image d'entrée. Ce modèle affiné est ensuite utilisé pour combler les régions manquantes dans l’image cible via un processus d’échantillonnage par diffusion standard.

Il convient de noter que pour des raisons d'application pratique, ce modèle se concentre spécifiquement sur le cas le plus difficile et sans contrainte, dans lequel l'image cible et l'image de référence peuvent avoir des points de vue, des conditions environnementales, des ouvertures de caméra, des styles d'image et même des mouvements très différents. .

Résultats expérimentaux

Basé sur l'image de référence à gauche, RealFill peut agrandir (décrocher) ou réparer (inpaint) l'image cible à droite. Le résultat généré est non seulement visuellement attrayant, mais également cohérent avec l'image de référence, même si l'image de référence et l'image cible est au même point de vue. , il existe de grandes différences dans l'ouverture, l'éclairage, le style d'image et le mouvement de l'objet.

Effet de sortie du modèle RealFill. Étant donné une image de référence à gauche, RealFill peut agrandir l'image cible correspondante à droite. Les zones à l'intérieur de la boîte blanche sont fournies au réseau sous forme de pixels connus, tandis que les zones à l'extérieur de la boîte blanche sont générées. Les résultats montrent que RealFill peut générer des images de haute qualité fidèles à l'image de référence même s'il existe d'énormes différences entre l'image de référence et l'image cible, notamment le point de vue, l'ouverture, l'éclairage, le style d'image et le mouvement de l'objet. Source : Papier

Expérience contrôlée

Les chercheurs ont comparé le modèle RealFill avec d’autres méthodes de base. En comparaison, RealFill produit des résultats de haute qualité et fonctionne mieux en termes de fidélité de scène et de cohérence avec les images de référence.

Paint-by-Example ne peut pas atteindre une fidélité de scène élevée car il repose sur l'intégration CLIP, qui ne peut capturer que des informations sémantiques de haut niveau.

Bien que le Stable Diffusion Inpainting puisse produire des résultats apparemment raisonnables, en raison de ses capacités d'expression limitées, les résultats finaux générés ne sont pas cohérents avec l'image de référence.

Comparaison de RealFill avec deux autres méthodes de base. La zone couverte par un masque blanc transparent est la partie non modifiée de l'image cible. Source : realfill.github.io

Limites

Les chercheurs ont également discuté de certains problèmes et limites potentiels du modèle RealFill, notamment la vitesse de traitement, la capacité à gérer les changements de point de vue et la capacité à gérer des situations difficiles pour le modèle sous-jacent. Spécifiquement:

RealFill nécessite un processus de réglage fin basé sur le dégradé sur l'image d'entrée, ce qui rend son exécution relativement lente.

Lorsque le changement de point de vue entre l'image de référence et l'image cible est très important, RealFill est souvent incapable de restaurer la scène 3D, notamment lorsqu'il n'y a qu'une seule image de référence.

Étant donné que RealFill s'appuie principalement sur des images a priori héritées du modèle de base pré-entraîné, il ne peut pas gérer les situations difficiles pour le modèle de base, telles que les modèles de diffusion stables qui ne peuvent pas bien gérer le texte.

Enfin, l'auteur exprime sa gratitude aux collaborateurs :

Nous tenons à remercier Rundi Wu, Qianqian Wang, Viraj Shah, Ethan Weber, Zhengqi Li, Kyle Genova, Boyang Deng, Maya Goldenberg, Noah Snavely, Ben Poole, Ben Mildenhall, Alex Rav-Acha, Pratul Srinivasan, Dor Verbin et Jon Barron pour leurs précieuses discussions et commentaires, et merci également à Zeya Peng, Rundi Wu et Shan Nan pour leurs contributions à l'ensemble de données d'évaluation. Nous sommes particulièrement reconnaissants à Jason Baldridge, Kihyuk Sohn, Kathy Meier-Hellstern et Nicole Brichtova pour leurs commentaires et leur soutien sur le projet.

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

Récompense
J'aime
Commentaire
Partager

Commentaire

0/400

Aucun commentaire

Rubrique
1/3
1Gate Launchpad List IKA
45k Popularité
2ETH Back to $3,800
2k Popularité
3Tariff Deal New Update
2k Popularité
4Stablecoin Regulation
306 Popularité
5Gate ETH 10th Anniversary Celebration
21k Popularité

Épingler