Des mosaïques aux images haute définition, la capacité de l’IA à générer des images est devenue plus forte, mais comment parvenir à un équilibre entre beauté et distorsion ?

Les outils d'IA qui améliorent l'apparence des images entraînent souvent une distorsion de l'image, tandis que rendre les images plus réelles manque souvent de beauté. Comment évaluer ce problème ?

Source de l'image : générée par Unbounded AI

Dans les œuvres de suspense et de science-fiction, on voit souvent cette scène : une photo floue s'affiche sur l'écran de l'ordinateur, puis l'enquêteur demande d'améliorer l'image, puis l'image devient comme par magie claire, révélant des indices importants.

Cela a l’air génial, mais c’est une intrigue complètement fictive depuis des décennies. C'était difficile à réaliser même à l'époque où les capacités génératives de l'IA commençaient à se développer : « Si vous zoomiez simplement sur l'image, elle deviendrait floue. Il y aurait beaucoup de détails, mais tout serait faux », explique Nvidia. l'apprentissage profond a déclaré Bryan Catanzaro, vice-président de la recherche.

Cependant, les chercheurs ont récemment commencé à intégrer des algorithmes d’IA dans les outils d’amélioration d’image, rendant le processus plus facile et plus puissant, mais il existe encore des limites aux données pouvant être récupérées à partir de n’importe quelle image. Mais à mesure que les chercheurs continuent de repousser les limites des algorithmes améliorés, ils trouvent de nouvelles façons de gérer ces limitations et même de les surmonter.

Au cours de la dernière décennie, les chercheurs ont commencé à améliorer les images à l’aide de modèles de réseaux contradictoires génératifs (GAN), capables de produire des images détaillées et impressionnantes.

"Les images semblaient soudainement bien meilleures", explique Tomer Michaeli, ingénieur électricien à l'Institut de technologie Teonion en Israël. Mais il a également été surpris de constater que les images générées par le GAN présentaient des niveaux élevés de distorsion, une mesure de l'amélioration de l'image. image Proximité de la réalité sous-jacente affichée. Les images générées par les GAN sont belles et naturelles, mais en fait elles « fictionnent » ou « fantasment » des détails inexacts, ce qui conduit à un degré élevé de distorsion.

Michaeli observe que le domaine de la restauration de photos se divise en deux grandes catégories : l'une présente de belles images, dont beaucoup sont générées par les GAN. L’autre montre les données mais pas beaucoup d’images car cela n’a pas l’air bien.

En 2017, Michaeli et son étudiant diplômé Yochai Blau ont exploré plus formellement les performances de divers algorithmes d'amélioration d'image sur la distorsion et la qualité perceptuelle, en utilisant des mesures connues de la qualité perceptuelle qui sont en corrélation avec le jugement subjectif humain. Comme Michaeli s'y attendait, la qualité visuelle de certains algorithmes est très élevée, tandis que d'autres sont très précis avec une très faible distorsion. Mais personne n’offre le meilleur des deux mondes, il faut choisir l’un plutôt que l’autre. C’est ce qu’on appelle le compromis entre distorsion perceptuelle.

Michaeli a également mis d'autres chercheurs au défi de proposer des algorithmes produisant la meilleure qualité d'image à un niveau de distorsion donné, permettant une comparaison équitable entre les algorithmes pour de jolies images et les algorithmes pour de bonnes statistiques. Depuis lors, des centaines de chercheurs en IA ont exprimé leurs inquiétudes quant à la distorsion et à la qualité de perception de leurs algorithmes, citant l'article de Michaeli et Blau décrivant ce compromis.

Parfois, les effets du compromis sur la distorsion perceptuelle ne sont pas si effrayants. Par exemple, Nvidia a constaté que les écrans haute définition ne pouvaient pas restituer correctement certains contenus visuels basse définition. C'est pourquoi, en février 2023, elle a lancé un outil qui utilise l'apprentissage profond pour améliorer la qualité des vidéos en streaming. Dans ce cas, les ingénieurs de Nvidia ont choisi la qualité de perception plutôt que la précision, acceptant le fait que lorsque l'algorithme augmente la résolution d'une vidéo, il génère des détails visuels non présents dans la vidéo originale.

"Le modèle fantasme. C'est de la pure spéculation", a déclaré Catanzaro. "Peu importe si le modèle à super-résolution se trompe la plupart du temps, tant qu'il est cohérent."

*Vue du flux sanguin dans le cerveau d'une souris (à gauche) et même vue après avoir utilisé des outils d'IA pour améliorer la qualité et la précision de l'image. Source : Junjie Yao, Xiaoyi Zhu, Université Duke. *

En particulier, les applications dans la recherche et la médecine nécessiteront une plus grande précision. La technologie de l'IA a fait des progrès significatifs en matière d'imagerie, mais « elle a parfois des effets secondaires indésirables, tels qu'un surajustement ou l'ajout de fausses caractéristiques, elle doit donc être traitée avec une extrême prudence », a déclaré Junjie Yao, ingénieur biomédical à l'Université Duke.

L’année dernière, il a décrit dans son article comment les outils d’IA pourraient être utilisés pour améliorer les mesures existantes du flux sanguin cérébral et du métabolisme tout en fonctionnant en toute sécurité du côté précis du compromis en matière de distorsion perceptuelle.

Une façon de contourner les limites de la quantité de données pouvant être extraites d’une image consiste simplement à fusionner les données de plusieurs images. Auparavant, les chercheurs étudiant l'environnement grâce à l'imagerie satellite ont fait des progrès dans l'intégration de données visuelles provenant de différentes sources : en 2021, des chercheurs chinois et britanniques ont fusionné les données de deux types différents de satellites pour mieux observer la déforestation dans le bassin du Congo. Le bassin du Congo est la deuxième plus grande forêt tropicale humide du monde et l’une des régions les plus diversifiées sur le plan biologique. Les chercheurs ont récupéré les données de deux satellites Landsat, qui mesurent la déforestation depuis des décennies, et ont utilisé des techniques d'apprentissage profond pour améliorer la résolution des images de 30 mètres à 10 mètres. Ils ont ensuite fusionné cet ensemble d’images avec les données de deux satellites Sentinel-2, dotés de réseaux de détecteurs légèrement différents. Leurs expériences montrent que cette image combinée "permet de détecter 11 à 21 % de zones perturbées en plus qu'en utilisant seules les images Sentinel-2 ou Landsat-7/8".

Si une percée directe n’est pas possible, Michaeli propose une autre méthode pour limiter fortement la disponibilité de l’information. Plutôt que de chercher une réponse définitive sur la façon d’améliorer une image de mauvaise qualité, il est possible de montrer au modèle plusieurs interprétations différentes de l’image originale. Dans l'article « Explorable Super Resolution », il montre comment un outil d'amélioration d'image peut fournir plusieurs suggestions à l'utilisateur. Une image floue à basse résolution d'une personne portant ce qui semble être une chemise grise peut être reconstruite en une image à plus haute résolution dans laquelle la chemise peut être constituée de rayures verticales noires et blanches, de rayures horizontales ou de carreaux, le tout avec la même plausibilité.

Dans un autre exemple, Michaeli a pris une photo de mauvaise qualité d'une plaque d'immatriculation et a utilisé l'amélioration de l'image par l'IA pour montrer que le chiffre 1 sur la plaque d'immatriculation ressemblait le plus à un 0. Mais lorsque l’image a été traitée par un algorithme différent, plus ouvert, conçu par Michaeli, le nombre semblait également être 0, 1 ou 8. Cette approche peut aider à exclure d’autres nombres sans conclure à tort que le nombre est 0.

Nous pouvons atténuer ces illusions, mais ce puissant bouton « boost » permettant de résoudre les crimes reste un rêve.

Dans différents domaines, diverses disciplines abordent à leur manière le compromis en matière de distorsion perceptuelle. La quantité d'informations pouvant être extraite des images d'IA et la mesure dans laquelle ces images peuvent être fiables restent des questions centrales.

"Nous devons garder à l'esprit que l'algorithme ne fait qu'inventer les détails afin de produire ces belles images", a déclaré Michaeli.

Lien d'origine :

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Partager
Commentaire
0/400
Aucun commentaire
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)