Des dizaines de millions de personnes regardent l’image du « bébé brûlé » ! Le professeur Berkeley démystifie les rumeurs selon lesquelles les détecteurs d’images IA sont inutiles
Ce n’est pas pour rien que l’IA ne peut pas battre l’IA. Récemment, des dizaines de millions de personnes ont regardé des photos de décès de nourrissons, et les outils de détection de l’IA n’ont pas été en mesure de donner une réponse cohérente.
Le détecteur d’image AI est à nouveau lavé !
Récemment, un grand nombre de photos de conflits au Moyen-Orient ont été publiées sur Internet, montrant au monde à quel point la vie est fragile et impuissante dans des conditions aussi extrêmes.
Parmi eux, la photo d’un « bébé brûlé » est trop cruelle pour être vraie.
Donc, quelqu’un a mis les photos dans le détecteur d’images AI pour détecter si ces photos sont générées par l’IA.
Effectivement, la photo a été identifiée comme « générée par l’IA » par le détecteur d’IA Optic.
Sur 4chan, il y a même une « image originale », et l’emplacement d’origine du corps est en fait un chien.
Les internautes sont donc allés avec colère au bas du tweet de l’éditeur, l’attaquant pour avoir utilisé des photos générées par l’IA pour répandre une fausse panique apocalyptique.
Le tweet, qui croit que la photo a été générée par l’IA, a été lu par 21 millions de personnes en moins de 2 jours.
Mais bientôt, les internautes ont découvert qu’ils avaient mis les photos sur le même détecteur d’IA, et les résultats étaient presque aléatoires, à la fois de l’IA et des humains.
Quelqu’un a découvert que tant que la même image est recadrée ou que la couleur d’arrière-plan est changée en noir et blanc, le détecteur pensera que l’image a été prise par un humain.
Même parfois, lorsque le détecteur « lance une pièce de monnaie », la pièce se lève...
Alors, ce graphique est-il généré par l’IA ?
Enfin, le responsable du détecteur d’IA a également tweeté à propos de cet incident, estimant qu’ils n’ont aucun moyen de déterminer si l’image est générée par l’IA, et espèrent que tout le monde discutera rationnellement.
**Détecteur d’image AI, à quel point est-il peu fiable ? **
Hany Farid, professeur à l’UC Berkeley et l’un des plus grands experts mondiaux en traitement d’images numériques, a déclaré que l’image ne montrait aucune indication qu’elle avait été générée par l’IA.
« L’un des plus gros problèmes des générateurs d’images basés sur l’IA réside dans les formes très structurées et les lignes droites », a déclaré Farid. « Si vous regardez les pieds et les vis et que tout semble parfait, il est presque impossible que l’image soit générée par l’IA. »
Par exemple, dans cette célèbre photo de « Bob l’éponge fait 9/1 », les lignes des tours jumelles à l’extérieur de la fenêtre ne sont pas droites, et les tableaux de bord de l’avion sont tordus ensemble, ce qui ressemble à « A dans A ».
« Nous pouvions voir sur cette photo que la structure de l’objet était exacte, que les ombres étaient exactes, qu’il n’y avait pas d’artefacts - cela m’a amené à croire que l’image devrait être complètement réelle », a déclaré Farid.
Farid a également identifié l’image grâce à ses propres autres détecteurs d’images d’IA, et quatre autres outils de détection d’images d’IA ont également supposé que l’image n’était pas générée par l’IA.
« Les détecteurs d’IA sont un outil, mais ce n’est qu’une partie de la boîte à outils », a déclaré Farid. Les utilisateurs doivent effectuer une série de tests sur l’ensemble de l’image, et il est impossible d’obtenir une réponse en appuyant sur un bouton.
Et l’outil de détection d’IA Optic n’a pas donné de détails spécifiques sur sa propre technologie de détection.
Le site Web d’Optic indique également que « les détecteurs d’IA peuvent produire des résultats inexacts ».
Technologie de détection d’image AI
Le professeur Farid a écrit un article l’année dernière sur la façon de juger de la cohérence des images dans les outils de biographie de l’IA.
En jugeant de la cohérence de l’image, cela peut aider à déterminer si l’image est générée par l’IA.
Lien vers le papier :
Le professeur commence par décrire trois méthodes d’analyse pertinentes basées sur la physique, chacune s’appuyant sur la même géométrie de perspective fondamentale inhérente au processus de formation des images.
Point de fuite
Les lignes de recul parallèles convergent vers un point de fuite.
瓷砖之间的线图1(a) est parallèle. Lors de l’imagerie, ces lignes convergent toutes vers un point de fuite. Si les lignes parallèles de la scène sont éloignées de l’objectif en profondeur, il y a un point de fuite, bien qu’il puisse se trouver en dehors de l’image.
Si les lignes parallèles de la scène ne reculent pas en profondeur, c’est-à-dire si elles sont parfaitement parallèles au capteur de l’objectif (à n’importe quelle distance), les lignes parallèles seront représentées comme des lignes parallèles et, pour des raisons pratiques, le point de fuite peut être considéré comme étant à l’infini. Cette géométrie découle des bases de la projection en perspective.
Dans le cadre d’une projection en perspective, les points (X, Y, Z) de la scène sont imagés en points (f X/Z, f Y/Z), où f est la distance focale de l’objectif.
Comme la position du point dans l’image est inversement proportionnelle à la distance Z, le point projeté est comprimé en fonction de la distance, ce qui entraîne la convergence des lignes dans l’image ;
Les lignes parallèles sur des plans parallèles convergent vers le même point de fuite
La boîte distante est alignée avec les carreaux sur le sol de la Figure 1 (b) de sorte que les bords de la boîte soient parallèles à la ligne entre les carreaux. Étant donné que les lignes parallèles sur des plans parallèles partagent un point de fuite, le point de fuite est le même sur le côté de la boîte et sur le sol carrelé ;
Le point de fuite de toutes les lignes du plan est situé sur la ligne de fuite.
De nombreux groupes de lignes parallèles, chacune convergeant vers un point de fuite différent, comme le montre la figure 1 (c). Si des groupes de lignes parallèles s’étendent sur le même plan de la scène, leurs points de fuite se trouvent sur la ligne de fuite. La direction de la ligne de fuite est déterminée par la rotation de la lentille par rapport au plan traversé par la ligne parallèle
Ombres
De manière quelque peu surprenante, la même géométrie derrière le point de fuite fonctionne également pour projeter des ombres.
L’image ci-dessus montre trois rayons reliant les points de la boîte et leurs homologues des ombres portées. En étendant la limite de l’image, on constate que les trois rayons se croisent en un point qui correspond à la projection de la source lumineuse qui éclaire la scène.
Cette contrainte géométrique associée aux ombres, aux objets et à la lumière est valable quels que soient l’emplacement et l’orientation de la surface sur laquelle l’ombre est projetée, que la source de lumière soit proche (lampe de bureau) ou éloignée (soleil).
Bien entendu, l’analyse suppose que la scène est éclairée par une seule source de lumière principale, ce qui est évident par la présence d’une seule ombre portée par objet.
Dans l’exemple ci-dessus, la source de lumière qui éclaire la scène se trouve devant l’objectif, de sorte que la projection de la source lumineuse se trouve dans la moitié supérieure du plan de l’image.
Cependant, si la lumière se trouve derrière l’objectif, la projection de la source lumineuse se fera dans la moitié inférieure du plan de l’image. En raison de cette inversion, l’ombre de la contrainte d’objet doit également être inversée.
Par conséquent, l’analyse de l’ombre portée de l’image doit prendre en compte trois possibilités :
(1) La lumière est située devant l’objectif, la projection de la source lumineuse est située dans la partie supérieure du plan de l’image et la contrainte est ancrée à l’ombre portée et entoure l’objet ;
(2) la lumière se trouve derrière l’objectif et la source lumineuse est projetée dans la moitié inférieure du plan de l’image, retenant l’ancrage à l’objet et enveloppant l’ombre portée ;
(3) La lumière est située directement au-dessus ou au-dessous du centre de la lentille, la projection de la source lumineuse est à l’infini et les contraintes se croisent à l’infini. Si l’un de ces cas aboutit à l’intersection commune de toutes les contraintes, il est physiquement raisonnable de projeter des ombres.
Réflexion
La scène illustrée à la figure 2 ci-dessous montre trois boîtes reflétées dans un miroir planaire.
La moitié inférieure de ce diagramme montre la relation géométrique entre la boîte réelle et la boîte virtuelle.
La ligne orange représente le miroir, situé à mi-chemin entre les deux ensembles de boîtes. La ligne jaune relie les points correspondants sur les cases réelles et virtuelles. Ces lignes sont parallèles les unes aux autres et perpendiculaires au miroir.
Considérons maintenant comment ces lignes parallèles apparaissent lorsqu’elles sont superposées à la scène. Lorsqu’elles sont vues depuis le plan de symétrie, les lignes parallèles ne sont plus parallèles. Au lieu de cela, en raison de la projection en perspective, ces lignes parallèles convergent vers un point, tout comme les lignes parallèles dans le monde convergent vers un point de fuite.
Étant donné que les lignes qui relient les points correspondants de la scène et leurs réflexions sont toujours parallèles, les lignes doivent avoir une intersection commune dans l’image pour être physiquement plausibles.
Analyse d’instance
La figure 3 ci-dessus montre trois exemples représentatifs d’images composites IA et analyse la cohérence de la perspective géométrique des sols et des comptoirs.
Chaque image (à quelques pixels près) capture avec précision la géométrie de la perspective du sol carrelé comme preuve d’un point de fuite cohérent (rendu en bleu). Cependant, le point de fuite d’un comptoir parallèle (rendu en cyan) est géométriquement incohérent avec le point de fuite d’un comptoir.
Alignez les tuiles en conséquence. Même si le plan de travail n’est pas parallèle au carreau, le point de fuite cyan doit se trouver sur la ligne de fuite (rendue en rouge) définie par le point de fuite du sol carrelé. Notez que pour l’image dans le coin supérieur droit de la figure 3, les lignes horizontales sur le sol carrelé sont presque parallèles, de sorte que les points de fuite correspondants sont à l’infini et ne se croisent donc pas.
Bien que les points de fuite de ces images soient cohérents localement, ils ne le sont pas à l’échelle mondiale. Dans chacune des 25 images composites de la cuisine, le même motif a été trouvé.
L’image ci-dessus est une image carrée générée avec une invite, et il y a une incohérence claire dans les ombres.
La figure 8 ci-dessus montre le résultat de l’application de l’analyse géométrique à une image générée par l’IA contenant une réflexion assez précise.
Bien que ces réflexions soient visuellement justifiées, elles sont géométriquement incohérentes.
Contrairement aux ombres portées et à la géométrie des sections précédentes, DALL· E-2 est difficile à synthétiser des réflexions raisonnables, probablement parce que de telles réflexions sont moins courantes dans son jeu de données d’images d’apprentissage.
Sur la base de cette compréhension des limites des images générées par l’IA, il est très utile de déterminer si l’image est synthétisée par l’IA grâce à la détection de la cohérence de l’image.
La reconnaissance d’image est difficile, l’IA bat l’IA
Les générateurs d’images IA sont en constante évolution.
Au cours du premier semestre de l’année, Midjourney a explosé et a été capable de générer des images suffisamment réalistes, mais a trompé beaucoup de gens.
Le pape de 86 ans porte un chapeau melon blanc, une doudoune blanche évasée et un collier de croix en métal qui est exposé, ainsi qu’une expression sérieuse.
À l’époque, dès que la photo a été publiée, elle a trompé tout le monde sur les réseaux sociaux, et a été frénétiquement relayée par de nombreux internautes, et certains ont même qualifié le pape de trop tendance.
Quand tout le monde y a cru, quelqu’un a soudainement souligné qu’il avait été généré par l’IA, et beaucoup de gens ont été instantanément abasourdis.
Ce n’est qu’une des marronnelles, et diverses fausses images telles que Barra, la PDG de la nouvelle petite amie de Musk, GM, ont atteint le niveau de la fausse réalité.
Cet incident a directement incité Musk, le cofondateur d’Apple, Stephen Wozniak, et d’autres leaders technologiques à demander une suspension de la recherche et du développement de l’IA.
Bien que la génération d’IA soit amusante et pratique, elle présente des risques pour l’industrie dans son ensemble.
S’il n’est pas petit, il sera utilisé par des personnes ayant des arrière-pensées pour diffuser de fausses informations, enfreindre les droits de propriété intellectuelle ou l’utiliser pour générer des « photos de fruits », etc.
Dans les prochains mois, Midjourney sortira la dernière version V6, qui a été perfectionnée en termes de génération d’images.
D’autres générateurs d’images d’IA sont également en cours d’itération rapide. Il y a quelque temps, OpenAI vient de publier DALL· E 3, en même temps que la génération d’images Microsoft Bing utilisait également DALL· E 3。
Bien sûr, les chercheurs essaient également de construire des outils capables de distinguer les images, la clé est de savoir comment suivre le rythme des générateurs d’images d’IA ?
Concours d’outils d’inspection IA
Aujourd’hui, plus d’une douzaine d’entreprises ont fourni des outils permettant d’identifier si une image a été générée par l’IA, et leurs noms incluent Sensity AI (détection de deepfasity), Fictitious.AI (détection de plagiat), Originality.AI, etc.
La société de confiance et de sécurité en matière d’intelligence artificielle Optic a lancé un site Web « AI or Not ».
Sur ce site Web, vous pouvez télécharger une photo ou coller l’URL d’une image, et le site Web déterminera automatiquement si la photo a été générée par l’IA. Il n’y a pas de limite au nombre d’images que vous pouvez télécharger.
Vous pouvez également publier ou retweeter une image sur le compte Twitter d’Optic, @optic_xyz, ou ajouter #aiornot, et vous obtiendrez une réponse avec le pourcentage de confiance de l’image.
Andrey Doronichev, directeur général de la société, a déclaré que les outils d’IA d’Optic peuvent vérifier chaque image à la recherche d’artefacts invisibles à l’œil humain, tels que des changements de luminosité et de couleur dans l’image.
Étonnamment, l’outil a un taux de précision de 95 %.
Cependant, avec la mise à niveau et l’itération des outils de génération d’images IA tels que Midjourney, le taux de précision de « AI or Not » a chuté à 88,9 %.
Par exemple, dans l’image du pape, l’IA croit qu’il y a une probabilité de 87% que les humains le fassent.
L’image du pape en doudoune blanche a été trompée avant la mise à jour d’Optic
En fait, certains internautes ont déclaré que si vous regardez de près cette image, vous trouverez des signes évidents générés par l’intelligence artificielle, y compris plusieurs zones de détail évidemment floues :
La main apparemment incomplète essaie de saisir quelque chose qui ne ressemble pas tout à fait à une tasse de café avec une tache à côté
La croix portée par le pape n’a pas la forme d’un angle droit, mais comporte également une gravure d’un Jésus assis qui semble être sculpté dans l’argile
Les lunettes ne correspondent pas aux ombres du visage
Ces points indiquent tous que cela est généré par l’intelligence artificielle. Il ne comprend que la surface de la réalité, mais pas les règles de base qui régissent la façon dont les objets physiques interagissent.
En plus des outils d’Optic, Hive, une société d’IA qui balise le contenu, a récemment mis à jour son propre détecteur de contenu généré par l’IA gratuit.
L’outil d’IA a été entraîné sur des millions d’images provenant de DALL-E, Stable Diffusion et Midjourney.
Hive s’attend à ce qu’il détecte avec précision environ 95 % des images générées par l’IA, en particulier les images partagées qui deviennent virales en ligne, souvent mieux que d’autres formes de reconnaissance d’images.
Le PDG Kevin Guo a déclaré que lorsque les gens partagent des images d’IA, ils choisissent les fausses images les plus réalistes, afin que les gens puissent distinguer ce qui est réel.
L’image de gauche est une image générée par l’IA qui peut être discernée à partir de deux doigts et d’un high-five, tandis que la vraie chose ressemble à une photo iStock ordinaire est montrée à droite.
À l’instar d’Optic, Hive n’a pas réussi à détecter les images de Bing Image Creator.
Cependant, ces outils de détection ne sont pas stagnants, et ils seront mis à jour et mis à niveau au fur et à mesure que le modèle d’image de l’IA sera itéré.
En fait, la reconnaissance d’images par l’IA peut non seulement s’appuyer sur les outils de détection de l’industrie pour compléter, mais aussi mettre en place des garde-fous lors de l’entraînement des modèles.
De nombreux générateurs d’images d’intelligence artificielle disposent également d’une « liste noire » qui limite la possibilité de générer du contenu.
Par exemple, Bing Image Creator signale et bloque les invites des utilisateurs qui lui demandent de créer des images de personnalités publiques connues.
Midjourney dispose de « modérateurs humains » et déploie un moyen d’utiliser des algorithmes pour modérer les demandes des utilisateurs.
Et DALL· Selon le rapport technique de E 3, lorsque vous demandez à ChatGPT de générer des « cartes de fruits », ou des images en noir et blanc, l’entrée est directement réécrite.
** Ajouter un filigrane à l’IA, les grands fabricants le font **
En outre, le filigrane numérique est également l’un des moyens importants d’améliorer la sécurité de l’IA générative, et des géants de la technologie tels que Microsoft et Google ont été utilisés dans les produits.
Microsoft a présenté DALL· lors de la conférence Surface en septembre. E 3 a la chance d’avoir la capacité de Bing à générer des images.
Dans le même temps, pour s’assurer que les images ne sont pas utilisées de manière abusive, l’équipe Microsoft utilise des méthodes de cryptage pour générer des filigranes invisibles pour chaque image, y compris l’heure et la date de création.
N’importe qui peut cliquer sur chaque image et identifier facilement si elle a été générée par l’IA.
Meta a également ouvert Stable Signature, qui intègre des filigranes numériques directement dans les images générées automatiquement par l’IA.
Adresse papier :
Il convient de mentionner que le filigrane numérique généré par Stable Signature n’est pas affecté par les opérations destructrices telles que le recadrage, la compression, le changement de couleur, etc., et peut être retracé jusqu’à la source d’origine de l’image.
Il peut être appliqué à des modèles tels que la diffusion et le GAN, tels que la diffusion stable.
Et Google, sur Google Cloud Next, a également publié SynthID qui filigrane les images générées par l’IA, les détecte et les identifie.
SynthID utilise deux modèles de deep learning, l’un pour le filigrane et l’autre pour la reconnaissance. Ils peuvent être entraînés ensemble sur un ensemble d’images différentes.
Le modèle combiné est optimisé pour une série d’objectifs, notamment l’identification correcte du contenu filigrané et l’amélioration de la dissimulation du filigrane en alignant visuellement le filigrane avec le contenu d’origine.
Le filigrane numérique généré par SynthID est intégré directement dans les pixels de l’image et est imperceptible à l’œil humain. Mais SynthID peut les détecter et les identifier.
SynthID peut aider à évaluer la probabilité qu’une image ait été créée par Imagen
Amit Roy-Chowdhury, professeur de génie électrique et informatique à l’Université de Californie à Riverside, a déclaré qu’en regardant de près l’arrière-plan de l’image, nous pouvons mieux détecter les fausses images de nos propres yeux.
Cependant, à l’heure où les modèles d’IA accélèrent l’itération, il est trop difficile d’avoir un « œil d’or ».
Ressources:
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
Des dizaines de millions de personnes regardent l’image du « bébé brûlé » ! Le professeur Berkeley démystifie les rumeurs selon lesquelles les détecteurs d’images IA sont inutiles
Source de l’article : Shin Ji Yuan
Ce n’est pas pour rien que l’IA ne peut pas battre l’IA. Récemment, des dizaines de millions de personnes ont regardé des photos de décès de nourrissons, et les outils de détection de l’IA n’ont pas été en mesure de donner une réponse cohérente.
Le détecteur d’image AI est à nouveau lavé !
Récemment, un grand nombre de photos de conflits au Moyen-Orient ont été publiées sur Internet, montrant au monde à quel point la vie est fragile et impuissante dans des conditions aussi extrêmes.
Parmi eux, la photo d’un « bébé brûlé » est trop cruelle pour être vraie.
Effectivement, la photo a été identifiée comme « générée par l’IA » par le détecteur d’IA Optic.
Enfin, le responsable du détecteur d’IA a également tweeté à propos de cet incident, estimant qu’ils n’ont aucun moyen de déterminer si l’image est générée par l’IA, et espèrent que tout le monde discutera rationnellement.
**Détecteur d’image AI, à quel point est-il peu fiable ? **
Hany Farid, professeur à l’UC Berkeley et l’un des plus grands experts mondiaux en traitement d’images numériques, a déclaré que l’image ne montrait aucune indication qu’elle avait été générée par l’IA.
« L’un des plus gros problèmes des générateurs d’images basés sur l’IA réside dans les formes très structurées et les lignes droites », a déclaré Farid. « Si vous regardez les pieds et les vis et que tout semble parfait, il est presque impossible que l’image soit générée par l’IA. »
Par exemple, dans cette célèbre photo de « Bob l’éponge fait 9/1 », les lignes des tours jumelles à l’extérieur de la fenêtre ne sont pas droites, et les tableaux de bord de l’avion sont tordus ensemble, ce qui ressemble à « A dans A ».
Farid a également identifié l’image grâce à ses propres autres détecteurs d’images d’IA, et quatre autres outils de détection d’images d’IA ont également supposé que l’image n’était pas générée par l’IA.
« Les détecteurs d’IA sont un outil, mais ce n’est qu’une partie de la boîte à outils », a déclaré Farid. Les utilisateurs doivent effectuer une série de tests sur l’ensemble de l’image, et il est impossible d’obtenir une réponse en appuyant sur un bouton.
Et l’outil de détection d’IA Optic n’a pas donné de détails spécifiques sur sa propre technologie de détection.
Le site Web d’Optic indique également que « les détecteurs d’IA peuvent produire des résultats inexacts ».
Technologie de détection d’image AI
Le professeur Farid a écrit un article l’année dernière sur la façon de juger de la cohérence des images dans les outils de biographie de l’IA.
En jugeant de la cohérence de l’image, cela peut aider à déterminer si l’image est générée par l’IA.
Le professeur commence par décrire trois méthodes d’analyse pertinentes basées sur la physique, chacune s’appuyant sur la même géométrie de perspective fondamentale inhérente au processus de formation des images.
Point de fuite
Si les lignes parallèles de la scène ne reculent pas en profondeur, c’est-à-dire si elles sont parfaitement parallèles au capteur de l’objectif (à n’importe quelle distance), les lignes parallèles seront représentées comme des lignes parallèles et, pour des raisons pratiques, le point de fuite peut être considéré comme étant à l’infini. Cette géométrie découle des bases de la projection en perspective.
Dans le cadre d’une projection en perspective, les points (X, Y, Z) de la scène sont imagés en points (f X/Z, f Y/Z), où f est la distance focale de l’objectif.
Comme la position du point dans l’image est inversement proportionnelle à la distance Z, le point projeté est comprimé en fonction de la distance, ce qui entraîne la convergence des lignes dans l’image ;
La boîte distante est alignée avec les carreaux sur le sol de la Figure 1 (b) de sorte que les bords de la boîte soient parallèles à la ligne entre les carreaux. Étant donné que les lignes parallèles sur des plans parallèles partagent un point de fuite, le point de fuite est le même sur le côté de la boîte et sur le sol carrelé ;
De nombreux groupes de lignes parallèles, chacune convergeant vers un point de fuite différent, comme le montre la figure 1 (c). Si des groupes de lignes parallèles s’étendent sur le même plan de la scène, leurs points de fuite se trouvent sur la ligne de fuite. La direction de la ligne de fuite est déterminée par la rotation de la lentille par rapport au plan traversé par la ligne parallèle
Ombres
De manière quelque peu surprenante, la même géométrie derrière le point de fuite fonctionne également pour projeter des ombres.
Cette contrainte géométrique associée aux ombres, aux objets et à la lumière est valable quels que soient l’emplacement et l’orientation de la surface sur laquelle l’ombre est projetée, que la source de lumière soit proche (lampe de bureau) ou éloignée (soleil).
Bien entendu, l’analyse suppose que la scène est éclairée par une seule source de lumière principale, ce qui est évident par la présence d’une seule ombre portée par objet.
Dans l’exemple ci-dessus, la source de lumière qui éclaire la scène se trouve devant l’objectif, de sorte que la projection de la source lumineuse se trouve dans la moitié supérieure du plan de l’image.
Cependant, si la lumière se trouve derrière l’objectif, la projection de la source lumineuse se fera dans la moitié inférieure du plan de l’image. En raison de cette inversion, l’ombre de la contrainte d’objet doit également être inversée.
Par conséquent, l’analyse de l’ombre portée de l’image doit prendre en compte trois possibilités :
(1) La lumière est située devant l’objectif, la projection de la source lumineuse est située dans la partie supérieure du plan de l’image et la contrainte est ancrée à l’ombre portée et entoure l’objet ;
(2) la lumière se trouve derrière l’objectif et la source lumineuse est projetée dans la moitié inférieure du plan de l’image, retenant l’ancrage à l’objet et enveloppant l’ombre portée ;
(3) La lumière est située directement au-dessus ou au-dessous du centre de la lentille, la projection de la source lumineuse est à l’infini et les contraintes se croisent à l’infini. Si l’un de ces cas aboutit à l’intersection commune de toutes les contraintes, il est physiquement raisonnable de projeter des ombres.
Réflexion
La scène illustrée à la figure 2 ci-dessous montre trois boîtes reflétées dans un miroir planaire.
La ligne orange représente le miroir, situé à mi-chemin entre les deux ensembles de boîtes. La ligne jaune relie les points correspondants sur les cases réelles et virtuelles. Ces lignes sont parallèles les unes aux autres et perpendiculaires au miroir.
Considérons maintenant comment ces lignes parallèles apparaissent lorsqu’elles sont superposées à la scène. Lorsqu’elles sont vues depuis le plan de symétrie, les lignes parallèles ne sont plus parallèles. Au lieu de cela, en raison de la projection en perspective, ces lignes parallèles convergent vers un point, tout comme les lignes parallèles dans le monde convergent vers un point de fuite.
Étant donné que les lignes qui relient les points correspondants de la scène et leurs réflexions sont toujours parallèles, les lignes doivent avoir une intersection commune dans l’image pour être physiquement plausibles.
Analyse d’instance
Chaque image (à quelques pixels près) capture avec précision la géométrie de la perspective du sol carrelé comme preuve d’un point de fuite cohérent (rendu en bleu). Cependant, le point de fuite d’un comptoir parallèle (rendu en cyan) est géométriquement incohérent avec le point de fuite d’un comptoir.
Alignez les tuiles en conséquence. Même si le plan de travail n’est pas parallèle au carreau, le point de fuite cyan doit se trouver sur la ligne de fuite (rendue en rouge) définie par le point de fuite du sol carrelé. Notez que pour l’image dans le coin supérieur droit de la figure 3, les lignes horizontales sur le sol carrelé sont presque parallèles, de sorte que les points de fuite correspondants sont à l’infini et ne se croisent donc pas.
Bien que les points de fuite de ces images soient cohérents localement, ils ne le sont pas à l’échelle mondiale. Dans chacune des 25 images composites de la cuisine, le même motif a été trouvé.
Bien que ces réflexions soient visuellement justifiées, elles sont géométriquement incohérentes.
Contrairement aux ombres portées et à la géométrie des sections précédentes, DALL· E-2 est difficile à synthétiser des réflexions raisonnables, probablement parce que de telles réflexions sont moins courantes dans son jeu de données d’images d’apprentissage.
Sur la base de cette compréhension des limites des images générées par l’IA, il est très utile de déterminer si l’image est synthétisée par l’IA grâce à la détection de la cohérence de l’image.
La reconnaissance d’image est difficile, l’IA bat l’IA
Les générateurs d’images IA sont en constante évolution.
Au cours du premier semestre de l’année, Midjourney a explosé et a été capable de générer des images suffisamment réalistes, mais a trompé beaucoup de gens.
Le pape de 86 ans porte un chapeau melon blanc, une doudoune blanche évasée et un collier de croix en métal qui est exposé, ainsi qu’une expression sérieuse.
À l’époque, dès que la photo a été publiée, elle a trompé tout le monde sur les réseaux sociaux, et a été frénétiquement relayée par de nombreux internautes, et certains ont même qualifié le pape de trop tendance.
Cet incident a directement incité Musk, le cofondateur d’Apple, Stephen Wozniak, et d’autres leaders technologiques à demander une suspension de la recherche et du développement de l’IA.
Bien que la génération d’IA soit amusante et pratique, elle présente des risques pour l’industrie dans son ensemble.
S’il n’est pas petit, il sera utilisé par des personnes ayant des arrière-pensées pour diffuser de fausses informations, enfreindre les droits de propriété intellectuelle ou l’utiliser pour générer des « photos de fruits », etc.
Dans les prochains mois, Midjourney sortira la dernière version V6, qui a été perfectionnée en termes de génération d’images.
D’autres générateurs d’images d’IA sont également en cours d’itération rapide. Il y a quelque temps, OpenAI vient de publier DALL· E 3, en même temps que la génération d’images Microsoft Bing utilisait également DALL· E 3。
Concours d’outils d’inspection IA
Aujourd’hui, plus d’une douzaine d’entreprises ont fourni des outils permettant d’identifier si une image a été générée par l’IA, et leurs noms incluent Sensity AI (détection de deepfasity), Fictitious.AI (détection de plagiat), Originality.AI, etc.
La société de confiance et de sécurité en matière d’intelligence artificielle Optic a lancé un site Web « AI or Not ».
Sur ce site Web, vous pouvez télécharger une photo ou coller l’URL d’une image, et le site Web déterminera automatiquement si la photo a été générée par l’IA. Il n’y a pas de limite au nombre d’images que vous pouvez télécharger.
Andrey Doronichev, directeur général de la société, a déclaré que les outils d’IA d’Optic peuvent vérifier chaque image à la recherche d’artefacts invisibles à l’œil humain, tels que des changements de luminosité et de couleur dans l’image.
Étonnamment, l’outil a un taux de précision de 95 %.
Cependant, avec la mise à niveau et l’itération des outils de génération d’images IA tels que Midjourney, le taux de précision de « AI or Not » a chuté à 88,9 %.
Par exemple, dans l’image du pape, l’IA croit qu’il y a une probabilité de 87% que les humains le fassent.
En fait, certains internautes ont déclaré que si vous regardez de près cette image, vous trouverez des signes évidents générés par l’intelligence artificielle, y compris plusieurs zones de détail évidemment floues :
La main apparemment incomplète essaie de saisir quelque chose qui ne ressemble pas tout à fait à une tasse de café avec une tache à côté
La croix portée par le pape n’a pas la forme d’un angle droit, mais comporte également une gravure d’un Jésus assis qui semble être sculpté dans l’argile
Les lunettes ne correspondent pas aux ombres du visage
Ces points indiquent tous que cela est généré par l’intelligence artificielle. Il ne comprend que la surface de la réalité, mais pas les règles de base qui régissent la façon dont les objets physiques interagissent.
L’outil d’IA a été entraîné sur des millions d’images provenant de DALL-E, Stable Diffusion et Midjourney.
Le PDG Kevin Guo a déclaré que lorsque les gens partagent des images d’IA, ils choisissent les fausses images les plus réalistes, afin que les gens puissent distinguer ce qui est réel.
À l’instar d’Optic, Hive n’a pas réussi à détecter les images de Bing Image Creator.
Cependant, ces outils de détection ne sont pas stagnants, et ils seront mis à jour et mis à niveau au fur et à mesure que le modèle d’image de l’IA sera itéré.
En fait, la reconnaissance d’images par l’IA peut non seulement s’appuyer sur les outils de détection de l’industrie pour compléter, mais aussi mettre en place des garde-fous lors de l’entraînement des modèles.
De nombreux générateurs d’images d’intelligence artificielle disposent également d’une « liste noire » qui limite la possibilité de générer du contenu.
Par exemple, Bing Image Creator signale et bloque les invites des utilisateurs qui lui demandent de créer des images de personnalités publiques connues.
Midjourney dispose de « modérateurs humains » et déploie un moyen d’utiliser des algorithmes pour modérer les demandes des utilisateurs.
Et DALL· Selon le rapport technique de E 3, lorsque vous demandez à ChatGPT de générer des « cartes de fruits », ou des images en noir et blanc, l’entrée est directement réécrite.
** Ajouter un filigrane à l’IA, les grands fabricants le font **
En outre, le filigrane numérique est également l’un des moyens importants d’améliorer la sécurité de l’IA générative, et des géants de la technologie tels que Microsoft et Google ont été utilisés dans les produits.
Microsoft a présenté DALL· lors de la conférence Surface en septembre. E 3 a la chance d’avoir la capacité de Bing à générer des images.
Dans le même temps, pour s’assurer que les images ne sont pas utilisées de manière abusive, l’équipe Microsoft utilise des méthodes de cryptage pour générer des filigranes invisibles pour chaque image, y compris l’heure et la date de création.
N’importe qui peut cliquer sur chaque image et identifier facilement si elle a été générée par l’IA.
Il convient de mentionner que le filigrane numérique généré par Stable Signature n’est pas affecté par les opérations destructrices telles que le recadrage, la compression, le changement de couleur, etc., et peut être retracé jusqu’à la source d’origine de l’image.
Il peut être appliqué à des modèles tels que la diffusion et le GAN, tels que la diffusion stable.
SynthID utilise deux modèles de deep learning, l’un pour le filigrane et l’autre pour la reconnaissance. Ils peuvent être entraînés ensemble sur un ensemble d’images différentes.
Le modèle combiné est optimisé pour une série d’objectifs, notamment l’identification correcte du contenu filigrané et l’amélioration de la dissimulation du filigrane en alignant visuellement le filigrane avec le contenu d’origine.
Amit Roy-Chowdhury, professeur de génie électrique et informatique à l’Université de Californie à Riverside, a déclaré qu’en regardant de près l’arrière-plan de l’image, nous pouvons mieux détecter les fausses images de nos propres yeux.
Ressources: