300 images « empoisonnées » SD, l’outil de contre-attaque de l’artiste Nightshade veut donner une « leçon » à la peinture IA ?

Question

Écrit par Melissa HeikkiläSource : Revue de technologie du MIT![](https://appserversrc.8btc.cn/F0FC7F3C28D375163B8494BA0CB93298/1698386870/FthUQKegSv1mU3uj_J26s1SWqgit.png) *Source de l’image : Générée par Unbounded AI*Un nouvel outil qui permet aux artistes d’ajouter des modifications invisibles aux pixels de leur œuvre avant de la mettre en ligne, ce qui provoque le plantage du modèle génératif de manière chaotique et imprévisible si les images sont incluses dans l’ensemble d’entraînement de l’IA.L’outil, appelé « Nightshade », est conçu pour repousser les entreprises d’IA qui utilisent le travail des artistes pour former des modèles sans l’autorisation du créateur. L’utiliser pour « empoisonner » ces données d’apprentissage pourrait nuire aux futures itérations de modèles générateurs d’images, tels que DALL-E, Midjourney et Stable Diffusion, brouillant certaines de leurs sorties : les chiens en chats, les voitures en vaches, etc. L’étude a été soumise à la conférence sur la sécurité informatique Usenix pour examen par les pairs.Des sociétés d’IA telles qu’OpenAI, Meta, Google et Stability AI ont fait l’objet d’une série de poursuites judiciaires de la part d’artistes qui affirment que leurs documents protégés par le droit d’auteur et leurs informations personnelles ont été volés sans consentement ni compensation. Ben Zhao, professeur à l’Université de Chicago qui a dirigé l’équipe fondatrice de Nightshade, a déclaré qu’il espérait que cela constituerait un puissant moyen de dissuasion contre le non-respect des droits d’auteur et de la propriété intellectuelle des artistes, contribuant ainsi à modifier l’équilibre du pouvoir des entreprises d’IA vers les artistes. Meta, Google, Stability AI et OpenAI n’ont pas répondu à la demande de commentaires du MIT Technology Review.L’équipe de Zhao a également développé un outil, Glaze, qui permet aux artistes de « masquer » leur style personnel pour empêcher le vol par les entreprises d’IA. Il fonctionne de la même manière que Nightshade : en modifiant les pixels d’une image de manière subtile et invisible à l’œil humain, en manipulant des modèles d’apprentissage automatique pour interpréter l’image comme quelque chose de différent de ce qu’elle montre réellement.L’équipe a l’intention d’intégrer Nightshade dans Glaze, et les artistes peuvent choisir d’utiliser ou non un outil qui peut « empoisonner » les données. L’équipe a également l’intention d’ouvrir Nightshade, ce qui signifie que n’importe qui peut le modifier et créer sa propre version. Zhao dit que plus il y aura de personnes qui l’utiliseront et créeront leur propre version, plus l’outil deviendra puissant. Les ensembles de données des grands modèles d’IA peuvent contenir des milliards d’images, de sorte que plus il y a d’images toxiques dans le modèle, plus les dommages causés par la technologie sont importants.  ## **Attaques ciblées**  Nightshade a exploité une faille de sécurité dans les modèles d’IA générative qui ont été entraînés sur une grande quantité de données, dans ce cas, des images recherchées sur Internet. Nightshade détruit ces images.Les artistes qui souhaitent télécharger leur travail en ligne mais qui ne veulent pas que leur image soit récupérée par des entreprises d’IA peuvent la télécharger sur Glaze et choisir de la recouvrir d’un style artistique différent du leur. Ils peuvent alors également choisir d’utiliser Nightshade. Une fois que les développeurs d’IA prennent plus de données sur Internet pour modifier les modèles d’IA existants ou en créer de nouveaux, ces échantillons toxiques se retrouvent dans l’ensemble de données du modèle, provoquant l’échec du modèle.Par exemple, un échantillon de données d’empoisonnement manipule le modèle pour penser que l’image d’un chapeau est un gâteau et l’image d’un sac à main est un grille-pain. Les données d’empoisonnement sont difficiles à nettoyer, car elles obligent les entreprises technologiques à trouver et à supprimer minutieusement chaque échantillon corrompu.Les chercheurs ont testé l’attaque sur le dernier modèle de Stable Diffusion et sur leur propre modèle d’IA entraîné à partir de zéro. Lorsqu’ils ont nourri Stable Diffusion avec seulement 50 photos de chiens empoisonnés et qu’ils l’ont laissée créer leurs propres images de chiens, le résultat a commencé à devenir étrange – trop de membres, un visage caricatural. Après avoir saisi 300 échantillons empoisonnés, l’attaquant peut manipuler Stable Diffusion pour générer des images de chiens ressemblant à des chats.![](https://appserversrc.8btc.cn/F0FC7F3C28D375163B8494BA0CB93298/1698386656/FkdHjuzlgdRFqRE-BiepF_jbMAmO.png) Les modèles d’IA générative sont bons pour établir des liens entre les mots, ce qui contribue également à la diffusion de la toxicité. La morelle est infectée non seulement par le mot « chien », mais aussi par tous les concepts similaires comme « chiot », « husky » et « loup ». Cette attaque s’applique également aux images en question. Par exemple, si le modèle saisit une image toxique pour l’invite « art fantastique », les invites « dragon » et « château dans le Seigneur des Anneaux » seront également manipulées pour générer quelque chose d’autre.![](https://appserversrc.8btc.cn/F0FC7F3C28D375163B8494BA0CB93298/1698386668/FmWOQuPiWV5pNi0PWaNKnNbO9XxV.png) M. Zhao reconnaît qu’il est possible d’abuser des techniques d’empoisonnement des données pour mener des attaques malveillantes. Mais il a également déclaré que les attaquants ont besoin de milliers d’échantillons empoisonnés pour causer des dommages réels à des modèles plus grands et plus puissants qui sont entraînés sur des milliards d’échantillons de données.« Nous ne connaissons pas encore de défenses solides contre ces attaques. Nous n’avons pas encore vu d’attaques contre les modèles modernes [d’apprentissage automatique], mais ce n’est probablement qu’une question de temps. Vitaly Shmatikov, professeur à l’Université Cornell qui étudie la sécurité des modèles d’IA, a déclaré qu’il n’était pas impliqué dans l’étude. Il est temps de se pencher sur la défense », a ajouté Shmatikov.Gautam Kamath, professeur adjoint à l’Université de Waterloo qui étudie la confidentialité des données et la robustesse des modèles d’IA, n’a pas non plus participé à l’étude, mais a déclaré que le travail était « fantastique ».Selon Kamath, l’étude montre que les vulnérabilités « ne disparaissent pas comme par magie avec ces nouveaux modèles, elles ne font qu’empirer », et « cela est particulièrement vrai lorsque ces modèles deviennent plus puissants et que les gens leur font de plus en plus confiance, car le risque ne fait qu’augmenter avec le temps ». "  ## **Puissant moyen de dissuasion**  Junfeng Yang, professeur d’informatique à l’Université Columbia, a étudié la sécurité des systèmes d’apprentissage profond, mais n’a pas participé à l’étude. Si Nightshade peut rendre les entreprises d’IA plus respectueuses des droits des artistes, par exemple en étant plus disposées à payer des redevances, a-t-il déclaré, cela aura un impact énorme.Les entreprises d’IA qui développent des modèles de génération de texte en image, telles que Stability AI et OpenAI, ont proposé de donner aux artistes la possibilité de ne pas utiliser leurs images pour former les futures versions du modèle. Mais les artistes dis-le ne suffisent pas. Eva Toorenent, une illustratrice et artiste qui a utilisé Glaze, a déclaré que la politique de sortie oblige les artistes à franchir des obstacles, tandis que les entreprises technologiques détiennent toujours tout le pouvoir.Toorenent espère que Nightshade changera cela.« Cela inciterait [les entreprises d’IA] à y réfléchir à deux fois, car elles pourraient potentiellement prendre notre travail sans notre consentement et détruire l’ensemble de leur modèle », a-t-elle déclaré. "Une autre artiste, Autumn Beverly, a déclaré que des outils comme Nightshade et Glaze lui ont donné la confiance nécessaire pour publier à nouveau son travail en ligne. Auparavant, elle avait découvert que son travail avait été récupéré dans la base de données d’images LAION de l’incendie sans son consentement et l’avait retiré d’Internet.« Je suis vraiment reconnaissante que nous disposions d’un outil qui aide les artistes à reprendre le contrôle de leur travail », dit-elle. "