300 fotos "envenenadas" SD, a ferramenta de contra-ataque do artista Nightshade quer ensinar IA pintura uma "lição"?

Question

Escrito por Melissa HeikkiläFonte: MIT Technology Review![](https://appserversrc.8btc.cn/F0FC7F3C28D375163B8494BA0CB93298/1698386870/FthUQKegSv1mU3uj_J26s1SWqgit.png) *Fonte da imagem: Gerada por Unbounded AI*Uma nova ferramenta que permite aos artistas adicionar alterações invisíveis aos pixels em suas obras de arte antes de carregá-las online, fazendo com que o modelo generativo falhe de forma caótica e imprevisível se as imagens forem incluídas no conjunto de treinamento de IA.A ferramenta, chamada "Nightshade", foi projetada para combater empresas de IA que usam o trabalho de artistas para treinar modelos sem a permissão do criador. Usá-lo para "envenenar" esses dados de treinamento pode prejudicar futuras iterações de modelos geradores de imagem, como DALL-E, Midjourney e Stable Diffusion, embaralhando algumas de suas saídas – cães em gatos, carros em vacas e assim por diante. O estudo foi submetido à conferência de segurança informática Usenix para revisão por pares.Empresas de IA como OpenAI, Meta, Google e Stability AI enfrentaram uma série de processos judiciais de artistas que alegam que seus materiais protegidos por direitos autorais e informações pessoais foram roubados sem consentimento ou compensação. Ben Zhao, professor da Universidade de Chicago que liderou a equipe fundadora da Nightshade, disse que espera que ela forneça um poderoso dissuasor para o desrespeito aos direitos autorais e à propriedade intelectual dos artistas, ajudando a mudar o equilíbrio de poder das empresas de IA para os artistas. Meta, Google, Stability AI e OpenAI não responderam ao pedido de comentário do MIT Technology Review.A equipe de Zhao também desenvolveu uma ferramenta, Glaze, que permite aos artistas "mascarar" seu estilo pessoal para evitar roubos por empresas de IA. Ele funciona de forma semelhante ao Nightshade: alterando os pixels de uma imagem de maneiras sutis invisíveis ao olho humano, manipulando modelos de aprendizado de máquina para interpretar a imagem como algo diferente do que ela realmente mostra.A equipa pretende integrar o Nightshade no Glaze, e os artistas podem escolher se querem ou não usar uma ferramenta que possa "envenenar" dados. A equipe também pretende abrir o código Nightshade, o que significa que qualquer pessoa pode modificá-lo e fazer sua própria versão. Zhao diz que quanto mais pessoas a usarem e fizerem sua própria versão, mais poderosa a ferramenta se tornará. Os conjuntos de dados de grandes modelos de IA podem conter bilhões de imagens, portanto, quanto mais imagens tóxicas no modelo, maiores os danos causados pela tecnologia.  ## **Ataques direcionados**  A Nightshade explorou uma falha de segurança em modelos de IA generativa que foi treinada em uma grande quantidade de dados — neste caso, imagens pesquisadas na Internet. Nightshade destrói essas imagens.Os artistas que querem carregar o seu trabalho online, mas não querem que a sua imagem seja raspada por empresas de IA, podem carregá-la na Glaze e optar por cobri-la com um estilo de arte diferente do seu. Eles também podem optar por usar o Nightshade. Uma vez que os desenvolvedores de IA pegam mais dados da internet para ajustar modelos de IA existentes ou construir novos, essas amostras tóxicas entram no conjunto de dados do modelo, fazendo com que o modelo falhe.Por exemplo, uma amostra de dados de envenenamento manipula o modelo para pensar que a imagem de um chapéu é um bolo e a imagem de uma bolsa é uma torradeira. Os dados de envenenamento são difíceis de limpar porque exigem que as empresas de tecnologia encontrem e excluam meticulosamente cada amostra corrompida.Os pesquisadores testaram o ataque ao modelo mais recente da Stable Diffusion e seu próprio modelo de IA treinado do zero. Quando eles alimentaram a Stable Diffusion com apenas 50 fotos de cães envenenados e deixaram que ela criasse suas próprias fotos de cães, a produção começou a ficar estranha - muitos membros, um rosto caricato. Depois de inserir 300 amostras envenenadas, o atacante pode manipular a Difusão Estável para gerar imagens de cães que se parecem com gatos.![](https://appserversrc.8btc.cn/F0FC7F3C28D375163B8494BA0CB93298/1698386656/FkdHjuzlgdRFqRE-BiepF_jbMAmO.png) Os modelos de IA generativa são bons em fazer conexões entre palavras, o que também contribui para a difusão da toxicidade. Nightshade está infetado não só com a palavra "cão", mas também com todos os conceitos semelhantes como "cachorro", "husky" e "lobo". Este ataque também se aplica às imagens em questão. Por exemplo, se o modelo pegar uma imagem venenosa para a "arte fantasiosa", os prompts "dragão" e "castelo no Senhor dos Anéis" serão igualmente manipulados para produzir outra coisa.![](https://appserversrc.8btc.cn/F0FC7F3C28D375163B8494BA0CB93298/1698386668/FmWOQuPiWV5pNi0PWaNKnNbO9XxV.png) Zhao reconhece que é possível que as pessoas abusem de técnicas de envenenamento de dados para realizar ataques maliciosos. Mas ele também disse que os atacantes precisam de milhares de amostras envenenadas para causar danos reais a modelos maiores e mais poderosos que são treinados em bilhões de amostras de dados."Ainda não conhecemos defesas fortes contra esses ataques. Ainda não vimos ataques a modelos modernos [de aprendizado de máquina], mas provavelmente é apenas uma questão de tempo. Vitaly Shmatikov, professor da Universidade Cornell que estuda a segurança dos modelos de IA, disse que não estava envolvido no estudo. É hora de olhar para a defesa", acrescentou Shmatikov.Gautam Kamath, professor assistente da Universidade de Waterloo que estuda a privacidade de dados e a robustez dos modelos de IA, também não esteve envolvido no estudo, mas disse que o trabalho foi "fantástico".Segundo Kamath, o estudo mostra que as vulnerabilidades "não desaparecem magicamente com estes novos modelos, na verdade só pioram", e "isto é especialmente verdade quando estes modelos se tornam mais poderosos e as pessoas confiam cada vez mais neles, porque o risco só aumenta com o tempo". "  ## **Poderoso Dissuasor**  Junfeng Yang, professor de ciência da computação na Universidade de Columbia, estudou a segurança de sistemas de aprendizagem profunda, mas não esteve envolvido no estudo. Se a Nightshade puder tornar as empresas de IA mais respeitosas com os direitos dos artistas, como estar mais disposta a pagar royalties, disse ele, isso terá um enorme impacto.Empresas de IA que desenvolvem modelos de geração de texto para imagem, como Stability AI e OpenAI, propuseram dar aos artistas a opção de não usar suas imagens para treinar versões futuras do modelo. Mas os artistas dizem que não é suficiente. Eva Toorenent, ilustradora e artista que usou Glaze, disse que a política de saída exige que os artistas ultrapassem obstáculos, enquanto as empresas de tecnologia ainda detêm todo o poder.Toorenent espera que Nightshade mude isso."Isso faria [as empresas de IA] pensarem duas vezes porque poderiam potencialmente pegar nosso trabalho sem nosso consentimento e destruir todo o seu modelo", disse ela. "Outra artista, Autumn Beverly, disse que ferramentas como Nightshade e Glaze lhe deram confiança para postar seu trabalho online novamente. Anteriormente, ela descobriu que seu trabalho havia sido raspado no banco de dados de imagens LAION do incêndio sem consentimento e o removeu da internet."Estou muito grata por termos uma ferramenta que ajuda os artistas a recuperar o controle de seu trabalho", diz ela. "