300 imágenes "envenenadas" SD, la herramienta de contraataque del artista ¿Nightshade quiere dar una "lección" a la pintura de la IA?

Question

Escrito por Melissa HeikkiläFuente: MIT Technology Review![](https://appserversrc.8btc.cn/F0FC7F3C28D375163B8494BA0CB93298/1698386870/FthUQKegSv1mU3uj_J26s1SWqgit.png) *Fuente de la imagen: Generada por Unbounded AI*Una nueva herramienta que permite a los artistas añadir cambios invisibles a los píxeles de su obra de arte antes de subirla a Internet, lo que hace que el modelo generativo se bloquee de forma caótica e impredecible si las imágenes se incluyen en el conjunto de entrenamiento de IA.La herramienta, llamada "Nightshade", está diseñada para hacer retroceder a las empresas de IA que utilizan el trabajo de los artistas para entrenar modelos sin el permiso del creador. Su uso para "envenenar" estos datos de entrenamiento podría dañar futuras iteraciones de modelos generadores de imágenes, como DALL-E, Midjourney y Stable Diffusion, codificando algunos de sus resultados: perros en gatos, coches en vacas, etc. El estudio ha sido presentado a la conferencia de seguridad informática Usenix para su revisión por pares.Empresas de IA como OpenAI, Meta, Google y Stability AI se han enfrentado a una serie de demandas de artistas que afirman que sus materiales protegidos por derechos de autor e información personal fueron robados sin consentimiento ni compensación. Ben Zhao, profesor de la Universidad de Chicago que dirigió el equipo fundador de Nightshade, dijo que espera que proporcione un poderoso elemento disuasorio para la falta de respeto a los derechos de autor y la propiedad intelectual de los artistas, ayudando a cambiar el equilibrio de poder de las empresas de IA a los artistas. Meta, Google, Stability AI y OpenAI no respondieron a la solicitud de comentarios de MIT Technology Review.El equipo de Zhao también ha desarrollado una herramienta, Glaze, que permite a los artistas "enmascarar" su estilo personal para evitar el robo por parte de las empresas de IA. Funciona de manera similar a Nightshade: cambiando los píxeles de una imagen de manera sutil e invisible para el ojo humano, manipulando modelos de aprendizaje automático para interpretar la imagen como algo diferente de lo que realmente muestra.El equipo tiene la intención de integrar Nightshade en Glaze, y los artistas pueden elegir si usar o no una herramienta que puede "envenenar" los datos. El equipo también tiene la intención de abrir Nightshade, lo que significa que cualquiera puede modificarlo y hacer su propia versión. Zhao dice que cuantas más personas lo usen y hagan su propia versión, más poderosa será la herramienta. Los conjuntos de datos de los grandes modelos de IA pueden contener miles de millones de imágenes, por lo que cuantas más imágenes tóxicas haya en el modelo, mayor será el daño causado por la tecnología.  ## **Ataques dirigidos**  Nightshade aprovechó una falla de seguridad en los modelos de IA generativa que se entrenó con una gran cantidad de datos, en este caso, imágenes buscadas en Internet. Nightshade destruye estas imágenes.Los artistas que quieran subir su trabajo a Internet, pero no quieran que su imagen sea raspada por empresas de IA, pueden subirla a Glaze y optar por cubrirla con un estilo artístico diferente al suyo. A continuación, también pueden optar por utilizar Nightshade. Una vez que los desarrolladores de IA toman más datos de Internet para ajustar los modelos de IA existentes o crear otros nuevos, estas muestras tóxicas se abren paso en el conjunto de datos del modelo, lo que hace que el modelo falle.Por ejemplo, una muestra de datos de envenenamiento manipula el modelo para que piense que la imagen de un sombrero es un pastel y la imagen de un bolso es una tostadora. El envenenamiento de datos es difícil de limpiar porque requiere que las empresas de tecnología encuentren y eliminen minuciosamente cada muestra corrupta.Los investigadores probaron el ataque en el último modelo de Stable Diffusion y en su propio modelo de IA entrenado desde cero. Cuando alimentaron a Stable Diffusion con solo 50 imágenes de perros envenenados y dejaron que creara sus propias imágenes de perros, el resultado comenzó a ser extraño: demasiadas extremidades, una cara caricaturesca. Después de introducir 300 muestras envenenadas, el atacante puede manipular Stable Diffusion para generar imágenes de perros que parecen gatos.![](https://appserversrc.8btc.cn/F0FC7F3C28D375163B8494BA0CB93298/1698386656/FkdHjuzlgdRFqRE-BiepF_jbMAmO.png) Los modelos de IA generativa son buenos para establecer conexiones entre palabras, lo que también contribuye a la difusión de la toxicidad. Nightshade está infectado no solo con la palabra "perro" sino también con todos conceptos similares como "cachorro", "husky" y "lobo". Este ataque también se aplica a las imágenes en cuestión. Por ejemplo, si el modelo toma una imagen venenosa para el mensaje "arte de fantasía", los mensajes "dragón" y "castillo en El Señor de los Anillos" se manipularán de manera similar para generar otra cosa.![](https://appserversrc.8btc.cn/F0FC7F3C28D375163B8494BA0CB93298/1698386668/FmWOQuPiWV5pNi0PWaNKnNbO9XxV.png) Zhao reconoce que es posible que las personas abusen de las técnicas de envenenamiento de datos para llevar a cabo ataques maliciosos. Pero también dijo que los atacantes necesitan miles de muestras envenenadas para causar un daño real a modelos más grandes y poderosos que se entrenan con miles de millones de muestras de datos."Todavía no conocemos defensas sólidas contra estos ataques. Todavía no hemos visto ataques a los modelos modernos [de aprendizaje automático], pero probablemente sea solo cuestión de tiempo. Vitaly Shmatikov, profesor de la Universidad de Cornell que estudia la seguridad de los modelos de IA, dijo que no participó en el estudio. Es hora de mirar a la defensa", agregó Shmatikov.Gautam Kamath, profesor asistente de la Universidad de Waterloo que estudia la privacidad de los datos y la solidez de los modelos de IA, tampoco participó en el estudio, pero dijo que el trabajo era "fantástico".Según Kamath, el estudio muestra que las vulnerabilidades "no desaparecen mágicamente con estos nuevos modelos, en realidad solo empeoran", y "esto es especialmente cierto cuando estos modelos se vuelven más poderosos y la gente confía cada vez más en ellos, porque el riesgo solo aumenta con el tiempo". "  ## **Poderoso elemento disuasorio**  Junfeng Yang, profesor de ciencias de la computación en la Universidad de Columbia, ha estudiado la seguridad de los sistemas de aprendizaje profundo, pero no participó en el estudio. Si Nightshade puede hacer que las empresas de IA sean más respetuosas con los derechos de los artistas, como estar más dispuestas a pagar regalías, dijo, tendrá un gran impacto.Las empresas de IA que desarrollan modelos de generación de texto a imagen, como Stability AI y OpenAI, han propuesto dar a los artistas la opción de no utilizar sus imágenes para entrenar futuras versiones del modelo. Pero los artistas dicen que no es suficiente. Eva Toorenent, una ilustradora y artista que usó Glaze, dijo que la política de salida requiere que los artistas superen obstáculos, mientras que las empresas de tecnología aún tienen todo el poder.Toorenent espera que Nightshade cambie eso."Esto haría que [las empresas de IA] se lo pensaran dos veces porque podrían tomar nuestro trabajo sin nuestro consentimiento y destruir todo su modelo", dijo. "Otra artista, Autumn Beverly, dijo que herramientas como Nightshade y Glaze le dieron la confianza para volver a publicar su trabajo en línea. Anteriormente, descubrió que su trabajo había sido raspado en la base de datos de imágenes LAION del incendio sin consentimiento y lo eliminó de Internet."Estoy muy agradecida de que tengamos una herramienta que ayuda a los artistas a recuperar el control de su trabajo", dice. "