300 картин «отравили» SD, инструмент контратаки художника Найтшейд хочет преподать ИИ живописи «урок»?

Question

Автор: Melissa HeikkiläИсточник: MIT Technology Review![](https://appserversrc.8btc.cn/F0FC7F3C28D375163B8494BA0CB93298/1698386870/FthUQKegSv1mU3uj_J26s1SWqgit.png) *Источник изображения: Сгенерировано Unbounded AI*Новый инструмент, который позволяет художникам добавлять невидимые изменения в пиксели в своих работах перед их загрузкой в Интернет, что приводит к хаотичному и непредсказуемому сбою генеративной модели, если изображения включены в обучающий набор ИИ.Инструмент, получивший название «Nightshade», призван дать отпор компаниям, работающим с искусственным интеллектом, которые используют работы художников для обучения моделей без разрешения создателя. Использование его для «отравления» этих обучающих данных может навредить будущим итерациям моделей, генерирующих изображения, таких как DALL-E, Midjourney и Stable Diffusion, скремблируя некоторые из их выходных данных — собак в кошек, автомобилей в коров и так далее. Исследование было представлено на конференцию по компьютерной безопасности Usenix для рецензирования.Компании, занимающиеся искусственным интеллектом, такие как OpenAI, Meta, Google и Stability AI, столкнулись с серией судебных исков от художников, которые утверждают, что их материалы, защищенные авторским правом, и личная информация были украдены без согласия или компенсации. Бен Чжао, профессор Чикагского университета, который возглавлял команду основателей Nightshade, сказал, что он надеется, что это станет мощным сдерживающим фактором для неуважения к авторским правам и интеллектуальной собственности художников, помогая сместить баланс сил от компаний, занимающихся искусственным интеллектом, к художникам. Meta, Google, Stability AI и OpenAI не ответили на запрос MIT Technology Review о комментарии.Команда Чжао также разработала инструмент Glaze, который позволяет художникам «маскировать» свой личный стиль, чтобы предотвратить кражу со стороны компаний, занимающихся искусственным интеллектом. Он работает аналогично Nightshade: изменяет пиксели изображения тонкими способами, невидимыми человеческому глазу, манипулирует моделями машинного обучения, чтобы интерпретировать изображение как нечто отличное от того, что оно показывает на самом деле.Команда намерена интегрировать Nightshade в Glaze, и художники могут выбирать, использовать или нет инструмент, который может «отравить» данные. Команда также намерена открыть исходный код Nightshade, что означает, что любой желающий может модифицировать его и создать свою собственную версию. Чжао говорит, что чем больше людей будут использовать его и создавать свою собственную версию, тем более мощным станет инструмент. Наборы данных больших моделей ИИ могут содержать миллиарды изображений, поэтому чем больше токсичных изображений в модели, тем больший ущерб наносит технология.  ## **Целевые атаки**  Nightshade воспользовался уязвимостью в моделях генеративного ИИ, которые были обучены на большом объеме данных — в данном случае на изображениях, которые искали в Интернете. Паслен разрушает эти образы.Художники, которые хотят загрузить свои работы в Интернет, но не хотят, чтобы их изображение было скопировано компаниями, занимающимися искусственным интеллектом, могут загрузить его в Glaze и скрыть его художественным стилем, отличным от их собственного. Затем они также могут выбрать использование паслена. Как только разработчики ИИ берут больше данных из Интернета для настройки существующих моделей ИИ или создания новых, эти токсичные образцы попадают в набор данных модели, что приводит к сбою модели.Например, выборка данных об отравлении манипулирует моделью так, чтобы она думала, что изображение шляпы — это торт, а изображение сумочки — тостер. Отравление данных трудно очистить, потому что это требует от технологических компаний кропотливого поиска и удаления каждого поврежденного образца.Исследователи протестировали атаку на новейшей модели Stable Diffusion и собственной модели искусственного интеллекта, обученной с нуля. Когда они накормили Stable Diffusion всего 50 фотографиями отравленных собак и позволили им создавать свои собственные фотографии собак, результат начал получаться странным — слишком много конечностей, мультяшное лицо. После ввода 300 отравленных образцов злоумышленник может манипулировать Stable Diffusion для создания изображений собак, похожих на кошек.![](https://appserversrc.8btc.cn/F0FC7F3C28D375163B8494BA0CB93298/1698386656/FkdHjuzlgdRFqRE-BiepF_jbMAmO.png) Модели генеративного ИИ хорошо справляются с установлением связей между словами, что также способствует распространению токсичности. Паслен заражен не только словом «собака», но и всеми подобными понятиями, такими как «щенок», «хаски» и «волк». Эта атака распространяется и на рассматриваемые изображения. Например, если модель возьмет ядовитое изображение для запроса «фэнтезийное искусство», подсказки «дракон» и «замок во Властелине колец» будут аналогичным образом обработаны, чтобы вывести что-то еще.![](https://appserversrc.8btc.cn/F0FC7F3C28D375163B8494BA0CB93298/1698386668/FmWOQuPiWV5pNi0PWaNKnNbO9XxV.png) Чжао признает, что люди могут злоупотреблять методами отравления данных для проведения вредоносных атак. Но он также сказал, что злоумышленникам нужны тысячи отравленных образцов, чтобы нанести реальный ущерб более крупным и мощным моделям, которые обучены на миллиардах образцов данных.«Мы пока не знаем надежной защиты от этих атак. Мы пока не видели атак на современные модели [машинного обучения], но, вероятно, это лишь вопрос времени. Виталий Шматиков, профессор Корнелльского университета, изучающий безопасность моделей ИИ, заявил, что не принимал участия в исследовании. Пора смотреть в оборону", - добавил Шматиков.Гаутам Каматх, доцент Университета Ватерлоо, который изучает конфиденциальность данных и надежность моделей искусственного интеллекта, также не участвовал в исследовании, но сказал, что работа была «фантастической».По словам Каматха, исследование показывает, что уязвимости «не исчезают волшебным образом с этими новыми моделями, они на самом деле только ухудшаются», и «это особенно верно, когда эти модели становятся более мощными, и люди доверяют им все больше и больше, потому что риск со временем только увеличивается». "  ## **Мощный сдерживающий фактор**  Цзюньфэн Янг, профессор информатики в Колумбийском университете, изучал безопасность систем глубокого обучения, но не принимал участия в исследовании. По его словам, если Nightshade сможет заставить компании, занимающиеся искусственным интеллектом, более уважительно относиться к правам артистов, например, с большей готовностью платить роялти, это окажет огромное влияние.Компании, занимающиеся искусственным интеллектом, которые разрабатывают модели генерации текста в изображение, такие как Stability AI и OpenAI, предложили дать художникам возможность не использовать свои изображения для обучения будущих версий модели. Но художники говорят, что этого недостаточно. Ева Тооренент (Eva Toorenent), иллюстратор и художница, которая использовала Glaze, сказала, что политика выхода требует, чтобы художники преодолевали препятствия, в то время как технологические компании по-прежнему обладают всей властью.Туренент надеется, что Nightshade изменит это.«Это заставит [компании, занимающиеся искусственным интеллектом], подумать дважды, потому что они потенциально могут взять нашу работу без нашего согласия и разрушить всю свою модель», — сказала она. "Другая художница, Отэм Беверли, сказала, что такие инструменты, как Nightshade и Glaze, дали ей уверенность в том, что она снова может публиковать свои работы в Интернете. Ранее она узнала, что ее работа была скопирована в базу данных изображений LAION без согласия, и удалила ее из Интернета.«Я очень благодарна за то, что у нас есть инструмент, который помогает художникам восстановить контроль над своей работой», — говорит она. "