300 картин «отруїли» SD, інструмент контратаки художника Паслін хоче провчити ШІ-живопис?

Question

Автор: Мелісса Хейккіля (Melissa Heikkilä)

Джерело: MIT Technology Review

Джерело зображення: Створено Unbounded AI

Новий інструмент, який дозволяє художникам додавати невидимі зміни до пікселів у свої ілюстрації перед завантаженням їх в Інтернет, що призводить до хаотичного та непередбачуваного збою генеративної моделі, якщо зображення включені до навчального набору штучного інтелекту.

Інструмент під назвою «Паслін» призначений для протистояння компаніям зі штучним інтелектом, які використовують роботи художників для навчання моделей без дозволу творця. Використання його для «отруєння» цих тренувальних даних може завдати шкоди майбутнім ітераціям моделей, що генерують зображення, таких як DALL-E, Midjourney і Stable Diffusion, перетворюючи деякі з їхніх результатів — собак на кішок, автомобілі на корів і так далі. Дослідження було представлено на конференцію з комп'ютерної безпеки Usenix для рецензування.

Компанії зі штучним інтелектом, такі як OpenAI, Meta, Google і Stability AI, зіткнулися з низкою судових позовів від художників, які стверджують, що їхні матеріали, захищені авторським правом, і особиста інформація були вкрадені без згоди чи компенсації. Бен Чжао, професор Чиказького університету, який очолював команду засновників Nightshade, сказав, що сподівається, що це стане потужним стримуючим фактором для неповаги до авторських прав та інтелектуальної власності художників, допомагаючи змінити баланс сил від компаній зі штучним інтелектом до художників. Meta, Google, Stability AI та OpenAI не відповіли на запит MIT Technology Review про коментар.

Команда Чжао також розробила інструмент Glaze, який дозволяє художникам «маскувати» свій особистий стиль, щоб запобігти крадіжкам компаніями зі штучним інтелектом. Це працює подібно до Nightshade: змінюючи пікселі зображення тонкими способами, невидимими для людського ока, маніпулюючи моделями машинного навчання, щоб інтерпретувати зображення як щось відмінне від того, що воно насправді показує.

Команда має намір інтегрувати Nightshade в Glaze, і художники можуть вибрати, використовувати чи ні інструмент, який може «отруїти» дані. Команда також має намір відкрити вихідний код Nightshade, що означає, що будь-хто може модифікувати його та створити власну версію. Чжао каже, що чим більше людей скористаються ним і зроблять власну версію, тим потужнішим стане інструмент. Набори даних великих моделей штучного інтелекту можуть містити мільярди зображень, тому чим більше токсичних зображень у моделі, тим більшої шкоди завдає технологія.

Цілеспрямовані атаки

Nightshade скористався недоліком безпеки в генеративних моделях штучного інтелекту, які були навчені на великій кількості даних — у цьому випадку на зображеннях, які шукали в Інтернеті. Паслін руйнує ці образи.

Художники, які хочуть завантажити свої роботи в Інтернет, але не хочуть, щоб їхні зображення були вилучені компаніями зі штучним інтелектом, можуть завантажити їх у Glaze і покрити художнім стилем, відмінним від їхнього власного. Потім вони також можуть використовувати паслін. Як тільки розробники штучного інтелекту беруть більше даних з Інтернету, щоб налаштувати існуючі моделі штучного інтелекту або створити нові, ці токсичні зразки потрапляють у набір даних моделі, що призводить до виходу моделі з ладу.

Наприклад, вибірка даних про отруєння маніпулює моделлю, змушуючи її думати, що зображення капелюха - це торт, а зображення сумочки - тостер. Дані про отруєння важко очистити, оскільки це вимагає від технологічних компаній ретельного пошуку та видалення кожного пошкодженого зразка.

Дослідники протестували атаку на останню модель Stable Diffusion і власну модель штучного інтелекту, навчену з нуля. Коли вони нагодували Stable Diffusion лише 50 фотографіями отруєних собак і дозволили йому створювати власні фотографії собак, результат почав ставати дивним — занадто багато кінцівок, мультяшне обличчя. Після введення 300 отруєних зразків зловмисник може маніпулювати Stable Diffusion, щоб генерувати зображення собак, схожих на кішок.

Генеративні моделі штучного інтелекту добре встановлюють зв'язки між словами, що також сприяє дифузії токсичності. Паслін заражений не тільки словом «собака», але і всіма подібними поняттями, такими як «щеня», «хаскі», «вовк». Ця атака також стосується зображень, про які йде мова. Наприклад, якщо модель схопить отруйне зображення для підказки «фентезійне мистецтво», підказки «дракон» і «замок у Володарі перснів» будуть аналогічним чином маніпульовані, щоб вивести щось інше.

Чжао визнає, що люди можуть зловживати методами отруєння даних для здійснення зловмисних атак. Але він також сказав, що зловмисникам потрібні тисячі отруєних зразків, щоб завдати реальної шкоди більшим і потужнішим моделям, які навчаються на мільярдах зразків даних.

"Ми ще не знаємо сильного захисту від цих атак. Ми ще не бачили атак на сучасні моделі [машинного навчання], але, ймовірно, це лише питання часу. Віталій Шматіков, професор Корнельського університету, який вивчає безпеку моделей штучного інтелекту, заявив, що не брав участі в дослідженні. Настав час зайнятися обороною", - додав Шматиков.

Гаутам Камат, доцент Університету Ватерлоо, який вивчає конфіденційність даних і надійність моделей штучного інтелекту, також не брав участі в дослідженні, але сказав, що робота була «фантастичною».

За словами Камата, дослідження показує, що вразливості «не зникають чарівним чином з цими новими моделями, вони насправді лише погіршуються», і «це особливо вірно, коли ці моделі стають більш потужними і люди довіряють їм все більше і більше, тому що ризик з часом тільки зростає». "

Потужний стримуючий фактор

Цзюньфен Ян, професор інформатики в Колумбійському університеті, вивчав безпеку систем глибокого навчання, але не брав участі в дослідженні. За його словами, якщо Nightshade зможе змусити компанії зі штучним інтелектом більш поважати права художників, наприклад, бути більш готовими платити роялті, це матиме величезний вплив.

Компанії, що займаються штучним інтелектом, які розробляють моделі генерації тексту в зображення, такі як Stability AI та OpenAI, запропонували надати художникам можливість не використовувати свої зображення для навчання майбутніх версій моделі. Але художники кажуть, що цього недостатньо. Єва Тооренент, ілюстраторка та художниця, яка використовувала Glaze, сказала, що політика виходу вимагає, щоб художники долали перешкоди, тоді як технологічні компанії все ще утримують усю владу.

Тооренент сподівається, що паслін змінить це.

«Це змусило б [компанії зі штучним інтелектом] двічі подумати, тому що вони потенційно можуть забрати нашу роботу без нашої згоди та знищити всю свою модель», — сказала вона. "

Інша художниця, Отем Беверлі, сказала, що такі інструменти, як Nightshade і Glaze, дали їй впевненість знову опублікувати свої роботи в Інтернеті. Раніше вона з'ясувала, що її робота була вилучена в базу даних зображень LAION без згоди, і видалила її з Інтернету.

«Я дуже вдячна, що у нас є інструмент, який допомагає художникам відновити контроль над своєю роботою», — каже вона. "

Переглянути оригінал