20 березня 2023 року в ChatGPT стався витік даних, у результаті чого розкрили особисту інформацію деяких користувачів ChatGPT. З огляду на це, регулятор конфіденційності Італії вважає, що ChatGPT підозрюють у незаконній обробці персональних даних, порушенні конфіденційності та порушенні відповідних норм GDPR. Згодом Італія стала першою країною, яка заборонила використання ChatGPT, що викликало дискусії в інших країнах ЄС щодо того, чи потрібні більш жорсткі заходи для контролю над технологією.
Майже всі онлайн-сервіси збирають наші персональні дані та можуть використовувати їх для навчання LLM. Однак важко визначити, як модель використовуватиме дані, що використовуються для навчання. Якщо конфіденційні дані, такі як географічне розташування, записи про стан здоров’я та інформація про особу, використовуються під час навчання моделі, атаки вилучення даних проти приватних даних у моделі призведуть до великої кількості витоків конфіденційності користувачів. Стаття «Чи витікають ваші персональні дані з великих попередньо підготовлених мовних моделей?» доводить, що завдяки пам’яті навчальних даних LLM, LLM дійсно має ризик витоку особистої інформації під час процесу діалогу, і ризик зростає із збільшенням кількості прикладів. .
Є кілька причин, чому модель зливає інформацію. Деякі з них є структурними та пов’язані зі способом побудови моделі; інші – через погане узагальнення, запам’ятовування конфіденційних даних тощо. У наступній статті ми спочатку познайомимося з основним процесом витоку даних, потім познайомимося з кількома типовими методами атаки, такими як атака на конфіденційність, втеча з в’язниці, отруєння даних і бекдор-атака, і, нарешті, представимо деякі поточні дослідження захисту конфіденційності.
I. Моделювання загроз
Базова модель загроз LLM включає загальне модельне середовище, різних учасників і конфіденційні активи. Конфіденційні активи включають навчальні набори даних, параметри моделі, гіперпараметри моделі та архітектуру. Серед учасників: власник даних, власник моделі, споживач моделі та супротивник. На наступній діаграмі зображено активи, учасників, потік інформації та можливий операційний потік у моделі загрози:
У такому базовому моделюванні загроз власники даних володіють приватними активами даних, власники моделі володіють параметрами моделі та активами конфігурації, а споживачі моделі використовують модель через API або інтерфейс користувача. Сторона, яка викрадає, намагається отримати приватні активи даних або активи параметрів моделі за допомогою певних засобів.
II. Атака на конфіденційність
Атаки на конфіденційність діляться на чотири основні типи: атаки на приналежність, атаки на реконструкцію, атаки на визначення атрибутів і вилучення моделі.
Атака на підставі членства (MIA)
Висновок про приналежність намагається визначити, чи використовується вхідна вибірка x як частина навчального набору D. Наприклад, за звичайних обставин особисті дані користувача залишатимуться конфіденційними, але неконфіденційну інформацію все одно можна використовувати для спекуляцій. Наприклад, якщо ми знаємо, що члени приватного клубу люблять носити фіолетові сонцезахисні окуляри та червоні шкіряні туфлі, тоді ми можемо зробити висновок, що він, ймовірно, є цією людиною, коли ми зустрічаємо людину, яка носить фіолетові сонцезахисні окуляри та червоні шкіряні туфлі (інформація не конфіденційна Членство в приватних клубах (конфіденційна інформація).
Атака з висновком про членство наразі є найпопулярнішим способом атаки на конфіденційність, який вперше запропонували Шокрі та інші в статті «Атаки з висновком про членство проти моделей машинного навчання». У статті вказується, що ця атака лише припускає знання вектора прогнозування виходу моделі та виконується проти керованих моделей машинного навчання. Наявність доступу до параметрів моделі та градієнтів дозволяє проводити точніші атаки на приналежність.
Типовий метод атаки на приналежність називається тіньовою атакою, тобто навчання тіньової моделі на основі відомих доступних наборів даних, а потім отримання конфіденційної інформації шляхом опитування тіньової моделі.
На додаток до моделей навчання під наглядом, генеративні моделі, такі як GAN і VAE, також вразливі до атак на приналежність. «GAN-Leaks: Таксономія атак на висновки про членство проти генеративних моделей» представляє проблеми GAN перед обличчям атак на міркування членів; «LOGAN: Атаки на висновки про членство проти генеративних моделей» представляє інші генеративні моделі в міркуваннях учасників, відповідь на атаку та описує, як отримати навчальні дані на основі розуміння компонентів генерації даних; моделі (MLM) також уразливі до атак MIA, які в деяких випадках можуть визначити, чи належать вибіркові дані до навчальних даних.
З іншого боку, обґрунтування членства також можна використовувати для перевірки безпеки моделі, а власники даних можуть використовувати обґрунтування членства для перегляду моделей чорної скриньки. «Атаки на підставі членства на моделях послідовності: чи є мої дані у вашому машинному перекладі?» описує, як власники даних можуть побачити, чи дані використовуються без авторизації.
«Атаки на підставі членства проти моделей машинного навчання» досліджує зв’язок між переобладнанням і висновком про членство в «чорній скриньці». Автори вимірюють вплив переобладнання на точність атаки, використовуючи той самий набір даних для навчання моделей на різних платформах MLaaS. Експерименти показують, що переобладнання може призвести до витоку конфіденційності, але також вказують, що це не єдиний випадок, оскільки деякі моделі з високим ступенем узагальнення більш схильні до витоку членства.
Атаки реконструкції
Атаки реконструкції намагаються реконструювати кілька навчальних зразків разом із їхніми навчальними мітками, тобто намагаються відновити конфіденційні функції або повні зразки даних із вихідними мітками та частковим знанням певних функцій. Наприклад, за допомогою інверсії моделі інформація, отримана в інтерфейсі моделі, зворотно реконструюється, а конфіденційна інформація, така як біологічні характеристики та медичні записи, у навчальних даних відновлюється, як показано на наступному малюнку:
У атаках реконструкції більші помилки узагальнення призводять до більшої ймовірності виведення атрибутів даних. У статті «The Secret Discover: Generation Model-Inversion Attacks against Deep Neural Networks» автори демонструють, що моделі з високою прогностичною потужністю є більш вразливими до рефакторингових атак, виходячи з припущення, що знання супротивника слабші. Подібно до вразливості в висновку про членство, пам’ять і отримання даних поза розповсюдженням також уразливі до атак реконструкції для недостатньо відповідних моделей.
Атаки виведення атрибутів
Атаки з виведенням атрибутів стосуються використання загальнодоступних атрибутів і структур для виведення прихованих або неповних даних атрибутів. Прикладом є отримання інформації про співвідношення чоловіків і жінок у наборі даних пацієнтів або для гендерно класифікованої моделі для висновку про те, чи носять люди в наборі навчальних даних окуляри. У деяких випадках цей тип витоку може вплинути на конфіденційність.
У «Зламі розумних машин за допомогою розумніших: як витягнути важливі дані з класифікаторів машинного навчання» згадується, що використання певних типів атрибутивних даних також може бути використано для глибшого розуміння навчальних даних, що спонукає інших використовувати цю інформацію для збирання воєдино більш глобальна картина.
Стаття «Ви — це те, кого ви знаєте та як себе поводите: атаки на логічний висновок через друзів і поведінку користувачів у соціальних мережах» представляє тип методу атаки на логічний висновок, який полягає у блокуванні та вилученні іншої інформації користувача за допомогою відомої поведінки користувача сам користувач. "AttriGuard: Практичний захист від атак з виведенням атрибутів за допомогою змагального машинного навчання" представляє деякі методи захисту від атак з виведенням атрибутів.
Атрибутне обґрунтування має на меті витягти з моделі інформацію, яка ненавмисно засвоєна моделлю, або яка не має відношення до навчального завдання. Навіть добре узагальнені моделі можуть вивчати властивості, пов’язані з усім розподілом вхідних даних, чого іноді не уникнути в процесі навчання навчання моделі.
«Використання ненавмисного витоку функцій у спільному навчанні» демонструє, що атаки логічного висновку атрибутів можливі навіть із добре узагальненими моделями, тому переобладнання, здається, не є причиною атак логічного висновку атрибутів. Щодо атак на основі атрибутів, наразі мало інформації про те, що їх спричиняє та за яких обставин вони видаються ефективними, що може бути багатообіцяючим напрямком для майбутніх досліджень.
Атака вилучення моделі
Вилучення моделі — це клас атак «чорної скриньки», під час яких зловмисник намагається отримати інформацію та, можливо, повністю реконструювати модель, створивши сурогатну модель, яка поводиться дуже подібно до атакуваної моделі.
«Вилучення моделі API на основі BERT», «Реконструкція моделі з пояснень моделі», «Мережі підробок: крадіжка функціональних можливостей моделей чорної скриньки», «Висока точність і висока точність вилучення нейронних мереж» кілька статей, пояснені з різних точок зору Деякі спроби при атаках на вилучення моделі.
Створення сурогатної моделі складається з двох основних кроків: Перший крок – це визначення точності завдання, коли тестовий набір, що відповідає навчальному завданню, витягується з розподілу вхідних даних для створення моделі, яка відповідає точності цільової моделі. Другим кроком є виділення точності, тобто створення відповідності створених сурогатів моделі в наборі, не пов’язаному з навчальним завданням, щоб відповідати цілі. У вилученні з точністю до завдання мета полягає в тому, щоб створити сурогат, який може вивчати ту саму задачу так само добре або краще, ніж цільова модель. У вилученні точності мета полягає в тому, щоб спробувати сурогат відтворити межу рішення якомога точніше.
Окрім створення сурогатних моделей, існують методи, які зосереджені на відновленні інформації з цільової моделі, як-от крадіжка гіперпараметрів у цільовій моделі, згадана в «Крадіжка гіперпараметрів у машинному навчанні» або «На шляху до нейронних мереж чорного ящика з зворотним проектуванням». про вилучення функцій активації, алгоритмів оптимізації, кількості шарів тощо для різних архітектур нейронних мереж тощо.
Стаття «На шляху до нейронних мереж із зворотним проектуванням чорного ящика» показує, що під час атаки на модель із відповідністю тестового набору, що перевищує 98%, параметри моделі можна викрасти за допомогою атаки вилучення. Крім того, у «ML-Doctor: цілісна оцінка ризику атак на логічний висновок проти моделей машинного навчання» показано, що моделі з більшою помилкою узагальнення важче вкрасти, можливо, через те, що модель запам’ятовує набори даних, які не належать зловмиснику зразків. Іншим фактором, який може вплинути на успішність вилучення моделі, є категорія даних тестового набору.Коли категорій даних більше, це призведе до гіршої продуктивності атаки.
На малюнку вище показано графік типу атаки для кожного модельного алгоритму. Зелений колір під кожним алгоритмом або полем машинного навчання вказує на те, що відповідні типи атак наразі вивчені, а червоний означає, що відповідних типів атак не знайдено.
III. Модель втечі з в'язниці
Модель джейлбрейка полягає в тому, щоб змусити LLM виробляти дегенеративну вихідну поведінку певним чином, наприклад, образливий вихід, порушення виводу нагляду за вмістом або виведення витоку приватних даних. Все більше і більше досліджень показують, що навіть не досвідчені користувачі можуть зламати LLM, просто маніпулюючи підказками.
Наприклад, у наступному прикладі метою розробника є створення моделі перекладу. У сценарії є два користувачі, перший користувач доброзичливий і використовує модель за призначенням, тоді як другий користувач намагається змінити ціль моделі, надаючи зловмисні дані. У цьому прикладі мовна модель відповідає «Haha pwned!!» замість фактичного перекладу речення. У цій ситуації втечі з в’язниці реакція моделі може бути розроблена з різними намірами, від викрадення цілі (просте невиконання завдання) до створення образливого расистського тексту або навіть публікації приватної конфіденційної інформації.
### IV. Пошкодження даних
Отруєння даних — це особливий вид змагальної атаки, яка є технікою атаки на поведінку генеративних моделей. Зловмисники можуть використати отруєння даних, щоб відкрити собі чорний хід у модель, таким чином обходячи алгоритмічно керовані системи.
Для людського ока три зображення нижче показують три різні речі: птаха, собаку та коня. Але для алгоритмів машинного навчання всі три, ймовірно, означають одне й те саме: невелике біле поле з чорною рамкою. Цей приклад ілюструє небезпечну властивість моделей машинного навчання, яку можна використати для неправильної класифікації даних.
Атаки з отруєнням даних мають на меті змінити навчальний набір моделі, вставляючи неправильно позначені дані, щоб обманом змусити її зробити неправильні прогнози. Успішна атака порушує цілісність моделі, створюючи постійні помилки в прогнозах моделі. Після отруєння моделі дуже важко відновитися після атаки, і деякі розробники можуть навіть відмовитися від моделі.
У статті «RealToxicitys: uating neural toxic degeneration in language models» згадувалося про спосіб надання GPT-2 набору текстових підказок для розкриття внутрішніх параметрів його моделі. «Приховані атаки отруєння даних на моделі НЛП» досліджує, як тренувальні дані можуть бути змінені, щоб спричинити збій у роботі мовних моделей, щоб створити текст, який не відповідає меті.
Хоча отруєння даних є дуже небезпечним, воно вимагає від зловмисника доступу до навчального конвеєра моделі машинного навчання, перш ніж отруєну модель можна буде розповсюдити. Таким чином, моделі, які постійно збирають ітерації даних, або моделі, засновані на федеративному навчанні, повинні приділяти додаткову увагу впливу отруєння даних.
V. Бекдорна атака
Під бекдор-атакою розуміють таємне вставлення або змінення тексту для зловмисного виведення мовної моделі. Стаття «Бекдори проти обробки природної мови: огляд» представляє проблему бекдор-атак, коли певні вразливості передаються моделі під час навчання та можуть викликати активацію токсичності моделі через використання словника.
Він відрізняється від отруєння даними тим, що зберігається очікувана функціональність моделі. «Лексичні бекдор-атаки без навчання на мовні моделі» пропонують метод, званий лексичною бекдор-атакою без навчання (TFLexAttack), який передбачає маніпулювання вбудованим словником шляхом введення лексичних «тригерів» у токенизатор мовної моделі.
Феномен SolidGoldMagikarp
Феномен SolidGoldMgikarp є типовим феноменом бекдор-атаки**,** коли ввести «SolidGoldMgikarp» у ChatGPT, він відповідає лише одним словом: «розповсюджувати». Коли його просять повторити «StreamerBot», він відповідає: «Ти придурок». Коли його попросили повторити «TheNitromeFan», він відповів «182». І якщо взяти це слово в одинарні лапки, його відповідь буде нескінченним "The". На запитання, хто такий TheNitromeFan, ChatGPT відповів: «182 — це число, а не особа. Його часто використовують для позначення самого номера».
Феномен SolidGoldMagikarp стосується використання токенізатора GPT OpenAI для ідентифікації конкретних токенів, про які модель не може говорити, а також токенів, які змушують модель виводити спотворений текст. У статті «Пояснення SolidGoldMagikarp, дивлячись на нього з випадкових напрямків» досліджуються можливі причини цього явища.
Нижче наведено деякі з найбільш частих і важливих типів бекдор-атак
A. На основі команд
a. Прямі інструкції: Ці атаки можуть в основному стосуватися «Ігнорувати попередні: методи атаки для мовних моделей», які просто вказують моделі ігнорувати свої попередні підказки та призначати нові завдання в поточному місці.
**b. Когнітивні атаки: ** найпоширеніший тип атаки, коли LLM зазвичай «обманом» змушує його виконувати невідповідні дії, які він інакше не виконував би, надаючи «безпечний простір» або гарантуючи таку відповідь. «Chatgpt: цей AI має джейлбрейк?!» документує деякі спроби таких атак проти ChatGPT.
в. Повторення інструкцій: Ці типи атак передбачають введення однієї інструкції кілька разів, щоб створити враження, ніби зловмисник «випрошує» мовну модель. Жебрацтво в буквальному сенсі також може бути виражене словами.
**d. Непряме відхилення від місії: ** Ця атака зосереджена на маскуванні під іншу зловмисну місію. Ця атака націлена на моделі, які зазвичай не дотримуються шкідливих інструкцій
B. На основі неінструкцій
a. Граматичне перетворення: цей тип атаки передбачає ортогональну трансформацію тексту атаки, наприклад використання LeetSpeak або Base64, щоб обійти фільтри вмісту, які можуть існувати в додатку, і модель за своєю суттю може трансформувати цей закодований текст.
**b. Кілька прийомів: ** простий підхід із використанням парадигм навчання мовної моделі. У такому підході атака включає кілька текстових функцій, які можуть бути спрямовані на зловмисно недоречні моделі. Наприклад, до цієї категорії відноситься феномен SolidGoldMagikarp.
c. Завершення тексту як інструкції: ці атаки діють, заповнюючи модель незавершеними реченнями, тим самим змушуючи модель завершувати речення та ігноруючи попередні інструкції, що призводить до неправильного розміщення.
### VI Захист моделі
Дослідження способів захисту від модельних атак є складним і важливим завданням. Більшість робіт з аналізу безпеки пропонують і перевіряють способи пом'якшення відповідних атак. Нижче наведено деякі типові методи захисту.
Диференційована конфіденційність
Диференціальна конфіденційність на даний момент є одним із найпомітніших засобів захисту від атак на приналежність, яка забезпечує гарантії безпеки для окремих даних у вихідних даних моделі. Обговорення диференціальної конфіденційності походить із статті «Алгоритмічні основи диференціальної конфіденційності».
Диференціальна конфіденційність додає шум у вихідні дані моделі, унеможливлюючи для зловмисника чітке статистичне розрізнення двох наборів даних на основі вихідних даних. Диференціальна конфіденційність спочатку була визначенням конфіденційності для аналізу даних, який був розроблений на основі ідеї «вивчення корисної інформації про населення, не знаючи жодної особи». Диференціальна конфіденційність не захищає безпеку конфіденційності загального набору даних, але захищає приватні дані кожної особи в наборі даних через механізм шуму.
Математичне визначення диференціальної конфіденційності таке:
Диференційована конфіденційність забезпечує компроміс між захистом конфіденційності та корисністю чи точністю моделі. Оцінки в «Атаці на підставі членства проти диференціально приватної моделі глибокого навчання» прийшли до висновку, що моделі забезпечують захист конфіденційності, лише якщо вони суттєво жертвують своєю корисністю.
Регуляризація
Методи регуляризації в машинному навчанні спрямовані на зменшення переобладнання та покращення продуктивності узагальнення моделі. Вилучення — це широко використовувана форма регулярізації, яка випадковим чином відкидає заздалегідь визначений відсоток одиниць нейронної мережі під час навчання. З огляду на те, що атаки на приналежність до чорної скриньки пов’язані з переобладнанням, це розумний спосіб боротьби з такими атаками, і кілька статей запропонували його як захист із хорошими результатами.
Інша форма регуляризації з використанням методів, які поєднують кілька окремо навчених моделей, наприклад стекування моделей, дала позитивні результати проти атак логічного висновку. Однією з переваг стекування моделей або подібних методів є те, що вони не залежать від класу моделі.
Зміни вектора передбачення
Оскільки багато моделей припускають, що вектор передбачення доступний під час логічного висновку, одним із запропонованих контрзаходів є обмеження виводу до перших k класів або прогнозів моделі. Однак це обмеження, навіть у своїй найсуворішій формі (тільки виведення міток класу), здається, не повністю пом’якшує атаки на приналежність, оскільки витік інформації все ще може статися через неправильну класифікацію моделі. Іншим варіантом є зниження точності прогнозованих векторів, тим самим зменшуючи витік інформації.
Крім того, було показано, що додавання шуму до вихідного вектора також впливає на атаки висновку про приналежність.
Оскільки атаки реконструкції зазвичай потребують доступу до градієнтів втрат під час навчання, більшість засобів захисту від атак реконструкції пропонують методи, які впливають на інформацію, отриману з цих градієнтів. Встановлення всіх градієнтів втрат нижче певного порогу на нуль пропонується як захист від атак реконструкції в глибокому навчанні. Стаття «Deep Leakage from Gradients» доводить, що цей метод дуже ефективний, і коли лише 20% градієнтів встановлено на нуль, вплив на продуктивність моделі незначний.
Запобігання атакам крадіжки моделі DNN (PRADA)
«PRADA: захист від атак крадіжки моделі DNN» пропонує метод виявлення атак крадіжки моделі на основі запитів моделі, які використовує зловмисник. Виявлення базується на припущенні, що модельні запити, які намагаються вивчити межі прийняття рішень, матимуть інший розподіл вибірки, ніж звичайні запити. Незважаючи на те, що виявлення пройшло успішно, автори зазначають, що існує потенціал для ухилення, якщо супротивник коригує свою стратегію.
Висновок про членство
«Злодії на вулиці Сезам! Вилучення моделі API на основі BERT» розглядає ідею використання висновку про членство для захисту від вилучення моделі. Він базується на передумові, що за допомогою висновку про членство власники моделей можуть відрізнити законні запити користувачів від безглуздих запитів, єдиною метою яких є вилучення моделей. Автори зазначають, що цей тип захисту має обмеження, такі як потенційне позначення легітимних, але не розповсюджуваних запитів, створених законними користувачами, але, що більш важливо, їх можна обійти зловмисниками, які роблять адаптивні запити.
Налаштуйте за підказкою
У «Керуванні вилученням запам’ятованих даних із великих мовних моделей за допомогою -Tuning» пропонується новий метод, який використовує налаштування підказок для керування швидкістю вилучення запам’ятованого вмісту в LLM. Вони пропонують дві стратегії навчання підказок для збільшення та зменшення швидкості вилучення, відповідно до атаки та захисту.
VII Висновок
LLM все ще має відносно великий ризик безпеки та ризик витоку конфіденційності
Атака з метою вилучення структури моделі та даних є по суті атакою на конфіденційність моделі
Основні дослідження в академічній спільноті зараз зосереджені на тому, як атакувати модель і принцип витоку даних
Частина механізму, який спричинив витік даних LLM, досі невідома
Такі методи, як диференціальна конфіденційність, підробка вектора прогнозування тощо, можуть певною мірою захистити конфіденційність даних, і ці методи зосереджені на стадії навчання моделі
Існуючі засоби захисту не є досконалими, і їм потрібно пожертвувати продуктивністю та точністю моделі
________
Довідка:
1. Калпеш Крішна, Гаурав Сінгх Томар, Анкур П. Паріх, Ніколас Папернот і Мохіт Айєр. 2020. Злодії на вулиці Сезам! Видобуток моделі API на основі BERT. На міжнародній конференції з уявлень про навчання. ICLR, віртуальна конференція, раніше Аддіс-Абеба, Ефіопія.
2. Розповсюджувач секретів: аналіз і тестування ненавмисного запам’ятовування в нейронних мережах
3. Мартін Абаді, Енді Чу, Ян Дж. Гудфеллоу, Х. Б. Макмехан, Ілля Миронов, Кунал Талвар і Лі Чжан. 2016. Глибоке навчання з диференціальною конфіденційністю
4. Джузеппе Афінський, Луїджі В. Манчіні, Анджело Споньярді, Антоніо Віллані, Доменіко Віталі та Джованні Фелічі. 2015. Злом розумних машин за допомогою розумніших: як витягнути важливі дані з класифікаторів машинного навчання.
5. Баргав Джаяраман і Девід Еванс. 2019 р. Використання диференційованого приватного машинного навчання на практиці. На 28-му симпозіумі безпеки USENIX (USENIX Security 19). Асоціація USENIX, Санта-Клара, Каліфорнія, 1895–1912
6. Захист від атак на визначення членства без втрати корисності
7. Юйген Лю, Руй Вень, Сіньлей Хе, Ахмед Салем, Чжикун Чжан, Майкл Бекс, Еміліано Де Крістофаро, Маріо Фріц і Ян Чжан. 2021. ML-Doctor: цілісна оцінка ризиків атак логічних висновків проти моделей машинного навчання
8. Обманом LLM-ів до непокори: розуміння, аналіз і запобігання джейлбрейку
9. Марія Рігакі та Себастьян Гарсія. 2021. Огляд атак на конфіденційність у машинному навчанні
10. Ніколас Карліні, Флоріан Тремер, Ерік Уоллес, Метью Ягельскі, Аріель Герберт-Восс, Кетрін Лі, Адам Робертс, Том Браун, Доун Сонг, Уль-фар Ерлінгссон, Аліна Опреа та Колін Раффел. 2021. Отримання навчальних даних із великих мовних моделей
11. Семюель Геман, Сучин Гуруранган, Маартен Сап, Єджін Чой та Ной А. Сміт. 2020. RealToxi-city s: використання нервової токсичної дегенерації в мовних моделях.
12. Венлонг Хуан, Пітер Аббіл, Діпак Патак та Ігор Мордач. 2022b. Мовні моделі як нульові планувальники: вилучення практичних знань для втілених агентів. У ICML 2022, том 162 Proceedings of Machine Learning Research, сторінки 9118–9147. PMLR
13. Ітан Перес, Сафрон Хуанг, Френсіс Сонг, Тревор Кай, Роман Рінг, Джон Асланідес, Амелія Глейз, Нат МакАліз та Джеффрі Ірвінг. 2022. Red об’єднує мовні моделі з мовними моделями.
14. Ерік Воллес, Тоні Чжао, Ши Фенг і Самір Сінгх. Атаки прихованого отруєння даних на моделі NLP.
15. Шаофен Лі, Тянь Донг, Бенджамін Цзі Хао Чжао, Мінхуей Сюе, Сугуо Ду та Хаоджін Чжу, 2022. Бекдор проти обробки природної мови: огляд. IEEE Security & Privacy, 20(5):50–59
16. Юджін Хуан, Террі Юе Чжуо, Цюнкай Сю, Хань Ху, Сінлян Юань і Чуньян Чен 2023. Лексичні бекдор-атаки на мовні моделі без навчання.
17. Пояснення SolidGoldMagikarp, дивлячись на нього з випадкових напрямків
18. Фабіо Перес і Ян Рібейро. 2022. Ігнорувати попереднє: методи атаки на мовні моделі. препринт arXiv arXiv:2211.09527.
19. Яннік Кілчер. 2022. Chatgpt: Цей AI має джейлбрейк?! (неймовірний прогрес штучного інтелекту).
20. Баттіста Біджіо та Фабіо Ролі. 2018. Дикі шаблони: десять років після розквіту змагального машинного навчання. Розпізнавання образів 84 (2018), 317–331.
21. Ліген Чжу, Чжіцзянь Лю та Сон Хань. 2019. Глибокий витік із градієнтів. В Досягнення в обробці нейронної інформації s 32, H. Wallach, H. Larochelle, A. Beygelzimer, F. d'Alché-Buc, E. Fox і R. Garnett (Ред.). Curran Associates, Inc., Ванкувер, Канада, 14747–14756
22. Ніколас Папернот, Патрік МакДеніел, Арунеш Сінха та Майкл П. Велман. 2018. SoK: Безпека та конфіденційність у машинному навчанні. У 2018 році IEEE European Symposium on Security and Privacy (EuroS P). IEEE, Лондон, Великобританія, 399–414
23. Майкл Віл, Рубен Біннс і Ліліан Едвардс. 2018. Алгоритми, які пам’ятають: моделі інверсійних атак і закон про захист даних. Філософські праці Королівського товариства A: Математичні, фізичні та інженерні науки 376, 2133 (2018), 20180083
24. Реза Шокрі, Марко Стронаті, Конгжен Сонг і Віталій Шматіков. 2017. Атаки з виведення членства на моделі машинного навчання. У 2017 році IEEE Symposium on Security and Privacy (SP). IEEE, Сан-Франциско, Каліфорнія, США, 3–18
25. Сорамі Хісамото, Метт Пост і Кевін Дух. 2020. Атаки на основі висновку про членство на моделях послідовності: чи є мої дані у вашому машинному перекладі?
26. Кончжен Сонг і Віталій Шматіков. 2019. Аудит походження даних у моделях генерації тексту. У матеріалах 25-ї міжнародної конференції ACM SIGKDD з виявлення знань та аналізу даних (KDD '19). Асоціація обчислювальної техніки, Нью-Йорк, Нью-Йорк, США, 196–206.
27. Jinyuan Jia і Neil Zhenqiang Gong. 2018. AttriGuard: Практичний захист від атак з виведенням атрибутів за допомогою змагального машинного навчання. На 27-му симпозіумі безпеки USENIX (USENIX Security 18).
28. Метью Фредріксон, Ерік Ланц, Сомеш Джа, Саймон Лін, Девід Пейдж і Томас Рістенпарт. 2014. Конфіденційність у фармакогенетиці: наскрізне прикладне дослідження персоналізованого дозування варфарину.
29. Матвій Ягельський, Ніколас Карліні, Девід Бертло, Алекс Куракін і Ніколас Паперно. 2020. Висока точність і точність вилучення нейронних мереж
30. Binghui Wang і Neil Zhenqiang Gong. 2018. Крадіжка гіперпараметрів у машинному навчанні. У 2018 році IEEE Symposium on Security and Privacy (SP). IEEE, Сан-Франциско, Каліфорнія, США, 36–52
31. Сон Джун О, Макс Огюстен, Маріо Фріц і Бернт Шіле. 2018. На шляху до нейронних мереж чорного ящика зі зворотним проектуванням. На шостій міжнародній конференції з репрезентацій навчання. ICLR, Ванкувер, Канада.
32. Синтія Дворк і Аарон Рот. 2013. Алгоритмічні основи диференціальної конфіденційності. Основи та тенденції теоретичної інформатики 9, 3-4 (2013), 211–487
Переглянути оригінал
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Говорячи про конфіденційність даних великої моделі, кілька поширених методів атаки на моделі
Джерело: Oasis Capital
Автор: Counselor Vitality
20 березня 2023 року в ChatGPT стався витік даних, у результаті чого розкрили особисту інформацію деяких користувачів ChatGPT. З огляду на це, регулятор конфіденційності Італії вважає, що ChatGPT підозрюють у незаконній обробці персональних даних, порушенні конфіденційності та порушенні відповідних норм GDPR. Згодом Італія стала першою країною, яка заборонила використання ChatGPT, що викликало дискусії в інших країнах ЄС щодо того, чи потрібні більш жорсткі заходи для контролю над технологією.
Майже всі онлайн-сервіси збирають наші персональні дані та можуть використовувати їх для навчання LLM. Однак важко визначити, як модель використовуватиме дані, що використовуються для навчання. Якщо конфіденційні дані, такі як географічне розташування, записи про стан здоров’я та інформація про особу, використовуються під час навчання моделі, атаки вилучення даних проти приватних даних у моделі призведуть до великої кількості витоків конфіденційності користувачів. Стаття «Чи витікають ваші персональні дані з великих попередньо підготовлених мовних моделей?» доводить, що завдяки пам’яті навчальних даних LLM, LLM дійсно має ризик витоку особистої інформації під час процесу діалогу, і ризик зростає із збільшенням кількості прикладів. .
Є кілька причин, чому модель зливає інформацію. Деякі з них є структурними та пов’язані зі способом побудови моделі; інші – через погане узагальнення, запам’ятовування конфіденційних даних тощо. У наступній статті ми спочатку познайомимося з основним процесом витоку даних, потім познайомимося з кількома типовими методами атаки, такими як атака на конфіденційність, втеча з в’язниці, отруєння даних і бекдор-атака, і, нарешті, представимо деякі поточні дослідження захисту конфіденційності.
I. Моделювання загроз
Базова модель загроз LLM включає загальне модельне середовище, різних учасників і конфіденційні активи. Конфіденційні активи включають навчальні набори даних, параметри моделі, гіперпараметри моделі та архітектуру. Серед учасників: власник даних, власник моделі, споживач моделі та супротивник. На наступній діаграмі зображено активи, учасників, потік інформації та можливий операційний потік у моделі загрози:
II. Атака на конфіденційність
Атаки на конфіденційність діляться на чотири основні типи: атаки на приналежність, атаки на реконструкцію, атаки на визначення атрибутів і вилучення моделі.
Висновок про приналежність намагається визначити, чи використовується вхідна вибірка x як частина навчального набору D. Наприклад, за звичайних обставин особисті дані користувача залишатимуться конфіденційними, але неконфіденційну інформацію все одно можна використовувати для спекуляцій. Наприклад, якщо ми знаємо, що члени приватного клубу люблять носити фіолетові сонцезахисні окуляри та червоні шкіряні туфлі, тоді ми можемо зробити висновок, що він, ймовірно, є цією людиною, коли ми зустрічаємо людину, яка носить фіолетові сонцезахисні окуляри та червоні шкіряні туфлі (інформація не конфіденційна Членство в приватних клубах (конфіденційна інформація).
Атака з висновком про членство наразі є найпопулярнішим способом атаки на конфіденційність, який вперше запропонували Шокрі та інші в статті «Атаки з висновком про членство проти моделей машинного навчання». У статті вказується, що ця атака лише припускає знання вектора прогнозування виходу моделі та виконується проти керованих моделей машинного навчання. Наявність доступу до параметрів моделі та градієнтів дозволяє проводити точніші атаки на приналежність.
Типовий метод атаки на приналежність називається тіньовою атакою, тобто навчання тіньової моделі на основі відомих доступних наборів даних, а потім отримання конфіденційної інформації шляхом опитування тіньової моделі.
На додаток до моделей навчання під наглядом, генеративні моделі, такі як GAN і VAE, також вразливі до атак на приналежність. «GAN-Leaks: Таксономія атак на висновки про членство проти генеративних моделей» представляє проблеми GAN перед обличчям атак на міркування членів; «LOGAN: Атаки на висновки про членство проти генеративних моделей» представляє інші генеративні моделі в міркуваннях учасників, відповідь на атаку та описує, як отримати навчальні дані на основі розуміння компонентів генерації даних; моделі (MLM) також уразливі до атак MIA, які в деяких випадках можуть визначити, чи належать вибіркові дані до навчальних даних.
З іншого боку, обґрунтування членства також можна використовувати для перевірки безпеки моделі, а власники даних можуть використовувати обґрунтування членства для перегляду моделей чорної скриньки. «Атаки на підставі членства на моделях послідовності: чи є мої дані у вашому машинному перекладі?» описує, як власники даних можуть побачити, чи дані використовуються без авторизації.
«Атаки на підставі членства проти моделей машинного навчання» досліджує зв’язок між переобладнанням і висновком про членство в «чорній скриньці». Автори вимірюють вплив переобладнання на точність атаки, використовуючи той самий набір даних для навчання моделей на різних платформах MLaaS. Експерименти показують, що переобладнання може призвести до витоку конфіденційності, але також вказують, що це не єдиний випадок, оскільки деякі моделі з високим ступенем узагальнення більш схильні до витоку членства.
Атаки реконструкції намагаються реконструювати кілька навчальних зразків разом із їхніми навчальними мітками, тобто намагаються відновити конфіденційні функції або повні зразки даних із вихідними мітками та частковим знанням певних функцій. Наприклад, за допомогою інверсії моделі інформація, отримана в інтерфейсі моделі, зворотно реконструюється, а конфіденційна інформація, така як біологічні характеристики та медичні записи, у навчальних даних відновлюється, як показано на наступному малюнку:
Атаки з виведенням атрибутів стосуються використання загальнодоступних атрибутів і структур для виведення прихованих або неповних даних атрибутів. Прикладом є отримання інформації про співвідношення чоловіків і жінок у наборі даних пацієнтів або для гендерно класифікованої моделі для висновку про те, чи носять люди в наборі навчальних даних окуляри. У деяких випадках цей тип витоку може вплинути на конфіденційність.
У «Зламі розумних машин за допомогою розумніших: як витягнути важливі дані з класифікаторів машинного навчання» згадується, що використання певних типів атрибутивних даних також може бути використано для глибшого розуміння навчальних даних, що спонукає інших використовувати цю інформацію для збирання воєдино більш глобальна картина.
Стаття «Ви — це те, кого ви знаєте та як себе поводите: атаки на логічний висновок через друзів і поведінку користувачів у соціальних мережах» представляє тип методу атаки на логічний висновок, який полягає у блокуванні та вилученні іншої інформації користувача за допомогою відомої поведінки користувача сам користувач. "AttriGuard: Практичний захист від атак з виведенням атрибутів за допомогою змагального машинного навчання" представляє деякі методи захисту від атак з виведенням атрибутів.
Атрибутне обґрунтування має на меті витягти з моделі інформацію, яка ненавмисно засвоєна моделлю, або яка не має відношення до навчального завдання. Навіть добре узагальнені моделі можуть вивчати властивості, пов’язані з усім розподілом вхідних даних, чого іноді не уникнути в процесі навчання навчання моделі.
«Використання ненавмисного витоку функцій у спільному навчанні» демонструє, що атаки логічного висновку атрибутів можливі навіть із добре узагальненими моделями, тому переобладнання, здається, не є причиною атак логічного висновку атрибутів. Щодо атак на основі атрибутів, наразі мало інформації про те, що їх спричиняє та за яких обставин вони видаються ефективними, що може бути багатообіцяючим напрямком для майбутніх досліджень.
Вилучення моделі — це клас атак «чорної скриньки», під час яких зловмисник намагається отримати інформацію та, можливо, повністю реконструювати модель, створивши сурогатну модель, яка поводиться дуже подібно до атакуваної моделі.
«Вилучення моделі API на основі BERT», «Реконструкція моделі з пояснень моделі», «Мережі підробок: крадіжка функціональних можливостей моделей чорної скриньки», «Висока точність і висока точність вилучення нейронних мереж» кілька статей, пояснені з різних точок зору Деякі спроби при атаках на вилучення моделі.
Створення сурогатної моделі складається з двох основних кроків: Перший крок – це визначення точності завдання, коли тестовий набір, що відповідає навчальному завданню, витягується з розподілу вхідних даних для створення моделі, яка відповідає точності цільової моделі. Другим кроком є виділення точності, тобто створення відповідності створених сурогатів моделі в наборі, не пов’язаному з навчальним завданням, щоб відповідати цілі. У вилученні з точністю до завдання мета полягає в тому, щоб створити сурогат, який може вивчати ту саму задачу так само добре або краще, ніж цільова модель. У вилученні точності мета полягає в тому, щоб спробувати сурогат відтворити межу рішення якомога точніше.
Окрім створення сурогатних моделей, існують методи, які зосереджені на відновленні інформації з цільової моделі, як-от крадіжка гіперпараметрів у цільовій моделі, згадана в «Крадіжка гіперпараметрів у машинному навчанні» або «На шляху до нейронних мереж чорного ящика з зворотним проектуванням». про вилучення функцій активації, алгоритмів оптимізації, кількості шарів тощо для різних архітектур нейронних мереж тощо.
Стаття «На шляху до нейронних мереж із зворотним проектуванням чорного ящика» показує, що під час атаки на модель із відповідністю тестового набору, що перевищує 98%, параметри моделі можна викрасти за допомогою атаки вилучення. Крім того, у «ML-Doctor: цілісна оцінка ризику атак на логічний висновок проти моделей машинного навчання» показано, що моделі з більшою помилкою узагальнення важче вкрасти, можливо, через те, що модель запам’ятовує набори даних, які не належать зловмиснику зразків. Іншим фактором, який може вплинути на успішність вилучення моделі, є категорія даних тестового набору.Коли категорій даних більше, це призведе до гіршої продуктивності атаки.
III. Модель втечі з в'язниці
Модель джейлбрейка полягає в тому, щоб змусити LLM виробляти дегенеративну вихідну поведінку певним чином, наприклад, образливий вихід, порушення виводу нагляду за вмістом або виведення витоку приватних даних. Все більше і більше досліджень показують, що навіть не досвідчені користувачі можуть зламати LLM, просто маніпулюючи підказками.
Наприклад, у наступному прикладі метою розробника є створення моделі перекладу. У сценарії є два користувачі, перший користувач доброзичливий і використовує модель за призначенням, тоді як другий користувач намагається змінити ціль моделі, надаючи зловмисні дані. У цьому прикладі мовна модель відповідає «Haha pwned!!» замість фактичного перекладу речення. У цій ситуації втечі з в’язниці реакція моделі може бути розроблена з різними намірами, від викрадення цілі (просте невиконання завдання) до створення образливого расистського тексту або навіть публікації приватної конфіденційної інформації.
Отруєння даних — це особливий вид змагальної атаки, яка є технікою атаки на поведінку генеративних моделей. Зловмисники можуть використати отруєння даних, щоб відкрити собі чорний хід у модель, таким чином обходячи алгоритмічно керовані системи.
Для людського ока три зображення нижче показують три різні речі: птаха, собаку та коня. Але для алгоритмів машинного навчання всі три, ймовірно, означають одне й те саме: невелике біле поле з чорною рамкою. Цей приклад ілюструє небезпечну властивість моделей машинного навчання, яку можна використати для неправильної класифікації даних.
У статті «RealToxicitys: uating neural toxic degeneration in language models» згадувалося про спосіб надання GPT-2 набору текстових підказок для розкриття внутрішніх параметрів його моделі. «Приховані атаки отруєння даних на моделі НЛП» досліджує, як тренувальні дані можуть бути змінені, щоб спричинити збій у роботі мовних моделей, щоб створити текст, який не відповідає меті.
Хоча отруєння даних є дуже небезпечним, воно вимагає від зловмисника доступу до навчального конвеєра моделі машинного навчання, перш ніж отруєну модель можна буде розповсюдити. Таким чином, моделі, які постійно збирають ітерації даних, або моделі, засновані на федеративному навчанні, повинні приділяти додаткову увагу впливу отруєння даних.
V. Бекдорна атака
Під бекдор-атакою розуміють таємне вставлення або змінення тексту для зловмисного виведення мовної моделі. Стаття «Бекдори проти обробки природної мови: огляд» представляє проблему бекдор-атак, коли певні вразливості передаються моделі під час навчання та можуть викликати активацію токсичності моделі через використання словника.
Він відрізняється від отруєння даними тим, що зберігається очікувана функціональність моделі. «Лексичні бекдор-атаки без навчання на мовні моделі» пропонують метод, званий лексичною бекдор-атакою без навчання (TFLexAttack), який передбачає маніпулювання вбудованим словником шляхом введення лексичних «тригерів» у токенизатор мовної моделі.
Феномен SolidGoldMagikarp
Феномен SolidGoldMgikarp є типовим феноменом бекдор-атаки**,** коли ввести «SolidGoldMgikarp» у ChatGPT, він відповідає лише одним словом: «розповсюджувати». Коли його просять повторити «StreamerBot», він відповідає: «Ти придурок». Коли його попросили повторити «TheNitromeFan», він відповів «182». І якщо взяти це слово в одинарні лапки, його відповідь буде нескінченним "The". На запитання, хто такий TheNitromeFan, ChatGPT відповів: «182 — це число, а не особа. Його часто використовують для позначення самого номера».
Феномен SolidGoldMagikarp стосується використання токенізатора GPT OpenAI для ідентифікації конкретних токенів, про які модель не може говорити, а також токенів, які змушують модель виводити спотворений текст. У статті «Пояснення SolidGoldMagikarp, дивлячись на нього з випадкових напрямків» досліджуються можливі причини цього явища.
Нижче наведено деякі з найбільш частих і важливих типів бекдор-атак
A. На основі команд
a. Прямі інструкції: Ці атаки можуть в основному стосуватися «Ігнорувати попередні: методи атаки для мовних моделей», які просто вказують моделі ігнорувати свої попередні підказки та призначати нові завдання в поточному місці.
**b. Когнітивні атаки: ** найпоширеніший тип атаки, коли LLM зазвичай «обманом» змушує його виконувати невідповідні дії, які він інакше не виконував би, надаючи «безпечний простір» або гарантуючи таку відповідь. «Chatgpt: цей AI має джейлбрейк?!» документує деякі спроби таких атак проти ChatGPT.
в. Повторення інструкцій: Ці типи атак передбачають введення однієї інструкції кілька разів, щоб створити враження, ніби зловмисник «випрошує» мовну модель. Жебрацтво в буквальному сенсі також може бути виражене словами.
**d. Непряме відхилення від місії: ** Ця атака зосереджена на маскуванні під іншу зловмисну місію. Ця атака націлена на моделі, які зазвичай не дотримуються шкідливих інструкцій
B. На основі неінструкцій
a. Граматичне перетворення: цей тип атаки передбачає ортогональну трансформацію тексту атаки, наприклад використання LeetSpeak або Base64, щоб обійти фільтри вмісту, які можуть існувати в додатку, і модель за своєю суттю може трансформувати цей закодований текст.
**b. Кілька прийомів: ** простий підхід із використанням парадигм навчання мовної моделі. У такому підході атака включає кілька текстових функцій, які можуть бути спрямовані на зловмисно недоречні моделі. Наприклад, до цієї категорії відноситься феномен SolidGoldMagikarp.
c. Завершення тексту як інструкції: ці атаки діють, заповнюючи модель незавершеними реченнями, тим самим змушуючи модель завершувати речення та ігноруючи попередні інструкції, що призводить до неправильного розміщення.
Дослідження способів захисту від модельних атак є складним і важливим завданням. Більшість робіт з аналізу безпеки пропонують і перевіряють способи пом'якшення відповідних атак. Нижче наведено деякі типові методи захисту.
Диференціальна конфіденційність на даний момент є одним із найпомітніших засобів захисту від атак на приналежність, яка забезпечує гарантії безпеки для окремих даних у вихідних даних моделі. Обговорення диференціальної конфіденційності походить із статті «Алгоритмічні основи диференціальної конфіденційності».
Диференціальна конфіденційність додає шум у вихідні дані моделі, унеможливлюючи для зловмисника чітке статистичне розрізнення двох наборів даних на основі вихідних даних. Диференціальна конфіденційність спочатку була визначенням конфіденційності для аналізу даних, який був розроблений на основі ідеї «вивчення корисної інформації про населення, не знаючи жодної особи». Диференціальна конфіденційність не захищає безпеку конфіденційності загального набору даних, але захищає приватні дані кожної особи в наборі даних через механізм шуму.
Математичне визначення диференціальної конфіденційності таке:
Методи регуляризації в машинному навчанні спрямовані на зменшення переобладнання та покращення продуктивності узагальнення моделі. Вилучення — це широко використовувана форма регулярізації, яка випадковим чином відкидає заздалегідь визначений відсоток одиниць нейронної мережі під час навчання. З огляду на те, що атаки на приналежність до чорної скриньки пов’язані з переобладнанням, це розумний спосіб боротьби з такими атаками, і кілька статей запропонували його як захист із хорошими результатами.
Інша форма регуляризації з використанням методів, які поєднують кілька окремо навчених моделей, наприклад стекування моделей, дала позитивні результати проти атак логічного висновку. Однією з переваг стекування моделей або подібних методів є те, що вони не залежать від класу моделі.
Оскільки багато моделей припускають, що вектор передбачення доступний під час логічного висновку, одним із запропонованих контрзаходів є обмеження виводу до перших k класів або прогнозів моделі. Однак це обмеження, навіть у своїй найсуворішій формі (тільки виведення міток класу), здається, не повністю пом’якшує атаки на приналежність, оскільки витік інформації все ще може статися через неправильну класифікацію моделі. Іншим варіантом є зниження точності прогнозованих векторів, тим самим зменшуючи витік інформації.
Крім того, було показано, що додавання шуму до вихідного вектора також впливає на атаки висновку про приналежність.
Оскільки атаки реконструкції зазвичай потребують доступу до градієнтів втрат під час навчання, більшість засобів захисту від атак реконструкції пропонують методи, які впливають на інформацію, отриману з цих градієнтів. Встановлення всіх градієнтів втрат нижче певного порогу на нуль пропонується як захист від атак реконструкції в глибокому навчанні. Стаття «Deep Leakage from Gradients» доводить, що цей метод дуже ефективний, і коли лише 20% градієнтів встановлено на нуль, вплив на продуктивність моделі незначний.
«PRADA: захист від атак крадіжки моделі DNN» пропонує метод виявлення атак крадіжки моделі на основі запитів моделі, які використовує зловмисник. Виявлення базується на припущенні, що модельні запити, які намагаються вивчити межі прийняття рішень, матимуть інший розподіл вибірки, ніж звичайні запити. Незважаючи на те, що виявлення пройшло успішно, автори зазначають, що існує потенціал для ухилення, якщо супротивник коригує свою стратегію.
«Злодії на вулиці Сезам! Вилучення моделі API на основі BERT» розглядає ідею використання висновку про членство для захисту від вилучення моделі. Він базується на передумові, що за допомогою висновку про членство власники моделей можуть відрізнити законні запити користувачів від безглуздих запитів, єдиною метою яких є вилучення моделей. Автори зазначають, що цей тип захисту має обмеження, такі як потенційне позначення легітимних, але не розповсюджуваних запитів, створених законними користувачами, але, що більш важливо, їх можна обійти зловмисниками, які роблять адаптивні запити.
У «Керуванні вилученням запам’ятованих даних із великих мовних моделей за допомогою -Tuning» пропонується новий метод, який використовує налаштування підказок для керування швидкістю вилучення запам’ятованого вмісту в LLM. Вони пропонують дві стратегії навчання підказок для збільшення та зменшення швидкості вилучення, відповідно до атаки та захисту.
VII Висновок
LLM все ще має відносно великий ризик безпеки та ризик витоку конфіденційності
Атака з метою вилучення структури моделі та даних є по суті атакою на конфіденційність моделі
Основні дослідження в академічній спільноті зараз зосереджені на тому, як атакувати модель і принцип витоку даних
Частина механізму, який спричинив витік даних LLM, досі невідома
Такі методи, як диференціальна конфіденційність, підробка вектора прогнозування тощо, можуть певною мірою захистити конфіденційність даних, і ці методи зосереджені на стадії навчання моделі
Існуючі засоби захисту не є досконалими, і їм потрібно пожертвувати продуктивністю та точністю моделі
________
Довідка:
1. Калпеш Крішна, Гаурав Сінгх Томар, Анкур П. Паріх, Ніколас Папернот і Мохіт Айєр. 2020. Злодії на вулиці Сезам! Видобуток моделі API на основі BERT. На міжнародній конференції з уявлень про навчання. ICLR, віртуальна конференція, раніше Аддіс-Абеба, Ефіопія.
2. Розповсюджувач секретів: аналіз і тестування ненавмисного запам’ятовування в нейронних мережах
3. Мартін Абаді, Енді Чу, Ян Дж. Гудфеллоу, Х. Б. Макмехан, Ілля Миронов, Кунал Талвар і Лі Чжан. 2016. Глибоке навчання з диференціальною конфіденційністю
4. Джузеппе Афінський, Луїджі В. Манчіні, Анджело Споньярді, Антоніо Віллані, Доменіко Віталі та Джованні Фелічі. 2015. Злом розумних машин за допомогою розумніших: як витягнути важливі дані з класифікаторів машинного навчання.
5. Баргав Джаяраман і Девід Еванс. 2019 р. Використання диференційованого приватного машинного навчання на практиці. На 28-му симпозіумі безпеки USENIX (USENIX Security 19). Асоціація USENIX, Санта-Клара, Каліфорнія, 1895–1912
6. Захист від атак на визначення членства без втрати корисності
7. Юйген Лю, Руй Вень, Сіньлей Хе, Ахмед Салем, Чжикун Чжан, Майкл Бекс, Еміліано Де Крістофаро, Маріо Фріц і Ян Чжан. 2021. ML-Doctor: цілісна оцінка ризиків атак логічних висновків проти моделей машинного навчання
8. Обманом LLM-ів до непокори: розуміння, аналіз і запобігання джейлбрейку
9. Марія Рігакі та Себастьян Гарсія. 2021. Огляд атак на конфіденційність у машинному навчанні
10. Ніколас Карліні, Флоріан Тремер, Ерік Уоллес, Метью Ягельскі, Аріель Герберт-Восс, Кетрін Лі, Адам Робертс, Том Браун, Доун Сонг, Уль-фар Ерлінгссон, Аліна Опреа та Колін Раффел. 2021. Отримання навчальних даних із великих мовних моделей
11. Семюель Геман, Сучин Гуруранган, Маартен Сап, Єджін Чой та Ной А. Сміт. 2020. RealToxi-city s: використання нервової токсичної дегенерації в мовних моделях.
12. Венлонг Хуан, Пітер Аббіл, Діпак Патак та Ігор Мордач. 2022b. Мовні моделі як нульові планувальники: вилучення практичних знань для втілених агентів. У ICML 2022, том 162 Proceedings of Machine Learning Research, сторінки 9118–9147. PMLR
13. Ітан Перес, Сафрон Хуанг, Френсіс Сонг, Тревор Кай, Роман Рінг, Джон Асланідес, Амелія Глейз, Нат МакАліз та Джеффрі Ірвінг. 2022. Red об’єднує мовні моделі з мовними моделями.
14. Ерік Воллес, Тоні Чжао, Ши Фенг і Самір Сінгх. Атаки прихованого отруєння даних на моделі NLP.
15. Шаофен Лі, Тянь Донг, Бенджамін Цзі Хао Чжао, Мінхуей Сюе, Сугуо Ду та Хаоджін Чжу, 2022. Бекдор проти обробки природної мови: огляд. IEEE Security & Privacy, 20(5):50–59
16. Юджін Хуан, Террі Юе Чжуо, Цюнкай Сю, Хань Ху, Сінлян Юань і Чуньян Чен 2023. Лексичні бекдор-атаки на мовні моделі без навчання.
17. Пояснення SolidGoldMagikarp, дивлячись на нього з випадкових напрямків
18. Фабіо Перес і Ян Рібейро. 2022. Ігнорувати попереднє: методи атаки на мовні моделі. препринт arXiv arXiv:2211.09527.
19. Яннік Кілчер. 2022. Chatgpt: Цей AI має джейлбрейк?! (неймовірний прогрес штучного інтелекту).
20. Баттіста Біджіо та Фабіо Ролі. 2018. Дикі шаблони: десять років після розквіту змагального машинного навчання. Розпізнавання образів 84 (2018), 317–331.
21. Ліген Чжу, Чжіцзянь Лю та Сон Хань. 2019. Глибокий витік із градієнтів. В Досягнення в обробці нейронної інформації s 32, H. Wallach, H. Larochelle, A. Beygelzimer, F. d'Alché-Buc, E. Fox і R. Garnett (Ред.). Curran Associates, Inc., Ванкувер, Канада, 14747–14756
22. Ніколас Папернот, Патрік МакДеніел, Арунеш Сінха та Майкл П. Велман. 2018. SoK: Безпека та конфіденційність у машинному навчанні. У 2018 році IEEE European Symposium on Security and Privacy (EuroS P). IEEE, Лондон, Великобританія, 399–414
23. Майкл Віл, Рубен Біннс і Ліліан Едвардс. 2018. Алгоритми, які пам’ятають: моделі інверсійних атак і закон про захист даних. Філософські праці Королівського товариства A: Математичні, фізичні та інженерні науки 376, 2133 (2018), 20180083
24. Реза Шокрі, Марко Стронаті, Конгжен Сонг і Віталій Шматіков. 2017. Атаки з виведення членства на моделі машинного навчання. У 2017 році IEEE Symposium on Security and Privacy (SP). IEEE, Сан-Франциско, Каліфорнія, США, 3–18
25. Сорамі Хісамото, Метт Пост і Кевін Дух. 2020. Атаки на основі висновку про членство на моделях послідовності: чи є мої дані у вашому машинному перекладі?
26. Кончжен Сонг і Віталій Шматіков. 2019. Аудит походження даних у моделях генерації тексту. У матеріалах 25-ї міжнародної конференції ACM SIGKDD з виявлення знань та аналізу даних (KDD '19). Асоціація обчислювальної техніки, Нью-Йорк, Нью-Йорк, США, 196–206.
27. Jinyuan Jia і Neil Zhenqiang Gong. 2018. AttriGuard: Практичний захист від атак з виведенням атрибутів за допомогою змагального машинного навчання. На 27-му симпозіумі безпеки USENIX (USENIX Security 18).
28. Метью Фредріксон, Ерік Ланц, Сомеш Джа, Саймон Лін, Девід Пейдж і Томас Рістенпарт. 2014. Конфіденційність у фармакогенетиці: наскрізне прикладне дослідження персоналізованого дозування варфарину.
29. Матвій Ягельський, Ніколас Карліні, Девід Бертло, Алекс Куракін і Ніколас Паперно. 2020. Висока точність і точність вилучення нейронних мереж
30. Binghui Wang і Neil Zhenqiang Gong. 2018. Крадіжка гіперпараметрів у машинному навчанні. У 2018 році IEEE Symposium on Security and Privacy (SP). IEEE, Сан-Франциско, Каліфорнія, США, 36–52
31. Сон Джун О, Макс Огюстен, Маріо Фріц і Бернт Шіле. 2018. На шляху до нейронних мереж чорного ящика зі зворотним проектуванням. На шостій міжнародній конференції з репрезентацій навчання. ICLR, Ванкувер, Канада.
32. Синтія Дворк і Аарон Рот. 2013. Алгоритмічні основи диференціальної конфіденційності. Основи та тенденції теоретичної інформатики 9, 3-4 (2013), 211–487