Говоря о конфиденциальности данных больших моделей, рассмотрим несколько распространенных методов атаки моделей.

Первоисточник: Оазис Капитал

Автор: Советник Виталити

Источник изображения: сгенерировано Unbounded AI‌

20 марта 2023 г. в ChatGPT произошла утечка данных, в результате чего была раскрыта личная информация некоторых пользователей ChatGPT. В связи с этим регулятор конфиденциальности Италии считает, что ChatGPT подозревается в незаконной обработке персональных данных, нарушении конфиденциальности и соответствующих правил GDPR. Впоследствии Италия стала первой страной, запретившей использование ChatGPT, что вызвало дискуссии в других странах ЕС о том, нужны ли более жесткие меры для контроля над этой технологией.

Почти все онлайн-сервисы собирают наши личные данные и могут использовать эти данные для обучения LLM. Однако трудно определить, как модель будет использовать данные, использованные для обучения. Если при обучении модели используются конфиденциальные данные, такие как географическое положение, медицинские записи и идентификационная информация, атаки с извлечением данных на личные данные в модели вызовут большое количество утечек конфиденциальности пользователей. Статья «Являются ли большие предварительно обученные языковые модели утечки вашей личной информации?» доказывает, что из-за памяти LLM обучающих данных LLM действительно имеет риск утечки личной информации в процессе диалога, и его риск увеличивается с количеством примеров. .

Есть несколько причин, по которым модель пропускает информацию. Некоторые из них носят структурный характер и связаны со способом построения модели, тогда как другие связаны с плохим обобщением, запоминанием конфиденциальных данных и т. д. В следующей статье мы сначала представим базовый процесс утечки данных, затем представим несколько распространенных методов атаки модели, таких как атака на конфиденциальность, джейлбрейк, отравление данных и атака с использованием бэкдора, и, наконец, представим некоторые текущие исследования по защите конфиденциальности.

I. Моделирование угроз

Базовая модель угроз LLM включает в себя общую модельную среду, различных действующих лиц и конфиденциальные активы. Конфиденциальные активы включают наборы обучающих данных, параметры модели, гиперпараметры модели и архитектуру. В число участников входят: владелец данных, владелец модели, потребитель модели и противник. На следующей диаграмме показаны активы, действующие лица, поток информации и возможный операционный поток в рамках модели угроз:

В таком базовом моделировании угроз владельцы данных владеют частными активами данных, владельцы моделей владеют параметрами модели и активами конфигурации, а потребители модели используют модель через API или пользовательский интерфейс. Ворующая сторона пытается получить активы частных данных или активы параметров модели с помощью определенных средств.

II. Атака на конфиденциальность

Атаки на конфиденциальность делятся на четыре основных типа: атаки на определение членства, атаки реконструкции, атаки на определение атрибутов и извлечение модели.

  1. Атака на основе членства (MIA)

Вывод о членстве пытается определить, используется ли входная выборка x как часть обучающего набора D. Например, при нормальных обстоятельствах личные данные пользователя будут храниться в тайне, но неконфиденциальная информация все равно может быть использована для спекуляций. Например, если мы знаем, что члены частного клуба любят носить фиолетовые солнцезащитные очки и красные кожаные туфли, то мы можем сделать вывод, что он, вероятно, является этим человеком, когда мы встречаем человека, который носит фиолетовые солнцезащитные очки и красные кожаные туфли (неконфиденциальная информация). ).Членство в закрытых клубах (конфиденциальная информация).

Атаки на основе вывода о членстве в настоящее время являются наиболее популярным методом атак на конфиденциальность, впервые предложенным Шокри и др. в статье «Атаки на основе вывода о членстве против моделей машинного обучения». В статье указывается, что эта атака предполагает знание только вектора предсказания выходных данных модели и выполняется против контролируемых моделей машинного обучения. Доступ к параметрам модели и градиентам позволяет проводить более точные атаки на вывод о членстве.

Типичный метод атаки на вывод о членстве называется теневой атакой, то есть обучение теневой модели на основе известных доступных наборов данных, а затем получение конфиденциальной информации путем опроса теневой модели.

В дополнение к моделям обучения с учителем, генеративные модели, такие как GAN и VAE, также уязвимы для атак на основе вывода о членстве. «GAN-Leaks: Таксономия атак на вывод о членстве против генеративных моделей» знакомит с проблемами GAN перед лицом атак с рассуждениями членов; рассказывает, как извлекать обучающие данные на основе понимания компонентов генерации данных; (MLM) модели также уязвимы для атак MIA, которые в некоторых случаях могут определить, принадлежат ли выборочные данные к обучающим данным.

С другой стороны, рассуждения о членстве также могут использоваться для проверки безопасности модели, а владельцы данных могут использовать рассуждения о членстве для проверки моделей черного ящика. «Атаки на определение членства в моделях «последовательность-последовательность»: есть ли мои данные в вашем машинном переводе?» описывает, как владельцы данных могут увидеть, используются ли данные без разрешения.

«Атаки на основе вывода о членстве против моделей машинного обучения» исследуют связь между переобучением и выводом о принадлежности к черному ящику. Авторы измеряют влияние переобучения на точность атаки, используя один и тот же набор данных для обучения моделей на разных платформах MLaaS. Эксперименты показывают, что переобучение может привести к утечке конфиденциальности, но также указывают, что это не единственный случай, поскольку некоторые модели с высокой степенью обобщения более склонны к утечке членства.

  1. Атаки реконструкции

Атаки реконструкции пытаются реконструировать несколько обучающих выборок вместе с их обучающими метками, т. Е. Пытаются восстановить конфиденциальные функции или полные выборки данных с заданными выходными метками и частичным знанием определенных функций. Например, посредством инверсии модели информация, полученная в интерфейсе модели, реконструируется в обратном порядке, и восстанавливается конфиденциальная информация пользователя, такая как биологические характеристики и медицинские записи в обучающих данных, как показано на следующем рисунке:

В атаках реконструкции более высокие ошибки обобщения приводят к более высокой вероятности вывода атрибутов данных. В статье «Открыватель секрета: генеративные атаки с инверсией модели против глубоких нейронных сетей» авторы демонстрируют, что модели с высокой предсказательной силой более уязвимы для атак рефакторинга, исходя из предположения, что знания противника слабее. Подобно уязвимости в выводе о членстве, память и извлечение данных вне распределения также уязвимы для атак реконструкции для недообучения моделей.

  1. Атаки на вывод атрибутов

Атаки на вывод атрибутов относятся к использованию общедоступных атрибутов и структур для вывода скрытых или неполных данных атрибутов. Примером может служить извлечение информации о соотношении мужчин и женщин в наборе данных пациентов или для модели с гендерной классификацией, чтобы сделать вывод о том, носят ли люди в обучающем наборе данных очки. В некоторых случаях этот тип утечки может повлиять на конфиденциальность.

В статье «Взлом умных машин с более умными: как извлечь значимые данные из классификаторов машинного обучения» упоминается, что использование определенных типов атрибутивных данных также можно использовать для более глубокого понимания обучающих данных, побуждая других использовать эту информацию для составления воедино более глобальная картина.

В статье «Вы тот, кого вы знаете, и как вы ведете себя: атаки с выводом атрибутов через друзей и поведение пользователей в социальных сетях» представлен тип метода атаки с выводом атрибутов, который заключается в блокировке и извлечении другой информации о пользователе через известное поведение пользователя. сам пользователь. «AttriGuard: практическая защита от атак с выводом атрибутов с помощью состязательного машинного обучения» представляет некоторые методы защиты от атак с выводом атрибутов.

Обоснование атрибутов направлено на извлечение информации из модели, которая непреднамеренно изучена моделью или не имеет отношения к задаче обучения. Даже хорошо обобщенные модели могут изучать свойства, относящиеся ко всему распределению входных данных, что иногда неизбежно в процессе обучения модели.

«Использование непреднамеренной утечки признаков в совместном обучении» демонстрирует, что атаки на вывод атрибутов возможны даже с хорошо обобщенными моделями, поэтому переоснащение, по-видимому, не является причиной атак на вывод атрибутов. Что касается атак с выводом атрибутов, в настоящее время имеется мало информации о том, что их вызывает и при каких обстоятельствах они кажутся эффективными, что может быть многообещающим направлением для будущих исследований.

  1. Атака извлечения модели

Извлечение модели — это класс атак методом «черного ящика», в которых злоумышленник пытается извлечь информацию и, возможно, полностью реконструировать модель, создав суррогатную модель, которая ведет себя очень похоже на атакуемую модель.

«Извлечение модели API-интерфейсов на основе BERT», «Реконструкция модели на основе пояснений модели», «Поддельные сети: кражи функций моделей черного ящика», «Высокоточное и высокоточное извлечение нейронных сетей» несколько статей, объясненных с разных точек зрения Некоторые попытки при атаках извлечения модели.

Существует два основных этапа создания суррогатной модели. Первый этап — извлечение точности задачи, когда набор тестов, относящихся к задаче обучения, извлекается из распределения входных данных для создания модели, которая соответствует точности целевой модели. Второй шаг — извлечение точности, т. е. приведение созданных суррогатов в соответствие с моделью в наборе, не связанном с учебной задачей, для соответствия цели. При извлечении с точностью до задачи цель состоит в том, чтобы создать суррогат, который может изучить ту же задачу так же хорошо или лучше, чем целевая модель. При извлечении достоверности цель состоит в том, чтобы попытаться максимально точно воспроизвести границу решения с помощью суррогата.

В дополнение к созданию суррогатных моделей существуют методы, направленные на восстановление информации из целевой модели, такие как кража гиперпараметров в целевой модели, упомянутая в разделе «Кража гиперпараметров в машинном обучении» или «На пути к обратному проектированию нейронных сетей черного ящика». об извлечении функций активации, алгоритмов оптимизации, количества слоев и т. д. для различных архитектур нейронных сетей и т. д.

В статье «На пути к обратному проектированию нейронных сетей черного ящика» показано, что когда атакуется модель с соответствием набора тестов выше 98%, можно украсть параметры модели с помощью атаки извлечения. Кроме того, в «ML-Doctor: целостная оценка рисков атак логического вывода против моделей машинного обучения» показано, что модели с более высокой ошибкой обобщения труднее украсть, возможно, потому, что модель запоминает наборы данных, которые не принадлежат взломщику образцов. Другим фактором, который может повлиять на успешность извлечения модели, является категория данных тестового набора: чем больше категорий данных, тем хуже производительность атаки.

На рисунке выше показан график типов атак для каждого модельного алгоритма. Под каждым алгоритмом или полем машинного обучения зеленый цвет указывает на то, что применимые типы атак уже изучены, а красный цвет указывает на то, что подходящие типы атак не найдены.

III. Взлом модели

Модель джейлбрейка заключается в том, чтобы заставить LLM генерировать вырожденное поведение вывода некоторыми способами, например, оскорбительным выводом, нарушением вывода контроля контента или выводом утечки личных данных. Все больше и больше исследований показывают, что даже неопытные пользователи могут сделать джейлбрейк LLM, просто манипулируя подсказками.

Например, в следующем примере целью разработчика является создание модели перевода. В сценарии есть два пользователя, первый пользователь доброжелателен и использует модель по назначению, а второй пользователь пытается изменить цель модели, вводя вредоносные данные. В этом примере языковая модель отвечает «Ха-ха pwned!!» вместо фактического перевода предложения. В этой ситуации с побегом из тюрьмы реакция модели может быть спроектирована с различными намерениями, от захвата цели (просто невыполнение задачи) до создания оскорбительного расистского текста или даже публикации частной, служебной информации.

### IV. Отравление данными

Отравление данными — это особый вид состязательной атаки, представляющий собой технику атаки на поведение генеративных моделей. Злоумышленники могут использовать отравление данных, чтобы открыть себе черный ход в модели, тем самым минуя системы, контролируемые алгоритмами.

Для человеческого глаза три изображения ниже показывают три разных объекта: птицу, собаку и лошадь. Но для алгоритмов машинного обучения все три, вероятно, означают одно и то же: маленький белый прямоугольник с черной рамкой. Этот пример иллюстрирует опасное свойство моделей машинного обучения, которое можно использовать для неправильной классификации данных.

Атаки с отравлением данных направлены на изменение обучающей выборки модели путем вставки неверно помеченных данных, чтобы обманным путем заставить ее делать неверные прогнозы. Успешная атака ставит под угрозу целостность модели, приводя к постоянным ошибкам в прогнозах модели. Если модель отравлена, восстановиться после атаки очень сложно, а некоторые разработчики могут даже отказаться от модели.

В статье «RealToxicitys: устранение токсической дегенерации нейронов в языковых моделях» упоминается способ предоставить GPT-2 набор текстовых подсказок для раскрытия внутренних параметров его модели. «Скрытые атаки с отравлением данных на модели НЛП» исследуют, как можно изменить обучающие данные, чтобы заставить языковые модели работать со сбоями и генерировать текст, который не соответствует цели.

Хотя отравление данных очень опасно, для его распространения злоумышленнику требуется доступ к конвейеру обучения модели машинного обучения. Таким образом, модели, которые постоянно собирают итерации данных, или модели, основанные на федеративном обучении, должны уделять особое внимание влиянию отравления данных.

V. Бэкдор-атака

Бэкдор-атака — это скрытая вставка или изменение текста, чтобы вызвать вредоносный вывод из языковой модели. В статье «Бэкдоры против обработки естественного языка: обзор» рассматривается проблема бэкдор-атак, когда определенные уязвимости передаются модели во время обучения и могут вызвать активацию токсичности модели за счет использования словарного запаса.

Он отличается от отравления данных тем, что ожидаемая функциональность модели сохраняется. «Лексические бэкдор-атаки без обучения на языковые модели» предлагают метод, называемый лексической бэкдор-атакой без обучения (TFLexAttack), который включает в себя манипулирование встраиваемым словарем путем введения лексических «триггеров» в токенизатор языковой модели.

Феномен SolidGoldMagikarp

Феномен SolidGoldMagikarp — это типичное явление бэкдор-атаки**,** при вводе «SolidGoldMgikarp» в ChatGPT он отвечает только одним словом: «распространить». Когда его просят повторить «StreamerBot», он отвечает: «Ты придурок». Когда его попросили повторить «TheNitromeFan», он ответил «182». И если вы поместите слово в одинарные кавычки, его ответ будет бесконечным «The». На вопрос, кто такой TheNitromeFan, ChatGPT ответил: «182 — это число, а не человек. Оно часто используется для обозначения самого числа».

Феномен SolidGoldMagikarp относится к использованию токенизатора OpenAI GPT для определения конкретных токенов, о которых модель не может говорить, а также токенов, из-за которых модель выводит искаженный текст. В статье «Объясняя SolidGoldMagikarp, глядя на него со случайных направлений» исследуются возможные причины этого явления.

Ниже приведены некоторые из наиболее частых и важных типов бэкдор-атак.

A. На основе команд

** а. Прямые инструкции: ** Эти атаки могут в основном относиться к «Игнорировать предыдущие: методы атаки для языковых моделей», которые просто предписывают модели игнорировать предыдущие подсказки и назначать новые задачи в текущем местоположении.

b. Когнитивные атаки: наиболее распространенный тип атак, когда LLM обычно «обманывает» его, заставляя выполнять неуместные действия, которые он в противном случае не выполнил бы, предоставляя «безопасное пространство» или гарантируя такой ответ. «Chatgpt: у этого ИИ есть джейлбрейк?!» документирует некоторые попытки таких атак против ChatGPT.

c. Повторение инструкций. Эти типы атак включают ввод одной и той же инструкции несколько раз, чтобы создать впечатление, что злоумышленник «выпрашивает» языковую модель. Попрошайничество в прямом смысле можно выразить и словами.

г. Косвенное отклонение миссии: Эта атака направлена на то, чтобы выдать себя за другую вредоносную миссию. Эта атака нацелена на модели, которые обычно не следуют вредоносным инструкциям.

B. На основании не инструкций

а. Грамматическое преобразование: этот тип атаки включает в себя ортогональное преобразование текста атаки, например, с использованием LeetSpeak или Base64, для обхода фильтров содержимого, которые могут существовать в приложении, и модель может по своей природе преобразовать этот закодированный текст.

b. Несколько лайфхаков: простой подход, включающий парадигмы обучения языковой модели. При таком подходе атака включает в себя несколько текстовых функций, которые могут быть нацелены на злонамеренно неуместные модели. Например, в эту категорию попадает феномен SolidGoldMagikarp.

c. Завершение текста как инструкции: эти атаки работают, снабжая модель неполными предложениями, тем самым вынуждая модель завершать предложение и игнорируя в процессе свои предыдущие инструкции, что приводит к неправильному размещению.

### VI.Защита модели

Исследование того, как защититься от модельных атак, является сложной и важной задачей. В большинстве работ по анализу безопасности предлагаются и тестируются способы смягчения соответствующих атак Ниже приведены некоторые типичные методы защиты.

  1. Дифференциальная конфиденциальность

Дифференциальная конфиденциальность в настоящее время является одним из наиболее известных средств защиты от атак на основе вывода о членстве, которое обеспечивает гарантии безопасности для отдельных данных в выходных данных модели. Обсуждение дифференциальной конфиденциальности происходит из статьи «Алгоритмические основы дифференциальной конфиденциальности».

Дифференциальная конфиденциальность добавляет шум к выходным данным модели, что делает невозможным для злоумышленника строго различить два набора данных статистически на основе выходных данных. Дифференциальная конфиденциальность изначально была определением конфиденциальности для анализа данных, которое было разработано на основе идеи «получения полезной информации о населении, не зная ни одного человека». Дифференциальная конфиденциальность не защищает безопасность конфиденциальности всего набора данных, но защищает личные данные каждого человека в наборе данных с помощью механизма шума.

Математическое определение дифференциальной конфиденциальности выглядит следующим образом:

Дифференциальная конфиденциальность представляет собой компромисс между защитой конфиденциальности и точностью полезности или модели. Оценки в «Атаке вывода о членстве против дифференциально частной модели глубокого обучения» пришли к выводу, что модели обеспечивают защиту конфиденциальности только в том случае, если они значительно жертвуют своей полезностью.

  1. Регуляризация

Методы регуляризации в машинном обучении направлены на уменьшение переобучения и повышение производительности обобщения модели. Dropout — это широко используемая форма регуляризации, которая случайным образом отбрасывает предопределенный процент единиц нейронной сети во время обучения. Учитывая, что атаки методом вывода о принадлежности к черному ящику связаны с переоснащением, это разумный способ борьбы с такими атаками, и в нескольких статьях он предлагался в качестве защиты с хорошими результатами.

Другая форма регуляризации с использованием методов, объединяющих несколько отдельно обученных моделей, таких как наложение моделей, дала положительные результаты против атак логического вывода. Одним из преимуществ наложения моделей или подобных методов является то, что они не зависят от класса модели.

  1. Подделка вектора предсказания

Поскольку многие модели предполагают, что вектор предсказания доступен во время логического вывода, одной из предлагаемых контрмер является ограничение вывода топ-k классов или предсказаний модели. Однако это ограничение, даже в его самой строгой форме (вывод только меток классов), по-видимому, не полностью смягчает атаки на основе вывода о членстве, поскольку утечка информации все еще может происходить из-за неправильной классификации модели. Другой вариант — снизить точность прогнозируемых векторов, тем самым уменьшив утечку информации.

Кроме того, было показано, что добавление шума к выходному вектору также влияет на атаки с выводом о членстве.

  1. Регулировка градиента (настройка градиента потерь)

Поскольку атаки реконструкции обычно требуют доступа к градиентам потерь во время обучения, большинство средств защиты от атак реконструкции предлагают методы, которые влияют на информацию, извлекаемую из этих градиентов. Обнуление всех градиентов потерь ниже определенного порога предлагается в качестве защиты от атак реконструкции в глубоком обучении. Статья «Глубокая утечка из градиентов» доказывает, что этот метод очень эффективен, и когда только 20% градиентов установлены равными нулю, влияние на производительность модели незначительно.

  1. Предотвращение атак кражи моделей DNN (PRADA)

«PRADA: защита от атак кражи модели DNN» предлагает метод обнаружения атак кражи модели на основе запросов модели, используемых злоумышленником. Обнаружение основано на предположении, что модельные запросы, пытающиеся исследовать границы решений, будут иметь другое распределение выборки, чем обычные запросы. Хотя обнаружение успешно, авторы отмечают, что существует возможность уклонения, если противник скорректирует свою стратегию.

  1. Вывод о членстве

«Воры на улице Сезам! Извлечение модели из API на основе BERT» исследует идею использования вывода о членстве для защиты от извлечения модели. Он основан на предпосылке, что с помощью вывода о членстве владельцы моделей могут отличать законные пользовательские запросы от бессмысленных запросов, единственной целью которых является извлечение моделей. Авторы отмечают, что этот тип защиты имеет ограничения, такие как потенциальное помечание законных, но не распространяемых запросов, отправленных законными пользователями, но, что более важно, злоумышленники могут обойти их, выполняя адаптивные запросы.

  1. Настроить по подсказке

В разделе «Управление извлечением запомненных данных из больших языковых моделей с помощью -Tuning» предлагается новый метод, который использует настройку подсказок для управления скоростью извлечения запомненного содержимого в LLM. Они предлагают две стратегии обучения подсказкам для увеличения и уменьшения скорости извлечения, соответствующие атаке и защите соответственно.

VII. Заключение

  1. LLM по-прежнему имеет относительно большой риск безопасности и риск утечки конфиденциальной информации.

  2. Атака с целью извлечения структуры модели и данных по сути является атакой на конфиденциальность модели.

  3. Основные исследования в академическом сообществе в настоящее время сосредоточены на том, как атаковать модель и принцип утечки данных.

  4. Часть механизма, вызвавшего утечку данных LLM, до сих пор неясна

  5. Такие методы, как дифференциальная конфиденциальность, фальсификация вектора предсказания и т. д., могут в определенной степени защитить конфиденциальность данных, и эти методы сосредоточены на этапе обучения модели.

  6. Существующие меры защиты несовершенны и должны жертвовать производительностью и точностью модели.

________

Ссылка:

1. Калпеш Кришна, Гаурав Сингх Томар, Анкур П. Парих, Николас Паперно и Мохит Ийер. 2020. Воры на Улице Сезам! Извлечение модели API на основе BERT. На Международной конференции по обучающим представлениям. ICLR, виртуальная конференция, ранее Аддис-Абеба, Эфиопия.

2. Делитель секретов: выявление и тестирование непреднамеренного запоминания в нейронных сетях

3. Мартин Абади, Энди Чу, Ян Дж. Гудфеллоу, Х. Б. МакМахан, Илья Миронов, Кунал Талвар и Ли Чжан. 2016. Глубокое обучение с дифференциальной конфиденциальностью

4. Джузеппе Афинян, Луиджи В. Манчини, Анджело Спогнарди, Антонио Виллани, Доменико Витали и Джованни Феличи. 2015. Взлом умных машин с помощью более умных: как извлечь значимые данные из классификаторов машинного обучения.

5. Баргав Джаяраман и Дэвид Эванс. 2019. Использование дифференциально частного машинного обучения на практике. На 28-м симпозиуме по безопасности USENIX (USENIX Security 19). Ассоциация USENIX, Санта-Клара, Калифорния, 1895–1912 гг.

6. Защита от атак на основе вывода о членстве без потери полезности

7. Югэн Лю, Руй Вен, Синьлей Хэ, Ахмед Салем, Чжикунь Чжан, Майкл Бэкес, Эмилиано Де Кристофаро, Марио Фриц и Ян Чжан. 2021. ML-Doctor: Целостная оценка рисков атак на основе логического вывода против моделей машинного обучения

8. Как обмануть LLM в непослушании: понимание, анализ и предотвращение джейлбрейка

9. Мария Ригаки и Себастьян Гарсия. 2021. Обзор атак на конфиденциальность в машинном обучении

10. Николас Карлини, Флориан Трамер, Эрик Уоллес, Мэтью Ягельски, Ариэль Герберт-Восс, Кэтрин Ли, Адам Робертс, Том Браун, Дон Сонг, Ульфар Эрлингссон, Алина Опря и Колин Раффель. 2021. Извлечение обучающих данных из больших языковых моделей

11. Сэмюэл Гехман, Сучин Гуруранган, Маартен Сап, Еджин Чой и Ной А. Смит. 2020. RealToxi-city s: изучение нейротоксической дегенерации в языковых моделях.

12. Венлонг Хуанг, Питер Аббил, Дипак Патхак и Игорь Мордатч. 2022б. Языковые модели как планировщики с нулевым выстрелом: извлечение практических знаний для воплощенных агентов. В ICML 2022, том 162 Proceedings of Machine Learning Research, страницы 9118–9147. ПМЛР

13. Итан Перес, Саффрон Хуанг, Фрэнсис Сонг, Тревор Кай, Роман Ринг, Джон Асланидес, Амелия Глэз, Нат Макалис и Джеффри Ирвинг. 2022. Языковые модели Red teaming с языковыми моделями.

14. Эрик Уоллес, Тони Чжао, Ши Фэн и Самир Сингх. Скрытые атаки с отравлением данных на модели НЛП.

15. Шаофэн Ли, Тянь Донг, Бенджамин Цзы Хао Чжао, Минхуэй Сюэ, Сугуо Ду и Хаоджин Чжу, 2022. Бэкдоры против обработки естественного языка: обзор, IEEE Security & Privacy, 20(5):50–59

16. Юджин Хуан, Терри Юэ Чжо, Цюнкай Сюй, Хань Ху, Синлян Юань и Чунян Чен, 2023. Лексические бэкдор-атаки на языковые модели без обучения.

17. Объясняя SolidGoldMagikarp, глядя на него со случайных направлений

18. Фабио Перес и Ян Рибейро. 2022. Игнорировать предыдущее: Методы атаки на языковые модели. Препринт arXiv arXiv: 2211.09527.

19. Янник Килчер. 2022. Chatgpt: У этого ай побег из тюрьмы?! (невероятный прогресс ИИ).

20. Баттиста Биджио и Фабио Роли. 2018. Дикие шаблоны: десять лет после появления состязательного машинного обучения. Распознавание образов 84 (2018), 317–331.

21. Лигэн Чжу, Чжицзянь Лю и Сун Хань. 2019. Глубокая утечка из-за градиентов. В Достижениях в области обработки нейронной информации, стр. 32, Х. Уоллах, Х. Ларошель, А. Бейгельцимер, Ф. д'Альше-Бук, Э. Фокс и Р. Гарнетт (ред.). Curran Associates, Inc., Ванкувер, Канада, 14747–14756

22. Николас Паперно, Патрик Макдэниел, Арунеш Синха и Майкл П. Веллман. 2018. SoK: безопасность и конфиденциальность в машинном обучении. В 2018 году на Европейском симпозиуме IEEE по безопасности и конфиденциальности (EuroS P). IEEE, Лондон, Великобритания, 399–414

23. Майкл Вил, Рубен Биннс и Лилиан Эдвардс. 2018. Алгоритмы, которые помнят: атаки с инверсией модели и закон о защите данных. Philosophical Transactions of the Royal Society A: Mathematical, Physical and Engineering Sciences 376, 2133 (2018), 20180083

24. Реза Шокри, Марко Стронати, Цунчжэн Сонг и Виталий Шматиков. 2017. Атаки на основе вывода о членстве против моделей машинного обучения. В 2017 г. симпозиум IEEE по безопасности и конфиденциальности (SP). IEEE, Сан-Франциско, Калифорния, США, 3–18

25. Сорами Хисамото, Мэтт Пост и Кевин Да. 2020. Атаки на основе вывода о принадлежности к моделям последовательностей: есть ли мои данные в вашем машинном переводе?

26. Цунчжэн Сонг и Виталий Шматиков. 2019. Аудит происхождения данных в моделях генерации текста. В материалах 25-й Международной конференции ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных (KDD '19). Ассоциация вычислительной техники, Нью-Йорк, штат Нью-Йорк, США, 196–206.

27. Цзиньюань Цзя и Нил Чжэньцян Гонг. 2018. AttriGuard: практическая защита от атак с выводом атрибутов с помощью состязательного машинного обучения. На 27-м симпозиуме по безопасности USENIX (USENIX Security 18).

28. Мэтью Фредриксон, Эрик Ланц, Сомеш Джа, Саймон Лин, Дэвид Пейдж и Томас Ристенпарт. 2014. Конфиденциальность в фармакогенетике: комплексное исследование индивидуального дозирования варфарина.

29. Мэтью Ягельски, Николас Карлини, Дэвид Бертло, Алекс Куракин и Николас Паперно. 2020. Высокая точность и достоверность извлечения нейронных сетей

30. Бинхуэй Ван и Нил Чжэньцян Гонг. 2018. Кража гиперпараметров в машинном обучении. В 2018 году симпозиум IEEE по безопасности и конфиденциальности (SP). IEEE, Сан-Франциско, Калифорния, США, 36–52

31. Сон Джун О, Макс Огюстен, Марио Фриц и Бернт Шиле. 2018. На пути к обратному проектированию нейронных сетей черного ящика. На Шестой международной конференции по обучающим представлениям. ICLR, Ванкувер, Канада.

32. Синтия Дворк и Аарон Рот. 2013. Алгоритмические основы дифференциальной конфиденциальности. Основы и тенденции теоретической информатики 9, 3–4 (2013), 211–487

Посмотреть Оригинал
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Награда
  • комментарий
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить