ChatGPT, Llama-2 и другие крупные модели могут вывести ваши данные о конфиденциальности!

Первоисточник: AIGC Open Community

Источник изображения: Generated by Unbounded AI

Насколько мощны большие языковые модели, такие как ChatGPT, для рассуждений? Из сделанных вами сообщений или некоторых личных данных вы можете вывести свой адрес, возраст, пол, род занятий, доход и другие личные данные.

Швейцарский федеральный технологический институт собрал и вручную аннотировал PersonalReddit, реальный набор данных из 520 пользователей Reddit, включая личные данные, такие как возраст, образование, пол, род занятий, семейное положение, место жительства, место рождения и доход.

Затем исследователи использовали девять основных больших языковых моделей, включая GPT-4, Claude-2 и Llama-2, для выполнения конкретных вопросов и вывода данных о конфиденциальности на наборе данных PersonalReddit.

Результаты показывают, что эти модели могут достигать точности от 1 до 95,8% и могут автоматически выводить различные реальные данные о конфиденциальности, скрытые в тексте, просто анализируя текстовый контент пользователя. **

Адрес:

Исследователи также отметили, что в Соединенных Штатах для определения точной личности половины населения требуется всего несколько атрибутов, таких как местоположение, пол и дата рождения.

Это означает, что если нелегальное лицо получает сообщение или какую-либо личную информацию, сделанную кем-то в Интернете, и использует большую языковую модель, чтобы рассуждать об этом, он может легко получить конфиденциальные данные о конфиденциальности, такие как его повседневные хобби, привычки работы и отдыха, род занятий и домашний адрес.

Создание набора данных PersonalReddit

Исследователи создали набор данных личных атрибутов реальных пользователей Reddit, PersonalReddit. Набор данных содержит биографии 520 пользователей Reddit с общим количеством 5 814 комментариев. Обзор охватывает период с 2012 по 2016 год.

Существует 8 категорий личных признаков, включая возраст, образование, пол, род занятий, семейное положение, место жительства, место рождения и доход. Исследователи вручную аннотировали каждый профиль пользователя, чтобы получить точные атрибутивные метки в качестве реальных данных для проверки эффекта вывода модели.

Построение датасета руководствуется двумя ключевыми принципами:

  1. Содержание комментариев должно действительно отражать особенности языка, используемого в Интернете. Поскольку пользователи в основном взаимодействуют с языковыми моделями через онлайн-платформы, онлайн-корпуса являются репрезентативными и универсальными.

  2. Типы личных атрибутов должны быть разными, чтобы отражать требования различных правил защиты конфиденциальности. Существующие наборы данных часто содержат только 1-2 категории атрибутов, и исследования должны оценивать способность модели выводить более широкий спектр личной информации.

Кроме того, исследователи попросили аннотаторов оценить каждый атрибут, указав, насколько легко было аннотировать и насколько уверен в себе аннотатор. Уровень сложности колеблется от 1 (очень легко) до 5 (очень сложно). Если информация об атрибутах недоступна непосредственно из текста, аннотаторам разрешается проверить ее с помощью традиционной поисковой системы.

Состязательное взаимодействие

Учитывая растущее число приложений лингвистических чат-ботов, исследователи также создали сценарий состязательного разговора для имитации взаимодействия в реальном мире.

Был разработан вредоносный чат-бот на основе большой языковой модели, якобы в качестве полезного помощника в путешествиях, в то время как скрытая задача заключалась в том, чтобы попытаться извлечь личную информацию пользователя, такую как место проживания, возраст и пол.

В смоделированных разговорах чат-боты могут направлять пользователей к раскрытию релевантных подсказок с помощью, казалось бы, безобидных вопросов и точно выводить их личные конфиденциальные данные после нескольких раундов взаимодействия, проверяя осуществимость этого состязательного подхода.

Тестовые данные

Исследователи выбрали девять основных больших языковых моделей для тестирования, включая GPT-4, Claude-2, Llama-2 и другие. Все комментарии каждого пользователя инкапсулируются в определенном формате приглашения и передаются в различные языковые модели, которые необходимы для вывода выводов об атрибутах пользователя.

Затем результаты прогнозирования модели сравниваются с реальными данными, аннотированными меткой человека, чтобы получить точность вывода атрибутов каждой модели.

Результаты эксперимента показывают, что общий показатель точности топ-1 GPT-4 достигает 84,6%, а показатель точности топ-3 достигает 95,1%, что практически сопоставимо с эффектом профессиональной ручной аннотации, но стоимость составляет всего около 1% от ручного аннотирования.

Также существует очевидный эффект масштабирования между различными моделями, и чем больше количество параметров, тем лучше эффект. Это доказывает, что ведущие в настоящее время языковые модели приобрели сильную способность выводить личную информацию из текста.

Оценка защитных мер

Исследователи также оценили текущие меры по защите личных данных как от клиента, так и от сервера. На стороне клиента они протестировали обработку текста, выполняемую ведущими в отрасли инструментами анонимизации текста.

Результаты показывают, что даже если большая часть личной информации будет удалена, GPT-4 все равно сможет точно определить личные данные, включая местоположение и возраст, используя оставшиеся лингвистические признаки.

С точки зрения серверной части, существующие коммерческие модели не согласованы и не оптимизированы для утечки конфиденциальности, а текущие контрмеры по-прежнему не могут эффективно предотвращать вывод языковых моделей.

С одной стороны, исследование демонстрирует превосходную способность больших языковых моделей, таких как GPT-4, к логическим выводам, а с другой стороны, призывает обратить внимание на влияние больших языковых моделей на конфиденциальность не только для обучения памяти данных, но и требует более широких мер защиты для снижения риска утечки конфиденциальности, вызванной логическим выводом.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить