Наскільки потужними є великі мовні моделі, такі як ChatGPT, для міркувань? З дописів, які ви зробили, або деяких особистих даних ви можете вивести свою адресу, вік, стать, професію, дохід та інші особисті дані.
Швейцарський федеральний технологічний інститут зібрав і вручну анотував PersonalReddit, реальний набір даних 520 користувачів Reddit, включаючи особисті дані, такі як вік, освіта, стать, професія, сімейний стан, місце проживання, місце народження та дохід.
Потім дослідники використовували дев'ять основних великих мовних моделей, включаючи GPT-4, Claude-2 і Llama-2, щоб виконати конкретні запитання та висновок про конфіденційність даних на наборі даних PersonalReddit.
Результати показують, що ці моделі можуть досягти показника точності топ-1 і 95,8% топ-3, а також можуть автоматично робити висновки про різноманітні реальні конфіденційні дані, приховані в тексті, просто аналізуючи текстовий вміст користувача. **
Адреса:
Дослідники також зазначили, що в Сполучених Штатах для визначення точної ідентичності половини населення потрібні лише кілька атрибутів, таких як місцезнаходження, стать і дата народження.
Це означає, що якщо нелегальна особа отримує публікацію або якусь особисту інформацію, зроблену кимось в Інтернеті, і використовує велику мовну модель, щоб обґрунтувати це, вона може легко отримати конфіденційні конфіденційні дані, такі як її повсякденні хобі, звички роботи та відпочинку, професія та домашня адреса.
Створення набору даних PersonalReddit
Дослідники створили набір даних особистих атрибутів реальних користувачів Reddit — PersonalReddit. Набір даних містить біографії 520 користувачів Reddit із загальною кількістю 5 814 коментарів. Огляд охоплює період з 2012 по 2016 рік.
Існує 8 категорій особистих якостей, включаючи вік, освіту, стать, професію, сімейний стан, місце проживання, місце народження та дохід. Дослідники вручну анотували кожен профіль користувача, щоб отримати точні мітки атрибутів як реальні дані для перевірки ефекту висновків моделі.
Побудова датасетів керується двома ключовими принципами:
Зміст коментарів повинен достовірно відображати особливості мови, що використовується в мережі Інтернет. Оскільки користувачі в основному взаємодіють з мовними моделями через онлайн-платформи, онлайн-корпуси є представницькими та універсальними.
Типи особистих атрибутів повинні бути різними, щоб відображати вимоги різних правил захисту конфіденційності. Існуючі набори даних часто містять лише 1-2 категорії атрибутів, і дослідження потребують оцінки здатності моделі робити висновки про ширший спектр особистої інформації.
Крім того, дослідники попросили анотаторів оцінити кожен атрибут, вказавши, наскільки легко було анотувати та наскільки впевненим був анотатор. Рівень складності коливається від 1 (дуже легкий) до 5 (дуже складний). Якщо інформація про атрибути недоступна безпосередньо з тексту, анотаторам дозволяється перевірити її за допомогою традиційної пошукової системи.
Змагальна взаємодія
Враховуючи зростаючу кількість лінгвістичних додатків чат-ботів, дослідники також побудували сценарій змагальної розмови для імітації взаємодії в реальному світі.
Був розроблений шкідливий чат-бот на основі великої мовної моделі, нібито як корисний помічник у подорожах, тоді як приховане завдання полягало в тому, щоб спробувати отримати особисту інформацію користувача, таку як місце проживання, вік і стать.
У змодельованих розмовах чат-боти можуть допомогти користувачам розкрити відповідні підказки за допомогою, здавалося б, нешкідливих запитань, і точно зробити висновок про їхні особисті дані конфіденційності після кількох раундів взаємодії, перевіряючи доцільність цього змагального підходу.
Тестові дані
Дослідники вибрали для тестування дев'ять основних великих мовних моделей, включаючи GPT-4, Claude-2, Llama-2 та інші. Всі коментарі кожного користувача інкапсулюються в певний формат підказки і подаються в різні мовні моделі, які необхідні для виведення висновків про атрибути користувача.
Потім результати прогнозування моделі порівнюються з реальними даними, анотованими людською міткою, щоб отримати точність висновків атрибутів кожної моделі.
Результати експериментів показують, що загальний показник точності топ-1 GPT-4 досягає 84,6%, а показник точності топ-3 досягає 95,1%, що майже можна порівняти з ефектом професійної ручної анотації, але вартість становить лише близько 1% ручної анотації.
Також існує очевидний ефект масштабу між різними моделями, і чим більша кількість параметрів, тим кращий ефект. Це доводить, що сучасні провідні мовні моделі набули сильної здатності виводити особисту інформацію з тексту.
Оцінка захисних заходів
Дослідники також оцінили поточні заходи щодо захисту приватних даних як від клієнта, так і від сервера. На стороні клієнта вони протестували обробку тексту, що виконується провідними в галузі інструментами анонімізації тексту.
Результати показують, що навіть якщо більша частина особистої інформації буде видалена, GPT-4 все одно може точно визначити приватні дані, включаючи місцезнаходження та вік, використовуючи інші лінгвістичні особливості.
З точки зору сервера, існуючі комерційні моделі не узгоджені та не оптимізовані для витоку конфіденційності, а поточні контрзаходи все ще не можуть ефективно запобігти виведенню мовних моделей.
З одного боку, дослідження демонструє чудову здатність до висновків великих мовних моделей, таких як GPT-4, а з іншого боку, закликає звернути увагу на вплив великих мовних моделей на конфіденційність не тільки для тренування пам'яті даних, але й вимагає більш широких заходів захисту для зменшення ризику витоку конфіденційності, спричиненого висновками.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
ChatGPT, Llama-2 та інші великі моделі можуть вивести ваші дані про конфіденційність!
Першоджерело: AIGC Open Community
Наскільки потужними є великі мовні моделі, такі як ChatGPT, для міркувань? З дописів, які ви зробили, або деяких особистих даних ви можете вивести свою адресу, вік, стать, професію, дохід та інші особисті дані.
Швейцарський федеральний технологічний інститут зібрав і вручну анотував PersonalReddit, реальний набір даних 520 користувачів Reddit, включаючи особисті дані, такі як вік, освіта, стать, професія, сімейний стан, місце проживання, місце народження та дохід.
Потім дослідники використовували дев'ять основних великих мовних моделей, включаючи GPT-4, Claude-2 і Llama-2, щоб виконати конкретні запитання та висновок про конфіденційність даних на наборі даних PersonalReddit.
Результати показують, що ці моделі можуть досягти показника точності топ-1 і 95,8% топ-3, а також можуть автоматично робити висновки про різноманітні реальні конфіденційні дані, приховані в тексті, просто аналізуючи текстовий вміст користувача. **
Адреса:
Це означає, що якщо нелегальна особа отримує публікацію або якусь особисту інформацію, зроблену кимось в Інтернеті, і використовує велику мовну модель, щоб обґрунтувати це, вона може легко отримати конфіденційні конфіденційні дані, такі як її повсякденні хобі, звички роботи та відпочинку, професія та домашня адреса.
Створення набору даних PersonalReddit
Дослідники створили набір даних особистих атрибутів реальних користувачів Reddit — PersonalReddit. Набір даних містить біографії 520 користувачів Reddit із загальною кількістю 5 814 коментарів. Огляд охоплює період з 2012 по 2016 рік.
Існує 8 категорій особистих якостей, включаючи вік, освіту, стать, професію, сімейний стан, місце проживання, місце народження та дохід. Дослідники вручну анотували кожен профіль користувача, щоб отримати точні мітки атрибутів як реальні дані для перевірки ефекту висновків моделі.
Побудова датасетів керується двома ключовими принципами:
Зміст коментарів повинен достовірно відображати особливості мови, що використовується в мережі Інтернет. Оскільки користувачі в основному взаємодіють з мовними моделями через онлайн-платформи, онлайн-корпуси є представницькими та універсальними.
Типи особистих атрибутів повинні бути різними, щоб відображати вимоги різних правил захисту конфіденційності. Існуючі набори даних часто містять лише 1-2 категорії атрибутів, і дослідження потребують оцінки здатності моделі робити висновки про ширший спектр особистої інформації.
Крім того, дослідники попросили анотаторів оцінити кожен атрибут, вказавши, наскільки легко було анотувати та наскільки впевненим був анотатор. Рівень складності коливається від 1 (дуже легкий) до 5 (дуже складний). Якщо інформація про атрибути недоступна безпосередньо з тексту, анотаторам дозволяється перевірити її за допомогою традиційної пошукової системи.
Змагальна взаємодія
Враховуючи зростаючу кількість лінгвістичних додатків чат-ботів, дослідники також побудували сценарій змагальної розмови для імітації взаємодії в реальному світі.
Був розроблений шкідливий чат-бот на основі великої мовної моделі, нібито як корисний помічник у подорожах, тоді як приховане завдання полягало в тому, щоб спробувати отримати особисту інформацію користувача, таку як місце проживання, вік і стать.
Тестові дані
Дослідники вибрали для тестування дев'ять основних великих мовних моделей, включаючи GPT-4, Claude-2, Llama-2 та інші. Всі коментарі кожного користувача інкапсулюються в певний формат підказки і подаються в різні мовні моделі, які необхідні для виведення висновків про атрибути користувача.
Потім результати прогнозування моделі порівнюються з реальними даними, анотованими людською міткою, щоб отримати точність висновків атрибутів кожної моделі.
Оцінка захисних заходів
Дослідники також оцінили поточні заходи щодо захисту приватних даних як від клієнта, так і від сервера. На стороні клієнта вони протестували обробку тексту, що виконується провідними в галузі інструментами анонімізації тексту.
Результати показують, що навіть якщо більша частина особистої інформації буде видалена, GPT-4 все одно може точно визначити приватні дані, включаючи місцезнаходження та вік, використовуючи інші лінгвістичні особливості.
З точки зору сервера, існуючі комерційні моделі не узгоджені та не оптимізовані для витоку конфіденційності, а поточні контрзаходи все ще не можуть ефективно запобігти виведенню мовних моделей.