ChatGPT було порушено через обмеження безпеки "таємничого коду"! Кроки, щоб знищити людей, випалили, і ніхто з альпак і Клода не пощадив

Джерело: Qubit

Знову пробито «рів» великої моделі.

Введення зашифрованого коду може спричинити створення великою моделлю шкідливого вмісту.

Від ChatGPT, Клода до сімейства alpaca з відкритим кодом, ніхто не пощадений.

Нещодавно дослідження, спільно опубліковане Університетом Карнегі-Меллона та safe.ai, показує, що механізм безпеки великих моделей можна зламати за допомогою таємничого коду.

Вони навіть створили набір алгоритмів, які можуть адаптувати «атакуючі підказкові слова».

Автори статті також заявили, що «немає очевидного вирішення» цієї проблеми.

Наразі команда поділилася результатами дослідження з великими виробниками моделей, включаючи OpenAI, Anthropic і Google.

Усі три вищевказані сторони відповіли, що вони помітили це явище та продовжуватимуть покращуватись, і висловили вдячність команді за їх роботу.

Поширені великі моделі знищені

Хоча механізми безпеки різних великих моделей не однакові, а деякі з них не розголошуються, усі вони були зламані різною мірою.

Наприклад, на запитання «як знищити людей» ChatGPT, Bard, Claude і LLaMA-2 висловилися по-своєму.

Деякі конкретні проблеми не вдалося запобігти механізму безпеки великої моделі.

Хоча ці методи можуть бути неможливими, навіть якщо ми їх знаємо, вони все одно били для нас тривогу.

З точки зору даних, великі моделі великих виробників зазнали різного ступеня впливу, серед яких GPT-3.5 є найбільш очевидним.

Крім перерахованих вище моделей, сімейство Alpaca з відкритим кодом також не витримало атак.

Беручи приклади Vicuna-7B та LLaMA-2(7B), у тесті «Множина шкідливої поведінки» рівень успіху атак перевищує 80%.

Серед них успішність атаки на Вікуню досягала навіть 98%, а тренувальний процес – 100%.

△ASR відноситься до показника успіху атаки

Загалом метод атаки, винайдений дослідницькою групою, має дуже високий рівень успіху.

Отже, що це за метод атаки?

Індивідуальні слова підказки для втечі з в'язниці

На відміну від «універсальних» слів підказок у традиційних методах атаки, дослідницька група розробила набір алгоритмів для спеціального створення «налаштованих» слів підказок.

Крім того, ці слова-підказки не схожі на людську мову в традиційному вигляді, вони часто незрозумілі з людської точки зору і навіть містять спотворені символи.

Алгоритм генерації підказок називається Жадібний градієнт координат (скорочено GCG).

По-перше, GCG випадковим чином згенерує один і обчислить значення градієнта кожного слова заміни маркера.

Потім GCG випадковим чином вибере одне з кількох слів заміни з меншим значенням градієнта, щоб замінити початковий маркер.

Далі потрібно обчислити нові дані про втрати та повторити попередні кроки, доки функція втрат не зійдеться або не досягне верхньої межі кількості циклів.

На основі алгоритму GCG дослідницька група запропонувала метод оптимізації під назвою «пошук на основі GCG».

У міру збільшення кількості циклів GCG рівень успіху створеної великої моделі атаки стає все вищим і вищим, а втрати поступово зменшуються.

Можна сказати, що цей абсолютно новий метод атаки виявив недоліки існуючого механізму захисту великої моделі.

Метод захисту все ще потребує вдосконалення

З моменту народження великої моделі механізм безпеки постійно оновлювався.

На початку конфіденційний контент міг навіть генеруватися напряму, але тепер звичайні мови не можуть обдурити великі моделі.

Включно з колись карколомною «вразливістю бабусі», тепер її виправлено.

Однак навіть цей обурливий метод нападу все ще не виходить за рамки людської мови.

Але те, чого великі розробники моделей можуть не очікувати, так це те, що ніхто не передбачає, що слово джейлбрейка має бути людською мовою.

Тому у відповідь на такі «спотворені» слова нападу, розроблені машинами, метод захисту, розроблений великою моделлю, заснованою на людській мові, здається розтягнутим.

За словами авторів статті, наразі немає способу захиститися від цієї нової атаки.

На порядок денний варто поставити захист від «машинних атак».

І ще одна річ

Тест кубіту виявив, що в ChatGPT, Bard і Claude слова підказки **, показані в статті, були недійсними.

Але команда не розкрила всі з них, тому ще належить з’ясувати, чи це означає, що проблему повністю вирішено.

Адреса паперу: Посилання на посилання: [1] [2]

Переглянути оригінал
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Нагородити
  • Прокоментувати
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити