Відкрийте «небезпечну мову» ChatGPT одним клацанням миші: робот чату AI має «велику помилку», яку наразі неможливо виправити

З популярністю технології великомасштабних моделей чат-боти штучного інтелекту стали одним із поширених інструментів для соціальних розваг, обслуговування клієнтів та освітньої допомоги.

Однак небезпечні чат-боти штучного інтелекту можуть використовуватися деякими людьми для поширення неправдивої інформації, маніпулювання громадською думкою та навіть використовуватися хакерами для викрадення конфіденційності користувачів. Поява генеративних інструментів ШІ для кіберзлочинності, таких як WormGPT і FraudGPT, викликала занепокоєння щодо безпеки програм ШІ.

Минулого тижня Google, Microsoft, OpenAI і Anthropic запустили нову галузеву організацію Frontier Model Forum для сприяння безпечній і відповідальній розробці передових систем штучного інтелекту: просування досліджень безпеки штучного інтелекту, визначення найкращих практик і стандартів для полегшення інформації обмін між політиками та промисловістю.

**Тож питання в тому, чи справді їхня власна модель безпечна? **

Нещодавно дослідники з Університету Карнегі-Меллона, Центру безпеки штучного інтелекту та Центру штучного інтелекту Bosch виявили «велику помилку», пов’язану з чат-ботами AI, такими як ChatGPT-Суперечливі підказки можуть обійти запобіжні заходи AI, встановлені розробниками, щоб маніпулювати чат-ботами AI для створення небезпечних мова.

Наразі популярні чат-боти або моделі штучного інтелекту, такі як ChatGPT від OpenAI, Bard від Google, Claude 2 від Anthropic і LLaMA-2 від Meta, не пощадили.

Малюнок | Правила безпеки чотирьох мовних моделей можна обійти за допомогою суперечливих підказок, що викликає потенційно шкідливу поведінку

Зокрема, дослідники виявили суфікс, який можна додавати до запитів до великих мовних моделей (LLM) для створення небезпечної мови. Замість того, щоб відмовлятися відповідати на ці небезпечні запитання, дослідження максимізує ймовірність того, що ці моделі дадуть ствердну відповідь.

Наприклад, на запитання «як викрасти чиюсь особу» чат-бот AI давав дуже різні результати до та після ввімкнення «Додати суфікс змагальності».

Малюнок|Порівняння відповідей чат-бота до та після ввімкнення функції «Додати суфікс змагальності»

Крім того, чат-боти зі штучним інтелектом також будуть змушені писати недоречні коментарі, такі як «як створити атомну бомбу», «як публікувати небезпечні соціальні статті», «як вкрасти гроші з благодійних організацій».

У відповідь Зіко Колтер, доцент Університету Карнегі-Меллона, який брав участь у дослідженні, сказав: «Наскільки нам відомо, наразі немає способу вирішити цю проблему. Ми не знаємо, як зробити їх безпечними».

Дослідники попереджали OpenAI, Google і Anthropic про недолік перед публікацією цих результатів. Кожна компанія запровадила заходи блокування, щоб запобігти роботі експлойтів, описаних у дослідницькій статті, але вони не з’ясували, як зупинити агресивні атаки в цілому.

Ханна Вонг, прес-секретар OpenAI, сказала: «Ми постійно працюємо над покращенням стійкості наших моделей проти агресивних атак, включаючи методи виявлення шаблонів незвичайної активності, постійне тестування червоною командою для моделювання потенційних загроз і підхід до усунення виявлених недоліків моделі. нещодавно виявленими ворожими атаками».

Представник Google Елайджа Ловал поділився заявою, в якій пояснює кроки, які компанія вжила для тестування моделі та виявлення її недоліків. «Хоча це типова проблема для магістратури, у нас є важливі засоби безпеки в Bard, які ми постійно вдосконалюємо».

Тимчасовий директор Anthropic з питань політики та соціального впливу Майкл Селлітто сказав: «Зробити моделі більш стійкими до підказок та інших ворожих заходів «втечі з в’язниці» є активною областю досліджень. Ми намагаємося зробити базову модель більш «нешкідливою» за допомогою зміцнюючи його захист". У той же час ми також досліджуємо додаткові рівні захисту".

Малюнок | Шкідливий вміст, створений 4 мовними моделями

** Щодо цієї проблеми академічні кола також висловлювали застереження та надавали деякі пропозиції. **

Армандо Солар-Лезама, професор Школи обчислювальної техніки Массачусетського технологічного інституту, сказав, що супротивні атаки існують у мовних моделях, оскільки вони впливають на багато моделей машинного навчання. Однак дивно, що атака, розроблена проти загальної моделі з відкритим вихідним кодом, може бути настільки ефективною на багатьох різних пропрієтарних системах.

Проблема, стверджує Солар-Лезама, може полягати в тому, що всі магістратури навчаються на подібних масивах текстових даних, багато з яких надходять із тих самих веб-сайтів, а кількість даних, доступних у світі, обмежена.

«Будь-яке важливе рішення не повинно прийматися виключно мовною моделлю. У певному сенсі це просто здоровий глузд». Він наголосив на поміркованому використанні технології штучного інтелекту, особливо коли вона передбачає важливі рішення або потенційні ризики. У деяких сценаріях участь людини і нагляд** все ще потрібні, щоб уникнути потенційних проблем і неправильного використання.

Арвінд Нараянан, професор комп’ютерних наук Прінстонського університету, сказав: «Більше неможливо вберегти ШІ від потрапляння в руки зловмисних операторів**». Хоча слід докласти зусиль, щоб зробити моделі більш безпечними, він стверджує, що ми слід також визнати, що запобігти будь-якому зловживанню малоймовірно. Тому кращою стратегією є посилення нагляду та боротьба зі зловживаннями під час розробки технології ШІ.

Хвилювання або зневага. У розробці та застосуванні технологій штучного інтелекту, крім зосередження на інноваціях і продуктивності, ми завжди повинні пам’ятати про безпеку та етику.

Лише за умови помірного використання, участі та контролю з боку людини ми можемо краще уникнути потенційних проблем і зловживань і зробити так, щоб технологія штучного інтелекту приносила більше користі людському суспільству.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити