Тепер велика модель також навчилася «їсти окоп і вирощувати мудрість».
Нове дослідження, проведене Гонконгським університетом науки і технологій і лабораторією Ноєвого ковчега Huawei, показало:
Замість того, щоб сліпо уникати «токсичних» даних, боротися з отрутою за допомогою отрути, просто годувати велику модель неправильним текстом, а потім дозволяти моделі аналізувати і розмірковувати про причини помилки, можна змусити модель по-справжньому зрозуміти, «що не так», а потім уникнути нісенітниць.
Зокрема, дослідники запропонували структуру «навчання на помилках» і довели за допомогою експериментів:
Дозвіл великим моделям «з'їсти траншею і стати мудрішими» перевершує методи SFT і RLHF у виправленні неправильно розташованих моделей, а також має перевагу в захисті від атак розширених інструкцій на вирівняні моделі.
Давайте розберемося в деталях.
Фреймворк вирівнювання, щоб вчитися на помилках
Існуючі алгоритми вирівнювання великих мовних моделей в основному поділяються на дві категорії:
Контрольоване тонке налаштування (SFT)
Навчання з підкріпленням для зворотного зв'язку з людьми (RLHF)
Метод SFT в основному покладається на велику кількість анотованих людиною пар запитань і відповідей, щоб змусити модель навчатися «ідеальним відповідям». Однак недоліком є те, що моделі важко отримати розпізнавання «поганих відповідей» за допомогою цього методу, що може обмежити її здатність до узагальнення.
Метод RLHF тренує модель, оцінюючи відповіді людиною-анотатором, щоб він міг розрізняти відносну якість відповідей. У цьому режимі моделі вчаться розрізняти високі та низькі відповіді, але вони погано розуміють «хороші причини» та «погані причини», що стоять за ними.
Загалом, ці алгоритми вирівнювання одержимі ідеєю змусити модель навчатися «хорошим відповідям», але вони пропускають важливу частину процесу очищення даних — навчання на помилках.
Чи можемо ми зробити великі моделі, як люди, «з'їсти траншею, стати мудрішими», тобто розробити метод вирівнювання, щоб великі моделі могли вчитися на помилках, не піддаючись впливу текстових послідовностей, що містять помилки?
△ Велика структура вирівнювання мовної моделі «Навчання на помилках», яка складається з 4 кроків, а саме: (1) індукція помилок, (2) аналіз помилок на основі оперативних вказівок, (3) точне налаштування моделі без керівництва та (4) генерація відповідей на основі оперативних вказівок
Дослідницька група з Гонконгського університету науки і технологій і лабораторії «Ноїв ковчег» компанії Huawei провела експеримент.
Шляхом експериментального аналізу трьох моделей, Alpaca-7B, GPT-3 і GPT-3.5, вони дійшли цікавого висновку:
Для цих моделей часто простіше виявити неправильні відповіді, ніж уникати їх під час генерації відповідей.
** △ Дискримінувати легше, ніж генерувати
Крім того, експеримент також показав, що точність моделі у виявленні помилок може бути значно покращена, надавши відповідну керівну інформацію, наприклад, припустивши, що у відповідях можуть бути помилки.
Ґрунтуючись на цих висновках, дослідницька група розробила нову структуру вирівнювання, яка використовує здатність моделі розрізняти помилки для оптимізації її генеративної здатності.
Процес вирівнювання виглядає так:
(1) Індукція помилок
Мета цього кроку полягає в тому, щоб викликати помилки в моделі і з'ясувати слабкі сторони моделі, щоб потім можна було проаналізувати і виправити помилки.
Ці випадки помилок можуть виникати з наявних даних анотацій або з помилок, виявлених користувачами в фактичній роботі моделі.
Дослідження показало, що за допомогою простих стимулів атаки червоної команди, таких як додавання певних спонукальних ключових слів (таких як «неетичний» і «образливий») до інструкцій моделі, як показано на малюнку (а) нижче, модель має тенденцію виробляти велику кількість неадекватних відповідей.
(2) Аналіз помилок на основі оперативних вказівок
Коли зібрано достатню кількість пар питання-відповідь, що містять помилки, метод переходить до другого кроку, який полягає в тому, щоб спрямувати модель на глибокий аналіз цих пар питання-відповідь.
Зокрема, у дослідженні модель попросили пояснити, чому ці відповіді можуть бути неправильними або неетичними.
Як показано на малюнку (b) нижче, модель часто може дати розумне пояснення, надаючи чітке аналітичне керівництво моделі, наприклад, запитуючи «чому ця відповідь може бути неправильною».
(3) Точне налаштування моделі без керування
Зібравши велику кількість пар похибка питання-відповідь та їх аналіз, дослідники використовували дані для подальшого уточнення моделі. На додаток до тих пар питання-відповідь, які містять помилки, в якості навчальних даних також додаються звичайні пари питання-відповідь, позначені людиною.
Як показано на рисунку (c) нижче, на цьому етапі дослідження не дало моделі жодного прямого натяку на те, чи містили відповіді помилки. Мета полягає в тому, щоб спонукати модель думати, оцінювати та розуміти для себе, що пішло не так.
(4) Генерація відповідей за допомогою підказок
Фаза висновків використовує керовану стратегію генерації відповідей, яка явно спонукає модель продукувати «правильні, етичні та необразливі» відповіді, тим самим гарантуючи, що модель дотримується етичних норм і не зазнає впливу неправильних послідовностей тексту.
Тобто в процесі висновування модель виконує умовну генерацію на основі генеративного керівництва, яке відповідає людським цінностям, щоб отримати відповідні результати.
△ «Вчіться на помилках» Приклад інструкції з фреймворку вирівнювання великої мовної моделі
Наведена вище структура вирівнювання не вимагає людської анотації та залучення зовнішніх моделей (таких як моделі винагороди), які полегшують їх генерацію шляхом аналізу помилок, використовуючи свою здатність ідентифікувати помилки.
Таким чином, «навчання на помилках» може точно визначити потенційні ризики в інструкціях користувача та відреагувати з достатньою точністю:
Результати експерименту
Дослідницька група провела експерименти за двома практичними сценаріями застосування, щоб перевірити практичний ефект нового методу.
Сценарій 1: Неузгоджена велика мовна модель
Взявши за основу модель Alpaca-7B, для експериментів використовувався набір даних PKU-SafeRLHF Dataset, а порівняльний аналіз проводився з використанням декількох методів вирівнювання.
Результати експерименту наведені в таблиці нижче:
Коли корисність моделі зберігається, алгоритм вирівнювання «вчитися на помилках» покращує безпечний коефіцієнт проходження приблизно на 10% порівняно з SFT, COH і RLHF, і на 21,6% порівняно з оригінальною моделлю.
У той же час дослідження показало, що помилки, згенеровані самою моделлю, показали краще вирівнювання, ніж пари запитань і відповідей з помилок з інших джерел даних.
△Експериментальні результати неузгоджених великих мовних моделей
Сценарій 2: Вирівняні моделі стикаються з новими атаками інструкцій
Дослідницька група також вивчила, як зміцнити вже узгоджену модель, щоб впоратися з новими моделями атак інструкцій.
Тут базовою моделлю був обраний ChatGLM-6B. ChatGLM-6B був надійно вирівняний, але він все ще може видавати результат, який не відповідає людським цінностям, коли стикається з конкретними командними атаками.
Дослідники використовували схему атаки «захоплення цілі» як приклад і використали 500 фрагментів даних, що містять цю схему атаки, щоб точно налаштувати експеримент. Як показано в таблиці нижче, алгоритм вирівнювання «вчитися на помилках» демонструє сильну захисну здатність перед обличчям нових атак з інструкціями: навіть маючи лише невелику кількість нових вибіркових даних атак, модель успішно зберігає загальні можливості та досягає покращення захисту від нових атак (захоплення цілей) на 16,9%.
Експерименти також доводять, що захисна здатність, отримана за допомогою стратегії «вчитися на помилках», не тільки ефективна, але й має сильне узагальнення, яке може мати справу з широким колом різних тем в одному режимі атаки.
△Узгоджені моделі захищають від нових типів атак
Паперові посилання:
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
Харчуючись «токсичними» даними, велика модель більш слухняна! Від лабораторії HKUST та Huawei Noah's Ark
Джерело: Qubits
Нове дослідження, проведене Гонконгським університетом науки і технологій і лабораторією Ноєвого ковчега Huawei, показало:
Замість того, щоб сліпо уникати «токсичних» даних, боротися з отрутою за допомогою отрути, просто годувати велику модель неправильним текстом, а потім дозволяти моделі аналізувати і розмірковувати про причини помилки, можна змусити модель по-справжньому зрозуміти, «що не так», а потім уникнути нісенітниць.
Давайте розберемося в деталях.
Фреймворк вирівнювання, щоб вчитися на помилках
Існуючі алгоритми вирівнювання великих мовних моделей в основному поділяються на дві категорії:
Метод SFT в основному покладається на велику кількість анотованих людиною пар запитань і відповідей, щоб змусити модель навчатися «ідеальним відповідям». Однак недоліком є те, що моделі важко отримати розпізнавання «поганих відповідей» за допомогою цього методу, що може обмежити її здатність до узагальнення.
Метод RLHF тренує модель, оцінюючи відповіді людиною-анотатором, щоб він міг розрізняти відносну якість відповідей. У цьому режимі моделі вчаться розрізняти високі та низькі відповіді, але вони погано розуміють «хороші причини» та «погані причини», що стоять за ними.
Загалом, ці алгоритми вирівнювання одержимі ідеєю змусити модель навчатися «хорошим відповідям», але вони пропускають важливу частину процесу очищення даних — навчання на помилках.
Чи можемо ми зробити великі моделі, як люди, «з'їсти траншею, стати мудрішими», тобто розробити метод вирівнювання, щоб великі моделі могли вчитися на помилках, не піддаючись впливу текстових послідовностей, що містять помилки?
Дослідницька група з Гонконгського університету науки і технологій і лабораторії «Ноїв ковчег» компанії Huawei провела експеримент.
Шляхом експериментального аналізу трьох моделей, Alpaca-7B, GPT-3 і GPT-3.5, вони дійшли цікавого висновку:
Для цих моделей часто простіше виявити неправильні відповіді, ніж уникати їх під час генерації відповідей.
**
△ Дискримінувати легше, ніж генерувати
Крім того, експеримент також показав, що точність моделі у виявленні помилок може бути значно покращена, надавши відповідну керівну інформацію, наприклад, припустивши, що у відповідях можуть бути помилки.
Ґрунтуючись на цих висновках, дослідницька група розробила нову структуру вирівнювання, яка використовує здатність моделі розрізняти помилки для оптимізації її генеративної здатності.
Процес вирівнювання виглядає так:
(1) Індукція помилок
Мета цього кроку полягає в тому, щоб викликати помилки в моделі і з'ясувати слабкі сторони моделі, щоб потім можна було проаналізувати і виправити помилки.
Ці випадки помилок можуть виникати з наявних даних анотацій або з помилок, виявлених користувачами в фактичній роботі моделі.
Дослідження показало, що за допомогою простих стимулів атаки червоної команди, таких як додавання певних спонукальних ключових слів (таких як «неетичний» і «образливий») до інструкцій моделі, як показано на малюнку (а) нижче, модель має тенденцію виробляти велику кількість неадекватних відповідей.
(2) Аналіз помилок на основі оперативних вказівок
Коли зібрано достатню кількість пар питання-відповідь, що містять помилки, метод переходить до другого кроку, який полягає в тому, щоб спрямувати модель на глибокий аналіз цих пар питання-відповідь.
Зокрема, у дослідженні модель попросили пояснити, чому ці відповіді можуть бути неправильними або неетичними.
Як показано на малюнку (b) нижче, модель часто може дати розумне пояснення, надаючи чітке аналітичне керівництво моделі, наприклад, запитуючи «чому ця відповідь може бути неправильною».
(3) Точне налаштування моделі без керування
Зібравши велику кількість пар похибка питання-відповідь та їх аналіз, дослідники використовували дані для подальшого уточнення моделі. На додаток до тих пар питання-відповідь, які містять помилки, в якості навчальних даних також додаються звичайні пари питання-відповідь, позначені людиною.
Як показано на рисунку (c) нижче, на цьому етапі дослідження не дало моделі жодного прямого натяку на те, чи містили відповіді помилки. Мета полягає в тому, щоб спонукати модель думати, оцінювати та розуміти для себе, що пішло не так.
(4) Генерація відповідей за допомогою підказок
Фаза висновків використовує керовану стратегію генерації відповідей, яка явно спонукає модель продукувати «правильні, етичні та необразливі» відповіді, тим самим гарантуючи, що модель дотримується етичних норм і не зазнає впливу неправильних послідовностей тексту.
Тобто в процесі висновування модель виконує умовну генерацію на основі генеративного керівництва, яке відповідає людським цінностям, щоб отримати відповідні результати.
Наведена вище структура вирівнювання не вимагає людської анотації та залучення зовнішніх моделей (таких як моделі винагороди), які полегшують їх генерацію шляхом аналізу помилок, використовуючи свою здатність ідентифікувати помилки.
Таким чином, «навчання на помилках» може точно визначити потенційні ризики в інструкціях користувача та відреагувати з достатньою точністю:
Результати експерименту
Дослідницька група провела експерименти за двома практичними сценаріями застосування, щоб перевірити практичний ефект нового методу.
Сценарій 1: Неузгоджена велика мовна модель
Взявши за основу модель Alpaca-7B, для експериментів використовувався набір даних PKU-SafeRLHF Dataset, а порівняльний аналіз проводився з використанням декількох методів вирівнювання.
Результати експерименту наведені в таблиці нижче:
Коли корисність моделі зберігається, алгоритм вирівнювання «вчитися на помилках» покращує безпечний коефіцієнт проходження приблизно на 10% порівняно з SFT, COH і RLHF, і на 21,6% порівняно з оригінальною моделлю.
У той же час дослідження показало, що помилки, згенеровані самою моделлю, показали краще вирівнювання, ніж пари запитань і відповідей з помилок з інших джерел даних.
Сценарій 2: Вирівняні моделі стикаються з новими атаками інструкцій
Дослідницька група також вивчила, як зміцнити вже узгоджену модель, щоб впоратися з новими моделями атак інструкцій.
Тут базовою моделлю був обраний ChatGLM-6B. ChatGLM-6B був надійно вирівняний, але він все ще може видавати результат, який не відповідає людським цінностям, коли стикається з конкретними командними атаками.
Дослідники використовували схему атаки «захоплення цілі» як приклад і використали 500 фрагментів даних, що містять цю схему атаки, щоб точно налаштувати експеримент. Як показано в таблиці нижче, алгоритм вирівнювання «вчитися на помилках» демонструє сильну захисну здатність перед обличчям нових атак з інструкціями: навіть маючи лише невелику кількість нових вибіркових даних атак, модель успішно зберігає загальні можливості та досягає покращення захисту від нових атак (захоплення цілей) на 16,9%.
Експерименти також доводять, що захисна здатність, отримана за допомогою стратегії «вчитися на помилках», не тільки ефективна, але й має сильне узагальнення, яке може мати справу з широким колом різних тем в одному режимі атаки.
Паперові посилання: