Поедая «токсичные» данные, большая модель более послушна! Из лаборатории HKUST и Huawei Noah's Ark

Источник: Кубиты

Теперь большая модель также научилась «съесть траншею и вырастить мудрость».

Новое исследование, проведенное Гонконгским университетом науки и технологий и лабораторией Huawei's Noah's Ark Lab, показало:

Вместо того, чтобы слепо избегать «токсичных» данных, боритесь с ядом ядом, просто скармливая большой модели какой-нибудь неправильный текст, а затем позволяя модели анализировать и размышлять о причинах ошибки, можно заставить модель по-настоящему понять, «что не так», а затем избежать бессмыслицы.

В частности, исследователи предложили концепцию «обучения на ошибках» и доказали с помощью экспериментов:

Позволяя большим моделям «съесть траншею и стать мудрее», превосходит методы SFT и RLHF в исправлении несогласованных моделей, а также имеет преимущество в защите от атак продвинутых инструкций на выровненные модели.

Давайте разберемся в деталях.

Фреймворк выравнивания, чтобы учиться на ошибках

Существующие алгоритмы выравнивания больших языковых моделей в основном делятся на две категории:

  • Контролируемая тонкая настройка (SFT)
  • Обучение с подкреплением для обратной связи с человеком (RLHF)

Метод SFT в основном полагается на большое количество аннотированных человеком пар вопросов и ответов, чтобы заставить модель научиться «идеальным ответам». Однако недостатком является то, что модели трудно распознать «плохие ответы» от этого метода, что может ограничить ее способность к обобщению.

Метод RLHF обучает модель путем оценки ответов с помощью человека-аннотатора, чтобы она могла различать относительное качество ответов. В этом режиме модели учатся различать высокие и низкие ответы, но они плохо понимают «хорошие причины» и «плохие причины», стоящие за ними.

В целом, эти алгоритмы выравнивания одержимы идеей заставить модель научиться «хорошим ответам», но они упускают важную часть процесса очистки данных — обучение на ошибках.

Можем ли мы сделать большие модели, как люди, «съесть траншею, поумнеть», то есть разработать метод выравнивания таким образом, чтобы большие модели могли учиться на ошибках, не подвергаясь влиянию текстовых последовательностей, содержащих ошибки?

△ «Учимся на ошибках» - большая система согласования языковых моделей, которая состоит из 4 этапов, а именно: (1) индукция ошибок, (2) анализ ошибок на основе оперативного руководства, (3) тонкая настройка модели без руководства и (4) генерация ответов на основе оперативного руководства

Исследовательская группа из Гонконгского университета науки и технологий и лаборатории Huawei Noah's Ark Lab провела эксперимент.

Проведя экспериментальный анализ трех моделей, Alpaca-7B, GPT-3 и GPT-3.5, они пришли к интересному выводу:

В этих моделях часто проще выявить неправильные ответы, чем избежать их при создании ответов.

** △ Дискриминацию легче, чем генерацию

Кроме того, эксперимент показал, что точность модели в выявлении ошибок может быть значительно улучшена путем предоставления соответствующей руководящей информации, например, предположения о том, что в ответах могут быть ошибки.

Основываясь на этих выводах, исследовательская группа разработала новую структуру выравнивания, которая использует способность модели различать ошибки для оптимизации ее генеративных способностей.

Процесс выравнивания выглядит следующим образом:

(1) Индукция ошибок

Цель этого шага — вызвать ошибки в модели и найти слабые места модели, чтобы ошибки можно было проанализировать и исправить позже.

Эти ошибки могут быть вызваны существующими данными аннотаций или ошибками, обнаруженными пользователями в реальной работе модели.

Исследование показало, что с помощью простых побуждений к атакам «красной команды», таких как добавление определенных побуждающих ключевых слов (таких как «неэтичный» и «оскорбительный») к инструкциям модели, как показано на рисунке (а) ниже, модель имеет тенденцию производить большое количество неадекватных ответов.

(2) Анализ ошибок на основе оперативных указаний

Когда собрано достаточное количество пар вопрос-ответ, содержащих ошибки, метод переходит ко второму шагу, который заключается в том, чтобы направить модель на выполнение углубленного анализа этих пар вопрос-ответ.

В частности, в исследовании модели попросили объяснить, почему эти ответы могут быть неправильными или неэтичными.

Как показано на рисунке (b) ниже, модель часто может дать разумное объяснение, предоставляя модели явные аналитические указания, такие как вопрос «почему этот ответ может быть неверным».

(3) Тонкая настройка модели без гида

После сбора большого количества ошибочных пар вопрос-ответ и их анализа, исследование использовало полученные данные для дальнейшей тонкой настройки модели. В дополнение к тем парам вопрос-ответ, которые содержат ошибки, в качестве обучающих данных также добавляются обычные пары вопрос-ответ, помеченные человеком.

Как показано на рисунке (c) ниже, на этом этапе исследование не дало модели прямого намека на то, содержали ли ответы ошибки. Цель состоит в том, чтобы побудить модель думать, оценивать и понимать для себя, что пошло не так.

(4) Генерация ответов на основе подсказок

На этапе вывода используется стратегия генерации ответов на основе посуждений, которая явно побуждает модель выдавать «правильные, этичные и неоскорбительные» ответы, тем самым гарантируя, что модель придерживается этических норм и не подвержена влиянию неправильных последовательностей текста.

Это означает, что в процессе вывода модель выполняет условную генерацию на основе генеративного руководства, которое соответствует человеческим ценностям, чтобы получить соответствующие результаты.

△ Пример инструкции «Учитесь на ошибках» для большой языковой модели

Приведенный выше фреймворк выравнивания не требует аннотации со стороны человека и привлечения внешних моделей (например, моделей вознаграждения), которые облегчают их генерацию путем анализа ошибок, используя их способность выявлять ошибки.

Таким образом, «учась на ошибках» может точно определить потенциальные риски в инструкциях пользователя и ответить с разумной точностью:

Результаты экспериментов

Исследовательская группа провела эксперименты по двум сценариям практического применения, чтобы проверить практические эффекты нового метода.

Сценарий 1: Невыровненная большая языковая модель

Взяв за основу модель Alpaca-7B, для экспериментов был использован набор данных PKU-SafeRLHF Dataset, а сравнительный анализ был проведен с использованием нескольких методов выравнивания.

Результаты эксперимента приведены в таблице ниже:

При сохранении полезности модели алгоритм выравнивания «обучение на ошибках» повышает коэффициент безопасного прохождения примерно на 10 % по сравнению с SFT, COH и RLHF и на 21,6 % по сравнению с исходной моделью.

В то же время исследование показало, что ошибки, сгенерированные самой моделью, показали лучшее выравнивание, чем пары вопросов и ответов из других источников данных.

△Экспериментальные результаты невыровненных больших языковых моделей

Сценарий 2: Выровненные модели сталкиваются с новыми атаками инструкций

Исследовательская группа также изучила, как усилить уже согласованную модель, чтобы справиться с возникающими шаблонами атак на инструкции.

Здесь в качестве базовой модели был выбран ChatGLM-6B. ChatGLM-6B был надежно выровнен, но он все еще может выдавать результат, который не соответствует человеческим ценностям при столкновении с конкретными командными атаками.

Исследователи использовали паттерн атаки «захват цели» в качестве примера и использовали 500 единиц данных, содержащих этот паттерн атаки, для точной настройки эксперимента. Как показано в таблице ниже, алгоритм выравнивания «учиться на ошибках» демонстрирует сильную защиту перед лицом атак с использованием новых инструкций: даже при наличии небольшого количества новых данных об атаках модель успешно сохраняет общие возможности и достигает улучшения защиты от новых атак (захват цели) на 16,9 %.

Эксперименты еще раз доказывают, что обороноспособность, полученная благодаря стратегии «учиться на ошибках», не только эффективна, но и обладает сильным обобщением, которое может затрагивать широкий круг различных тем в одном и том же режиме атаки.

△Согласованные модели защищают от новых типов атак

Ссылки на статьи:

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить