Последнее исследование команды Google предлагает заменить людей большими моделями для маркировки предпочтений, то есть интенсивного обучения с обратной связью с помощью искусственного интеллекта (RLAIF).
Бумажный адрес:
Было обнаружено, что RLAIF может добиться сопоставимых улучшений RLHF, не полагаясь на людей-аннотаторов, с вероятностью успеха 50%.
В то же время исследование Google еще раз доказало, что RLAIF и RLHF имеют процент выигрышей более 70% по сравнению с контролируемой точной настройкой (SFT).
Сегодня важной частью обучения большой языковой модели является RLHF. Люди делают ответы более полезными, оценивая качество результатов ИИ.
Однако это требует больших усилий, в том числе подвергать многих аннотаторов вредному контенту, создаваемому ИИ.
Теперь, когда RLAIF сравним с RLHF, будущие модели не требуют обратной связи с человеком и могут быть улучшены за счет самозацикливания.
RLHF больше не нуждается в людях
В настоящее время RLHF стал основным методом тонкой настройки больших моделей, включая ChatGPT, Bard и другие модели, использующие эту парадигму.
В частности, RLHF разделен на три этапа: предварительное обучение контролируемой точной настройки LLM; сбор данных для обучения модели вознаграждения; и точная настройка модели с помощью RL.
С помощью RLHF большие модели можно оптимизировать для решения сложных задач на уровне последовательности, которые трудно отличить с помощью традиционного SFT.
Однако вполне реальная проблема заключается в том, что RLHF требует крупномасштабных высококачественных данных, размеченных человеком, и могут ли эти данные достичь превосходного результата.
До этого исследования Google исследователи Anthropic были первыми, кто изучал использование предпочтений ИИ для обучения точно настроенных моделей вознаграждения RL.
Они впервые предложили RLAIF в «Конституционном искусственном интеллекте» и обнаружили, что LLM полностью соответствует человеческому суждению и даже справляется с некоторыми задачами лучше, чем люди.
Однако в этом исследовании не сравнивались отзывы человека и искусственного интеллекта, поэтому сможет ли RLAIF заменить RLHF, пока не получен окончательный ответ.
Последние исследования Google направлены главным образом на решение этой проблемы.
Исследователи напрямую сравнили RLAIF и RLHF в задаче обобщения модели.
Учитывая 1 текст и 2 варианта ответа, используйте готовый LLM, чтобы дать аннотацию предпочтения.
Затем модель вознаграждения (RM) обучается на основе предпочтений LLM и контрастных потерь. Наконец, модель политики дорабатывается посредством обучения с подкреплением, а модель вознаграждения используется для выдачи вознаграждений.
Итак, в чем же разница между методами RLAIF, предложенными Google, и Anthropic?
Сам Google объясняет в тексте,
Google: обучите модель вознаграждения на основе предпочтений, отмеченных ИИ, а затем выполните тонкую настройку RL.
Конституционный ИИ: улучшайте модели контролируемого обучения, итеративно прося LLM генерировать лучшие ответы на основе конституции.
Самонавешивание ИИ, самосовершенствование
Каков процесс метода RLAIF, предложенный Google в его последнем исследовании?
Большая языковая модель для маркировки предпочтений
Исследователи использовали «готовый» LLM, чтобы аннотировать предпочтения между двумя кандидатами.
Это модель, предварительно обученная или настроенная с помощью инструкций для общего использования, но не настроенная для конкретной последующей задачи. Учитывая фрагмент текста и два тезиса кандидата, LLM просят оценить, какой тезис лучше. Входная структура LLM выглядит следующим образом:
1. Преамбула
Инструкции, которые знакомят и описывают поставленную задачу.
2. Несколько экземпляров выборки (необязательно)
Фрагмент текста, пара тезисов, обоснование идеи и суждение о предпочтениях.
3.Образцы должны быть маркированы
Фрагмент текста и пара аннотаций для аннотации.
4.Конец
Запрашиваемая конечная строка для LLM (например, «Предпочитаемое резюме =»)
После ввода данных в LLM исследователи получили логарифмические вероятности генерации токенов «1» и «2» и рассчитали softmax для получения распределения предпочтений.
Существует много способов получить аннотации предпочтений из LLM, например декодирование ответов в свободной форме из модели и эвристическое извлечение предпочтений (например, вывод = «первая сводка лучше») или представление распределения предпочтений в виде «горячего» представления ( одно-горячее представление). Однако исследователи не пробовали эти альтернативы, поскольку их метод уже обеспечивал высокую точность.
Исследователи экспериментировали с двумя типами преамбул: первый, «Базовый», который просто спрашивает: «Какое резюме лучше?», и второй, «OpenAI», который имитирует подход, используемый для создания набора данных предпочтений OpenAI TL;DR. Директива по рейтингу для средства определения человеческих предпочтений с подробным описанием того, что представляет собой сильное резюме. Как показано ниже.
Исследователи также экспериментировали с контекстным обучением, добавляя к подсказкам небольшое количество примеров, при этом образцы отбирались вручную для охвата различных тем. Устранение отклонения позиции.
Предыдущие результаты показывают, что порядок представления кандидатов в LLM может повлиять на то, какого кандидата LLM отдаст предпочтение. Исследователи обнаружили доказательства этой позиционной предвзятости, особенно для аннотированных LLM меньшего размера.
Чтобы смягчить позиционную предвзятость в аннотации предпочтений, мы выполняем два вывода для каждой пары кандидатов, причем порядок отправки кандидатов в LLM меняется на обратный. Результаты двух выводов затем усредняются для получения окончательного распределения предпочтений.
Мышление цепочкой рассуждений
Исследователи попытались вызвать цепочку мыслей (COT) от аннотаторов ИИ, чтобы улучшить согласованность с человеческими предпочтениями.
Исследователи заменяют стандартные завершающие подсказки (например, «Предпочитаемое резюме =» на «Учитывайте связность, точность, охват и общее качество каждого резюме и объясните, какое из них лучше. Обоснование:»), а затем расшифровывают ответ LLM.
Наконец, исследователи объединили исходные запросы, ответы и исходную конечную строку «Предпочитаемое резюме =» и следовали процессу оценки, описанному в разделе 3.1, чтобы получить распределение предпочтений. См. рисунок ниже для конкретного процесса.
В подсказках с нулевой выборкой LLM не дает примеров того, как должен выглядеть вывод, тогда как в подсказках с небольшим количеством выборок исследователи предоставляют примеры вывода COT для модели, которой следует следовать. Пример смотрите на изображении ниже.
### Самосогласованность
Что касается подсказки цепочки мыслей, исследователи также экспериментировали с самосогласованностью — методом, который улучшает рассуждение цепочки мыслей путем выборки нескольких путей рассуждения и агрегирования окончательного ответа, полученного в конце каждого пути.
Используйте ненулевую температуру декодирования для выборки нескольких основных принципов мыслительной цепочки, а затем получите распределение предпочтений LLM для каждой мыслительной цепочки в соответствии с методом, описанным в предыдущем разделе. Затем результаты усредняются для получения окончательного распределения предпочтений.
Обучение с подкреплением обратной связи с помощью ИИ
После того, как предпочтения помечены LLM, модель вознаграждения (RM) обучается для прогнозирования предпочтений. Поскольку метод исследователей создает мягкие метки, они используют кросс-энтропийную потерю softmax оценки вознаграждения, сгенерированной RM, вместо потерь, упомянутых в модели вознаграждения.
Softmax преобразует неограниченные оценки RM в распределения вероятностей.
Обучение RM на наборах данных, маркированных ИИ, можно рассматривать как форму дистилляции модели, особенно потому, что теггеры ИИ исследователей часто больше и мощнее, чем RM.
Другой подход — обойти RM и напрямую использовать обратную связь AI в качестве сигнала вознаграждения в RL, хотя этот подход более затратен в вычислительном отношении, поскольку аннотатор AI больше, чем RM.
С помощью обученного RM исследователи провели обучение с подкреплением, используя модифицированную версию алгоритма Advantage Actor Critic (A2C), адаптированную к области языкового моделирования.
оценивать
Исследователи оценивали свои результаты по трем показателям: выравнивание аннотаторов ИИ, точность спаривания и процент выигрышей.
Выравнивание аннотаторов ИИ используется для измерения точности предпочтений аннотаций ИИ относительно предпочтений человека.
В качестве одного примера преобразуйте предпочтения, помеченные мягким ИИ, в двоичное представление. Присвойте 1, если аннотация соответствует целевым предпочтениям человека, и присвойте 0 в противном случае.
Парная точность — это мера точности обученной модели вознаграждения относительно набора сохраненных человеческих предпочтений.
Учитывая общий контекст и пару ответов кандидатов, точность объединения равна 1, если RM оценивает предпочтительного кандидата выше, чем непредпочтительного кандидата, на основе человеческих комментариев. В противном случае значение равно 0. Эта величина усредняется по нескольким примерам для измерения общей точности RM.
Коэффициент выигрыша оценивает сквозное качество двух стратегий, измеряя, как часто люди предпочитают одну стратегию другой.
Учитывая входные данные и результаты двух поколений, человек-аннотатор выбирает, какое поколение предпочесть. Процент случаев, когда стратегия A превосходит стратегию B, называется «процентом выигрыша A против B».
Подробности эксперимента
Исследователи использовали отфильтрованный набор данных Reddit TL;DR, курируемый OpenAI. TL;DR содержит около 3 миллионов сообщений с Reddit на различные темы (также известных как «субреддиты»), а также выдержки из сообщений, написанных оригинальным автором.
Данные также фильтруются OpenAI для обеспечения высокого качества, что включает использование белого списка тем Reddit, понятных широкой публике.
Кроме того, включены только сообщения с количеством уточнений в аннотации от 24 до 48. Отфильтрованный набор данных содержит 123 169 сообщений, около 5% из которых используются в качестве набора для проверки.
Более подробную информацию о наборе данных можно найти в оригинальной статье. Кроме того, OpenAI курировала набор данных о предпочтениях людей из отфильтрованного набора данных TL;DR.
Для каждого поста создаются два резюме кандидатов в соответствии с разными стратегиями, и тегеров просят оценить понравившиеся им резюме. Общий набор данных содержит около 92 тысяч парных сравнений.
LLM-аннотации
Чтобы оценить эффективность методов аннотации ИИ (например, подсказки, самосогласованность), исследователи выбирают примеры из наборов данных предпочтений TL;DR, где аннотаторы-люди предпочли бы абстракции с более высокой достоверностью.
Исследователи оценили выравнивание аннотаторов ИИ на случайном 15% подмножестве обучающего разделения набора данных, чтобы обеспечить более быстрые экспериментальные итерации, создав 2851 оценочный пример.
Для обучения модели вознаграждения TL;DR полное обучающее разделение набора данных предпочтений аннотируется LLM и используется для обучения, независимо от показателя достоверности.
Обучение моделей
Исследователи обучили модель SFT на отфильтрованном OpenAI наборе данных TL;DR, используя PaLM 2 Extra-Small (XS) в качестве начальной контрольной точки.
Затем исследователи инициализируют RM из модели SFT и обучают их на наборе данных о предпочтениях человека TL;DR OpenAI.
Для получения результатов в таблицах 1 и 5.1 исследователи использовали PaLM 2L для генерации предпочтений с аннотациями ИИ, используя подсказки «OpenAI + COT 0-shot» (без самосогласованности), а затем обучили набор данных RM на полных предпочтениях.
Для обучения с подкреплением исследователи используют Advantage Actor Critic (A2C) для обучения политикам. И политика, и модель стоимости инициализируются на основе модели SFT. Исследователи используют отфильтрованный набор данных Reddit TL;DR в качестве исходного состояния для реализации своей стратегии.
Оценка класса Человек
Исследователи собрали 1200 человеческих оценок, чтобы оценить стратегии RLHF и RLAIF. По каждому рейтинговому заданию оценщики получают сообщение и 4 резюме, созданных в соответствии с различными стратегиями (по одному для RLAIF, RLHF, SFT и человеческого обращения), и их просят ранжировать их в порядке качества без какой-либо связи.
Сообщения берутся из резервного набора данных тонкой настройки, контролируемого TL;DR, который не использовался для какой-либо другой оценки. Как только эти рейтинги собраны, можно рассчитать процент выигрышей любых двух стратегий.
Вероятность выигрыша 50%, ничья
RLAIF против RLHF
В начале статьи мы представили преимущества сравнения RLAIF и RLHF, проведенного Google.Результаты показывают, что эти два метода имеют одинаковую производительность.
В частности, оценщики-люди предпочитают RLAIF в 71% случаев по сравнению с базовым SFT. RLHF превосходит SFT в 73% случаев.
Исследователи также напрямую сравнили процент побед RLAIF и RLHF и обнаружили, что они одинаково популярны, то есть у них обоих был процент побед 50%.
Чтобы лучше понять различия между этими двумя стратегиями, Google провел качественное сравнение сгенерированных ими фрагментов.
Кроме того, они сравнили резюме RLAIF и RLHF с справочными резюме, написанными людьми. RLAIF подготовил резюме лучше, чем справочные резюме в 79% случаев, а результаты RLHF превосходили справочные резюме в 80% случаев.
Видно, что разница в проценте выигрышей между RLAIF и RLHF и справочной сводкой составляет всего 1%, и существенной разницы нет.
Стоит отметить, что исследователи также обнаружили, что частота галлюцинаций при стратегии RLHF часто выше, чем при RLAIF, как показано красным текстом в таблице выше.
После контроля длины сводки стратегии RLAIF и RLHF по-прежнему превосходят базовую SFT и достигают аналогичных показателей выигрыша.
Эти результаты показывают, что RLAIF не нужно полагаться на ручное аннотирование и является реальной альтернативой RLHF.
Секреты и уловки
При использовании техник хинтинга команда Google опробовала три типа техник хинтинга: специфичность преамбулы, CoT и обучение контексту с несколькими выборками.
Было обнаружено, что теггер AI может достичь согласованности 78%, используя подсказки через подробную преамбулу OpenAI и выполняя рассуждения CoT.
Контекстное обучение не повышает точность, а может даже ухудшить ее.
### Самосогласованность
Исследователи провели эксперименты по самосогласованности с использованием 4 и 16 образцов с температурой декодирования 1.
Выборка нескольких принципов мыслительной цепочки с T = 1 дает результаты, которые менее соответствуют человеческим предпочтениям.
### Размер аннотатора большой модели
Исследование также показало, что увеличение шкалы параметров тегеров больших моделей может привести к повышению качества аннотаций предпочтений.
Количество предпочтительных примеров
Как меняется точность модели вознаграждения при использовании обучающих примеров?
Исследователи обнаружили, что после обучения на тысячах примеров производительность модели вознаграждения приблизилась к эффективности обучения на полном наборе данных.
в заключение
Исследователи демонстрируют, что RLAIF может добиться сравнимых улучшений с RLHF, не полагаясь на людей-аннотаторов.
Хотя эта работа подчеркивает потенциал RLAIF, все же существуют некоторые ограничения.
Во-первых, в этом исследовании изучалась только сводная задача, и необходимы дальнейшие исследования возможности обобщения ее на другие задачи.
Во-вторых, исследователи не оценили, является ли вывод LLM более экономически эффективным, чем ручное аннотирование.
Кроме того, есть несколько интересных вопросов, которые стоит изучить, например, может ли RLHF в сочетании с RLAIF превзойти один метод, насколько эффективно использовать LLM для прямого назначения вознаграждений, приведет ли улучшенное согласование маркировщиков ИИ к улучшенным окончательным политикам и будет ли использование аннотатора LLM того же размера, что и модель политики, может еще больше улучшить политику (т. е. может ли модель «самоулучшаться»).
Горячая дискуссия среди пользователей сети
Google опубликовал две статьи о RL:
RLAIF: модели вознаграждения за обучение, аналогичные человеческой обратной связи
ReST: облегчение самообучения с использованием генеративных моделей. Объединение этих двух статей может удовлетворить потребности алгоритмов искусственного интеллекта, требующих больших объемов данных.
Полмесяца назад Google DeepMind только что предложил новый алгоритм ReST, чтобы привести крупномасштабную языковую модель в соответствие с предпочтениями человека.
В частности, методы автономного обучения с подкреплением используются для улучшения качества перевода больших языковых моделей, чтобы они лучше соответствовали человеческим предпочтениям.
По мнению одного исследователя, по результатам качественных тестов модель Клода от Anthropic оказалась слабее, чем GPT-4. Это может быть вызвано методами RLHF/RLAIF или предварительным обучением. Неясно, будут ли эти методы лучше обобщаться на практике, даже если они лучше работают по академическим критериям.
Я бы не сказал, что это снижает важность человеческих аннотаций, но одно можно сказать наверняка: RL с обратной связью от искусственного интеллекта может снизить затраты. Ручное аннотирование по-прежнему чрезвычайно важно для обобщения, и гибридный метод RLHF+RLAIF лучше, чем любой отдельный метод.
Большинство пользователей сети считают, что эта статья является большим прорывом, но некоторые пользователи сети считают, что между ней и RLAIF в Constitute Claude, предложенной Anthropic несколько месяцев назад, нет существенной разницы.
Использованная литература:
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
RLHF больше не нуждается в людях: исследования команды Google доказали, что ИИ-аннотации достигли человеческого уровня
Первоисточник: Синьчжиюань
Возможна ли замена «людей» в РЛХФ?
Последнее исследование команды Google предлагает заменить людей большими моделями для маркировки предпочтений, то есть интенсивного обучения с обратной связью с помощью искусственного интеллекта (RLAIF).
Было обнаружено, что RLAIF может добиться сопоставимых улучшений RLHF, не полагаясь на людей-аннотаторов, с вероятностью успеха 50%.
В то же время исследование Google еще раз доказало, что RLAIF и RLHF имеют процент выигрышей более 70% по сравнению с контролируемой точной настройкой (SFT).
Однако это требует больших усилий, в том числе подвергать многих аннотаторов вредному контенту, создаваемому ИИ.
Теперь, когда RLAIF сравним с RLHF, будущие модели не требуют обратной связи с человеком и могут быть улучшены за счет самозацикливания.
RLHF больше не нуждается в людях
В настоящее время RLHF стал основным методом тонкой настройки больших моделей, включая ChatGPT, Bard и другие модели, использующие эту парадигму.
В частности, RLHF разделен на три этапа: предварительное обучение контролируемой точной настройки LLM; сбор данных для обучения модели вознаграждения; и точная настройка модели с помощью RL.
Однако вполне реальная проблема заключается в том, что RLHF требует крупномасштабных высококачественных данных, размеченных человеком, и могут ли эти данные достичь превосходного результата.
До этого исследования Google исследователи Anthropic были первыми, кто изучал использование предпочтений ИИ для обучения точно настроенных моделей вознаграждения RL.
Они впервые предложили RLAIF в «Конституционном искусственном интеллекте» и обнаружили, что LLM полностью соответствует человеческому суждению и даже справляется с некоторыми задачами лучше, чем люди.
Последние исследования Google направлены главным образом на решение этой проблемы.
Исследователи напрямую сравнили RLAIF и RLHF в задаче обобщения модели.
Учитывая 1 текст и 2 варианта ответа, используйте готовый LLM, чтобы дать аннотацию предпочтения.
Затем модель вознаграждения (RM) обучается на основе предпочтений LLM и контрастных потерь. Наконец, модель политики дорабатывается посредством обучения с подкреплением, а модель вознаграждения используется для выдачи вознаграждений.
Google: обучите модель вознаграждения на основе предпочтений, отмеченных ИИ, а затем выполните тонкую настройку RL.
Конституционный ИИ: улучшайте модели контролируемого обучения, итеративно прося LLM генерировать лучшие ответы на основе конституции.
Самонавешивание ИИ, самосовершенствование
Каков процесс метода RLAIF, предложенный Google в его последнем исследовании?
Большая языковая модель для маркировки предпочтений
Исследователи использовали «готовый» LLM, чтобы аннотировать предпочтения между двумя кандидатами.
Это модель, предварительно обученная или настроенная с помощью инструкций для общего использования, но не настроенная для конкретной последующей задачи. Учитывая фрагмент текста и два тезиса кандидата, LLM просят оценить, какой тезис лучше. Входная структура LLM выглядит следующим образом:
1. Преамбула
Инструкции, которые знакомят и описывают поставленную задачу.
2. Несколько экземпляров выборки (необязательно)
Фрагмент текста, пара тезисов, обоснование идеи и суждение о предпочтениях.
3.Образцы должны быть маркированы
Фрагмент текста и пара аннотаций для аннотации.
4.Конец
Запрашиваемая конечная строка для LLM (например, «Предпочитаемое резюме =»)
Существует много способов получить аннотации предпочтений из LLM, например декодирование ответов в свободной форме из модели и эвристическое извлечение предпочтений (например, вывод = «первая сводка лучше») или представление распределения предпочтений в виде «горячего» представления ( одно-горячее представление). Однако исследователи не пробовали эти альтернативы, поскольку их метод уже обеспечивал высокую точность.
Исследователи экспериментировали с двумя типами преамбул: первый, «Базовый», который просто спрашивает: «Какое резюме лучше?», и второй, «OpenAI», который имитирует подход, используемый для создания набора данных предпочтений OpenAI TL;DR. Директива по рейтингу для средства определения человеческих предпочтений с подробным описанием того, что представляет собой сильное резюме. Как показано ниже.
Предыдущие результаты показывают, что порядок представления кандидатов в LLM может повлиять на то, какого кандидата LLM отдаст предпочтение. Исследователи обнаружили доказательства этой позиционной предвзятости, особенно для аннотированных LLM меньшего размера.
Мышление цепочкой рассуждений
Исследователи попытались вызвать цепочку мыслей (COT) от аннотаторов ИИ, чтобы улучшить согласованность с человеческими предпочтениями.
Исследователи заменяют стандартные завершающие подсказки (например, «Предпочитаемое резюме =» на «Учитывайте связность, точность, охват и общее качество каждого резюме и объясните, какое из них лучше. Обоснование:»), а затем расшифровывают ответ LLM.
Наконец, исследователи объединили исходные запросы, ответы и исходную конечную строку «Предпочитаемое резюме =» и следовали процессу оценки, описанному в разделе 3.1, чтобы получить распределение предпочтений. См. рисунок ниже для конкретного процесса.
Что касается подсказки цепочки мыслей, исследователи также экспериментировали с самосогласованностью — методом, который улучшает рассуждение цепочки мыслей путем выборки нескольких путей рассуждения и агрегирования окончательного ответа, полученного в конце каждого пути.
Используйте ненулевую температуру декодирования для выборки нескольких основных принципов мыслительной цепочки, а затем получите распределение предпочтений LLM для каждой мыслительной цепочки в соответствии с методом, описанным в предыдущем разделе. Затем результаты усредняются для получения окончательного распределения предпочтений.
Обучение с подкреплением обратной связи с помощью ИИ
После того, как предпочтения помечены LLM, модель вознаграждения (RM) обучается для прогнозирования предпочтений. Поскольку метод исследователей создает мягкие метки, они используют кросс-энтропийную потерю softmax оценки вознаграждения, сгенерированной RM, вместо потерь, упомянутых в модели вознаграждения.
Softmax преобразует неограниченные оценки RM в распределения вероятностей.
Обучение RM на наборах данных, маркированных ИИ, можно рассматривать как форму дистилляции модели, особенно потому, что теггеры ИИ исследователей часто больше и мощнее, чем RM.
Другой подход — обойти RM и напрямую использовать обратную связь AI в качестве сигнала вознаграждения в RL, хотя этот подход более затратен в вычислительном отношении, поскольку аннотатор AI больше, чем RM.
С помощью обученного RM исследователи провели обучение с подкреплением, используя модифицированную версию алгоритма Advantage Actor Critic (A2C), адаптированную к области языкового моделирования.
оценивать
Исследователи оценивали свои результаты по трем показателям: выравнивание аннотаторов ИИ, точность спаривания и процент выигрышей.
Выравнивание аннотаторов ИИ используется для измерения точности предпочтений аннотаций ИИ относительно предпочтений человека.
В качестве одного примера преобразуйте предпочтения, помеченные мягким ИИ, в двоичное представление. Присвойте 1, если аннотация соответствует целевым предпочтениям человека, и присвойте 0 в противном случае.
Парная точность — это мера точности обученной модели вознаграждения относительно набора сохраненных человеческих предпочтений.
Учитывая общий контекст и пару ответов кандидатов, точность объединения равна 1, если RM оценивает предпочтительного кандидата выше, чем непредпочтительного кандидата, на основе человеческих комментариев. В противном случае значение равно 0. Эта величина усредняется по нескольким примерам для измерения общей точности RM.
Коэффициент выигрыша оценивает сквозное качество двух стратегий, измеряя, как часто люди предпочитают одну стратегию другой.
Учитывая входные данные и результаты двух поколений, человек-аннотатор выбирает, какое поколение предпочесть. Процент случаев, когда стратегия A превосходит стратегию B, называется «процентом выигрыша A против B».
Подробности эксперимента
Исследователи использовали отфильтрованный набор данных Reddit TL;DR, курируемый OpenAI. TL;DR содержит около 3 миллионов сообщений с Reddit на различные темы (также известных как «субреддиты»), а также выдержки из сообщений, написанных оригинальным автором.
Данные также фильтруются OpenAI для обеспечения высокого качества, что включает использование белого списка тем Reddit, понятных широкой публике.
Кроме того, включены только сообщения с количеством уточнений в аннотации от 24 до 48. Отфильтрованный набор данных содержит 123 169 сообщений, около 5% из которых используются в качестве набора для проверки.
Более подробную информацию о наборе данных можно найти в оригинальной статье. Кроме того, OpenAI курировала набор данных о предпочтениях людей из отфильтрованного набора данных TL;DR.
Для каждого поста создаются два резюме кандидатов в соответствии с разными стратегиями, и тегеров просят оценить понравившиеся им резюме. Общий набор данных содержит около 92 тысяч парных сравнений.
LLM-аннотации
Чтобы оценить эффективность методов аннотации ИИ (например, подсказки, самосогласованность), исследователи выбирают примеры из наборов данных предпочтений TL;DR, где аннотаторы-люди предпочли бы абстракции с более высокой достоверностью.
Исследователи оценили выравнивание аннотаторов ИИ на случайном 15% подмножестве обучающего разделения набора данных, чтобы обеспечить более быстрые экспериментальные итерации, создав 2851 оценочный пример.
Для обучения модели вознаграждения TL;DR полное обучающее разделение набора данных предпочтений аннотируется LLM и используется для обучения, независимо от показателя достоверности.
Обучение моделей
Исследователи обучили модель SFT на отфильтрованном OpenAI наборе данных TL;DR, используя PaLM 2 Extra-Small (XS) в качестве начальной контрольной точки.
Затем исследователи инициализируют RM из модели SFT и обучают их на наборе данных о предпочтениях человека TL;DR OpenAI.
Для получения результатов в таблицах 1 и 5.1 исследователи использовали PaLM 2L для генерации предпочтений с аннотациями ИИ, используя подсказки «OpenAI + COT 0-shot» (без самосогласованности), а затем обучили набор данных RM на полных предпочтениях.
Для обучения с подкреплением исследователи используют Advantage Actor Critic (A2C) для обучения политикам. И политика, и модель стоимости инициализируются на основе модели SFT. Исследователи используют отфильтрованный набор данных Reddit TL;DR в качестве исходного состояния для реализации своей стратегии.
Оценка класса Человек
Исследователи собрали 1200 человеческих оценок, чтобы оценить стратегии RLHF и RLAIF. По каждому рейтинговому заданию оценщики получают сообщение и 4 резюме, созданных в соответствии с различными стратегиями (по одному для RLAIF, RLHF, SFT и человеческого обращения), и их просят ранжировать их в порядке качества без какой-либо связи.
Сообщения берутся из резервного набора данных тонкой настройки, контролируемого TL;DR, который не использовался для какой-либо другой оценки. Как только эти рейтинги собраны, можно рассчитать процент выигрышей любых двух стратегий.
Вероятность выигрыша 50%, ничья
RLAIF против RLHF
В начале статьи мы представили преимущества сравнения RLAIF и RLHF, проведенного Google.Результаты показывают, что эти два метода имеют одинаковую производительность.
В частности, оценщики-люди предпочитают RLAIF в 71% случаев по сравнению с базовым SFT. RLHF превосходит SFT в 73% случаев.
Исследователи также напрямую сравнили процент побед RLAIF и RLHF и обнаружили, что они одинаково популярны, то есть у них обоих был процент побед 50%.
Чтобы лучше понять различия между этими двумя стратегиями, Google провел качественное сравнение сгенерированных ими фрагментов.
Видно, что разница в проценте выигрышей между RLAIF и RLHF и справочной сводкой составляет всего 1%, и существенной разницы нет.
Стоит отметить, что исследователи также обнаружили, что частота галлюцинаций при стратегии RLHF часто выше, чем при RLAIF, как показано красным текстом в таблице выше.
После контроля длины сводки стратегии RLAIF и RLHF по-прежнему превосходят базовую SFT и достигают аналогичных показателей выигрыша.
Секреты и уловки
При использовании техник хинтинга команда Google опробовала три типа техник хинтинга: специфичность преамбулы, CoT и обучение контексту с несколькими выборками.
Было обнаружено, что теггер AI может достичь согласованности 78%, используя подсказки через подробную преамбулу OpenAI и выполняя рассуждения CoT.
Контекстное обучение не повышает точность, а может даже ухудшить ее.
Исследователи провели эксперименты по самосогласованности с использованием 4 и 16 образцов с температурой декодирования 1.
Выборка нескольких принципов мыслительной цепочки с T = 1 дает результаты, которые менее соответствуют человеческим предпочтениям.
Исследование также показало, что увеличение шкалы параметров тегеров больших моделей может привести к повышению качества аннотаций предпочтений.
Количество предпочтительных примеров
Как меняется точность модели вознаграждения при использовании обучающих примеров?
Исследователи обнаружили, что после обучения на тысячах примеров производительность модели вознаграждения приблизилась к эффективности обучения на полном наборе данных.
в заключение
Исследователи демонстрируют, что RLAIF может добиться сравнимых улучшений с RLHF, не полагаясь на людей-аннотаторов.
Хотя эта работа подчеркивает потенциал RLAIF, все же существуют некоторые ограничения.
Во-первых, в этом исследовании изучалась только сводная задача, и необходимы дальнейшие исследования возможности обобщения ее на другие задачи.
Во-вторых, исследователи не оценили, является ли вывод LLM более экономически эффективным, чем ручное аннотирование.
Кроме того, есть несколько интересных вопросов, которые стоит изучить, например, может ли RLHF в сочетании с RLAIF превзойти один метод, насколько эффективно использовать LLM для прямого назначения вознаграждений, приведет ли улучшенное согласование маркировщиков ИИ к улучшенным окончательным политикам и будет ли использование аннотатора LLM того же размера, что и модель политики, может еще больше улучшить политику (т. е. может ли модель «самоулучшаться»).
Горячая дискуссия среди пользователей сети
Google опубликовал две статьи о RL:
RLAIF: модели вознаграждения за обучение, аналогичные человеческой обратной связи
ReST: облегчение самообучения с использованием генеративных моделей. Объединение этих двух статей может удовлетворить потребности алгоритмов искусственного интеллекта, требующих больших объемов данных.
В частности, методы автономного обучения с подкреплением используются для улучшения качества перевода больших языковых моделей, чтобы они лучше соответствовали человеческим предпочтениям.