Альпаки превращаются в китов, Мета «автоматизирует» выравнивание, а Горбатый побеждает все существующие модели LLaMa.

Редакторы: Сяочжоу, Чен Пин

**Источник:**Сердце машины

В прошлом году модель большого языка (LLM), представленная ChatGPT и GPT-4, быстро развивалась, за ней последовали модели серии Meta с открытым исходным кодом LLaMa и Llama 2, которые также вызвали настоящий ажиотаж в мире ИИ. . Но за этим последовали постоянные споры: некоторые люди считали, что LLM сопряжена с некоторыми неконтролируемыми рисками, представляющими потенциальную угрозу выживанию человечества.

Чтобы справиться с этими проблемами, исследования по выравниванию LLM становятся все более и более важными.Некоторые исследователи предложили следовать инструкциям (следование инструкциям), но этот метод требует большого количества ручных аннотаций. Однако аннотирование таких высококачественных наборов данных, следующих за инструкциями, обходится дорого.

В этой статье исследователи из Meta AI предлагают масштабируемый метод, называемый обратным переводом инструкций, который создает высококачественную модель языка, следующего за инструкциями, автоматически аннотируя соответствующие инструкции.

Адрес бумаги:

В частности, исследование начинается с языковой модели в качестве исходной модели, которая точно настроена на небольшом количестве исходных данных, а также на веб-корпусах. Роль исходной модели заключается в построении обучающих выборок, затем из этих выборок будут отсеяны некоторые высококачественные выборки, а затем эти данные будут использованы для тонкой настройки более мощной модели.

После двух раундов итерационных наборов данных для точной настройки LLaMa полученная модель Humpback превосходит другие существующие модели без дистилляции, такие как LIMA, Claude, Guanaco и т. Д., В таблице лидеров Alpaca.

Горбатый изначально означал горбатого кита, также известного как горбатый кит.Мета назвала модель горбатым, так что глубокого смысла нет.

Исследователи заявили, что причина, по которой это называется обратным переводом инструкций, заключается в том, что он опирается на классический метод обратного перевода в машинном переводе, в котором целевое предложение, написанное людьми, автоматически аннотируется исходным предложением на другом языке, сгенерированным моделью. .

Лауреат премии Тьюринга Янн ЛеКун сделал общий обзор методологии исследования и высоко оценил работу Меты как важный вклад в исследование выравнивания:

Некоторые пользователи сети сделали хорошее резюме этого исследования: качество данных действительно важно для больших моделей.В процессе исследования они использовали различные уровни отфильтрованных данных для точной настройки модели.Результаты показали, что только лучшие образцы для получения модель, которая работает лучше, чем другие образцы.

В этой статье предлагается новая парадигма увеличения данных, которую необходимо выполнить в два этапа. Во-первых, необходимо иметь набор начальных пар (инструкция, вывод) и корпус для генерации более качественных данных инструкций.

На рисунке ниже Humpback сравнивается с некоторыми моделями с открытым исходным кодом и проприетарными моделями.

Таблица 4 ниже показывает, что наш метод работает лучше всего среди моделей без дистилляции в масштабах моделей 65B и 33B.

Рассмотрим конкретный метод ниже.

Введение в метод

В исследовании предлагается подход к самообучению, который обычно предполагает доступ к базовой языковой модели, небольшому количеству исходных данных и немаркированному выборочному набору (например, веб-корпусу). Неразмеченные данные часто представляют собой большой набор документов различной формы, написанных людьми, включая контент на различные темы, представляющие интерес для человека, но, что наиболее важно, они не сопровождаются инструкциями.

Здесь есть два ключевых допущения: Первое допущение состоит в том, что существуют некоторые подмножества этого очень большого набора текстов (немаркированный набор образцов), которые подходят в качестве сгенерированных образцов для некоторых инструкций пользователя. Вторая гипотеза состоит в том, что инструкции этих возможных ответов можно предсказать, что можно использовать для формирования высококачественных пар образцов для обучения моделей, следующих инструкциям.

Как показано на рис. 1 ниже, в исследовании предлагается, чтобы процесс обратного перевода инструкций включал два основных этапа:

  • Саморасширение: создание инструкций для неразмеченных данных (т. е. веб-корпуса) для создания пар обучающих данных (инструкция-вывод) для настройки инструкций.
  • Самоуправление: независимый выбор высококачественных выборочных данных в качестве обучающих данных для точной настройки базовой модели в соответствии с инструкциями.Этот метод выполняется итеративно.

Среди них принятые шаги по самоуправлению показаны в Таблице 1 ниже:

Эксперимент и результаты

Набор данных в этом документе в основном включает исходные данные и расширенные данные. Конкретная информация показана в таблице 2 и на рисунке 2:

На рис. 3 показано, что расширенные данные без самоконтроля, используемые для обучения модели, не улучшают производительность выполнения инструкций, несмотря на увеличение размера данных.

На рисунке ниже сравнивается эффективность данных различных наборов данных настройки инструкций.

Совместное расширение данных и моделей. Исследование показало, что тенденции расширения данных, наблюдаемые в модели 7B, также применимы к более крупным моделям. Например, добавление высококачественных аугментационных данных к исходной модели 65B принесет дальнейшие улучшения.

Рассуждения на основе здравого смысла: исследование было протестировано на пяти эталонных тестах на здравый смысл: SIQA, PIQA, Arc-Easy, Arc-Challenge и Openbook QA (OBQA), и результаты приведены в таблице 5. Результаты показывают, что по сравнению с базовой моделью производительность нашей модели улучшилась в нескольких аспектах, таких как социальное мышление.

MMLU: в таблице 6 приведены результаты различных моделей в MMLU (массовое понимание многозадачного языка). Наша точно настроенная модель повышает точность нулевого выстрела по сравнению с базовой моделью, но плохо работает в примере контекста с 5 выборками.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить