Переобучите большую модель с помощью токена паузы, и ИИ научится думать дважды

2023-10-15 04:52:39

Источник: Кубиты

Более тщательное обдумывание шагов до того, как ChatGPT даст ответ, может повысить точность.

Итак, можете ли вы пропустить подсказку и напрямую усвоить эту способность в большой модели?

Новое исследование, проведенное CMU и командой Google, добавляет токен паузы при обучении больших моделей для достижения этой цели.

В эксперименте улучшились результаты 8 оценок, среди которых EM-оценка SQuAD увеличилась на 18%, CommonSenseQA увеличилась на 8%, а задача вывода в GSM8k также увеличилась на 1%.

Исследователь Джек Хак сказал, что не так давно он выдвинул подобную гипотезу и был рад увидеть ее проверку.

Инженер Nvidia Аарон Эриксон (Aaron Erickson) сказал, что это правда — добавлять «угу-а» в разговоре с людьми?

В токен паузы добавлена тонкая настройка перед обучением

Все исследование основано на простой идее:

Добавьте ряд (маркер паузы) к входной последовательности, задерживая вывод модели следующей лексемы.

Это может дать модели дополнительное вычислительное время для обработки более сложных входных данных.

Авторы не только вводят его при тонкой настройке нижестоящей задачи, но и случайным образом вставляют его в последовательность во время предварительного обучения, позволяя модели научиться использовать эту вычислительную задержку на обоих этапах.

На этапе предварительного обучения определенный процент токенов паузы случайным образом вставляется в корпус во входную последовательность для стандартного авторегрессионного претренинга. Однако прогноз приостановленного токена пропускается при расчете убытка.

При тонкой настройке нижестоящей задачи к входным данным добавляется определенное количество маркеров паузы, а затем выполняется авторегрессионное прогнозирование целевой последовательности при тонкой настройке параметров модели.

На этапе вывода также добавляется такое же количество маркеров паузы, но выходные данные модели игнорируются до последнего маркера паузы, а затем начинается извлечение ответа.

В эксперименте используется стандартная модель Transformer pure Decoder, которая разделена на две версии: параметр 130M и параметр 1B.

Маркер паузы добавляет только 1024 параметра, что соответствует его собственному размеру внедрения.

Эксперименты на 9 различных задачах показали, что эффект от введения токенов паузы только на этапе тонкой настройки не был очевиден, а некоторые задачи не улучшились.

Но если вы используете маркеры паузы как на этапе предварительного обучения, так и на этапе тонкой настройки, вы получите значительное улучшение при выполнении большинства задач.

В документе также исследуются ключевые гиперпараметры, такие как количество и местоположение приостановленных токенов. Было выявлено, что обычно существует оптимальное количество для разных моделей.

Наконец, авторы также указывают на то, что эта работа также имеет ряд ограничений.

Поскольку токен приостановки увеличивает объем вычислений модели, вопрос о том, справедливо ли его сравнение с другими методами, еще предстоит обсудить.
Новый метод нуждается в повторном предварительном обучении, и применять его на практике пока сложно • До сих пор отсутствует глубокое понимание конкретных рабочих механизмов
Если количество маркеров паузы во время вывода равно 0, модель по-прежнему работает плохо

Генеральный директор поисковой системы You.com сказал, что следующим шагом будет опробовать все методы улучшения когнитивных способностей человека на больших моделях?

Теперь есть «думай шаг за шагом» и «делай глубокий вдох».

Может быть, следующим блокбастером станет обучение больших моделей спать с проблемами или более возмутительно здоровому питанию и физическим упражнениям.

Адрес доклада:

Ссылки:
[1]

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

Награда
лайк
комментарий
Поделиться

комментарий

0/400

Нет комментариев

Тема
1/3
1CandyDrop Airdrop Event 6.0
17k Популярность
2White House Crypto Report
35k Популярность
3Join Alpha RION Airdrop to Earn $40
9k Популярность
4Fed Holds Rates Decision
8k Популярность
5July Spark Program TOP 10 Creators Announced
2k Популярность

Закрепить

Карта сайта