Для сложных пошаговых задач на математическое мышление, что эффективнее давать вознаграждение на каждом этапе или одно вознаграждение в конце? В новом исследовании OpenAI есть ответ.
Источник изображения: сгенерировано инструментом Unbounded AI
Теперь большие языковые модели открывают эру «всемогущества», когда способность выполнять сложные многоэтапные рассуждения также значительно улучшилась. Тем не менее, даже большие современные модели могут давать логические ошибки, часто называемые галлюцинациями. Следовательно, облегчение галлюцинаций является важным шагом в построении согласованного ОИИ.
Чтобы обучить более надежную модель, в настоящее время существует два разных метода обучения модели вознаграждения: один — наблюдение за результатом, а другой — наблюдение за процессом. Модели вознаграждения, контролируемого результатом (ORM), обучаются с использованием только конечного результата цепочки мышления модели, в то время как модели вознаграждения, контролируемого процессом (PRM), получают вознаграждение за каждый шаг в цепочке мышления.
Учитывая важность обучения надежных моделей и высокую стоимость обратной связи с человеком, важно тщательно сравнивать надзор за результатами с надзором за процессом. Хотя в недавней работе было проведено это сравнение, остается много вопросов.
В этой статье OpenAI исследует и обнаруживает, что наблюдение за процессом значительно превосходит наблюдение за результатом при обучении моделей для решения задач в наборе данных MATH. OpenAI решил 78% проблем в репрезентативном подмножестве набора тестов MATH, используя свою собственную модель PRM.
Кроме того, для поддержки соответствующих исследований OpenAI также предоставляет PRM800K с открытым исходным кодом, полный набор данных, содержащий 800 000 пошаговых меток отзывов людей, для обучения своих моделей оптимального вознаграждения.
Ниже приведен пример реального (истинно положительного) вопроса и ответа. Эта проблема и другие примеры проблем, приведенные OpenAI, взяты из GPT-4. Эта сложная задача тригонометрии требует неочевидного последовательного применения нескольких тождеств. Большинство попыток решения терпят неудачу, потому что трудно понять, какие удостоверения действительно полезны. Хотя GPT-4 обычно не решает эту проблему (верно только 0,1%), наша модель вознаграждения правильно определяет, что это решение эффективно.
Давайте посмотрим на другой пример ответа на ложноположительный вопрос. На четвертом этапе GPT-4 ложно утверждала, что последовательность повторяется каждые 12 терминов, тогда как на самом деле она повторялась каждые 10 терминов. Эта ошибка подсчета иногда сбивает с толку модели вознаграждения.
«Действительно интересный результат использования LLM для решения математических задач заключается в том, что более эффективно контролировать каждый шаг, чем просто проверять ответ», — сказал Ян Лейке, один из авторов статьи и глава команды OpenAI Alignment.
По словам Джима Фэна, специалиста по искусственному интеллекту в Nvidia, «суть этой статьи проста: за сложные пошаговые задачи вознаграждение дается на каждом этапе, а не одно вознаграждение в конце. > редко».
Давайте подробнее рассмотрим методы и результаты статьи OpenAI.
Адрес бумаги:
Адрес набора данных:
Обзор метода
В исследовании сравнивается надзор за исходом с надзором за процессом в соответствии с подходом, аналогичным Uesato et al. (2022). Стоит отметить, что это исследование не предусматривает человеческого контроля за результатами, поскольку все вопросы в наборе данных MATH имеют автоматически проверяемые ответы. Напротив, не существует простого способа автоматизировать надзор за процессами. Исследование опирается на людей, размечающих данные, чтобы обеспечить надзор за процессом, в частности правильность каждого шага в решении, которое требует создания модели маркировки человеком. В исследовании проводились эксперименты как в крупномасштабных, так и в мелкомасштабных условиях.
объем
Для каждого размера модели в исследовании используется фиксированная модель для создания всех решений. Эта модель называется генератором, и OpenAI заявляет, что не улучшит генератор с помощью обучения с подкреплением (RL).
Базовая модель
Все большие модели доработаны на основе модели GPT-4. Исследование также добавило дополнительный этап предварительной подготовки — тонкую настройку всех моделей в MathMix, наборе данных, содержащем около 1,5 млрд математических токенов. Подобно Левковичу и др. (2022), исследовательская группа OpenAI обнаружила, что этот подход улучшает математические способности модели.
Строитель
Чтобы упростить синтаксический анализ отдельных шагов, в ходе исследования генератор научился генерировать решения с шагами, разделенными символами новой строки. В частности, в исследовании используются решения для решения задач обучения MATH за несколько шагов, отфильтровываются решения, которые приводят к окончательному правильному ответу, и настраивается базовая модель для одной эпохи в этом наборе данных.
Сбор данных
Для сбора данных, контролируемых процессом, исследование показывает людям, размечающим данные, пошаговые решения математических задач, выбранных крупномасштабными генераторами. Задача специалиста по маркировке данных состоит в том, чтобы присвоить каждому шагу решения положительную, отрицательную или нейтральную метку, как показано на рис. 1 ниже.
В исследовании маркируются только решения, созданные крупными производителями, чтобы максимизировать ценность ограниченных ресурсов искусственных данных. Исследование относится к собранному поэтапно всему набору данных, помеченному как PRM800K. Учебный набор PRM800K содержит 800 тыс. меток шагов, охватывающих 75 тыс. решений 12 тыс. задач. Чтобы свести к минимуму переобучение, обучающий набор PRM800K содержит данные из 4,5 тыс. тестовых задач по МАТЕМАТИКЕ, а модель оценивается только на оставшихся 500 тестовых задачах по МАТЕМАТИКЕ.
Модель контролируемого вознаграждения за результат (ORM)
В этом исследовании ORM обучается в соответствии с подходом, аналогичным Коббе и др. (2021), и отбирает фиксированное количество решений для каждой задачи из генератора, а затем обучает ORM предсказывать, является ли каждое решение правильным или нет. На практике общепринятой практикой является автоматическая проверка окончательного ответа на правильность, но в принципе метки ставят люди. Во время тестирования в исследовании используется прогноз ORM для конечного токена в качестве общего балла для каждого решения.
Модель вознаграждения за надзор за процессами (PRM)
PRM используется для прогнозирования правильности шагов после последнего токена на каждом шаге. Этот прогноз принимает форму отдельных токенов, и OpenAI максимизирует логарифмическую вероятность этих целевых токенов во время обучения. Следовательно, PRM можно обучать на стандартных конвейерах языковых моделей без каких-либо специальных приспособлений.
На рис. 2 показаны два решения одной и той же задачи, ответ слева правильный, а ответ справа неправильный. Зеленый фон указывает на высокий балл PRM, а красный фон указывает на низкий балл PRM. PRM может правильно идентифицировать ошибки в решениях по ошибкам.
При выполнении контроля процесса OpenAI намеренно выбирает контроль только за первым ошибочным шагом, что делает сравнение между контролем результатов и контролем процесса более простым. Для правильного решения оба метода предоставляют одинаковую информацию, поскольку каждый шаг является правильным способом решения проблемы. Для ошибочных решений оба метода выявляют как минимум одну ошибку, а мониторинг процесса также выявляет точное местонахождение ошибки.
Масса наблюдения
OpenAI использует полностью контролируемый набор данных PRM800K для обучения PRM. Чтобы сделать тест ORM более мощным, OpenAI также обучает 100 образцов для каждого вопроса. Все эти образцы взяты из генератора, поэтому между ORM нет перекрывающихся образцов. тренировочный набор и PRM800K.
На приведенном ниже рисунке показано сравнение моделей вознаграждения с контролируемым результатом и контролируемым процессом, а также схем голосования, показывающее, что PRM более эффективен, чем ORM и голосование большинством, при поиске решений, генерируемых моделью.
Маломасштабный комплексный надзор
Чтобы лучше сравнить наблюдение за результатами и наблюдение за процессом, первое, что нужно отметить, это то, что обучающие наборы ORM и PRM не могут быть напрямую сопоставимы.Обучающий набор PRM построен с использованием активного обучения и смещен в сторону решений с неправильными ответами. на порядок меньше.
Мониторинг процесса VS Мониторинг результатов
Сначала OpenAI выбирает от 1 до 200 решений для каждой проблемы из небольшого генератора. Для каждого набора данных OpenAI предоставляет три формы контроля: контроль процесса из PRM_large, контроль результатов из PRM_large и контроль результатов из окончательной проверки ответов.
Рисунок 4а показывает, что контроль процесса значительно лучше двух других форм контроля результатов, а рисунок 4б показывает, что контроль результатов с помощью PRM_large значительно эффективнее, чем контроль результатов с проверкой окончательного ответа.
Обобщение OOD
Чтобы измерить производительность моделей, обобщающих вне распределения (OOD), OpenAI оценивает крупномасштабные ORM и PRM на задержке (метод удержания), состоящей из 224 задач STEM из последней версии AP Physics (Advanced Placement Американского университета (AP ), AP Calculus, AP Chemistry, AMC10 (понимается как соревнование по математике) и экзамены AMC12, эти вопросы модель не видела. 100 лучших результатов для ORM, PRM и мажоритарного голосования представлены в таблице 1. показывает, что PRM превосходит как ORM, так и голосование большинством, и подразумевает, что производительность PRM на новых тестовых задачах остается прежней.
Посмотреть Оригинал
Содержание носит исключительно справочный характер и не является предложением или офертой. Консультации по инвестициям, налогообложению или юридическим вопросам не предоставляются. Более подробную информацию о рисках см. в разделе «Дисклеймер».
OpenAI собирается решать математические задачи для GPT-4: модель вознаграждения неверна, а уровень решения задач вышел на новый уровень
Источник: Сердце машины
Теперь большие языковые модели открывают эру «всемогущества», когда способность выполнять сложные многоэтапные рассуждения также значительно улучшилась. Тем не менее, даже большие современные модели могут давать логические ошибки, часто называемые галлюцинациями. Следовательно, облегчение галлюцинаций является важным шагом в построении согласованного ОИИ.
Чтобы обучить более надежную модель, в настоящее время существует два разных метода обучения модели вознаграждения: один — наблюдение за результатом, а другой — наблюдение за процессом. Модели вознаграждения, контролируемого результатом (ORM), обучаются с использованием только конечного результата цепочки мышления модели, в то время как модели вознаграждения, контролируемого процессом (PRM), получают вознаграждение за каждый шаг в цепочке мышления.
Учитывая важность обучения надежных моделей и высокую стоимость обратной связи с человеком, важно тщательно сравнивать надзор за результатами с надзором за процессом. Хотя в недавней работе было проведено это сравнение, остается много вопросов.
В этой статье OpenAI исследует и обнаруживает, что наблюдение за процессом значительно превосходит наблюдение за результатом при обучении моделей для решения задач в наборе данных MATH. OpenAI решил 78% проблем в репрезентативном подмножестве набора тестов MATH, используя свою собственную модель PRM.
Кроме того, для поддержки соответствующих исследований OpenAI также предоставляет PRM800K с открытым исходным кодом, полный набор данных, содержащий 800 000 пошаговых меток отзывов людей, для обучения своих моделей оптимального вознаграждения.
Адрес набора данных:
Обзор метода
В исследовании сравнивается надзор за исходом с надзором за процессом в соответствии с подходом, аналогичным Uesato et al. (2022). Стоит отметить, что это исследование не предусматривает человеческого контроля за результатами, поскольку все вопросы в наборе данных MATH имеют автоматически проверяемые ответы. Напротив, не существует простого способа автоматизировать надзор за процессами. Исследование опирается на людей, размечающих данные, чтобы обеспечить надзор за процессом, в частности правильность каждого шага в решении, которое требует создания модели маркировки человеком. В исследовании проводились эксперименты как в крупномасштабных, так и в мелкомасштабных условиях.
объем
Для каждого размера модели в исследовании используется фиксированная модель для создания всех решений. Эта модель называется генератором, и OpenAI заявляет, что не улучшит генератор с помощью обучения с подкреплением (RL).
Базовая модель
Все большие модели доработаны на основе модели GPT-4. Исследование также добавило дополнительный этап предварительной подготовки — тонкую настройку всех моделей в MathMix, наборе данных, содержащем около 1,5 млрд математических токенов. Подобно Левковичу и др. (2022), исследовательская группа OpenAI обнаружила, что этот подход улучшает математические способности модели.
Строитель
Чтобы упростить синтаксический анализ отдельных шагов, в ходе исследования генератор научился генерировать решения с шагами, разделенными символами новой строки. В частности, в исследовании используются решения для решения задач обучения MATH за несколько шагов, отфильтровываются решения, которые приводят к окончательному правильному ответу, и настраивается базовая модель для одной эпохи в этом наборе данных.
Сбор данных
Для сбора данных, контролируемых процессом, исследование показывает людям, размечающим данные, пошаговые решения математических задач, выбранных крупномасштабными генераторами. Задача специалиста по маркировке данных состоит в том, чтобы присвоить каждому шагу решения положительную, отрицательную или нейтральную метку, как показано на рис. 1 ниже.
Модель контролируемого вознаграждения за результат (ORM)
В этом исследовании ORM обучается в соответствии с подходом, аналогичным Коббе и др. (2021), и отбирает фиксированное количество решений для каждой задачи из генератора, а затем обучает ORM предсказывать, является ли каждое решение правильным или нет. На практике общепринятой практикой является автоматическая проверка окончательного ответа на правильность, но в принципе метки ставят люди. Во время тестирования в исследовании используется прогноз ORM для конечного токена в качестве общего балла для каждого решения.
Модель вознаграждения за надзор за процессами (PRM)
PRM используется для прогнозирования правильности шагов после последнего токена на каждом шаге. Этот прогноз принимает форму отдельных токенов, и OpenAI максимизирует логарифмическую вероятность этих целевых токенов во время обучения. Следовательно, PRM можно обучать на стандартных конвейерах языковых моделей без каких-либо специальных приспособлений.
На рис. 2 показаны два решения одной и той же задачи, ответ слева правильный, а ответ справа неправильный. Зеленый фон указывает на высокий балл PRM, а красный фон указывает на низкий балл PRM. PRM может правильно идентифицировать ошибки в решениях по ошибкам.
Масса наблюдения
OpenAI использует полностью контролируемый набор данных PRM800K для обучения PRM. Чтобы сделать тест ORM более мощным, OpenAI также обучает 100 образцов для каждого вопроса. Все эти образцы взяты из генератора, поэтому между ORM нет перекрывающихся образцов. тренировочный набор и PRM800K.
На приведенном ниже рисунке показано сравнение моделей вознаграждения с контролируемым результатом и контролируемым процессом, а также схем голосования, показывающее, что PRM более эффективен, чем ORM и голосование большинством, при поиске решений, генерируемых моделью.
Чтобы лучше сравнить наблюдение за результатами и наблюдение за процессом, первое, что нужно отметить, это то, что обучающие наборы ORM и PRM не могут быть напрямую сопоставимы.Обучающий набор PRM построен с использованием активного обучения и смещен в сторону решений с неправильными ответами. на порядок меньше.
Мониторинг процесса VS Мониторинг результатов
Сначала OpenAI выбирает от 1 до 200 решений для каждой проблемы из небольшого генератора. Для каждого набора данных OpenAI предоставляет три формы контроля: контроль процесса из PRM_large, контроль результатов из PRM_large и контроль результатов из окончательной проверки ответов.
Рисунок 4а показывает, что контроль процесса значительно лучше двух других форм контроля результатов, а рисунок 4б показывает, что контроль результатов с помощью PRM_large значительно эффективнее, чем контроль результатов с проверкой окончательного ответа.
Чтобы измерить производительность моделей, обобщающих вне распределения (OOD), OpenAI оценивает крупномасштабные ORM и PRM на задержке (метод удержания), состоящей из 224 задач STEM из последней версии AP Physics (Advanced Placement Американского университета (AP ), AP Calculus, AP Chemistry, AMC10 (понимается как соревнование по математике) и экзамены AMC12, эти вопросы модель не видела. 100 лучших результатов для ORM, PRM и мажоритарного голосования представлены в таблице 1. показывает, что PRM превосходит как ORM, так и голосование большинством, и подразумевает, что производительность PRM на новых тестовых задачах остается прежней.