С помощью GPT-4 робот научился поворачивать ручку и тарелку грецких орехов

Оригинальное сердце машины

Редактор: Чжан Цянь, Чэнь Пин

С комбинацией GPT-4 и обучения с подкреплением, как будет выглядеть будущее робототехники?

Когда дело доходит до обучения, GPT-4 является грозным учеником. Переварив большое количество человеческих данных, он освоил различные знания и даже вдохновил математика Тао Чжэсюаня в чате.

При этом он стал отличным учителем, и не только учит книжным знаниям, но и учит роботов крутить ручки.

Робот, получивший название Eureka, был разработан компанией Nvidia, Университетом Пенсильвании, Калифорнийским технологическим институтом и Техасским университетом в Остине. В этом исследовании объединены результаты больших языковых моделей и обучения с подкреплением: GPT-4 используется для уточнения функции вознаграждения, а обучение с подкреплением — для обучения контроллера робота.

Благодаря способности GPT-4 писать код, Eureka обладает отличными возможностями проектирования функций вознаграждения, а его самостоятельно генерируемые вознаграждения превосходят вознаграждения экспертов-людей в 83% задач. Эта способность позволяет роботу выполнять многие задачи, которые раньше было нелегко выполнить, такие как поворот ручек, открытие ящиков и шкафов, бросание мячей для ловли и дриблинг, работа с ножницами и т. д. Однако пока все это делается в виртуальной среде.

Кроме того, Eureka внедрила новый тип контекстного RLHF, который включает в себя обратную связь на естественном языке от людей-операторов для управления и согласования функций вознаграждения. Он может предоставить инженерам-робототехникам мощные вспомогательные функции, помогающие инженерам проектировать сложное поведение движения. Джим Фан (Jim Fan), старший научный сотрудник NVIDIA и один из авторов статьи, сравнил исследование с «Voyager в пространстве API физического симулятора».

Стоит отметить, что это исследование полностью с открытым исходным кодом, и адрес с открытым исходным кодом выглядит следующим образом:

Ссылка на статью:

Ссылка на проект:

Ссылка на код:

Обзор статьи

Большие языковые модели (LLM) превосходно справляются с высокоуровневым семантическим планированием роботизированных задач (например, SayCan от Google, боты RT-2), но вопрос о том, можно ли их использовать для изучения сложных, низкоуровневых операционных задач, таких как поворот пера, остается открытым. Существующие попытки требуют большого опыта в предметной области для создания подсказок к задачам или обучения только простым навыкам, далеким от гибкости человеческого уровня.

Робот RT-2 от Google

Обучение с подкреплением (RL), с другой стороны, достигло впечатляющих результатов в гибкости и многих других аспектах (например, манипулятор OpenAI, который играет кубиком Рубика), но оно требует от разработчиков тщательно конструировать функции вознаграждения, которые точно кодируют и предоставляют обучающие сигналы для желаемого поведения. Поскольку многие реальные задачи обучения с подкреплением предоставляют только редкие вознаграждения, которые трудно использовать для обучения, формирование вознаграждения необходимо на практике, чтобы обеспечить прогрессивные сигналы обучения. Несмотря на то, что функция вознаграждения очень важна, она, как известно, сложна в разработке. Недавний опрос показал, что 92% опрошенных исследователей и практиков обучения с подкреплением заявили, что они использовали человеческие пробы и ошибки при разработке вознаграждений, а 89% заявили, что они разрабатывали вознаграждения, которые были неоптимальными и приводили к неожиданному поведению.

Учитывая, что дизайн вознаграждения так важен, мы не можем не задаться вопросом, возможно ли разработать универсальный алгоритм программирования вознаграждений с использованием самых современных программ программирования, таких как GPT-4? Эти магистры права превосходно справляются с кодированием, генерацией нулевых выстрелов и контекстным обучением, а также значительно повысили производительность агентов программирования. В идеале этот алгоритм проектирования вознаграждения должен обладать возможностями генерирования вознаграждения на уровне человека, которые могут масштабироваться до широкого спектра задач, автоматизировать утомительные процессы проб и ошибок без контроля со стороны человека и быть совместимыми с человеческим контролем для обеспечения безопасности и согласованности.

В данной статье предлагается алгоритм проектирования вознаграждения на основе LLM, EUREKA (Evolution-driven Universal REward Kit for Agent). Алгоритм обеспечивает следующее:

Производительность дизайна вознаграждения достигает человеческого уровня в 29 различных средах RL с открытым исходным кодом, которые включают в себя 10 различных форм роботов (четвероногого, квадрокоптера, двуногого, манипулятора и нескольких ловких рук, см. рис. 1). Без каких-либо подсказок для конкретных задач или шаблонов вознаграждений, самостоятельно сгенерированные вознаграждения EUREKA превзошли вознаграждения экспертов-людей в 83% задач и достигли среднего улучшения нормализации на 52%.

2. Решайте ловкие операционные задачи, которые раньше не могли быть достигнуты с помощью ручного управления вознаграждением. Возьмем, к примеру, задачу о повороте пера, в которой рука, имеющая всего пять пальцев, должна быстро вращать перо в соответствии с заданной конфигурацией вращения и вращать как можно больше циклов. Объединив «Эврику» с курсовой работой, исследователи впервые продемонстрировали операцию быстрого поворота пера на смоделированной антропоморфной «Теневой руке» (см. внизу рис. 1).

  1. В этой статье представлен новый метод контекстного обучения без градиента для обучения с подкреплением на основе обратной связи от человека (RLHF), который может генерировать более эффективные и ориентированные на человека функции вознаграждения на основе различных форм человеческого вклада. В статье показано, что EUREKA может извлечь выгоду из существующих функций вознаграждения человека и улучшить их. Аналогичным образом, исследователи продемонстрировали способность EUREKA использовать человеческую текстовую обратную связь для помощи в разработке функций вознаграждения, которые помогают улавливать тонкие человеческие предпочтения.

В отличие от предыдущих работ L2R, в которых использовался дизайн вознаграждений с помощью LLM, в EUREKA нет подсказок для конкретных задач, шаблонов вознаграждений и нескольких примеров. В эксперименте EUREKA показала себя значительно лучше, чем L2R, благодаря своей способности генерировать и совершенствовать свободные, выразительные программы вознаграждений.

Универсальность «Эврики» обусловлена тремя ключевыми вариантами дизайна алгоритма: контекст как контекст, эволюционный поиск и рефлексия вознаграждения.

Во-первых, используя исходный код среды в качестве контекста, EUREKA может генерировать исполняемые функции вознаграждения из нулевых выборок в магистральном коде LLM (GPT-4). Затем EUREKA значительно улучшает качество вознаграждений, выполняя эволюционный поиск, итеративно предлагая партии-кандидаты на вознаграждение и уточняя наиболее перспективные вознаграждения в контекстном окне LLM. Это улучшение в контексте достигается за счет рефлексии вознаграждения, которая представляет собой текстовое резюме качества вознаграждения, основанное на статистике обучения стратегии, что позволяет автоматически и целенаправленно редактировать вознаграждение.

НА РИСУНКЕ 3 ПОКАЗАН ПРИМЕР ВОЗНАГРАЖДЕНИЯ EUREKA ZERO-SAMPLE И УЛУЧШЕНИЯ, НАКОПЛЕННЫЕ В ХОДЕ ОПТИМИЗАЦИИ. Чтобы гарантировать, что EUREKA сможет масштабировать свой поиск вознаграждения до максимального потенциала, EUREKA использует распределенное обучение с подкреплением на GPU в IsaacGym для оценки промежуточных вознаграждений, что обеспечивает повышение скорости обучения политик на три порядка, что делает EUREKA широким алгоритмом, который масштабируется естественным образом по мере увеличения объема вычислений.

Это показано на рисунке 2. Исследователи стремятся открыть исходный код всех подсказок, сред и сгенерированных функций вознаграждения, чтобы облегчить дальнейшие исследования дизайна вознаграждения на основе LLM.

Введение в метод

Алгоритм вознаграждения EUREKA может написать автономно, как он реализован, давайте рассмотрим далее.

EUREKA состоит из трех алгоритмических компонентов: 1) использование окружения в качестве контекста, что позволяет генерировать исполняемые вознаграждения с нулевым выстрелом; 2) эволюционный поиск, итеративное предложение и уточнение кандидатов на вознаграждение; 3) Рефлексия вознаграждения и поддержка детального улучшения вознаграждения.

Окружающая среда как контекст

В этой статье рекомендуется предоставлять исходный код среды непосредственно в качестве контекста. С минимальными инструкциями EUREKA может генерировать вознаграждения в различных средах с нулевыми образцами. Пример вывода EUREKA показан на рисунке 3. EUREKA умело комбинирует существующие переменные наблюдения (например, положение кончика пальца) в предоставленном коде среды и выдает действительный код вознаграждения — и все это без каких-либо инженерных подсказок или шаблонов вознаграждений, специфичных для конкретной среды.

Однако с первой попытки полученное вознаграждение не всегда может быть выполнимым, а если и есть, то оно может оказаться неоптимальным. В связи с этим возникает вопрос о том, как эффективно преодолеть субоптимальность генерации вознаграждения на основе одной выборки?

Эволюционный поиск

Далее в статье описывается, как эволюционный поиск решает проблемы неоптимальных решений, упомянутые выше. Они доведены до совершенства таким образом, что на каждой итерации EUREKA отбирает несколько независимых выходов LLM (строка 5 в алгоритме 1). Поскольку каждая итерация является независимой и однородной, вероятность ошибок во всех функциях вознаграждения в итерации экспоненциально уменьшается по мере увеличения размера выборки.

Отражение награды

Для обеспечения более сложного и целенаправленного анализа вознаграждения в данной статье предлагается создать автоматизированную обратную связь для обобщения динамики обучения политике в тексте. В частности, учитывая, что функция вознаграждения EUREKA требует отдельных компонентов в программе вознаграждения (например, компонент вознаграждения на рисунке 3), в этой статье отслеживаются скалярные значения всех компонентов вознаграждения в промежуточных контрольных точках политики на протяжении всего процесса обучения.

Построить этот процесс отражения вознаграждения просто, но он важен из-за зависимости алгоритма оптимизации вознаграждения. То есть, является ли функция вознаграждения действительной или нет, зависит от конкретного выбора алгоритма RL, и одно и то же вознаграждение может вести себя совершенно по-разному даже при одном и том же оптимизаторе при заданной разнице гиперпараметров. Подробно описывая, как алгоритм RL оптимизирует отдельные компоненты вознаграждения, отражение вознаграждения позволяет EUREKA производить более целенаправленные правки вознаграждения и синтезировать функции вознаграждения для лучшей работы с алгоритмом фиксированного вознаграждения.

Эксперимент

Экспериментальная часть дает всестороннюю оценку Эврики, включая способность генерировать функции вознаграждения, способность решать новые задачи, а также способность интегрировать различные входные данные человека.

Экспериментальная среда включает в себя 10 различных роботов и 29 заданий, 29 из которых реализуются симулятором IsaacGym. В эксперименте используются 9 примитивных сред от IsaacGym (Айзек), охватывающих различные формы роботов от четвероногого, двуногого, квадрокоптера, манипулятора до роботизированной ловкой руки. Кроме того, эта статья обеспечивает глубину оценки, включая 20 заданий из теста Dexterity.

Эврика может производить функцию вознаграждения сверхчеловеческого уровня. Из 29 заданий функция вознаграждения, предоставленная Эврикой, показала лучшие результаты, чем вознаграждения, написанные экспертами, в 83% заданий, улучшившись в среднем на 52%. В частности, Eureka добилась больших преимуществ в многомерной тестовой среде Dexterity.

Eureka может развивать поиск наград таким образом, чтобы вознаграждения улучшались с течением времени. Eureka постепенно производит лучшие вознаграждения, сочетая крупномасштабный поиск наград и подробную обратную связь о вознаграждении, в конечном итоге превосходя человеческий уровень.

Эврика также может генерировать новые награды. В данной работе оценивается новизна вознаграждений «Эврика» путем вычисления корреляции между вознаграждениями «Эврика» и вознаграждениями людей по всем заданиям «Исаака». Как показано на рисунке, Эврика в основном генерирует слабо коррелированные функции вознаграждения, которые превосходят функции вознаграждения человека. Кроме того, в документе также отмечается, что чем сложнее задача, тем менее актуальна награда «Эврика». В некоторых случаях вознаграждения Eureka даже отрицательно коррелируют с человеческими наградами, но работают значительно лучше, чем человеческие награды.

想要实现机器人的灵巧手能够不停的转笔,需要操作程序有尽可能多的循环。本文通过以下方式解决此任务:(1) Поручите Eureka создать функцию вознаграждения, которая перенаправляет перья на случайную целевую конфигурацию, а затем (2) точно настроить эту предварительно обученную стратегию с помощью Eureka Rewards, чтобы достичь желаемой конфигурации последовательности вращения пера. Как показалось, Эврика тонко настроилась и быстро адаптировалась к стратегии, успешно раскручивая множество циклов подряд. В отличие от этого, ни предварительно обученные, ни изученные стратегии с нуля не могут завершить вращение за один цикл.

В данной работе также рассматривается вопрос о том, полезно ли для Эврики начинать с инициализации функции вознаграждения человека. Как было показано, Эврика совершенствуется и извлекает выгоду из человеческих вознаграждений, независимо от их качества.

Eureka также внедрила RLHF, которая может изменять вознаграждения на основе обратной связи от человека, чтобы шаг за шагом направлять агентов к более безопасному и похожему на человека поведению. В примере показано, как Eureka учит робота-гуманоида бегать вертикально с помощью некоторой обратной связи от человека, которая заменяет предыдущее автоматическое отражение вознаграждения.

Человекоподобный робот учится бегать с помощью Эврики

Для получения дополнительной информации, пожалуйста, обратитесь к оригинальной статье.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить