CMU Tsinghua MIT взорвал первый в мире бесконечный поток Агента, а робот «007» не может перестать работать сверхурочно и самообучаться! Воплощенный интеллект претерпевает революцию

Источник статьи: New Zhiyuan

Редактор: Эней сонный

Недавно RoboGen, первый в мире генеративный робот-агент, предложенный CMU/MIT/Tsinghua/Umass, может генерировать данные бесконечно и позволять роботам обучаться без остановки 24 часа в сутки 7 дней в неделю. AIGC for Robotics – это действительно путь в будущее.

Выпущен первый в мире генеративный бот-агент!

В течение долгого времени, по сравнению с языковыми или зрительными моделями, которые могут быть обучены на крупномасштабных интернет-данных, стратегическая модель для обучения роботов требует данных с динамической информацией о физическом взаимодействии, а отсутствие этих данных всегда было самым большим узким местом в развитии воплощенного интеллекта.

Недавно исследователи из CMU, Университета Цинхуа, Массачусетского технологического института, Массачусетского университета и других учреждений предложили новый агент RoboGen.

Используя крупномасштабные знания, содержащиеся в больших языковых моделях и генеративных моделях, в сочетании с физической информацией, предоставляемой реалистичными смоделированными мирами, различные задачи, сценарии и обучающие данные могут быть сгенерированы «неограниченно», а робот может быть полностью обучен 24/7.

Прямо сейчас у нас быстро заканчиваются высококачественные реальные токены из сети. Данные, используемые для обучения ИИ по всему миру, заканчиваются.

Хинтон, отец глубокого обучения, сказал: «Технологические компании обучают новые модели с в 100 раз большей вычислительной мощностью, чем GPT-4 в течение следующих 18 месяцев». Параметры модели больше, а требования к вычислительной мощности огромны, но где данные?

Перед лицом голодных моделей синтез ИИ является ответом на этот вопрос.

Адрес:

Домашняя страница проекта:

Адрес с открытым исходным кодом:

В частности, исследовательская группа во главе с Ган Чуангом (Gan Chuang), главным научным сотрудником Массачусетского технологического института (MIT-IBM), предложила цикл «предложить-генерировать-обучиться» с поддержкой генеративного искусственного интеллекта и дифференцируемых физических симуляций, позволяющий агентам самостоятельно решать задачи и обучать роботов.

Во-первых, агент предложил нам развить этот навык.

Затем он создает соответствующую среду, конфигурацию и руководство по обучению навыкам для создания смоделированной среды.

Наконец, агент разложит предложенную задачу верхнего уровня на подзадачи, выберет наилучший метод обучения, а затем изучит стратегию и освоит предложенные навыки.

Стоит отметить, что весь процесс практически не требует контроля со стороны человека, а количество заданий не ограничено!

Для этого сенсационного исследования Джим Фан (Jim Fan), старший научный сотрудник NVIDIA, также переслал его.

Теперь робот освоил ряд взрывных операций -

Положите свои вещи в шкафчик:

Разогрейте тарелку супа в микроволновой печи:

Потяните за рычаг, чтобы сварить кофе:

А также сальто назад и многое другое:

Смоделированная среда, ключ к обучению разнообразным навыкам

Извечная дилемма в исследованиях робототехники заключается в том, как дать роботам навыки работы в незаводских условиях и выполнения широкого спектра задач для людей.

В последние годы мы обучили роботов множеству сложных навыков, таких как манипулирование жидкостью, бросание предметов, игра в футбол, паркур и многое другое, но эти навыки разрознены, имеют короткое поле зрения и требуют разработанных человеком описаний задач и контроля за обучением.

Поскольку сбор данных в реальном мире является дорогостоящим и трудоемким процессом, эти навыки обучаются в симуляциях, рандомизированных в соответствующей области, а затем развертываются в реальном мире.

Смоделированные среды имеют много преимуществ по сравнению с реальным исследованием и сбором данных, такие как предоставление привилегированного доступа к низкоуровневому состоянию и неограниченные возможности для исследования; Поддерживает массово-параллельные вычисления, а скорость сбора данных значительно ускоряется; Позволяет ботам разрабатывать стратегии с обратной связью и возможности восстановления после ошибок.

Однако создание смоделированной среды требует выполнения ряда утомительных задач (проектирование задач, выбор релевантных и семантически значимых активов, создание разумных сценарных макетов и конфигураций, формулирование контроля обучения, такого как функции вознаграждения или потери). Даже в смоделированном мире масштабируемость обучения навыкам робота сильно ограничена.

Поэтому исследователи предлагают парадигму «генеративного моделирования», которая сочетает в себе достижения в обучении смоделированным навыкам робота с последними достижениями в фундаментальных и генеративных моделях.

Используя возможности генерации современных базовых моделей, генеративное моделирование может генерировать информацию для всех этапов, необходимых для различных навыков робота в симуляции.

Благодаря обширным знаниям в области программирования в последних базовых моделях, данные сценариев и задач, сгенерированные таким образом, могут быть очень похожи на распределение реальных сценариев.

Кроме того, эти модели могут дополнительно предоставлять декомпозированные низкоуровневые подзадачи, которые могут быть легко обработаны методами обучения политикам, специфичными для предметной области, что приводит к демонстрацией различных навыков и сценариев в замкнутом цикле.

Процесс RoboGen

RoboGen — это полностью автоматизированный процесс, который позволяет роботам обучаться различным навыкам в режиме 24/7 и состоит из 4 этапов:

  1. Постановка задачи;

  2. Генерация сцен;

  3. Обучение курируемого поколения;

  4. Используйте полученную информацию для обучения навыкам.

Используя встроенный здравый смысл и возможности генерации новейших базовых моделей, RoboGen может автоматизировать генерацию задач, сценариев и контроль обучения, обеспечивая обучение роботов с несколькими навыками в большом масштабе.

Предложение задачи

На этом этапе RoboGen может предлагать задачи верхнего уровня, генерировать соответствующее окружение, декомпозировать цели верхнего уровня на низкоуровневые подзадачи, а затем последовательно изучать поднавыки.

Во-первых, RoboGen генерирует значимые, разнообразные, высокоуровневые задачи, которые робот должен обучиться.

Исследователь инициализирует систему с помощью определенного типа робота и случайных выборок объектов из пула. Предоставленная информация о роботе и объекте образца затем вводится в LLM.

Этот процесс выборки обеспечивает разнообразие задач генерации.

Например, робот с ногами, такой как четвероногий робот, может приобрести различные двигательные навыки, в то время как роботизированный манипулятор в паре может выполнять различные манипуляции с различными объектами отбора проб.

Исследователи использовали GPT-4 для выполнения запросов в текущем процессе. Далее следует объяснение деталей RoboGen в контексте машины, а также задач, связанных с манипулированием объектами.

Объекты, используемые для инициализации, выбираются из предопределенного списка, включая артикулированные и неартикулированные объекты, которые часто встречаются в домашних сценах, такие как духовки, микроволновые печи, диспенсеры для воды, ноутбуки, посудомоечные машины и т. д.

Поскольку GPT-4 был обучен на больших интернет-наборах данных, он обладает богатым пониманием возможностей этих объектов, того, как с ними взаимодействовать и с какими значимыми задачами они могут быть связаны.

Например, если шарнирный объект является микроволновой печью, где стык 0 — это вращающийся шарнир, соединяющий дверцу, а стык 1 — еще один вращающийся шарнир, который управляет ручкой таймера, GPT-4 вернет задачу: «Робот-манипулятор ставит тарелку супа в микроволновую печь, закрывает дверцу и устанавливает таймер микроволновой печи на время нагрева a».

Другими объектами, необходимыми для сгенерированной задачи, является тарелка супа a, а также соединения и связи, связанные с задачей, в том числе соединение 0 (для открытия дверцы микроволновой печи), соединение 1 (для установки таймера), звено 0 (к двери) и звено 1 (ручка таймера).

Поскольку PartNetMobility является единственным высококачественным набором данных артикулированных объектов и уже охватывает широкий спектр сочлененных объектов, задачи создаются на основе выборочных объектов.

Многократно запрашивая различные объекты и примеры, можно создавать различные операции и задачи перемещения.

Генерация сцены

Получив задачу, вы можете продолжить создание соответствующего сценария моделирования, чтобы получить навыки для выполнения этой задачи.

Как показано на рисунке, компоненты и конфигурации сцены генерируются в соответствии с описанием задачи, а активы объекта извлекаются или генерируются, которые затем заполняются сценой моделирования.

Компоненты и конфигурации сцены состоят из следующих элементов: запрос связанного ресурса, который должен быть заполнен в сцене, его физические параметры (например, размер), конфигурация (например, начальный угол соединения) и общая пространственная конфигурация объекта.

В дополнение к необходимым объектным ассетам, необходимым для задачи, сгенерированной на предыдущем шаге, с целью увеличения сложности и разнообразия сгенерированной сцены, при этом напоминая объектное распределение реальной сцены, исследователи также попросили GPT-4 возвращать дополнительные запросы к объектам, связанным с семантикой задачи.

Например, для задания «Открой шкаф, положи в него игрушку и закрой» в итоговую сцену также войдут коврик для гостиной, лампа, книга и офисный стул.

### Поколение под наблюдением инструктора

Для того, чтобы приобрести соответствующие навыки, обучение навыкам должно контролироваться.

RoboGen сначала запросит GPT-4 для планирования и разбивки длинных задач на более короткие подзадачи.

Ключевое предположение состоит в том, что когда задача разбита на достаточно короткие подзадачи, каждая подзадача может быть надежно решена существующими алгоритмами, такими как обучение с подкреплением, планирование движения, оптимизация траектории и т. д.

После декомпозиции RoboGen запрашивает GPT-4 для выбора подходящего алгоритма для решения каждой подзадачи.

В RoboGen интегрировано несколько различных типов алгоритмов обучения: обучение с подкреплением, эволюционные стратегии, оптимизация траекторий на основе градиента и инициализация действий с планированием движения.

Каждый из них подходит для различных задач, таких как оптимизация траектории на основе градиента, которая лучше подходит для обучения мелкозернистым манипуляциям с мягкими телами, таким как придание тесту целевой формы.

Инициализация действий в сочетании с планированием движения более надежна при решении таких задач, как приближение к целевому объекту по траектории без столкновений.

Обучение с подкреплением и эволюционные стратегии лучше подходят для задач с большим количеством контактов, которые предполагают постоянное взаимодействие с другими компонентами сцены, такими как движения ног, или когда желаемое действие не может быть просто параметризировано с помощью дискретной позы конечного эффектора, например, поворота ручки духовки.

Таким образом, GPT-4 выбирает, какой алгоритм использовать онлайн, на основе сгенерированных подзадач.

Далее пришло время создать сценарий симуляции для робота и позволить ему освоить навыки.

Робот учится открывать сейф

Например, RoboGen попросит робота научиться очень тонкой задаче регулировки направления настольной лампы.

Интересно, что в этой сцене на земле лежат хрупкие предметы, такие как компьютерные мониторы.

Можно сказать, что это отличный тест на способность робота распознавать окружающую среду.

Для этого RoboGen генерирует очень подробный код операции, включая конфигурацию сцены, декомпозицию задач и супервизию:

Кроме того, будут обучены задачи, для выполнения которых требуется много шагов, например, робот вынимает содержимое сейфа.

Это включает в себя открытие, принятие, опускание, закрытие двери и другие операции, во время которых также необходимо постараться избежать столкновения с мебелью.

Код, выдаваемый RoboGen, выглядит следующим образом:

Или, например, человекоподобный робот в Boston Dynamics вращается на месте, с которым можно столкнуться в небольшом пространстве.

Вот код:

Результаты экспериментов

- Разнообразие заданий

Как показано в таблице 1, RoboGen достигает самого низкого сходства с собственным BLEU и встраиванием по сравнению со всеми предыдущими тестами. Другими словами, разнообразие задач генерации RoboGen выше, чем у искусственно созданных тестов и наборов данных для обучения навыкам!

- Эффективность сценария

Как показано на рисунке 4, удаление проверки размера приводит к резкому падению баллов BLIP-2 из-за большого расхождения между размером объектов в Objaverse и PartNetMobility и фактическим размером в реальном мире. Кроме того, BLIP-2 без проверки объектов также имел более низкий балл и большую дисперсию.

В отличие от этого, этап валидации в RoboGen может значительно повысить эффективность выбора объектов.

- Эффективность инструкций по обучению

Как показано на рисунке 3, робот обучается навыкам на основе руководства по обучению (т.е. декомпозиции задач и функции вознаграждения), сгенерированных RoboGen в четырех долгосрочных задачах.

Результаты показывают, что робот успешно осваивает навыки для выполнения соответствующих задач. Другими словами, автоматически сгенерированные тренеры по обучению эффективны в получении значимых и полезных навыков.

- Обучение навыкам

Результаты, приведенные в таблице 2, показывают, что возможность выбора алгоритма обучения полезна для повышения производительности выполнения задачи. Если вы используете только RL, вы не сможете освоить навыки для большинства задач.

-Система

Как показано на рисунке 1, RoboGen может генерировать различные задачи для обучения навыкам, включая манипуляции с жесткими/суставными объектами, передвижение и манипуляции с мягким телом.

На рисунке 3 также показано, что RoboGen способен обеспечить навыки работы на больших расстояниях разумным способом разложения.

Введение автора

Юфэй Ван учится на третьем курсе аспирантуры в Институте робототехники Университета Карнеги-Меллона, где он работает под руководством профессора Закори Эриксона и профессора Дэвида Хелда, с исследовательским интересом к обучению робототехнике.

Ранее он получил степень магистра компьютерных наук в CMU в декабре 2020 года под руководством профессора Дэвида Хелда и степень бакалавра в области науки о данных в колледже Юаньпей Пекинского университета в июле 2019 года под руководством профессора Бин Донга.

Чжоу Сянь — аспирант Института робототехники Университета Карнеги-Меллона под руководством Катерины Фрагкиадаки. Его научные интересы — робототехника, компьютерное зрение и обучение моделям мира.

До прихода в CMU он получил степень бакалавра в Наньянском технологическом университете в Сингапуре под руководством Фам Куанг Куонга и И-Минг Чена. Он также проходил стажировку в Meta AI, Akshara Rai и MIT-IBM AI Lab под руководством Чуанга Гана.

В настоящее время его исследования сосредоточены на построении единой нейронной стратегии и инфраструктуры моделирования для масштабируемого обучения роботов.

Кроме того, есть еще Чэнь Фэн из Цинхуа Яо Бань.

Руководитель группы, Гань Чуан, в настоящее время является главным научным сотрудником IBM и доцентом Массачусетского университета, а также учеником академика Яо Чжижи. Во время работы над докторской диссертацией он получил специальную премию Цинхуа, Microsoft Scholar и Baidu Scholar. Его исследования финансировались Amazon Research Award, Sony Faculty Award, Cisco Faculty Award, Microsoft Accelerate Foundation Models Research Program и другими.

Ресурсы:

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить