Потребовалось 2 года, чтобы Meta объединилась с CMU, чтобы создать сильнейший «универсальный интеллект робота»! Универсал, протирающий чай и миски, легко обобщает более 100 неизвестных задач
**Гид: ** На пути к «универсальному роботизированному интеллекту» Google стал популярен с RT-2. Теперь RoboAgent, на создание которого командам Meta и CMU потребовалось 2 года, использует небольшой объем данных для реализации 12 сложных навыков, и он может делать все, от выпечки чая до вытирания стола.
Взрывная модель меняет направление исследований «универсальных роботизированных агентов».
Некоторое время назад Google DeepMind запустил проект RT-2, на создание которого ушло 7 месяцев, он может математически рассуждать и идентифицировать знаменитостей, и он стал популярным в Интернете.
Помимо Google, исследователи из Meta и CMU потратили 2 года на создание самого сильного робота-агента общего назначения «RoboAgent» в истории.
Разница в том, что RoboAgent обучается только на 7500 траекторий.
В частности, RoboAgent реализовал 12 различных сложных навыков в 38 задачах, таких как выпечка, сбор предметов, подача чая, уборка на кухне и так далее.
Даже его возможности можно обобщить на 100 неизвестных сценариев.
Можно сказать, что если подняться в холл, можно спуститься на кухню.
Интересно, что сколько бы вы ему ни мешали, РобоАгент все равно умудряется выполнить поставленную задачу.
Что еще может RoboAgent?
Выпечка, подача чая, уборка стола со всех сторон
Во-первых, RoboAgent может плавно открывать и закрывать ящики.
Несмотря на то, что йогурт был почти опрокинут, когда он был открыт, в основном не было задержки в соединении действия, и действие толкания и вытягивания было выполнено плавно.
Помимо выдвижных ящиков, RoboAgent может легко открыть или закрыть дверцу микроволновой печи.
Но вместо того, чтобы схватиться за ручку, как человек, он втиснулся в щель между ручкой и дверью и с силой открывал и закрывал дверцу микроволновки.
Точно так же, сталкиваясь с крышками на бутылках и банках, RoboAgent также может аккуратно обращаться с крышками, открывать и закрывать их - никогда не пачкается.
Однако на кухне, помимо закрытых банок с приправами, есть еще и некоторые банки, которые нужно отвинтить, например, для приготовления вина и Лаоганма и т. д.
К счастью, для различных задач по сборке и размещению RoboAgent в основном не о чем беспокоиться.
На видео РобоАгент достает вещи из ящика стола, раскладывает чайные пакетики по чашкам, включает микроволновку, ставит миски и т. д. Показано, что RoboAgent может понять ряд действий, связанных с такими задачами, как приготовление чая и подогрев еды.
Организация и объединение девяти вышеперечисленных действий может в основном охватывать ряд задач на кухне.
Примеры включают подготовку к выпечке, уборку кухни, подачу супа, приготовление чая, хранение столовых приборов и многое другое.
При подготовке к выпечке первым делом нужно открыть ящик и найти внутри масло. Когда найдете, положите масло на разделочную доску и, наконец, закройте ящик.
Кажется, что логическая последовательность действий РобоАгента очень близка к реальной сцене.
Но RoboAgent все же не такой гибкий, как люди, не говоря уже о том, что у людей есть две руки, которые могут одной рукой держать масло, а другой закрывать ящик. Даже одной рукой человек может держать масло, отодвигая ящик в сторону. Но RoboAgent может только сначала положить масло, а затем закрыть ящик.
Это не выглядит таким гибким.
При уборке кухни RoboAgent также выполняет четыре шага:
Сначала закройте ящик, затем микроволновую печь. Затем выньте полотенце сбоку и, наконец, протрите разделочную доску.
Чтобы подать суп, РобоАгент сначала включает микроволновую печь, а затем вынимает из нее миску. Затем поставьте миску на стол и окончательно выключите микроволновку.
А вот производительность RoboAgent здесь не так обнадеживает.
Можно только сказать, что, к счастью, миска в демонстрационном видео пуста.Если РобоАгенту действительно разрешено поднимать миску, наполненную едой в реальности, предполагается, что еда будет разбросана по всей земле, как только она ее возьмет. это вверх.
Зато RoboAgent удобен для заваривания чая:
Сначала снимите крышку с чайника, выньте чайный пакетик изнутри, затем аккуратно опустите чайный пакетик в чашку и, наконец, поднимите крышку и положите ее обратно на чайник.
Но это на один шаг ближе к идеальной чашке чая: налейте воду. Или РобоАгент приглашает нас попить воздуха с запахом чая?
Глядя на производительность вышеупомянутого RoboAgent, хотя большинство задач можно выполнить без проблем, все же слишком неудобно иметь только одну руку.
Я надеюсь, что Meta и CMU смогут дать RoboAgent больше рук, чтобы он мог делать несколько вещей одновременно, значительно повышая эффективность.
На создание «универсального робота-агента» ушло 2 года
Исследователи Meta и CMU надеются, что RoboAgent сможет стать по-настоящему универсальным роботом-агентом.
Последние 2 года они постоянно продвигают проект. RoboAgent — это набор разнонаправленных исследований, а также отправная точка для дальнейших исследований в будущем.
При разработке «универсальных роботов-агентов» исследователи были вдохновлены многими недавними проектами по обучению роботов.
В настоящее время на пути к универсальному роботу-агенту необходимо решить две основные проблемы.
** Одна из них — дилемма причины и следствия. **
Создание робота, способного манипулировать произвольными объектами в различных средах, десятилетиями было далекой и амбициозной целью. Отчасти это связано с отсутствием наборов данных для обучения таких агентов, а также с отсутствием общих агентов, способных генерировать такие данные.
Во-вторых, избавиться от порочного круга. **
Чтобы вырваться из этого порочного круга, исследования сосредоточены на разработке эффективной парадигмы.
Он может предоставить общего агента, способного приобретать несколько навыков с реалистичным бюджетом данных и обобщать их для различных неизвестных ситуаций.
Адрес бумаги:
Согласно введению, RoboAgent построен на следующих модульных и компенсируемых элементах:
- РобоПен:
Инфраструктура распределенных роботов, построенная с использованием общедоступного оборудования, может работать бесперебойно в течение длительного времени.
- Робоулей:
Унифицированная платформа для обучения роботов при моделировании и реальных операциях.
- РобоНабор:
Высококачественный набор данных, представляющий различные навыки повседневных объектов в различных сценариях.
- МТ-АКТ:
Эффективная структура для автономного имитации обучения в лингвистической условной многозадачности. Он умножает автономные наборы данных, создавая разнообразный набор семантических дополнений на основе существующего опыта робототехники, и использует новую архитектуру политик с эффективным представлением действий для восстановления высокопроизводительных политик в рамках бюджета данных.
Блок действий, новая структура MT-ACT
Чтобы изучить общие принципы работы, роботы должны получить богатый и разнообразный опыт, включая различные навыки и изменения окружающей среды.
Однако эксплуатационные расходы и практические проблемы сбора такого обширного набора данных ограничивают общий размер набора данных.
Исследователи стремятся устранить эти ограничения, разработав парадигму, которая может обучать эффективных многозадачных агентов при ограниченном бюджете данных.
Как показано на рисунке ниже, команды Meta и CMU предложили MT-ACT, Multi-Task Action Chunking Transformer (Multi-Task Action Chunking Transformer).
Этот метод состоит из 2-х этапов:
Этап 1: семантическое улучшение
RoboAgent вводит мировые априорные данные из существующих базовых моделей, создавая семантическое дополнение набора данных RoboSet (MT-ACT).
Результирующий набор данных умножает опыт робота с мировыми априорами без дополнительных затрат на человека / робота.
Затем исследователи использовали SAM для сегментации и семантического расширения целевого объекта на отдельные объекты с вариациями формы, цвета и текстуры.
Этап 2: Эффективное представление политики
Результирующий набор данных является мультимодальным и содержит множество навыков, задач и сценариев.
Адаптируя разбивку действий к условиям многозадачности, исследователи разработали MT-ACT — новое и эффективное представление политик, которое может принимать мультимодальные наборы данных, избегая переобучения в условиях ограниченного бюджета данных.
Ниже приведены различные компоненты стратегии MT-ACT.
Набор данных RoboSet
Целью исследования было создание эффективной парадигмы роботизированного обучения, для чего исследователи ограничились замороженным, предварительно собранным небольшим, но разнообразным набором данных.
Чтобы зафиксировать поведенческое разнообразие, исследователи также применили разные навыки к разным задачам в разных кухонных сценариях.
В этом проекте набор данных RoboSet (MT-ACT) состоит из 7500 траекторий, собранных с помощью телеопераций человека.
Набор данных содержит 12 навыков, охватывающих несколько задач и сценариев.
На рисунке ниже показано распределение навыков в наборе данных.
В то время как обычно используемый навык «взять и поместить» составляет 40% набора данных, также включены богатые контактные навыки, такие как стирание, закрывание и навыки, связанные с шарнирными объектами (открыть и закрыть).
Исследователи собрали весь набор данных в 4 разных экземплярах кухонных сцен, которые содержат различные предметы повседневного обихода.
Кроме того, команда заменила каждый экземпляр сцены различными вариантами объекта, что позволило каждой способности достигать нескольких целевых объектов и экземпляров сцены.
Увеличение данных
Поскольку собранные наборы данных не могут удовлетворить потребность в разнообразии сцен и объектов, исследователи дополняют набор данных, добавляя различные изменяющиеся сцены в автономном режиме, сохраняя при этом поведение манипулирования в каждой траектории.
Опираясь на последние достижения в области моделей сегментации и рисования, исследователи извлекают реальные семантические априорные данные из интернет-данных для структурированного изменения сцен.
Архитектура MT-ACT
Политическая архитектура MT-ACT спроектирована как модель Transformer с достаточной мощностью для обработки мультимодальных наборов данных многозадачных роботов.
Чтобы получить мультимодальные данные, исследователи последовали предыдущей работе, добавив CVAE, который кодирует последовательности действий как вложения скрытого стиля z.
Для моделирования многозадачных данных мы используем предварительно обученный языковой кодировщик, который изучает вложение T описания конкретной задачи.
Чтобы уменьшить проблему сложной ошибки, действия на H шагов вперед прогнозируются на каждом временном шаге и выполняются путем временного сглаживания перекрывающихся действий, предсказанных на конкретном временном шаге.
Кроме того, чтобы повысить устойчивость к изменениям сцены, исследователи предоставили стратегии MT-ACT четыре разных вида рабочего пространства с четырех ракурсов камеры.
Затем используется метод кондиционирования на основе FiLM, чтобы гарантировать, что токены изображения могут надежно фокусироваться на языковых инструкциях, чтобы стратегия MT-ACT не путала задачи, когда в сцене может быть несколько задач.
Закодированные токены будут поступать в декодер политик Transformer с встраиванием фиксированной позиции и, наконец, выводить следующий блок действий (H действий).
Во время выполнения исследователь берет среднее значение всех перекрывающихся операций, предсказанных на текущем временном шаге (когда H > 1, блоки действий перекрываются), и выполняет полученное усредненное действие.
Небольшой объем данных, догоняйте Google RT-1
Как стратегия MT-ACT работает в реальном мире?
Исследователи экспериментально оценили выборочную эффективность предложенного фреймворка, а также универсальность агента в различных сценариях.
На рисунке ниже стратегия MT-ACT сравнивается с широко используемыми архитектурами имитационного обучения.
Исследователи нанесли на график только результаты обобщения L1, потому что это стандартная настройка, используемая большинством других алгоритмов имитации обучения.
Как видно из рисунка, все методы, моделирующие только поведение следующего шага (а не подтраектории), работают плохо.
Среди этих методов исследователи обнаружили, что метод, основанный на кластеризации действий (BeT), работал намного хуже в условиях многозадачности.
Кроме того, такие методы, как RT1, которые требуют больших объемов данных, не работают в этих условиях из-за режима с низким объемом данных, используемого в исследовании.
Напротив, стратегия MT-ACT использует проверку действий для моделирования подтраекторий, что значительно превосходит все базовые методы.
На рис. 7 (внизу справа) показаны результаты всех методов на нескольких уровнях обобщения (L1, l2 и L3).
Кроме того, исследователи сообщают результаты обобщения по каждому виду деятельности отдельно. Из рисунка 8 видно, что каждый метод семантического улучшения положительно влияет на производительность каждого действия.
Наконец, исследователи также исследовали архитектуру, используя различные конструкции, такие как размер блоков представления действий, пластичность и надежность.
Использованная литература:
робот/
дополнительный.html
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
Потребовалось 2 года, чтобы Meta объединилась с CMU, чтобы создать сильнейший «универсальный интеллект робота»! Универсал, протирающий чай и миски, легко обобщает более 100 неизвестных задач
**Источник:**Синьчжиюань
**Гид: ** На пути к «универсальному роботизированному интеллекту» Google стал популярен с RT-2. Теперь RoboAgent, на создание которого командам Meta и CMU потребовалось 2 года, использует небольшой объем данных для реализации 12 сложных навыков, и он может делать все, от выпечки чая до вытирания стола.
Взрывная модель меняет направление исследований «универсальных роботизированных агентов».
Некоторое время назад Google DeepMind запустил проект RT-2, на создание которого ушло 7 месяцев, он может математически рассуждать и идентифицировать знаменитостей, и он стал популярным в Интернете.
Разница в том, что RoboAgent обучается только на 7500 траекторий.
Даже его возможности можно обобщить на 100 неизвестных сценариев.
Можно сказать, что если подняться в холл, можно спуститься на кухню.
Выпечка, подача чая, уборка стола со всех сторон
Во-первых, RoboAgent может плавно открывать и закрывать ящики.
Несмотря на то, что йогурт был почти опрокинут, когда он был открыт, в основном не было задержки в соединении действия, и действие толкания и вытягивания было выполнено плавно.
Но вместо того, чтобы схватиться за ручку, как человек, он втиснулся в щель между ручкой и дверью и с силой открывал и закрывал дверцу микроволновки.
Однако на кухне, помимо закрытых банок с приправами, есть еще и некоторые банки, которые нужно отвинтить, например, для приготовления вина и Лаоганма и т. д.
На видео РобоАгент достает вещи из ящика стола, раскладывает чайные пакетики по чашкам, включает микроволновку, ставит миски и т. д. Показано, что RoboAgent может понять ряд действий, связанных с такими задачами, как приготовление чая и подогрев еды.
Примеры включают подготовку к выпечке, уборку кухни, подачу супа, приготовление чая, хранение столовых приборов и многое другое.
Кажется, что логическая последовательность действий РобоАгента очень близка к реальной сцене.
Но RoboAgent все же не такой гибкий, как люди, не говоря уже о том, что у людей есть две руки, которые могут одной рукой держать масло, а другой закрывать ящик. Даже одной рукой человек может держать масло, отодвигая ящик в сторону. Но RoboAgent может только сначала положить масло, а затем закрыть ящик.
Это не выглядит таким гибким.
Сначала закройте ящик, затем микроволновую печь. Затем выньте полотенце сбоку и, наконец, протрите разделочную доску.
А вот производительность RoboAgent здесь не так обнадеживает.
Можно только сказать, что, к счастью, миска в демонстрационном видео пуста.Если РобоАгенту действительно разрешено поднимать миску, наполненную едой в реальности, предполагается, что еда будет разбросана по всей земле, как только она ее возьмет. это вверх.
Сначала снимите крышку с чайника, выньте чайный пакетик изнутри, затем аккуратно опустите чайный пакетик в чашку и, наконец, поднимите крышку и положите ее обратно на чайник.
Но это на один шаг ближе к идеальной чашке чая: налейте воду. Или РобоАгент приглашает нас попить воздуха с запахом чая?
Глядя на производительность вышеупомянутого RoboAgent, хотя большинство задач можно выполнить без проблем, все же слишком неудобно иметь только одну руку.
Я надеюсь, что Meta и CMU смогут дать RoboAgent больше рук, чтобы он мог делать несколько вещей одновременно, значительно повышая эффективность.
На создание «универсального робота-агента» ушло 2 года
Исследователи Meta и CMU надеются, что RoboAgent сможет стать по-настоящему универсальным роботом-агентом.
Последние 2 года они постоянно продвигают проект. RoboAgent — это набор разнонаправленных исследований, а также отправная точка для дальнейших исследований в будущем.
При разработке «универсальных роботов-агентов» исследователи были вдохновлены многими недавними проектами по обучению роботов.
В настоящее время на пути к универсальному роботу-агенту необходимо решить две основные проблемы.
** Одна из них — дилемма причины и следствия. **
Создание робота, способного манипулировать произвольными объектами в различных средах, десятилетиями было далекой и амбициозной целью. Отчасти это связано с отсутствием наборов данных для обучения таких агентов, а также с отсутствием общих агентов, способных генерировать такие данные.
Во-вторых, избавиться от порочного круга. **
Чтобы вырваться из этого порочного круга, исследования сосредоточены на разработке эффективной парадигмы.
Он может предоставить общего агента, способного приобретать несколько навыков с реалистичным бюджетом данных и обобщать их для различных неизвестных ситуаций.
Согласно введению, RoboAgent построен на следующих модульных и компенсируемых элементах:
- РобоПен:
Инфраструктура распределенных роботов, построенная с использованием общедоступного оборудования, может работать бесперебойно в течение длительного времени.
- Робоулей:
Унифицированная платформа для обучения роботов при моделировании и реальных операциях.
- РобоНабор: Высококачественный набор данных, представляющий различные навыки повседневных объектов в различных сценариях.
- МТ-АКТ:
Эффективная структура для автономного имитации обучения в лингвистической условной многозадачности. Он умножает автономные наборы данных, создавая разнообразный набор семантических дополнений на основе существующего опыта робототехники, и использует новую архитектуру политик с эффективным представлением действий для восстановления высокопроизводительных политик в рамках бюджета данных.
Блок действий, новая структура MT-ACT
Чтобы изучить общие принципы работы, роботы должны получить богатый и разнообразный опыт, включая различные навыки и изменения окружающей среды.
Однако эксплуатационные расходы и практические проблемы сбора такого обширного набора данных ограничивают общий размер набора данных.
Исследователи стремятся устранить эти ограничения, разработав парадигму, которая может обучать эффективных многозадачных агентов при ограниченном бюджете данных.
Как показано на рисунке ниже, команды Meta и CMU предложили MT-ACT, Multi-Task Action Chunking Transformer (Multi-Task Action Chunking Transformer).
Этап 1: семантическое улучшение
RoboAgent вводит мировые априорные данные из существующих базовых моделей, создавая семантическое дополнение набора данных RoboSet (MT-ACT).
Результирующий набор данных умножает опыт робота с мировыми априорами без дополнительных затрат на человека / робота.
Затем исследователи использовали SAM для сегментации и семантического расширения целевого объекта на отдельные объекты с вариациями формы, цвета и текстуры.
Этап 2: Эффективное представление политики
Результирующий набор данных является мультимодальным и содержит множество навыков, задач и сценариев.
Адаптируя разбивку действий к условиям многозадачности, исследователи разработали MT-ACT — новое и эффективное представление политик, которое может принимать мультимодальные наборы данных, избегая переобучения в условиях ограниченного бюджета данных.
Ниже приведены различные компоненты стратегии MT-ACT.
Набор данных RoboSet
Целью исследования было создание эффективной парадигмы роботизированного обучения, для чего исследователи ограничились замороженным, предварительно собранным небольшим, но разнообразным набором данных.
Чтобы зафиксировать поведенческое разнообразие, исследователи также применили разные навыки к разным задачам в разных кухонных сценариях.
В этом проекте набор данных RoboSet (MT-ACT) состоит из 7500 траекторий, собранных с помощью телеопераций человека.
Набор данных содержит 12 навыков, охватывающих несколько задач и сценариев.
Исследователи собрали весь набор данных в 4 разных экземплярах кухонных сцен, которые содержат различные предметы повседневного обихода.
Кроме того, команда заменила каждый экземпляр сцены различными вариантами объекта, что позволило каждой способности достигать нескольких целевых объектов и экземпляров сцены.
Увеличение данных
Поскольку собранные наборы данных не могут удовлетворить потребность в разнообразии сцен и объектов, исследователи дополняют набор данных, добавляя различные изменяющиеся сцены в автономном режиме, сохраняя при этом поведение манипулирования в каждой траектории.
Опираясь на последние достижения в области моделей сегментации и рисования, исследователи извлекают реальные семантические априорные данные из интернет-данных для структурированного изменения сцен.
Архитектура MT-ACT
Политическая архитектура MT-ACT спроектирована как модель Transformer с достаточной мощностью для обработки мультимодальных наборов данных многозадачных роботов.
Чтобы получить мультимодальные данные, исследователи последовали предыдущей работе, добавив CVAE, который кодирует последовательности действий как вложения скрытого стиля z.
Чтобы уменьшить проблему сложной ошибки, действия на H шагов вперед прогнозируются на каждом временном шаге и выполняются путем временного сглаживания перекрывающихся действий, предсказанных на конкретном временном шаге.
Кроме того, чтобы повысить устойчивость к изменениям сцены, исследователи предоставили стратегии MT-ACT четыре разных вида рабочего пространства с четырех ракурсов камеры.
Закодированные токены будут поступать в декодер политик Transformer с встраиванием фиксированной позиции и, наконец, выводить следующий блок действий (H действий).
Во время выполнения исследователь берет среднее значение всех перекрывающихся операций, предсказанных на текущем временном шаге (когда H > 1, блоки действий перекрываются), и выполняет полученное усредненное действие.
Небольшой объем данных, догоняйте Google RT-1
Как стратегия MT-ACT работает в реальном мире?
Исследователи экспериментально оценили выборочную эффективность предложенного фреймворка, а также универсальность агента в различных сценариях.
На рисунке ниже стратегия MT-ACT сравнивается с широко используемыми архитектурами имитационного обучения.
Как видно из рисунка, все методы, моделирующие только поведение следующего шага (а не подтраектории), работают плохо.
Среди этих методов исследователи обнаружили, что метод, основанный на кластеризации действий (BeT), работал намного хуже в условиях многозадачности.
Кроме того, такие методы, как RT1, которые требуют больших объемов данных, не работают в этих условиях из-за режима с низким объемом данных, используемого в исследовании.
Напротив, стратегия MT-ACT использует проверку действий для моделирования подтраекторий, что значительно превосходит все базовые методы.
На рис. 7 (внизу справа) показаны результаты всех методов на нескольких уровнях обобщения (L1, l2 и L3).
Кроме того, исследователи сообщают результаты обобщения по каждому виду деятельности отдельно. Из рисунка 8 видно, что каждый метод семантического улучшения положительно влияет на производительность каждого действия.
робот/
дополнительный.html