Знадобилося 2 роки, Meta об’єдналася з CMU, щоб створити найсильнішого «універсального інтелектуального робота»! Універсал, який протирає чай і миски, легко узагальнює понад 100 невідомих завдань
**Посібник: ** На шляху до «універсального інтелекту робота» Google став популярним завдяки RT-2. Тепер RoboAgent, на створення якого пішло 2 роки командам Meta та CMU, використовує невелику кількість даних для реалізації 12 складних навичок, і він може робити все, починаючи від випікання чаю до витирання столу.
Вибухова модель змінює дослідження «універсальних роботизованих агентів».
Деякий час тому Google DeepMind запустив проект RT-2, який створювався за 7 місяців, вміє математично міркувати та ідентифікувати знаменитостей, і став популярним в Інтернеті.
Окрім Google, дослідники з Meta та CMU витратили 2 роки на створення найпотужнішого в історії робота-агента загального призначення RoboAgent.
Різниця в тому, що RoboAgent тренується лише на 7500 траєкторіях.
Зокрема, RoboAgent реалізував 12 різних складних навичок у 38 завданнях, таких як випічка, збирання предметів, подача чаю, прибирання кухні тощо.
Навіть його здатність можна узагальнити до 100 невідомих сценаріїв.
Можна сказати, що якщо піднятися в хол, то можна спуститися на кухню.
Цікаво, що як би ви йому не заважали, РобоАгенту все одно вдається виконати завдання.
Що ще може РобоАгент?
Випічка, подача чаю, прибирання зі столу все вручну
По-перше, RoboAgent може плавно відкривати або закривати ящики.
Незважаючи на те, що йогурт ледь не перекинувся, коли його відкривали, в основному не було затримки в з’єднанні дії, а дія штовхання та витягування завершувалася плавно.
Крім висувних ящиків, RoboAgent може легко відкривати або закривати дверцята мікрохвильової печі.
Але замість того, щоб схопити ручку, як людина, вона застрягла в щілині між ручкою та дверцятами та з силою відкривала та закривала дверцята мікрохвильовки.
Подібним чином, коли RoboAgent стикається з кришками на пляшках і банках, він також може акуратно впоратися з кришками, відкрити й закрити їх – ніколи не бруднити.
Однак на кухні, окрім закритих банок із приправами, є також деякі банки, які потрібно відкрутити, наприклад, для приготування вина та Laoganma тощо...
На щастя, для різноманітних завдань підбору та розміщення RoboAgent практично не про що турбуватися.
На відео RoboAgent дістає речі з шухляди або розкладає чайні пакетики в чашки, включає мікрохвильову піч і ставить туди миски тощо. Показано, що RoboAgent може розуміти ряд дій, пов’язаних із такими завданнями, як приготування чаю та розігрівання їжі.
Упорядкування та поєднання дев’яти вищевказаних дій може в основному охопити низку завдань на кухні.
Приклади включають підготовку до випічки, прибирання кухні, подачу супу, приготування чаю, зберігання столових приборів тощо.
Готуючись до випікання, першим кроком є відкрити ящик і знайти всередині масло. Коли ви знайдете його, покладіть масло на обробну дошку і нарешті закрийте ящик.
Здається, що логічна послідовність серії дій RoboAgent дуже близька до сцени реального життя.
Але RoboAgent все ще не такий гнучкий, як люди, не кажучи вже про те, що люди мають дві руки, які можуть однією рукою тримати масло, а іншою закривати ящик. Навіть однією рукою людина може тримати масло, відсуваючи шухляду вбік. Але RoboAgent може лише спочатку покласти масло, а потім закрити ящик.
Це не виглядає таким гнучким.
Прибираючи кухню, RoboAgent також робить чотири кроки:
Спочатку закрийте ящик, а потім мікрохвильову піч. Потім вийміть збоку рушник і нарешті протріть обробну дошку.
Щоб подати суп, RoboAgent спочатку вмикає мікрохвильову піч, а потім дістає миску з мікрохвильової печі. Потім поставте миску на стіл і остаточно вимкніть мікрохвильовку.
Але продуктивність RoboAgent тут не така заспокійлива.
Можна лише сказати, що, на щастя, миска в демонстраційному відео порожня. Якщо RoboAgent справді дозволено підняти миску, наповнену їжею, насправді, за оцінками, їжа буде розкидана по всій землі, щойно він підбере це вгору.
Але РобоАгент зручний для приготування чаю:
Спочатку зніміть кришку чайника, вийміть чайний пакетик зсередини, потім акуратно опустіть чайний пакетик у чашку, а потім візьміть кришку та покладіть її назад на чайник.
Але це ще один крок ближче до ідеальної чашки чаю: налийте води. Або RoboAgent запрошує нас випити ароматного чаю повітря?
Дивлячись на продуктивність вищезгаданого RoboAgent, незважаючи на те, що більшість завдань можна виконати гладко, все ж надто незручно мати лише одну руку.
Я сподіваюся, що Meta та CMU зможуть надати RoboAgent більше рук, щоб він міг робити кілька речей одночасно, значно підвищуючи ефективність.
На створення «універсального робота-агента» знадобилося 2 роки
Дослідники Meta та CMU сподіваються, що RoboAgent може стати справді універсальним роботизованим агентом.
За останні 2 роки вони постійно просувають проект. RoboAgent — це колекція багатоспрямованих досліджень, а також це відправна точка для інших напрямків досліджень у майбутньому.
У розробці «універсальних роботів-агентів» дослідники надихалися багатьма недавніми узагальненими проектами навчання роботів.
Наразі на шляху до загального робота-агента необхідно вирішити дві основні проблеми.
** Однією з них є дилема причини та наслідку. **
Наявність робота, здатного маніпулювати довільними об’єктами в різних середовищах, була далекою та амбітною метою протягом десятиліть. Частково це пов’язано з відсутністю наборів даних для навчання таких агентів, а також відсутністю загальних агентів, здатних генерувати такі дані.
Друге – позбутися замкнутого кола. **
Щоб вийти з цього порочного кола, дослідження зосереджені на розробці ефективної парадигми.
Він може надати загального агента, здатного здобувати численні навички з реалістичним бюджетом даних і узагальнювати їх для різних невідомих ситуацій.
Адреса паперу:
Відповідно до вступу RoboAgent побудований на наступних модульних і компенсованих елементах:
- RoboPen:
Розподілена інфраструктура роботів, побудована на стандартному обладнанні, може працювати безперебійно протягом тривалого часу.
- RoboHive:
Уніфікована структура для навчання роботів через моделювання та реальні операції.
- RoboSet:
Високоякісний набір даних, що представляє різні навички повсякденних об’єктів у різних сценаріях.
- MT-ACT:
Ефективна структура для офлайн-імітаційного навчання в лінгвістичній умовній багатозадачності. Він помножує офлайн-набори даних, створюючи різноманітний набір семантичних доповнень на основі наявного досвіду робототехніки, і використовує нову архітектуру політики з ефективним представленням дій для відновлення високоефективних політик у межах бюджету даних.
Блок дій, нова структура MT-ACT
Для того, щоб вивчити загальну операційну політику, роботи повинні отримати багатий і різноманітний досвід, включаючи різні навички та зміни навколишнього середовища.
Однак операційні витрати та практичні проблеми збору такого великого набору даних обмежують загальний розмір набору даних.
Дослідники прагнуть усунути ці обмеження, розробивши парадигму, яка може навчити ефективних багатозадачних агентів з обмеженим бюджетом даних.
Як показано на малюнку нижче, команди Meta та CMU запропонували MT-ACT, Multi-Task Action Chunking Transformer (Multi-Task Action Chunking Transformer).
Цей метод складається з 2 етапів:
Фаза 1: семантичне покращення
RoboAgent впроваджує світові пріоритети з існуючих базових моделей, створюючи семантичне розширення набору даних RoboSet (MT-ACT).
Отриманий набір даних примножує досвід роботи зі світовими попередніми моделями без додаткових витрат на людину/робота.
Потім дослідники використовували SAM для сегментації та семантичного розширення цільового об’єкта на окремі об’єкти з різною формою, кольором і текстурою.
Фаза 2: Ефективне представництво політики
Отриманий набір даних є мультимодальним і містить широкий спектр навичок, завдань і сценаріїв.
Адаптувавши блокування дій до багатозадачних налаштувань, дослідники розробили MT-ACT — нове й ефективне представлення політики, яке може отримувати високомультимодальні набори даних, уникаючи переобладнання в умовах низького бюджету даних.
Нижче наведено різні компоненти стратегії MT-ACT.
Набір даних RoboSet
Мета дослідження полягала в створенні парадигми роботизованого навчання з ефективним використанням даних, для чого дослідники обмежилися замороженим, попередньо зібраним невеликим, але різноманітним набором даних.
Щоб зафіксувати різноманітність поведінки, дослідники також застосовували різні навички для різних завдань у різних сценаріях кухні.
У цьому проекті набір даних RoboSet (MT-ACT) складається з 7500 траєкторій, зібраних за допомогою телеоперації людини.
Набір даних містить 12 навичок, що охоплюють кілька завдань і сценаріїв.
На малюнку нижче показано розподіл навичок у наборі даних.
У той час як зазвичай використовувана навичка «вибери та розмісти» становить 40% набору даних, також включені багаті контактні навички, такі як витирання, закривання та навички, пов’язані з шарнірними об’єктами (перегортання, перегортання та закривання).
Дослідники зібрали весь набір даних у 4 різних екземплярах кухонних сцен, які містять різні повсякденні предмети.
Крім того, команда замінила кожен екземпляр сцени різними варіаціями об’єкта, що дозволило кожній здатності досягти кількох цільових об’єктів і екземплярів сцени.
Збільшення даних
Оскільки зібрані набори даних не можуть задовольнити потребу в різноманітності сцен і об’єктів, дослідники розширюють набір даних, додаючи різні мінливі сцени в автономному режимі, зберігаючи поведінку маніпуляцій на кожній траєкторії.
Грунтуючись на останніх досягненнях у моделях сегментації та малювання, дослідники виділяють реальні семантичні пріоритети з Інтернет-даних, щоб змінювати сцени структурованим способом.
Архітектура MT-ACT
Архітектура політики MT-ACT розроблена як модель Transformer із достатньою потужністю для роботи з мультимодальними багатозадачними наборами даних роботів.
Щоб отримати мультимодальні дані, дослідники дотримуються попередньої роботи, додавши CVAE, який кодує послідовності дій як латентні вбудовування стилю z.
Для моделювання багатозадачних даних ми використовуємо попередньо навчений мовний кодувальник, який вивчає вбудовування T опису конкретного завдання.
Щоб зменшити проблему складної помилки, дії на H кроків вперед прогнозуються на кожному кроці часу та виконуються шляхом тимчасового згладжування дій, що перекриваються, передбачених на конкретному кроці часу.
Крім того, щоб покращити стійкість до змін сцени, дослідники забезпечили стратегію MT-ACT чотирма різними видами робочого простору під 4 кутами камери.
Потім використовується метод кондиціонування на основі FiLM, щоб гарантувати, що маркери зображення можуть надійно зосередитися на мовних інструкціях, щоб стратегія MT-ACT не плутала завдання, коли в сцені може бути кілька завдань.
Закодовані маркери надходитимуть у декодер політики Transformer із вбудованим фіксованим положенням і, нарешті, виведуть наступний блок дій (дій H).
Під час виконання дослідник бере середнє значення всіх операцій, що перекриваються, передбачених на поточному кроці часу (коли H > 1, блоки дій перекриваються), і виконує отриману усереднену дію.
Невелика кількість даних, наздогнати Google RT-1
Як працює стратегія MT-ACT у реальному світі?
Дослідники експериментально оцінили вибіркову ефективність запропонованого фреймворку, а також загальність агента в різних сценаріях.
На малюнку нижче показано порівняння стратегії MT-ACT із широко використовуваними архітектурами імітаційного навчання.
Дослідники нанесли лише результати узагальнення L1, оскільки це стандартне налаштування, яке використовується більшістю інших алгоритмів імітаційного навчання.
Як видно з малюнка, усі методи, які моделюють лише поведінку наступного кроку (а не підтраєкторії), працюють погано.
Серед цих методів дослідники виявили, що метод, заснований на кластеризації дій (BeT), показав набагато гірші результати в багатозадачному режимі.
Крім того, такі методи, як RT1, які вимагають великих обсягів даних, не працюють належним чином у цих налаштуваннях через режим низького обсягу даних, який використовується в дослідженні.
Навпаки, стратегія MT-ACT використовує перевірку дій для моделювання субтраєкторій, що значно перевершує всі базові методи.
На рисунку 7 (внизу праворуч) показано результати всіх методів на кількох рівнях узагальнення (L1, l2 і L3).
Крім того, дослідники повідомляють результати узагальнення для кожного виду діяльності окремо. На малюнку 8 ми можемо бачити, що кожен метод семантичного покращення позитивно впливає на ефективність кожної діяльності.
Нарешті, дослідники також досліджували архітектуру, використовуючи різні конструкції, такі як розмір блоків представлення дій, пластичність і надійність.
Література:
roboset/
додатковий.html
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
Знадобилося 2 роки, Meta об’єдналася з CMU, щоб створити найсильнішого «універсального інтелектуального робота»! Універсал, який протирає чай і миски, легко узагальнює понад 100 невідомих завдань
**Джерело:**Xinzhiyuan
**Посібник: ** На шляху до «універсального інтелекту робота» Google став популярним завдяки RT-2. Тепер RoboAgent, на створення якого пішло 2 роки командам Meta та CMU, використовує невелику кількість даних для реалізації 12 складних навичок, і він може робити все, починаючи від випікання чаю до витирання столу.
Вибухова модель змінює дослідження «універсальних роботизованих агентів».
Деякий час тому Google DeepMind запустив проект RT-2, який створювався за 7 місяців, вміє математично міркувати та ідентифікувати знаменитостей, і став популярним в Інтернеті.
Різниця в тому, що RoboAgent тренується лише на 7500 траєкторіях.
Навіть його здатність можна узагальнити до 100 невідомих сценаріїв.
Можна сказати, що якщо піднятися в хол, то можна спуститися на кухню.
Випічка, подача чаю, прибирання зі столу все вручну
По-перше, RoboAgent може плавно відкривати або закривати ящики.
Незважаючи на те, що йогурт ледь не перекинувся, коли його відкривали, в основному не було затримки в з’єднанні дії, а дія штовхання та витягування завершувалася плавно.
Але замість того, щоб схопити ручку, як людина, вона застрягла в щілині між ручкою та дверцятами та з силою відкривала та закривала дверцята мікрохвильовки.
Однак на кухні, окрім закритих банок із приправами, є також деякі банки, які потрібно відкрутити, наприклад, для приготування вина та Laoganma тощо...
На відео RoboAgent дістає речі з шухляди або розкладає чайні пакетики в чашки, включає мікрохвильову піч і ставить туди миски тощо. Показано, що RoboAgent може розуміти ряд дій, пов’язаних із такими завданнями, як приготування чаю та розігрівання їжі.
Приклади включають підготовку до випічки, прибирання кухні, подачу супу, приготування чаю, зберігання столових приборів тощо.
Здається, що логічна послідовність серії дій RoboAgent дуже близька до сцени реального життя.
Але RoboAgent все ще не такий гнучкий, як люди, не кажучи вже про те, що люди мають дві руки, які можуть однією рукою тримати масло, а іншою закривати ящик. Навіть однією рукою людина може тримати масло, відсуваючи шухляду вбік. Але RoboAgent може лише спочатку покласти масло, а потім закрити ящик.
Це не виглядає таким гнучким.
Спочатку закрийте ящик, а потім мікрохвильову піч. Потім вийміть збоку рушник і нарешті протріть обробну дошку.
Але продуктивність RoboAgent тут не така заспокійлива.
Можна лише сказати, що, на щастя, миска в демонстраційному відео порожня. Якщо RoboAgent справді дозволено підняти миску, наповнену їжею, насправді, за оцінками, їжа буде розкидана по всій землі, щойно він підбере це вгору.
Спочатку зніміть кришку чайника, вийміть чайний пакетик зсередини, потім акуратно опустіть чайний пакетик у чашку, а потім візьміть кришку та покладіть її назад на чайник.
Але це ще один крок ближче до ідеальної чашки чаю: налийте води. Або RoboAgent запрошує нас випити ароматного чаю повітря?
Дивлячись на продуктивність вищезгаданого RoboAgent, незважаючи на те, що більшість завдань можна виконати гладко, все ж надто незручно мати лише одну руку.
Я сподіваюся, що Meta та CMU зможуть надати RoboAgent більше рук, щоб він міг робити кілька речей одночасно, значно підвищуючи ефективність.
На створення «універсального робота-агента» знадобилося 2 роки
Дослідники Meta та CMU сподіваються, що RoboAgent може стати справді універсальним роботизованим агентом.
За останні 2 роки вони постійно просувають проект. RoboAgent — це колекція багатоспрямованих досліджень, а також це відправна точка для інших напрямків досліджень у майбутньому.
У розробці «універсальних роботів-агентів» дослідники надихалися багатьма недавніми узагальненими проектами навчання роботів.
Наразі на шляху до загального робота-агента необхідно вирішити дві основні проблеми.
** Однією з них є дилема причини та наслідку. **
Наявність робота, здатного маніпулювати довільними об’єктами в різних середовищах, була далекою та амбітною метою протягом десятиліть. Частково це пов’язано з відсутністю наборів даних для навчання таких агентів, а також відсутністю загальних агентів, здатних генерувати такі дані.
Друге – позбутися замкнутого кола. **
Щоб вийти з цього порочного кола, дослідження зосереджені на розробці ефективної парадигми.
Він може надати загального агента, здатного здобувати численні навички з реалістичним бюджетом даних і узагальнювати їх для різних невідомих ситуацій.
Відповідно до вступу RoboAgent побудований на наступних модульних і компенсованих елементах:
- RoboPen:
Розподілена інфраструктура роботів, побудована на стандартному обладнанні, може працювати безперебійно протягом тривалого часу.
- RoboHive:
Уніфікована структура для навчання роботів через моделювання та реальні операції.
- RoboSet: Високоякісний набір даних, що представляє різні навички повсякденних об’єктів у різних сценаріях.
- MT-ACT:
Ефективна структура для офлайн-імітаційного навчання в лінгвістичній умовній багатозадачності. Він помножує офлайн-набори даних, створюючи різноманітний набір семантичних доповнень на основі наявного досвіду робототехніки, і використовує нову архітектуру політики з ефективним представленням дій для відновлення високоефективних політик у межах бюджету даних.
Блок дій, нова структура MT-ACT
Для того, щоб вивчити загальну операційну політику, роботи повинні отримати багатий і різноманітний досвід, включаючи різні навички та зміни навколишнього середовища.
Однак операційні витрати та практичні проблеми збору такого великого набору даних обмежують загальний розмір набору даних.
Дослідники прагнуть усунути ці обмеження, розробивши парадигму, яка може навчити ефективних багатозадачних агентів з обмеженим бюджетом даних.
Як показано на малюнку нижче, команди Meta та CMU запропонували MT-ACT, Multi-Task Action Chunking Transformer (Multi-Task Action Chunking Transformer).
Фаза 1: семантичне покращення
RoboAgent впроваджує світові пріоритети з існуючих базових моделей, створюючи семантичне розширення набору даних RoboSet (MT-ACT).
Отриманий набір даних примножує досвід роботи зі світовими попередніми моделями без додаткових витрат на людину/робота.
Потім дослідники використовували SAM для сегментації та семантичного розширення цільового об’єкта на окремі об’єкти з різною формою, кольором і текстурою.
Фаза 2: Ефективне представництво політики
Отриманий набір даних є мультимодальним і містить широкий спектр навичок, завдань і сценаріїв.
Адаптувавши блокування дій до багатозадачних налаштувань, дослідники розробили MT-ACT — нове й ефективне представлення політики, яке може отримувати високомультимодальні набори даних, уникаючи переобладнання в умовах низького бюджету даних.
Нижче наведено різні компоненти стратегії MT-ACT.
Набір даних RoboSet
Мета дослідження полягала в створенні парадигми роботизованого навчання з ефективним використанням даних, для чого дослідники обмежилися замороженим, попередньо зібраним невеликим, але різноманітним набором даних.
Щоб зафіксувати різноманітність поведінки, дослідники також застосовували різні навички для різних завдань у різних сценаріях кухні.
У цьому проекті набір даних RoboSet (MT-ACT) складається з 7500 траєкторій, зібраних за допомогою телеоперації людини.
Набір даних містить 12 навичок, що охоплюють кілька завдань і сценаріїв.
Дослідники зібрали весь набір даних у 4 різних екземплярах кухонних сцен, які містять різні повсякденні предмети.
Крім того, команда замінила кожен екземпляр сцени різними варіаціями об’єкта, що дозволило кожній здатності досягти кількох цільових об’єктів і екземплярів сцени.
Збільшення даних
Оскільки зібрані набори даних не можуть задовольнити потребу в різноманітності сцен і об’єктів, дослідники розширюють набір даних, додаючи різні мінливі сцени в автономному режимі, зберігаючи поведінку маніпуляцій на кожній траєкторії.
Грунтуючись на останніх досягненнях у моделях сегментації та малювання, дослідники виділяють реальні семантичні пріоритети з Інтернет-даних, щоб змінювати сцени структурованим способом.
Архітектура MT-ACT
Архітектура політики MT-ACT розроблена як модель Transformer із достатньою потужністю для роботи з мультимодальними багатозадачними наборами даних роботів.
Щоб отримати мультимодальні дані, дослідники дотримуються попередньої роботи, додавши CVAE, який кодує послідовності дій як латентні вбудовування стилю z.
Щоб зменшити проблему складної помилки, дії на H кроків вперед прогнозуються на кожному кроці часу та виконуються шляхом тимчасового згладжування дій, що перекриваються, передбачених на конкретному кроці часу.
Крім того, щоб покращити стійкість до змін сцени, дослідники забезпечили стратегію MT-ACT чотирма різними видами робочого простору під 4 кутами камери.
Закодовані маркери надходитимуть у декодер політики Transformer із вбудованим фіксованим положенням і, нарешті, виведуть наступний блок дій (дій H).
Під час виконання дослідник бере середнє значення всіх операцій, що перекриваються, передбачених на поточному кроці часу (коли H > 1, блоки дій перекриваються), і виконує отриману усереднену дію.
Невелика кількість даних, наздогнати Google RT-1
Як працює стратегія MT-ACT у реальному світі?
Дослідники експериментально оцінили вибіркову ефективність запропонованого фреймворку, а також загальність агента в різних сценаріях.
На малюнку нижче показано порівняння стратегії MT-ACT із широко використовуваними архітектурами імітаційного навчання.
Як видно з малюнка, усі методи, які моделюють лише поведінку наступного кроку (а не підтраєкторії), працюють погано.
Серед цих методів дослідники виявили, що метод, заснований на кластеризації дій (BeT), показав набагато гірші результати в багатозадачному режимі.
Крім того, такі методи, як RT1, які вимагають великих обсягів даних, не працюють належним чином у цих налаштуваннях через режим низького обсягу даних, який використовується в дослідженні.
Навпаки, стратегія MT-ACT використовує перевірку дій для моделювання субтраєкторій, що значно перевершує всі базові методи.
На рисунку 7 (внизу праворуч) показано результати всіх методів на кількох рівнях узагальнення (L1, l2 і L3).
Крім того, дослідники повідомляють результати узагальнення для кожного виду діяльності окремо. На малюнку 8 ми можемо бачити, що кожен метод семантичного покращення позитивно впливає на ефективність кожної діяльності.
roboset/
додатковий.html