КМУ Цінхуа Массачусетського технологічного інституту підірвав перший у світі нескінченний потік Агента, а робот «007» не може перестати працювати понаднормово та самонавчатися! Втілений інтелект революціонізується

2023-11-04 08:23:51

Джерело статті: Новий Чжиюань

Редактор: Еней сонний

Нещодавно RoboGen, перший у світі генеративний робот-агент, запропонований CMU/MIT/Tsinghua/Umass, може нескінченно генерувати дані та дозволяти роботам тренуватися без зупинки 24/7. AIGC for Robotics – це дійсно шлях майбутнього.

Випущено перший у світі генеративний бот-агент!

Довгий час, у порівнянні з мовними або зоровими моделями, які можна тренувати на великомасштабних інтернет-даних, стратегічна модель навчання роботів вимагає даних з інформацією про динамічну фізичну взаємодію, і відсутність цих даних завжди була найбільшим вузьким місцем у розвитку втіленого інтелекту.

Нещодавно дослідники з КМУ, Університету Цінхуа, Массачусетського технологічного інституту, UMass та інших установ запропонували новий агент RoboGen.

Використовуючи великомасштабні знання, що містяться у великих мовних моделях і генеративних моделях, у поєднанні з фізичною інформацією, що надається реалістичними змодельованими світами, різні завдання, сценарії та навчальні дані можуть генеруватися «необмежено», а робот може бути повністю навчений 24/7.

Зараз у нас швидко закінчуються високоякісні реальні токени з мережі. Дані, які використовуються для навчання ШІ по всьому світу, закінчуються.

Хінтон, батько глибокого навчання, сказав: «Технологічні компанії навчають нові моделі зі в 100 разів більшою обчислювальною потужністю, ніж GPT-4, протягом наступних 18 місяців». Параметри моделі більші, а потреба в обчислювальній потужності величезна, але де дані?

Перед обличчям голодних моделей синтез штучного інтелекту є відповіддю.

Адреса:

Домашня сторінка проекту:

Адреса з відкритим вихідним кодом:

Зокрема, дослідницька група на чолі з Ганом Чуангом, головним науковим співробітником MIT-IBM, запропонувала цикл «запропонуй-генеруй-навчайся» за підтримки генеративного ШІ та диференційовного фізичного моделювання, що дозволяє агентам самостійно вирішувати проблеми та навчати роботів.

Перш за все, агент запропонував розвинути цю навичку.

Потім він генерує відповідне середовище, конфігурацію та вказівки щодо навчання навичкам для створення змодельованого середовища.

Нарешті, агент розкладе запропоноване завдання верхнього рівня на підзадачі, вибере найкращий метод навчання, а потім вивчить стратегію та освоїть запропоновані навички.

Варто відзначити, що весь процес практично не вимагає нагляду людини, а кількість завдань необмежена!

Для цього блокбастера Джим Фан, старший науковий співробітник NVIDIA, також направив його.

Тепер робот вивчив серію вибухових операцій -

Покладіть свої речі в шафку:

Розігрійте в мікрохвильовці тарілку супу:

Потягніть важіль, щоб приготувати каву:

А також сальто назад і багато іншого:

Змодельоване середовище, ключ до різноманітного навчання навичкам

Одвічна дилема в дослідженнях робототехніки полягає в тому, як дати роботам навички роботи в незаводських умовах і виконувати широкий спектр завдань для людей.

Останніми роками ми навчили роботів різноманітним складним навичкам, таким як маніпуляції з рідиною, кидання предметів, гра у футбол, паркур тощо, але ці навички розрізнені, мають коротке поле зору та вимагають розроблених людиною описів завдань та нагляду за навчанням.

Оскільки збір реальних даних є дорогим і трудомістким, ці навички тренуються в симуляціях, рандомізованих у відповідній області, а потім розгортаються в реальному світі.

Змодельовані середовища мають багато переваг перед дослідженням і збором даних у реальному світі, такі як надання привілейованого доступу до низькорівневого стану та необмежені можливості для дослідження; Підтримує масові паралельні обчислення, а швидкість збору даних значно прискорюється; Дозволяє ботам розробляти стратегії замкнутого циклу та можливості відновлення помилок.

Однак побудова симульованого середовища вимагає ряду виснажливих завдань (розробка завдань, вибір релевантних і семантично значущих активів, генерація розумних макетів і конфігурацій сценаріїв, формулювання нагляду за навчанням, таких як функції винагороди або збитку). Навіть у змодельованому світі масштабованість навчання навичкам роботів сильно обмежена.

Тому дослідники пропонують парадигму «генеративного моделювання», яка поєднує досягнення в навчанні навичкам симульованих роботів з останніми досягненнями в фундаментальних і генеративних моделях.

Використовуючи можливості генерації найсучасніших базових моделей, генеративне моделювання може генерувати інформацію для всіх етапів, необхідних для різних навичок роботи в симуляції.

Завдяки всебічним знанням кодування в останніх базових моделях, дані про сценарії та завдання, згенеровані таким чином, можуть бути дуже схожими на розподіл реальних сценаріїв.

Крім того, ці моделі можуть додатково надавати декомпозиційні низькорівневі підзавдання, які можуть бути безперешкодно оброблені за допомогою методів вивчення політик для конкретної предметної області, що призводить до демонстрації замкнутого циклу різних навичок і сценаріїв.

Процес RoboGen

RoboGen – це повністю автоматизований процес, який дозволяє роботам навчатися різним навичкам 24/7 і складається з 4 етапів:

Пропозиція завдання;
Генерація сцени;
Навчання контрольованої генерації;
Використовуйте отриману інформацію для засвоєння навичок.

Використовуючи вбудований здоровий глузд і можливості генерації новітніх базових моделей, RoboGen може автоматизувати генерацію завдань, сценаріїв і нагляду за навчанням, забезпечуючи багатопрофільне навчання для роботів у великих масштабах.

Пропозиція завдання

На цьому етапі RoboGen здатний пропонувати завдання верхнього рівня, генерувати відповідне середовище, розкладати цілі верхнього рівня на низькорівневі підзадачі, а потім послідовно вивчати піднавички.

По-перше, RoboGen генерує значущі, різноманітні, високорівневі завдання, які робот повинен вивчити.

Дослідник ініціалізує систему, використовуючи певний тип робота та випадкові вибірки об'єктів з пулу. Надана інформація про робота та зразок об'єкта потім вводиться в LLM.

Цей процес відбору проб забезпечує різноманіття завдань генерації.

Наприклад, робот на ногах, такий як чотириногий робот, може набувати різноманітних рухових навичок, тоді як робот-маніпулятор рукою в парі має потенціал для виконання різноманітних маніпуляційних завдань з різними об'єктами вибірки.

Дослідники використовували GPT-4 для створення запитів у поточному процесі. Далі слідує пояснення деталей RoboGen в контексті машини, а також завдань, пов'язаних з маніпулюванням об'єктами.

Об'єкти, що використовуються для ініціалізації, вибираються із заздалегідь визначеного списку, включаючи шарнірні та неартикульовані об'єкти, які поширені в домашніх сценах, такі як духовки, мікрохвильові печі, диспенсери для води, ноутбуки, посудомийні машини тощо.

Оскільки GPT-4 був навчений на великих наборах даних в Інтернеті, він має глибоке розуміння можливостей цих об'єктів, як з ними взаємодіяти та з якими значущими завданнями вони можуть бути пов'язані.

Наприклад, якщо зчленований об'єкт є мікрохвильовою піччю, де суглоб 0 — це обертове з'єднання, яке з'єднує дверцята, а суглоб 1 — це інше обертове з'єднання, яке керує ручкою таймера, GPT-4 поверне завдання — «Робот-маніпулятор ставить миску з супом у мікрохвильову піч, закриває дверцята та встановлює таймер мікрохвильової печі на час нагрівання».

Іншими об'єктами, необхідними для створення завдання, є миска з супом a, а також з'єднання та зв'язки, пов'язані із завданням, включаючи joint 0 (для відкриття дверцят мікрохвильової печі), joint 1 (для встановлення таймера), link 0 (для дверцят) і link 1 (ручка таймера).

Для артикульованих об'єктів, оскільки PartNetMobility є єдиним високоякісним артикульованим набором даних об'єктів і вже охоплює широкий спектр артикульованих ресурсів, завдання генеруються на основі відібраних ресурсів.

Багаторазово запитуючи різні відібрані об'єкти та приклади, можна генерувати різноманітні операції та завдання на рух.

Генерація сцени

Отримавши завдання, ви можете продовжити генерувати відповідний симуляційний сценарій, щоб навчитися навичкам виконання цього завдання.

Як показано на зображенні, компоненти сцени та конфігурації генеруються відповідно до опису завдання, а також витягуються або генеруються ресурси об'єкта, які потім заповнюються сценою симуляції.

Компоненти та конфігурації сцени складаються з таких елементів: запиту на пов'язаний об'єкт, який потрібно заповнити в сцену, його фізичних параметрів (наприклад, розміру), конфігурації (наприклад, початкового кута з'єднання) та загальної просторової конфігурації ресурсу.

На додаток до необхідних об'єктних активів, необхідних для завдання, згенерованого на попередньому кроці, щоб збільшити складність і різноманітність згенерованої сцени, при цьому нагадуючи розподіл об'єктів реальної сцени, дослідники також попросили GPT-4 повернути додаткові запити до об'єктів, пов'язаних із семантикою завдання.

Наприклад, для завдання «Відкрий шафу, поклади в нього іграшку і закрий» отримана сцена також включатиме килимок для вітальні, лампу, книгу, офісне крісло.

### Навчання контрольованого покоління

Для того, щоб набути відповідних навичок, навчання навичкам має відбуватися під контролем.

RoboGen спочатку зробить запит до GPT-4 для планування та розіб'є довгі завдання на коротші підзадачі.

Ключове припущення полягає в тому, що коли завдання розбивається на досить короткі підзадачі, кожна підзадача може бути надійно вирішена за допомогою існуючих алгоритмів, таких як навчання з підкріпленням, планування руху, оптимізація траєкторії тощо.

Після декомпозиції RoboGen запитує GPT-4 для вибору відповідного алгоритму для вирішення кожної підзадачі.

У RoboGen інтегровано кілька різних типів алгоритмів навчання: навчання з підкріпленням, еволюційні стратегії, оптимізація траєкторії на основі градієнта та ініціалізація дій з плануванням руху.

Кожен з них підходить для різних завдань, таких як оптимізація траєкторії на основі градієнта, яка краще підходить для вивчення дрібнозернистих маніпуляційних завдань із залученням м'яких тіл, таких як формування тіста у цільову форму.

Ініціалізація дій у поєднанні з плануванням руху є більш надійною при вирішенні завдань, таких як наближення до цільового об'єкта по траєкторії без зіткнень.

Навчання з підкріпленням та еволюційні стратегії краще підходять для завдань, багатих на контакти, які передбачають постійну взаємодію з іншими компонентами сцени, такими як рухи ніг, або коли бажана дія не може бути просто параметризована дискретною позою кінцевого ефектора, наприклад, поворотом ручки духовки.

Таким чином, GPT-4 вибирає, який алгоритм використовувати в Інтернеті на основі згенерованих підзадач.

Далі настав час побудувати сценарій симуляції для робота і дати йому навчитися навичкам.

Робот вчиться безпечно відкривати

Наприклад, RoboGen попросить робота вивчити дуже тонке завдання регулювання напрямку настільної лампи.

Цікаво, що в цій сцені на землі є тендітні об'єкти, такі як монітори комп'ютерів.

Можна сказати, що це відмінний тест на здатність робота розпізнавати навколишнє середовище.

Для цього RoboGen генерує дуже детальний код операції, включаючи конфігурацію сцени, декомпозицію завдань і нагляд:

Крім того, будуть навчені завдання, для виконання яких потрібно виконати багато кроків, наприклад, змусити робота вийняти вміст сейфа.

Це передбачає відкриття, взяття, кладіння, закриття дверей та інші операції, під час яких також необхідно намагатися уникати зіткнення з меблями.

Код, наданий RoboGen, виглядає наступним чином:

Або, наприклад, людиноподібний робот у Boston Dynamics обертається на місці, з яким можна зіткнутися на невеликому просторі.

Ось код:

Результати експерименту

- Різноманітність квестів

Як показано в таблиці 1, RoboGen досягає найнижчої само-BLEU та подібності вбудовування порівняно з усіма попередніми тестами. Іншими словами, різноманітність завдань генерації RoboGen вища, ніж у штучно створених тестів і наборів даних!

- Ефективність сценарію

Як показано на малюнку 4, видалення перевірки розмірів призводить до різкого падіння показників BLIP-2 через велику розбіжність між розмірами об'єктів в Objaverse і PartNetMobility і фактичним розміром в реальному світі. Крім того, BLIP-2 без валідації об'єктів також мав нижчий бал і більшу дисперсію.

На противагу цьому, етап валідації в RoboGen може значно підвищити ефективність вибору об'єктів.

- Ефективність навчальних інструкцій

Як показано на малюнку 3, робот навчається навичкам на основі тренувальних вказівок (тобто декомпозиції завдань і функції винагороди), згенерованих RoboGen у чотирьох завданнях на далеку відстань.

Результати показують, що робот успішно навчається навичкам виконання відповідних завдань. Іншими словами, автоматично згенеровані тренери з навчання ефективні в отриманні значущих і корисних навичок.

- Навчання навичкам

Результати, наведені в таблиці 2, показують, що дозвіл на вибір алгоритму навчання є корисним для підвищення продуктивності виконання завдання. Якщо ви використовуєте лише RL, ви не зможете засвоїти навички для більшості завдань.

-Система

Як показано на малюнку 1, RoboGen може генерувати різноманітні завдання для навчання навичкам, включаючи маніпулювання жорсткими/суглобовими об'єктами, пересування та маніпуляції з м'яким тілом.

На малюнку 3 також показано, що RoboGen здатний забезпечити навички роботи на далеких дистанціях розумним способом розкладання.

Вступ до автора

Юфей Ван навчається на третьому курсі аспірантури в Інституті робототехніки Університету Карнегі-Меллона, де його контролюють професори Закорі Еріксон і професор Девід Хелд, які займаються дослідженням робототехніки.

Раніше він отримав ступінь магістра комп'ютерних наук у КМУ в грудні 2020 року під керівництвом професора Девіда Хелда та ступінь бакалавра з наук про дані в коледжі Юаньпей Пекінського університету в липні 2019 року під керівництвом професора Бін Дуна.

Чжоу Сянь є аспірантом Інституту робототехніки Університету Карнегі-Меллона під керівництвом Катерини Фрагкіадакі. Його наукові інтереси – робототехніка, комп'ютерний зір та навчання моделей світу.

До того, як приєднатися до КМУ, він отримав ступінь бакалавра в Наньянському технологічному університеті в Сінгапурі під керівництвом Фам Куанг Куонга та І-Мін Чена. Він також стажувався в Meta AI, Akshara Rai та MIT-IBM AI Lab під керівництвом Чуанг Гана.

В даний час його дослідження зосереджені на побудові єдиної нейронної стратегії та імітаційної інфраструктури для масштабованого навчання роботів.

Крім того, є ще Чень Фен з Цінхуа Яо Бан.

Керівник групи, Ган Чуанг, в даний час є головним науковим співробітником IBM і доцентом Массачусетського університету, а також є учнем академіка Яо Чичжи. Під час захисту докторської дисертації він виграв спеціальну премію Цінхуа, Microsoft Scholar і Baidu Scholar. Його дослідження фінансувалися Amazon Research Award, Sony Faculty Award, Cisco Faculty Award, Microsoft Accelerate Foundation Models Research Program та іншими.

Ресурси:

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

Нагородити
подобається
Прокоментувати
Репост
Поділіться

Прокоментувати

0/400

Немає коментарів

Тема
#Gate & WLFI USD1 Points Program
59k Популярність
#Trump Allows 401(k) Crypto Investing
34k Популярність
#Join Copy Trading Share to Win $2,000
27k Популярність
#Show My Alpha Points
77k Популярність
#SOL Futures Reach New High
22k Популярність

Закріпити

карта сайту