Важке оновлення Meta, у Xiaoza є собака, яка може виконувати домашню роботу в метавсесвіті! Гуманоїдні аватари ультрареалістичні, а агенти штучного інтелекту взаємодіють з людьми в реальному фізичному світі
Сьогодні Meta випустила Habitat 3.0 — навченого нею агента штучного інтелекту, який навчився знаходити людей і допомагати людям прибирати кімнати. Соціальні боти, наступна віха!
Починаючи з сьогоднішнього дня, люди стали на крок ближче до роботів, які допомагають у домашній роботі!
Meta анонсувала Habitat 3.0 з метою розробки соціального агента штучного інтелекту, а це означає, що роботи соціального інтелекту вступили в нову віху.
Ключем до цих втілених інтелектів є, звичайно ж, AI Agent. З ними роботи можуть співпрацювати з людьми та допомагати їм виконувати повсякденні завдання.
Паперова адреса:
Адреса проекту:
Фактично сьогодні Meta оголосила про три основні події одночасно:
**1. Habitat 3.0 – це перший симулятор, який підтримує широкомасштабне навчання завданням взаємодії людини та машини в різноманітних, реалістичних приміщеннях. **
Він підтримує як роботів, так і гуманоїдних аватарів, дозволяючи людям і роботам співпрацювати в домашньому середовищі, наприклад, допомагати прибирати кімнату.
**2. Набір даних Habitat Synthetic Scene Dataset (HSSD-200) — це тривимірний набір даних, створений художниками, який містить понад 18 000 об'єктів у 466 семантичних категоріях у 211 сценах. **
HSSD-200 має найвищу якість в аналогічних наборах даних, може навчати навігаційних агентів і має дуже хороший ефект узагальнення тривимірних сцен реконструкції у фізичному світі, а кількість використовуваних сцен на два порядки менша.
**3. HomeRobot — це дуже доступна апаратно-програмна платформа для домашніх роботів-помічників, що дозволяє роботам виконувати відкриті словникові завдання в змодельованих і фізичних середовищах. **
При широкомасштабному навчанні Habitat 3.0 може виконувати понад 1,000 кроків на секунду на одному графічному процесорі.
Користувач мережі: Коли вийде робот, здатний займатися домашніми справами
Користувачі мережі заявили: Це серйозний стрибок у робототехніці.
Є й люди, які зітхають: це дуже просунута гра Sims.
Деякі люди вже з нетерпінням чекають на можливість випробувати Habitat 3.0 у Meta Quest VR.
Мрійте, роботи-помічники по прибиранню не повинні бути далеко.
Середовище проживання 3.0
Завдяки Habitat 3.0 Meta не тільки забезпечує реалістичну симуляцію людей за зовнішнім виглядом і поставою.
Він також підтримує різні типи дій, від простих (наприклад, ходьба та махання руками) до складних (наприклад, взаємодія з об'єктами) і сумісний із захопленням руху.
Крім того, аватаром можна керувати програмно без зниження продуктивності – швидкість людино-машинного моделювання аналогічна швидкості симуляції робот-робот.
### ** Люди в циклі**
Ще однією ключовою особливістю Habitat 3.0 є «людина в петлі».
За допомогою миші, клавіатури або віртуальної реальності ми можемо досягти дивовижного контролю взаємодії людини та комп'ютера.
Після виконання завдання система збирає стратегію та дані робота, а також оцінює взаємодію людини та машини.
Соціальні завдання
Крім того, Habitat 3.0 може моделювати різноманітні реальні соціальні сценарії.
Наприклад, у завданні, відомому як соціальна навігація, роботи повинні знаходити людей і стежити за ними, залишаючись у безпеці.
В іншому завданні роботи повинні працювати з людьми, щоб виконати такі завдання, як прибирання кімнати.
У цей момент людям і роботам потрібно вирушити до цільового місця окремо, а роботу потрібно знайти спосіб досягти цієї мети за допомогою людей якомога ефективніше.
Навчені роботи, які можуть досягати різноманітної соціальної поведінки!
Крім того, що роботи тримаються на безпечній відстані від людей, вони також відступають, коли це необхідно, залишаючи людям простір для ходьби.
Дозвольте агентам штучного інтелекту взаємодіяти з людьми в реальному світі
Раніше, коли ми думали про помічників зі штучним інтелектом, ми зазвичай думали про веб-чат-ботів або розумних колонок.
Дослідники Meta сподівалися впровадити втілених агентів штучного інтелекту із загальним інтелектом, щоб вони могли відчувати навколишнє середовище, спілкуватися з людьми та допомагати їм у цифровому та фізичному світах.
Одне з бачень полягає в тому, щоб зробити AR-гарнітури, які можна носити цілий день, для використання людиною.
Крім того, дослідники вдосконалюють технологію, що лежить в основі соціальних інтелектуальних роботів, дозволяючи їм допомагати людям з домашніми справами та адаптуватися до індивідуальних уподобань людей відповідно до вимог своїх партнерів.
Робота зосереджена на глибоких дослідженнях вбудованих систем, щоб зробити наступне покоління досвіду AR і VR кращим.
Однак навчання та тестування втілених агентів штучного інтелекту з реальними людьми на фізичному обладнанні, будь то роботи чи окуляри доповненої реальності, має деякі обмеження масштабованості та може мати проблеми з безпекою.
Для цього необхідно встановити стандартизовані процедури бенчмаркінгу.
Тому дослідники Meta розробили новий набір інструментів для дослідження роботів на симуляторах і наборах даних.
Вони також розробили технологічний стек, який включає апаратне та програмне забезпечення, щоб зробити цей аспект дослідження простішим і доступнішим.
Щоб швидко покращити можливості робота, дослідники розробляють і тестують нові алгоритми та моделі на симуляторах, а потім переносять їх на фізичних роботів.
За ці роки Habitat Simulator досягла багатьох значних успіхів.
Віртуальні роботи, навчені Habitat 1.0, можуть переміщатися по 3D-скануванню будинків фізичного світу зі швидкістю понад 10 000 кроків на секунду (SPS).
Habitat 2.0 представляє інтерактивне середовище (наприклад, предмети, які потрібно забрати, шухляди, які можна відкрити) і навчає віртуальних роботів прибирати будинки, переставляючи предмети.
Habitat 3.0 йде ще далі і може підтримувати як роботів, так і гуманоїдних аватарів, дозволяючи співпрацювати між людиною та машиною для виконання повсякденних завдань, таких як прибирання у вітальні та приготування рецептів на кухні.
Це відкриває нові шляхи для вивчення співпраці людини та робота в різноманітних, реалістичних, візуальних та семантично багатих завданнях.
Крім того, Habitat 3.0 підтримує гуманоїдні аватари з реалістичним зовнішнім виглядом, природною ходою та рухами, які можуть імітувати реалістичні низькорівневі та високорівневі взаємодії.
Цими аватарами можна керувати як за допомогою вивчених стратегій, так і за допомогою реальних людей через інтерфейс «людина в циклі».
Цей інтерфейс підтримує клавіатури, миші та гарнітури віртуальної реальності.
Співіснування людей і роботів у змодельованих середовищах дозволяє людям вивчати роботизовані стратегії штучного інтелекту, виконувати повсякденні завдання та оцінювати їх вперше в сімейному середовищі в присутності гуманоїдних аватарів.
Це, безсумнівно, має велике значення -
Алгоритми навчання з підкріпленням зазвичай вимагають мільйонів ітерацій для засвоєння значущих знань, тому на проведення цих експериментів у фізичному світі можуть піти роки.
У імітаційному експерименті це можна зробити за кілька днів.
2. Збір даних у різних будинках фізичного світу недоцільний, оскільки для цього потрібно переміщати робота в різні місця, а також налаштовувати навколишнє середовище.
У симуляції ви можете змінити обстановку за частки секунди і відразу почати експериментувати в новому середовищі.
Якщо модель погано навчена, робот може завдати шкоди навколишньому середовищу або людям у фізичному світі.
Симулятори дозволяють дослідникам тестувати методи в безпечному середовищі перед розгортанням їх у фізичному світі, що забезпечує безпеку.
Сучасні найсучасніші моделі штучного інтелекту вимагають великих обсягів даних для навчання, а симуляції дозволяють дослідникам легко масштабувати збір даних.
У фізичному світі збір даних може бути досить дорогим і повільним.
Крім того, дослідники пропонують два дуже релевантні завдання та набір бенчмарків для встановлення орієнтирів у сфері соціально втіленого ШІ.
Першим завданням є «соціальне прибирання», яке передбачає, що роботи та гуманоїдні аватари працюють разом, щоб виконати низку завдань із збирання та розміщення, таких як прибирання будинків.
У цьому завданні роботи та люди повинні діяти узгоджено для досягнення спільної мети. Така інтелектуальна поведінка виникає після масштабного симуляційного навчання.
Друге завдання – «соціальна навігація», яка дозволяє роботу знаходити та відстежувати людину, зберігаючи безпечну дистанцію.
Набір даних сцени компонування середовища існування
Набори даних 3D-сцен необхідні для навчання роботів у змодельованому середовищі.
Наразі, незважаючи на те, що існує багато наборів даних, які підтримують масштабування навчальних даних, ми не розуміємо компромісу між розміром набору даних та автентичністю.
З цією метою Meta запустила новий набір даних синтетичної 3D-сцени - HSSD-200.
Він складається з 211 високоякісних 3D-сцен, що представляють реальне внутрішнє середовище, включаючи 18 656 моделей об'єктів фізичного світу з 466 семантичних категорій. Ближчий до реальної фізики, ніж попередні набори даних.
Зокрема, HSSD-200 забезпечує більш якісні, повністю штучно створені 3D-інтер'єрні сцени, і включає в себе точну семантичну класифікацію, що відповідає онтології WordNet.
Крім того, функція стиснення ресурсів HSSD-200 забезпечує високопродуктивне моделювання штучного інтелекту.
Що стосується сцен, то HSSD-200 виконаний за допомогою інтерфейсу дизайну інтер'єру Floorplanner, а планування в основному є відтворенням реального будинку.
Серед них окремі об'єкти створюються професійними 3D-художниками, в більшості випадків відповідаючи реальним меблям і техніці.
Експерименти показали, що менший, але більш якісний набір даних HSSD-200 може генерувати агентів objectNav з об'єктами в якості цілей навігації, і його продуктивність порівнянна з продуктивністю агентів, навчених на більших наборах даних.
Причому кількість сценаріїв, необхідних для навчання агента на HSSD-200, на 2 порядки менше -
У порівнянні з агентами, навченими 10 000 сценаріїв ProcTHOR, агенти, навчені 122 сценаріями HSSD-200, краще узагальнюють сценарії фізичного світу HM3DSem.
ДомашнійРобот
Звичайні спільні платформи є важливою частиною прогресу машинного навчання, але в робототехніці подібних платформ не вистачає, оскільки важко відтворити та масштабувати досягнення апаратного забезпечення.
У зв'язку з цим Meta пропонує три цілі для відтворюваної дослідницької платформи робототехніки:
- Натхненна Полярна зірка:
Платформа повинна забезпечувати керовані місії Полярної зірки, щоб мотивувати дослідників і допомагати їм у їхній роботі. Серед них вони також можуть порівнювати різні методи для цікавих реальних проблем.
Наприклад, «Open Word Movement Manipulation (OVMM)» – підбір об'єктів у будь-якому невідомому середовищі та розміщення їх у визначеному місці. Це вимагає дуже сильного довгострокового сприйняття та розуміння сцени, а також корисно для широкого кола завдань.
- Можливості програмного забезпечення:
Платформа повинна забезпечити певний інтерфейс абстракції, щоб зробити робота простішим у використанні для різноманітних завдань, включаючи навігацію та маніпуляції.
-Громада:
Платформа повинна заохочувати розробників брати участь і намагатися побудувати спільноту навколо кодової бази.
Щоб просунути дослідження в цій галузі, Meta запустила нову бібліотеку HomeRobot, яка забезпечує підтримку функцій навігації та маніпулювання Hello Robot Stretch.
Адреса проекту:
Зокрема, HomeRobot складається з двох компонентів:
Компоненти моделювання: використовувати великий і різноманітний набір об'єктів у нових, високоякісних багатокімнатних домашніх умовах;
Компоненти фізичного світу: надає програмні стеки для недорогих продуктів Hello Robot Stretch і Boston Dynamics для заохочення відтворення експериментів у фізичному світі в лабораторіях.
Крім того, HomeRobot надає дуже дружній програмний стек, що дозволяє користувачам швидко налаштувати робота та негайно протестувати його. Особливості включають:
-Портативності:
Існує єдиний простір станів і дій між налаштуваннями симуляційного та фізичного світу для кожного завдання, що забезпечує простий спосіб керування роботом за допомогою високорівневого простору руху (наприклад, попередньо встановленої стратегії захоплення) або низькорівневого безперервного спільного контролю.
-Модульність:
Компонент сприйняття і дії підтримує високорівневі стани (наприклад, семантичні карти, сегментовані хмари точок) і високорівневі дії (наприклад, перехід до цільового місця, підбір цільового об'єкта).
- Базовий агент:
Стратегії використання цих можливостей для забезпечення базової функціональності OVMM, а також інструменти для побудови більш складних агентів можуть бути розроблені іншими командами.
У тесті HomeRobot OVMM агент може захоплювати новинки в домашньому середовищі та поміщати їх у цільовий контейнер або в нього.
Серед них Meta використовує навчання з підкріпленням та евристичні (засновані на моделі) базові лінії, щоб показати, що навички навігації та розміщення можуть бути перенесені з симуляції у фізичний світ. Результати показують, що базовий рівень може досягти 20% успіху у фізичному світі.
Ресурси:
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
Важке оновлення Meta, у Xiaoza є собака, яка може виконувати домашню роботу в метавсесвіті! Гуманоїдні аватари ультрареалістичні, а агенти штучного інтелекту взаємодіють з людьми в реальному фізичному світі
Джерело: Shin Zhiyuan
Сьогодні Meta випустила Habitat 3.0 — навченого нею агента штучного інтелекту, який навчився знаходити людей і допомагати людям прибирати кімнати. Соціальні боти, наступна віха!
Починаючи з сьогоднішнього дня, люди стали на крок ближче до роботів, які допомагають у домашній роботі!
Адреса проекту:
Фактично сьогодні Meta оголосила про три основні події одночасно:
**1. Habitat 3.0 – це перший симулятор, який підтримує широкомасштабне навчання завданням взаємодії людини та машини в різноманітних, реалістичних приміщеннях. **
Він підтримує як роботів, так і гуманоїдних аватарів, дозволяючи людям і роботам співпрацювати в домашньому середовищі, наприклад, допомагати прибирати кімнату.
HSSD-200 має найвищу якість в аналогічних наборах даних, може навчати навігаційних агентів і має дуже хороший ефект узагальнення тривимірних сцен реконструкції у фізичному світі, а кількість використовуваних сцен на два порядки менша.
При широкомасштабному навчанні Habitat 3.0 може виконувати понад 1,000 кроків на секунду на одному графічному процесорі.
Користувач мережі: Коли вийде робот, здатний займатися домашніми справами
Користувачі мережі заявили: Це серйозний стрибок у робототехніці.
Середовище проживання 3.0
Завдяки Habitat 3.0 Meta не тільки забезпечує реалістичну симуляцію людей за зовнішнім виглядом і поставою.
Ще однією ключовою особливістю Habitat 3.0 є «людина в петлі».
Соціальні завдання
Крім того, Habitat 3.0 може моделювати різноманітні реальні соціальні сценарії.
Наприклад, у завданні, відомому як соціальна навігація, роботи повинні знаходити людей і стежити за ними, залишаючись у безпеці.
У цей момент людям і роботам потрібно вирушити до цільового місця окремо, а роботу потрібно знайти спосіб досягти цієї мети за допомогою людей якомога ефективніше.
Крім того, що роботи тримаються на безпечній відстані від людей, вони також відступають, коли це необхідно, залишаючи людям простір для ходьби.
Дозвольте агентам штучного інтелекту взаємодіяти з людьми в реальному світі
Раніше, коли ми думали про помічників зі штучним інтелектом, ми зазвичай думали про веб-чат-ботів або розумних колонок.
Дослідники Meta сподівалися впровадити втілених агентів штучного інтелекту із загальним інтелектом, щоб вони могли відчувати навколишнє середовище, спілкуватися з людьми та допомагати їм у цифровому та фізичному світах.
Одне з бачень полягає в тому, щоб зробити AR-гарнітури, які можна носити цілий день, для використання людиною.
Крім того, дослідники вдосконалюють технологію, що лежить в основі соціальних інтелектуальних роботів, дозволяючи їм допомагати людям з домашніми справами та адаптуватися до індивідуальних уподобань людей відповідно до вимог своїх партнерів.
Робота зосереджена на глибоких дослідженнях вбудованих систем, щоб зробити наступне покоління досвіду AR і VR кращим.
Для цього необхідно встановити стандартизовані процедури бенчмаркінгу.
Тому дослідники Meta розробили новий набір інструментів для дослідження роботів на симуляторах і наборах даних.
Вони також розробили технологічний стек, який включає апаратне та програмне забезпечення, щоб зробити цей аспект дослідження простішим і доступнішим.
Щоб швидко покращити можливості робота, дослідники розробляють і тестують нові алгоритми та моделі на симуляторах, а потім переносять їх на фізичних роботів.
За ці роки Habitat Simulator досягла багатьох значних успіхів.
Habitat 2.0 представляє інтерактивне середовище (наприклад, предмети, які потрібно забрати, шухляди, які можна відкрити) і навчає віртуальних роботів прибирати будинки, переставляючи предмети.
Habitat 3.0 йде ще далі і може підтримувати як роботів, так і гуманоїдних аватарів, дозволяючи співпрацювати між людиною та машиною для виконання повсякденних завдань, таких як прибирання у вітальні та приготування рецептів на кухні.
Це відкриває нові шляхи для вивчення співпраці людини та робота в різноманітних, реалістичних, візуальних та семантично багатих завданнях.
Крім того, Habitat 3.0 підтримує гуманоїдні аватари з реалістичним зовнішнім виглядом, природною ходою та рухами, які можуть імітувати реалістичні низькорівневі та високорівневі взаємодії.
Цей інтерфейс підтримує клавіатури, миші та гарнітури віртуальної реальності.
Співіснування людей і роботів у змодельованих середовищах дозволяє людям вивчати роботизовані стратегії штучного інтелекту, виконувати повсякденні завдання та оцінювати їх вперше в сімейному середовищі в присутності гуманоїдних аватарів.
Це, безсумнівно, має велике значення -
У імітаційному експерименті це можна зробити за кілька днів.
У симуляції ви можете змінити обстановку за частки секунди і відразу почати експериментувати в новому середовищі.
Симулятори дозволяють дослідникам тестувати методи в безпечному середовищі перед розгортанням їх у фізичному світі, що забезпечує безпеку.
У фізичному світі збір даних може бути досить дорогим і повільним.
Першим завданням є «соціальне прибирання», яке передбачає, що роботи та гуманоїдні аватари працюють разом, щоб виконати низку завдань із збирання та розміщення, таких як прибирання будинків.
У цьому завданні роботи та люди повинні діяти узгоджено для досягнення спільної мети. Така інтелектуальна поведінка виникає після масштабного симуляційного навчання.
Друге завдання – «соціальна навігація», яка дозволяє роботу знаходити та відстежувати людину, зберігаючи безпечну дистанцію.
Набір даних сцени компонування середовища існування
Набори даних 3D-сцен необхідні для навчання роботів у змодельованому середовищі.
Наразі, незважаючи на те, що існує багато наборів даних, які підтримують масштабування навчальних даних, ми не розуміємо компромісу між розміром набору даних та автентичністю.
З цією метою Meta запустила новий набір даних синтетичної 3D-сцени - HSSD-200.
Він складається з 211 високоякісних 3D-сцен, що представляють реальне внутрішнє середовище, включаючи 18 656 моделей об'єктів фізичного світу з 466 семантичних категорій. Ближчий до реальної фізики, ніж попередні набори даних.
Крім того, функція стиснення ресурсів HSSD-200 забезпечує високопродуктивне моделювання штучного інтелекту.
Серед них окремі об'єкти створюються професійними 3D-художниками, в більшості випадків відповідаючи реальним меблям і техніці.
Причому кількість сценаріїв, необхідних для навчання агента на HSSD-200, на 2 порядки менше -
У порівнянні з агентами, навченими 10 000 сценаріїв ProcTHOR, агенти, навчені 122 сценаріями HSSD-200, краще узагальнюють сценарії фізичного світу HM3DSem.
ДомашнійРобот
Звичайні спільні платформи є важливою частиною прогресу машинного навчання, але в робототехніці подібних платформ не вистачає, оскільки важко відтворити та масштабувати досягнення апаратного забезпечення.
У зв'язку з цим Meta пропонує три цілі для відтворюваної дослідницької платформи робототехніки:
- Натхненна Полярна зірка:
Платформа повинна забезпечувати керовані місії Полярної зірки, щоб мотивувати дослідників і допомагати їм у їхній роботі. Серед них вони також можуть порівнювати різні методи для цікавих реальних проблем.
Наприклад, «Open Word Movement Manipulation (OVMM)» – підбір об'єктів у будь-якому невідомому середовищі та розміщення їх у визначеному місці. Це вимагає дуже сильного довгострокового сприйняття та розуміння сцени, а також корисно для широкого кола завдань.
Платформа повинна забезпечити певний інтерфейс абстракції, щоб зробити робота простішим у використанні для різноманітних завдань, включаючи навігацію та маніпуляції.
-Громада:
Платформа повинна заохочувати розробників брати участь і намагатися побудувати спільноту навколо кодової бази.
Щоб просунути дослідження в цій галузі, Meta запустила нову бібліотеку HomeRobot, яка забезпечує підтримку функцій навігації та маніпулювання Hello Robot Stretch.
Зокрема, HomeRobot складається з двох компонентів:
Компоненти моделювання: використовувати великий і різноманітний набір об'єктів у нових, високоякісних багатокімнатних домашніх умовах;
Компоненти фізичного світу: надає програмні стеки для недорогих продуктів Hello Robot Stretch і Boston Dynamics для заохочення відтворення експериментів у фізичному світі в лабораторіях.
-Портативності:
Існує єдиний простір станів і дій між налаштуваннями симуляційного та фізичного світу для кожного завдання, що забезпечує простий спосіб керування роботом за допомогою високорівневого простору руху (наприклад, попередньо встановленої стратегії захоплення) або низькорівневого безперервного спільного контролю.
-Модульність:
Компонент сприйняття і дії підтримує високорівневі стани (наприклад, семантичні карти, сегментовані хмари точок) і високорівневі дії (наприклад, перехід до цільового місця, підбір цільового об'єкта).
- Базовий агент:
Стратегії використання цих можливостей для забезпечення базової функціональності OVMM, а також інструменти для побудови більш складних агентів можуть бути розроблені іншими командами.
Серед них Meta використовує навчання з підкріпленням та евристичні (засновані на моделі) базові лінії, щоб показати, що навички навігації та розміщення можуть бути перенесені з симуляції у фізичний світ. Результати показують, що базовий рівень може досягти 20% успіху у фізичному світі.
Ресурси: