Чи є RT-2 від Google, момент GPT-3 для роботів?

29 липня репортер New York Times взяв участь у огляді останнього робота Google RT-2, керованого моделлю, у Google Lab.

Однорукий робот стоїть перед столом. На столі сидять три пластикові фігурки: лев, кит і динозавр. Інженер дав роботові команду: «Збирай вимерлих тварин» Робот заворчав якусь мить, потім витягнув руки, лапи розсунув і впав. Воно зловило динозавра.

Це спалах інтелекту.

«Нью-Йорк Таймс» описує: «До минулого тижня ця демонстрація була неможливою. Роботи не можуть надійно маніпулювати об’єктами, яких вони ніколи раніше не бачили, і вони точно не можуть досягти мети переходу від «вимерлих тварин» до «пластикових динозаврів». логічний стрибок. "

**Хоча демонстрація все ще знаходиться в демо-версії, і Google не планує випускати більший випуск або комерціалізувати її негайно, демонстрації було достатньо, щоб показати невеличкий уявлення про можливості, які великі моделі можуть надати роботам. **

До приходу ери великих моделей люди навчали роботів, як правило, оптимізованих для виконання кожного завдання, наприклад захоплення певної іграшки, для чого потрібна достатня кількість даних, щоб робот міг точно ідентифікувати цю іграшку з усіх боків і під різними кутами зору. вогні та візьміть іграшку успіху. Щоб робот зрозумів, що перед ним стоїть завдання схопити іграшку, його потрібно запрограмувати на її вирішення.

Можливості інтелекту та узагальнення великої моделі дозволяють людям побачити світанок вирішення цих проблем і переходу до універсальних роботів.

Застосуйте Transformer до робота

Нова модель Google RT-2 під назвою Robotic Transformer 2 використовує архітектуру Transformer як основу своєї моделі.

Архітектура Transformer, запропонована в 2018 році, є нижньою основою великої мовної моделі (LLM), яка зараз популярна в усьому світі, але насправді, як архітектуру, Transformer можна використовувати не тільки у великих мовних моделях, а й у Train. на інші типи даних. Ще в березні цього року Google випустив PaLM-E, яка на той час була найбільшою моделлю візуальної мови (VLM) у світі.

У великій мовній моделі мова кодується як вектор, і люди надають велику кількість корпусу для моделі, щоб вона могла передбачити, що люди зазвичай говорять у наступному реченні, щоб створити мовну відповідь.

У моделі візуальної мови модель може кодувати інформацію про зображення у вектор, подібний до мови, що дозволяє моделі «розуміти» текст і «розуміти» зображення однаково. Дослідники надали велику кількість корпусу та зображень для візуальної мовної моделі, що дозволило їй виконувати такі завдання, як візуальні відповіді на запитання, зображення з підписами та розпізнавання об’єктів.

Як зображення, так і мова відносно легко отримати великий обсяг даних. Тому моделі легко досягти приголомшливих результатів.

Однак існує велика складність у використанні архітектури Transformer для створення поведінки робота. «Дані, пов’язані з рухами роботів, дуже дорогі». Професор Сюй Хуаже, доцент Інституту міждисциплінарної інформації Університету Цінхуа, сказав Geek Park: «Дані про зір і мову надходять від людей, які є пасивними даними, тоді як дані робота дані про переміщення надходять з активних даних для ботів.

**Наприклад, я хочу вивчити дію робота, який наливає каву. Незалежно від того, чи це написання коду для виконання роботом, чи використання інших методів для виконання роботом, робот повинен фактично виконати цю операцію один раз щоб отримати ці дані. ** Таким чином, масштаб і величина даних, мови та зображень робота зовсім інші. "

**У першому поколінні робота-трансформера моделі RT-1, дослідженого Google, Google вперше відкрив такий виклик, намагаючись побудувати візуальну модель мовної дії. **

Щоб побудувати таку модель, Google використав 13 роботів і витратив 17 місяців на збір даних, що складаються з активних даних роботів щодо більш ніж 700 завдань у вбудованому кухонному середовищі.

Набір даних одночасно записує три виміри:

  • Vision - дані камери, коли робот виконує завдання;
  • Мова - текст завдання, описаний природною мовою;
  • і рух робота – дані осі xyz і відхилення тощо, коли рука робота виконує завдання.

Незважаючи на те, що тоді були отримані хороші експериментальні результати, можна припустити, що буде дуже важко надалі збільшити кількість даних у наборі даних.

Джерело зображення: вступне відео Google AI

**Інновація RT-2 полягає в тому, що RT-2 використовує вищезгадану модель візуальної мови (VLM) PaLM-E та іншу модель візуальної мови PaLI-X як свою основу - можна передати чисту модель візуальної мови. Дані на рівні мережі навчений, тому що обсяг даних досить великий, і можна отримати досить хороші результати.На етапі тонкого налаштування дані про рух робота додаються в нього та разом налаштовуються (співточне налаштування). **

Таким чином, робот еквівалентний тому, що спочатку має систему здорового глузду, яка була навчена на масивних даних, хоча він ще не може зрозуміти банани, він уже може розпізнавати банани і навіть знає, що банани є різновидом фруктів. їсти.

На етапі тонкого налаштування, додавши знання про те, як робот хапає банани після того, як побачив їх у реальному світі, робот не лише має здатність розпізнавати банани під різними освітленнями та кутами, але також має здатність хапати банани. здатність.

Таким чином, дані, необхідні для навчання робота з архітектурою Transformer, значно зменшуються.

RT-2 безпосередньо використовує набір даних про зір/мову/дію робота, який використовується на етапі навчання RT-1 на етапі тонкого налаштування. Дані, надані Google, показують, що RT-2 працює так само добре, як і RT-1, коли захоплює елементи, які спочатку з’явилися в даних навчання. А через «мозок зі здоровим глуздом» під час захоплення предметів, яких раніше не бачили, показник успіху зріс з 32% від RT-1 до 62%.

«Це краса великої моделі». Сюй Хуаче сказав: «Ви не можете розібрати її, тому що вона розпізнає, що два об’єкти подібні за матеріалом, або тому, що вони схожі за розміром, або з інших причин. Успіх швидкість хапання зросла. Після того, як він навчиться достатньому, з’являться деякі здібності».

Майбутнє взаємодії з роботами за допомогою природної мови

З академічної точки зору сильне узагальнення, продемонстроване RT-2, може вирішити проблему недостатніх даних для навчання роботів. **На додаток до цього, інтуїтивно зрозумілий удар RT-2 все ще походить від його інтелектуального боку. **

В експериментах, де дослідники хотіли, щоб він міг підняти «щось, що можна було б використовувати як молоток», робот підняв камінь із купи предметів, і коли його попросили підняти напій, запропонував втомленому Red Bull вибрано в купі предметів.

Така навичка походить від здатності дослідника вводити «ланцюг думок» під час навчання великих моделей. Таких багатосегментних семантичних міркувань дуже важко досягти в традиційних дослідженнях навчання імітації роботів.

Однак використання природної мови для взаємодії з роботами не є оригінальною ідеєю RT-2.

У минулих дослідженнях робототехніки дослідникам завжди потрібно було перетворювати вимоги до завдань у коди для розуміння роботами. Водночас, коли виникали проблеми, їм також потрібно було писати коди, щоб виправити поведінку роботів. Весь процес вимагав кількох взаємодій і був неефективним . **І тепер, коли у нас уже є дуже розумний діалоговий робот, наступним природним кроком буде дозволити роботу взаємодіяти з людьми природною мовою. **

«Ми почали працювати над цими мовними моделями близько двох років тому, а потім зрозуміли, що в них міститься величезна кількість знань, — каже дослідник Google Карол Хаусман, — тому ми почали підключати їх до роботів».

Однак використання великої моделі як розуму робота має свої труднощі. Однією з найважливіших проблем є проблема заземлення, тобто як перетворити відповідь великої моделі, яка зазвичай є відносно вільною, на інструкції, які керують діями робота.

** У 2022 році Google запустив модель Say-can. **Моделі, як випливає з назви, використовують подвійні міркування, щоб допомогти роботу діяти. Перше міркування: скажімо. Модель поєднується з великою мовною моделлю Google PaLM, яка може декомпонувати отримані завдання за допомогою природної мови та людської взаємодії та знаходити найбільш підходящі для поточної дії; інше міркування: може. Модель використовує алгоритм розрахунку. Знайти ймовірність того, що поточний робот зможе успішно виконати це завдання. Робот рухається на основі цих двох міркувань.

Наприклад, скажіть роботу: «Моє молоко розлилося, ти можеш мені допомогти?» Робот спочатку спланує завдання за допомогою мовної моделі. У цей час найрозумнішим способом може бути пошук прибиральниці, а потім пошук губкою, щоб витирати його самостійно. Тоді робот обчислить за допомогою алгоритму, що, будучи роботом, ймовірність успішно знайти прибиральника дуже низька, а ймовірність знайти губку, щоб витерти його самостійно, висока. Після подвійного розгляду робот вибере дію пошуку губки для витирання молока.

Джерело зображення: вступне відео Saycan

Хоча в такій двошаровій архітектурі моделі дії, які робот може успішно виконувати, уже заздалегідь розроблені, велика мовна модель може лише допомогти роботу вибрати відповідний план завдання. У такій моделі робот вже продемонстрував сильне почуття інтелекту.

**Однак, хоча ззовні ефект виглядає схожим, RT-2 йде іншим шляхом. Під час навчання модель вивчає три типи даних зору, мови та поведінки робота одночасно. Модель RT-2 не виконує спочатку декомпозицію завдання, а потім виконує операції із завданням, але після введення природної мови вона безпосередньо генерує дії через роботу моделі. **

«Дворівнева структура схожа на те, що я хочу зробити. Я спочатку думаю про перший крок, щоб зробити це, другий крок, щоб зробити те, а потім реалізую ці стратегії одну за одною», — сказав професор Сюй Хуаже. наскрізна структура схожа. Тож я насправді не думав про перший і другий кроки, тому я просто зробив це». . Зазвичай ми не сприймаємо це серйозно, коли друкуємо та спілкуємось. Подумайте про те, як мають рухатися м’язи, але подумайте про слова, які потрібно ввести, і введіть їх безпосередньо.

«Два різні шляхи або різні методи ще не виявилися єдино правильними», — сказав Сюй Хуаче. Однак, завдяки чудовій продуктивності RT-2, модель, яка може взяти на себе технічний напрям введення та виведення, здається вартою вивчення.

«Через цю зміну (чудова продуктивність RT-2) нам довелося переглянути весь наш дослідницький план», — сказав Вінсент Ванхук, директор з робототехніки DeepMind Google. «Багато речей, які я робив раніше, абсолютно марні».

**RT-2 – це момент GPT3 для роботів? **

Робот Google RT-2 не ідеальний. У реальній демонстрації, свідком якої був репортер New York Times, він неправильно визначив смак банки лимонної соди (сказавши «апельсин»). Іншого разу на запитання, який фрукт на столі, робот відповів «білий» (насправді це був банан). Представник Google пояснив, що бот використовував кешовані відповіді, щоб відповісти на запитання попередніх тестувальників, оскільки його Wi-Fi було короткочасно перервано.

**Крім того, використання великих моделей для навчання роботів неминуче стикається з витратами. **Наразі, коли роботи Google обмірковують і роблять висновки, їм потрібно передавати дані в хмару, і кілька TPU обчислюватимуть разом, а потім надсилатимуть результати назад до робота, і робот виконає операцію. Можна уявити, що такі розрахунки дуже дорогі.

Вінсент Ванхоуке, директор відділу робототехніки Google DeepMind, вважає, що нове дослідження відкриває двері роботам для використання в людському середовищі. Дослідники вважають, що роботи з вбудованими мовними моделями можуть потрапити на склади, у медичну промисловість і навіть як домашній помічник, який допомагає скласти білизну, вийняти речі з посудомийної машини та навести порядок у домі.

«Якщо ви відкриваєте фабрику і вам потрібно використовувати роботів, рівень успіху має бути дуже високим. Ви ж не хочете сказати, що після того, як ви купите робота, вам знадобиться багато людей, щоб підтримувати робота та покращувати речі, які Роботи погано справляються. Тоді ціна надто висока». Професор Сюй Хуаже сказав: «Роботи в домашніх умовах можуть бути іншою ситуацією, тому що, можливо, вимоги до рівня успіху для деяких завдань у домашніх умовах не такі високі. Наприклад, складати одяг не дуже добре. На вашу думку, ця місія провалилася, але вона не матиме на вас великого впливу».

Ян Лікунь (Yaan Lecun), один із трьох гігантів штучного інтелекту, має відоме твердження, яке неодноразово повторювалося: штучний інтелект недостатньо розумний. Будь-яка дитина може швидко навчитися прибирати зі столу та класти посуд у посудомийну машину, але робот не може.

Це може бути правдою для поточних досліджень роботів, але подібно до того, як недосконалий GPT-3 показав промисловості напрямок розробки великомасштабних моделей, можливо, сьогоднішній недосконалий RT-2 також відкриє майбутню еру, коли роботи входитимуть у дім і стати нашими помічниками.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити