Великий крок у роботі AGI від Google: команда з 54 осіб трималася протягом 7 місяців, сильні узагальнення та сильні міркування, нові результати після злиття DeepMind і Google Brain

Перше джерело: Qubit

Вибухова велика модель змінює дослідження робота Google DeepMind.

Одне з останніх досягнень – проект робота RT-2, на створення якого пішло 7 місяців і став популярним в Інтернеті:

Наскільки це ефективно?

Просто віддайте наказ людською мовою, і маленький хлопець попереду може помахати роботизованою рукою, подумати і виконати «хазяйське завдання».

Як напоїти поп-співачкою Тейлор Свіфт або розпізнати логотип зіркової команди:

Він може навіть активно думати та дозволяти йому «підбирати вимерлих тварин», і він може точно вибирати динозаврів із трьох пластикових іграшок левів, китів і динозаврів.

За словами користувачів мережі, не варто недооцінювати цю здатність.Це логічний стрибок від «вимерлих тварин» до «пластикових динозаврів».

Більш «страшним» є те, що він може легко вирішити проблему багатоетапного обґрунтування «вибору напою для втомленої людини», яку потрібно об’єднати з ланцюжком думок — як тільки пролунає замовлення , маленька ручка піде прямо до Red Bull, Тільки не будь надто розумним.

Деякі користувачі мережі поскаржилися після прочитання:

Не можу дочекатися, перемотайте вперед до миття посуду для людей (ручна голова собаки)

Зрозуміло, що досягнення Google DeepMind було створено спільно 54 дослідниками, і знадобилося 7 місяців до і після, перш ніж воно нарешті стало «таким легким», як ми бачили.

Як повідомляє New York Times, Вінсент Ванхоуке, директор відділу робототехніки в Google DeepMind, вважає, що великі моделі повністю змінили напрямок досліджень їх відділу:

Через цю (велику модель) зміну нам довелося переосмислити весь дослідницький проект. Багато речей, які ми вивчали раніше, повністю провалилися.

Отже, яких ефектів може досягти RT-2 і про що саме йдеться в цьому дослідженні?

Підключіть мультимодальну велику модель до роботизованої руки

Проект робота під назвою RT-2 (Robotic Transformer 2) є «еволюційною версією» RT-1, випущеної наприкінці минулого року.

Порівняно з іншими роботами-дослідниками основна перевага RT-2 полягає в тому, що він може не лише розуміти «людські слова», а й міркувати про «людські слова» та перетворювати їх на інструкції, зрозумілі роботам, щоб виконувати завдання поетапно. .

Зокрема, він має три основні можливості - розуміння символів (Symbol understanding), розуміння (Reasoning) і людське розпізнавання (Human recognition).

Перша здатність — це «символьне розуміння», яке може безпосередньо поширювати знання попереднього навчання великої моделі на дані, яких робот ніколи раніше не бачив. Наприклад, хоча в базі даних робота немає «Red Bull», він може зрозуміти й зрозуміти зовнішній вигляд «Red Bull», знаючи велику модель, і працювати з об’єктами.

Друга здатність — «міркування», яка також є основною перевагою RT-2, яка вимагає від робота оволодіння трьома основними навичками математики, візуального мислення та багатомовного розуміння.

Навичка 1, включаючи команду математичного логічного міркування «покласти банан у суму 2+1»:

Навичка друга, Візуальне міркування, наприклад «Поклади полуницю в правильну миску»:

Навичка 3, багатомовне розуміння, може виконувати інструкції навіть без англійської, наприклад, наказувати іспанською, щоб «вибрати найбільш характерний із купи предметів»:

Третя здатність — це людське впізнавання, яке точно розпізнає та розуміє людську поведінку. Приклад «подачі води Тейлор Свіфт», який ми бачили на початку, є однією з демонстрацій здібностей.

Отже, як же реалізуються ці три здібності?

Простіше кажучи, це поєднання можливостей «міркування», «розпізнавання» та «математики» візуально-текстової мультимодальної великої моделі (VLM) з операційними можливостями роботів.

Щоб досягти цього, дослідники безпосередньо додали режим під назвою «режим дії робота» до великої візуально-текстової моделі (VLM), таким чином перетворивши її на велику модель візуально-текстової дії (VLA).

Згодом вихідні дуже конкретні дані про дії робота перетворюються на текстовий маркер.

Наприклад, такі дані, як ступінь повороту та координатна точка, яку потрібно розмістити, перетворюються на текст «помістити в певне положення».

Таким чином, дані робота також можуть бути використані в наборі даних візуальної мови для навчання.Водночас, у процесі міркування, вихідні текстові інструкції будуть повторно перетворені в дані робота для реалізації серії операцій, таких як як керування роботом.

Правильно, це так просто і грубо (ручна голова собаки)

У цьому дослідженні команда в основному «оновлювалася» на основі серії базових великомасштабних моделей Google, включаючи 5 мільярдів і 55 мільярдів PaLI-X, 3 мільярди PaLI і 12 мільярд PaLM-E.

Щоб покращити можливості самої великої моделі, дослідники також доклали багато зусиль, використовуючи нещодавно популярний ланцюжок мислення, векторну базу даних і архітектури без градієнтів.

Ця серія операцій також дає RT-2 багато нових переваг у порівнянні з RT-1, випущеним минулого року.

Давайте подивимося на конкретні експериментальні результати.

До трьох разів продуктивність RT-1

RT-2 використовує для навчання дані моделі робота попереднього покоління RT-1 (тобто дані не змінилися, але метод інший).

Дані збиралися протягом 17 місяців за допомогою 13 роботів на кухні, встановленій в офісі.

У фактичному тесті (загалом 6000 разів) автор надав RT-2 багато об’єктів, які раніше не бачили, вимагаючи від RT-2 виконання семантичного розуміння за межами точного налаштування даних для виконання завдання.

Результати зроблені досить добре:

Включно з простим розпізнаванням літер, національних прапорів і персонажів до розпізнавання наземних тварин на ляльках, вибору того, що має інший колір, і навіть складних команд, таких як збирати закуски, які ось-ось впадуть зі столу.

З точки зору можливостей трьох підрозділів розуміння символів, міркування та розпізнавання людиною, два варіанти RT-2 набагато кращі, ніж RT-1 та інший візуальний метод попереднього навчання VC-1, з ефективністю до 3 разів .

Як згадувалося раніше, два варіанти навчаються на PaLM-E з 12 мільярдами параметрів і PaLI-X з 55 мільярдами параметрів відповідно.

З точки зору оцінки специфічної здатності до узагальнення, за допомогою багатокатегорійних тестів на підрозділи з декількома базовими моделями було зрештою виявлено, що продуктивність RT-2 покращилася приблизно в 2 рази.

(На жаль, ми не бачили його в порівнянні з останніми робототехнічними методами інших команд на основі LLM)

Щоб краще зрозуміти, як різні налаштування RT-2 впливають на результати узагальнення, автор розробив дві категорії оцінок:

По-перше, з точки зору розміру моделі, лише варіант RT-2 PaLI-X використовує 5 мільярдів параметрів і 55 мільярдів параметрів для навчання;

Другий — це метод навчання, який застосовує метод навчання моделі з нуля проти тонкого налаштування чи спільного точного налаштування.

Кінцеві результати показують, що важливість попередньо підготовлених ваг VLM і здатність моделі до узагальнення мають тенденцію зростати зі збільшенням розміру моделі.

Крім того, автори також оцінюють RT-2 за тестом мовної таблиці з відкритим вихідним кодом, і результати показують, що він досягає результатів SOTA за симульованим тестом (90% проти 77% раніше).

Нарешті, оскільки варіант RT-2 PaLM-E — це модель бачення, мови і дії, яка може діяти як LLM, VLM і контролер робота в одній нейронній мережі, RT-2 також може виконувати кероване мисленнєве мислення.

Серед п’яти завдань на міркування, показаних на малюнку нижче (особливо останнє дуже цікаве: виберіть предмет, який може замінити молоток), воно виведе кроки природною мовою після отримання команди, а потім надасть маркер конкретної дії.

Нарешті, підводячи підсумок, можна сказати, що ця остання модель RT-2 може не тільки краще застосовуватися до різних сцен, яких машина ніколи раніше не бачила, але також має кращу здатність до узагальнення; водночас, завдяки кращому Завдяки великій моделі, воно також опанувало деякі складні нові здібності, такі як міркування.

І ще одна річ

Зосередження Google на дослідженнях робототехніки на великих моделях не здається «безпідставним».

Буквально за останні два дні стаття на тему «Використання великих моделей, щоб допомогти отримати більше навичок роботи з роботами», написана у співавторстві з Колумбійським університетом, також стала дуже популярною:

У цьому документі пропонується нова структура, яка не тільки дозволяє роботу добре адаптуватися до великої моделі, але й зберігає базові можливості роботи та керування оригінального робота:

На відміну від RT-2, цей проект був відкритим кодом:

Це правда, що велика модель використовувалася для оновлення всього відділу роботів.

Можна сказати, що використання великих моделей для керування роботами стало дослідницькою тенденцією, і ми побачили хвилю багатообіцяючого прогресу, нагадуючи нещодавно команду Лі Фейфея про втілені інтелектуальні досягнення.

Які ваші очікування щодо цього напрямку досліджень?

адреса проекту:

Довідкове посилання:

[1]

[2]

[3]

[4]

Переглянути оригінал
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Нагородити
  • Прокоментувати
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити