Является ли Google RT-2, GPT-3 моментом для роботов?

Question

29 июля репортер из «Нью-Йорк Таймс» первым увидел в лаборатории Google новейшую модель робота RT-2 от Google.

Однорукий робот стоит перед столом. На столе три пластиковые фигурки: лев, кит и динозавр. Инженер дал роботу команду: «Подобрать вымерших животных» Робот на мгновение зажужжал, потом вытянул руки, растопырил лапы и упал. Он поймал динозавра.

Это вспышка интеллекта.

«Нью-Йорк Таймс» писала: «До прошлой недели эта демонстрация была невозможна. Роботы не могут надежно манипулировать объектами, которых они никогда раньше не видели, и они, конечно же, не могут достичь цели перехода от «вымерших животных» к «пластиковым динозаврам». Логический скачок. "

** Несмотря на то, что демоверсия все еще находится в стадии демоверсии, и Google не планирует выпускать более крупную версию или немедленно коммерциализировать ее, этой демонстрации было достаточно, чтобы показать возможности, которые большие модели могут предоставить роботам. **

До прихода эры больших моделей люди обучали роботов, как правило, оптимизированных для каждой задачи, такой как захват определенной игрушки, что требовало достаточного количества данных, чтобы робот мог точно идентифицировать эту игрушку со всех ракурсов и под разными углами. огни, и схватить игрушку.успех. Чтобы робот понял, что перед ним стоит задача схватить игрушку, его нужно запрограммировать на ее решение.

Интеллектуальные и обобщающие возможности большой модели позволяют людям увидеть рассвет решения этих проблем и движения к универсальным роботам.

Примените Transformer к роботу

Новая модель Google RT-2, названная Robotic Transformer 2, использует архитектуру Transformer в качестве основы своей модели.

Предложенная в 2018 году архитектура Transformer является нижней базой популярной в настоящее время во всем мире большой языковой модели (LLM), но на самом деле как архитектура Transformer может использоваться не только в больших языковых моделях, но и в Train по другим типам данных. Уже в марте этого года Google выпустила PaLM-E, которая на тот момент была крупнейшей в мире моделью визуального языка (VLM).

В большой языковой модели язык кодируется как вектор, и люди предоставляют большой объем корпуса для модели, чтобы она могла предсказать, что люди обычно говорят в следующем предложении, чтобы сгенерировать языковой ответ.

В модели визуального языка модель может кодировать информацию об изображении в вектор, подобный языку, что позволяет модели «понимать» текст и «понимать» изображения одинаково. Исследователи предоставили модели визуального языка большое количество корпусов и изображений, что позволило ей выполнять такие задачи, как визуальные ответы на вопросы, подписи к изображениям и распознавание объектов.

И изображения, и язык относительно легко позволяют получить большой объем данных. Поэтому модели легко добиться потрясающих результатов.

Однако использование архитектуры Transformer для генерации поведения роботов сопряжено с большими трудностями. «Данные, связанные с движениями роботов, очень дороги», — сказал Geek Park профессор Сюй Хуажэ, доцент Института междисциплинарной информации Университета Цинхуа. все данные о движении поступают из активных данных для ботов.

**Например, я хочу изучить действие робота, наливающего кофе. Будь то написание кода для выполнения роботом или использование других методов для выполнения робота, необходимо, чтобы робот фактически выполнил эту операцию один раз. чтобы получить эти данные. ** Поэтому масштаб и величина данных робота, а также язык и изображения совершенно другие. "

** В первом поколении робота-трансформера модели RT-1, исследованного Google, Google впервые поставила такую задачу, пытаясь построить модель действия визуального языка. **

Чтобы построить такую модель, Google использовала 13 роботов и потратила 17 месяцев на сбор набора данных, состоящего из активных данных роботов по более чем 700 задачам в среде встроенной кухни.

Набор данных одновременно записывает три измерения:

Vision - данные камеры, когда робот выполняет задачи;
Язык - текст задания описан на естественном языке;
и движение робота - ось xyz и данные об отклонении и т. д., когда рука робота выполняет задачу.

Хотя в то время были получены хорошие экспериментальные результаты, можно предположить, что дальнейшее увеличение объема данных в наборе данных будет очень затруднено.

Источник изображения: вводное видео Google AI.

**Новшество RT-2 заключается в том, что RT-2 использует в качестве основы вышеупомянутую модель визуального языка (VLM) PaLM-E и другую модель визуального языка PaLI-X — можно передавать чистую модель визуального языка Данные сетевого уровня обучается, потому что объем данных достаточно велик, и могут быть получены достаточно хорошие результаты.На этапе тонкой настройки данные о движении робота добавляются в него и настраиваются вместе (совместная тонкая настройка). **

Таким образом, робот эквивалентен тому, что сначала у него есть система здравого смысла, которая была изучена на массивных данных — хотя он еще не может понять бананы, он уже может распознавать бананы и даже знает, что бананы — это разновидность фруктов. есть.

На этапе тонкой настройки, добавляя знания о том, как робот захватывает бананы, увидев их в реальном мире, робот не только имеет возможность распознавать бананы при разном освещении и под разными углами, но также имеет возможность хватать бананы. способность.

Таким образом, данные, необходимые для обучения робота с архитектурой Transformer, значительно сокращаются.

RT-2 напрямую использует набор данных о зрении/языке/действии робота, используемый на этапе обучения RT-1 на этапе тонкой настройки. Данные, предоставленные Google, показывают, что RT-2 работает так же, как RT-1, при захвате предметов, которые изначально фигурировали в обучающих данных. А из-за «мозга со здравым смыслом» при захвате невиданных ранее предметов вероятность успеха возросла с 32% РТ-1 до 62%.

«В этом красота большой модели, — сказал Сюй Хуажэ, — вы не можете разобрать ее, потому что она признает, что два объекта похожи по материалу, или потому что они похожи по размеру, или по другим причинам. скорость схватывания увеличилась. После того, как он выучит достаточно вещей, проявятся некоторые способности».

Будущее взаимодействия с роботами с использованием естественного языка

С академической точки зрения сильное обобщение, продемонстрированное RT-2, может решить проблему недостаточности данных для обучения роботов. **Кроме того, интуитивный шок RT-2 по-прежнему исходит от его интеллектуальной стороны. **

В экспериментах, в которых исследователи хотели, чтобы он мог поднять «что-то, что можно было бы использовать в качестве молотка», робот поднял камень в куче предметов, а когда его попросили подобрать напиток, предложенный усталому Red Bull. выбирается в куче предметов.

Такой навык исходит из способности исследователя ввести «цепочку размышлений» при обучении больших моделей. Таких многосегментных семантических рассуждений очень трудно достичь в традиционных исследованиях по имитации обучения роботов.

Однако использование естественного языка для взаимодействия с роботами не является оригинальной идеей RT-2.

В прошлых исследованиях робототехники исследователям всегда приходилось преобразовывать требования задачи в коды, чтобы роботы могли их понять. В то же время, как только возникали проблемы, им также нужно было писать коды для исправления поведения роботов. Весь процесс требовал множественных взаимодействий и был неэффективен. . **И теперь, когда у нас уже есть очень умный диалоговый робот, следующим естественным шагом будет позволить роботу общаться с людьми на естественном языке. **

«Мы начали работать над этими языковыми моделями около двух лет назад, а потом поняли, что в них содержится огромное количество знаний, — говорит научный сотрудник Google Карол Хаусман, — поэтому мы начали связывать их с роботами».

Однако использование большой модели в качестве разума робота имеет свои трудности. Одной из наиболее важных проблем является проблема заземления, то есть как преобразовать реакцию большой модели, которая обычно относительно не ограничена, в инструкции, управляющие действиями робота.

** В 2022 году Google запустил модель Say-can. **Модели, как следует из названия, используют двоякие соображения, чтобы помочь роботу действовать. Первое соображение — сказать.Модель сочетается с большой языковой моделью Google PaLM, которая может разлагать полученные задачи с помощью естественного языка и человеческого взаимодействия и находить наиболее подходящие для текущего действия; другое соображение — может.Модель использует Алгоритм расчета Найти вероятность того, что текущий робот сможет успешно выполнить эту задачу. Робот движется, исходя из этих двух соображений.

Например, скажите роботу «У меня пролилось молоко, вы можете мне помочь?» Робот сначала спланирует задачу через языковую модель. В это время наиболее разумным способом может быть поиск уборщика, а затем поиск губка, чтобы вытереть его самостоятельно. Затем робот рассчитает с помощью алгоритма, что, как робот, вероятность успешного нахождения уборщика очень мала, а вероятность найти губку, чтобы вытереть ее сама, высока. После двойного рассмотрения робот выберет действие поиска губки, чтобы вытереть молоко.

Источник изображения: вводное видео Saycan

Хотя в такой двухуровневой архитектуре модели действия, которые робот может успешно выполнять, уже заранее разработаны, большая языковая модель может только помочь роботу выбрать соответствующий план задач. В такой модели робот уже продемонстрировал сильный интеллект.

**Однако, хотя внешне эффект выглядит похожим, RT-2 идет другим путем. Во время обучения модель одновременно изучает три вида данных зрения, языка и поведения робота.Модель RT-2 сначала не выполняет декомпозицию задачи, а затем выполняет операции задачи, но после ввода на естественном языке она непосредственно генерирует действия посредством работы модели.Вывод. **

«Двухуровневая структура похожа на то, что я хочу сделать. Сначала я думаю о первом шаге, чтобы сделать это, о втором шаге, чтобы сделать то, а затем реализую эти стратегии одну за другой», — сказал профессор Сюй Хуажэ. сквозная структура аналогична, поэтому я не думал о первом шаге и втором шаге, поэтому я просто сделал это». Пример последнего можно сравнить с набором текста и общением по мобильному телефону каждый день Обычно мы не воспринимаем это всерьез, когда печатаем и болтаем.Думаем о том, как должны двигаться мышцы, но думаем о словах, которые нужно напечатать, и печатаем их напрямую.

«Два разных пути или два разных метода еще не доказали, что они являются единственно правильным путем», — сказал Сюй Хуажэ. Тем не менее, из-за отличной производительности RT-2 модель, которая может взять на себя техническое направление ввода и вывода, кажется достойной изучения.

«Из-за этого изменения (отличная производительность RT-2) нам пришлось пересмотреть весь наш план исследований», — сказал Винсент Ванхоук, директор по робототехнике в Google DeepMind. «Многое из того, что я делал раньше, совершенно бесполезно».

RT-2 — момент GPT3 для роботов?

Робот Google RT-2 не идеален. На реальной демонстрации, свидетелем которой стал репортер New York Times, он неправильно идентифицировал вкус банки лимонной газировки (сказав «апельсин»). В другой раз на вопрос, какой фрукт на столе, робот ответил «белый» (на самом деле это был банан). Представитель Google объяснил, что бот использовал кешированные ответы для ответов на вопросы предыдущих тестировщиков, потому что его Wi-Fi был ненадолго прерван.

**Кроме того, использование больших моделей для обучения роботов неизбежно столкнется с проблемами затрат. ** В настоящее время, когда роботы Google выносят рассуждения и суждения, им необходимо передавать данные в облако, и несколько TPU будут выполнять совместные вычисления, а затем отправлять результаты обратно роботу, и робот будет выполнять операцию. Такие расчеты можно себе представить очень дорогими.

Винсент Ванхоук, директор по робототехнике в Google DeepMind, считает, что новое исследование открывает двери для использования роботов в человеческой среде — исследователи считают, что роботы со встроенными языковыми моделями могут войти на склады, в медицинскую промышленность и даже в качестве помощник по дому, помогающий складывать белье, вынимать предметы из посудомоечной машины и убираться в доме.

«Если вы открываете фабрику и вам нужно использовать роботов, вероятность успеха должна быть очень высокой. Вы не хотите сказать, что после того, как вы купите робота, вам нужно много людей, чтобы обслуживать робота и улучшать то, что Робот не справляется. Тогда эта стоимость слишком высока». Профессор Сюй Хуажэ сказал: «Роботы на домашней сцене могут быть другой ситуацией, потому что, возможно, требования к успеху для некоторых задач на домашней сцене не так высоки. например, складывать одежду не так уж и хорошо. В ваших глазах эта миссия провалилась, но это не окажет на вас большого влияния».

У Ян Ликуня (Yaan Lecun), одного из трех гигантов искусственного интеллекта, есть известное утверждение, которое неоднократно подчеркивалось: искусственный интеллект недостаточно умен. Любой ребенок может быстро научиться убирать со стола и ставить посуду в посудомоечную машину, а робот – нет.

Это может быть верно для текущих исследований роботов, но точно так же, как несовершенный GPT-3 показал отрасли направление развития крупномасштабных моделей, возможно, сегодняшний несовершенный RT-2 также откроет будущую эру, в которой роботы войдут в дом и стать нашими помощниками.

Посмотреть Оригинал

Является ли Google RT-2, GPT-3 моментом для роботов?

Примените Transformer к роботу

Будущее взаимодействия с роботами с использованием естественного языка

**RT-2 — момент GPT3 для роботов? **

RT-2 — момент GPT3 для роботов?