Отправка команд роботам еще никогда не была такой простой.
Мы знаем, что после освоения языка и изображений в Интернете большая модель со временем войдет в реальный мир, и следующим направлением развития должен стать «воплощенный интеллект».
Подключение больших моделей к роботам, использование простого естественного языка вместо сложных инструкций для формирования конкретных планов действий, без дополнительных данных и обучения — это видение выглядит хорошо, но кажется немного далеким. В конце концов, область робототехники, как известно, сложна.
Однако ИИ развивается быстрее, чем мы думали.
В эту пятницу GoogleDeepMindобъявил о запуске RT-2: первой в мире модели Vision-Language-Action (VLA) для управления роботами.
Теперь, когда сложные инструкции больше не используются, роботом можно управлять напрямую, как ChatGPT.
Насколько интеллектуален РТ-2? Исследователи DeepMind показали его с роботизированной рукой, сказали ИИ выбрать «вымерших животных», рука вытянулась, клешни открылись и упали, и он схватил куклу динозавра.
До этого роботы не могли надежно понимать объекты, которых они никогда не видели, не говоря уже о таких вещах, как связь «вымерших животных» с «пластиковыми куклами динозавров».
Скажите роботу, чтобы он дал Тейлор Свифт банку колы:
Видно, что этот робот — настоящий фанат, что не может не радовать людей.
Разработка больших языковых моделей, таких как ChatGPT, знаменует собой революцию в области роботов.Google установила на роботов самые совершенные языковые модели, чтобы у них наконец-то появился искусственный мозг.
В документе, недавно представленном DeepMind, исследователи заявили, что модель RT-2 обучается на основе данных сети и роботов, используя результаты исследований крупномасштабных языковых моделей, таких как Bard, и комбинируя их с данными роботов. Также может понимать инструкции на языках, отличных от английского.
Руководители Google говорят, что RT-2 — это качественный скачок в способах создания и программирования роботов. «Из-за этого изменения нам пришлось пересмотреть весь наш план исследований», — говорит Винсент Ванхоук, директор по робототехнике в Google DeepMind. «Многое из того, что я делал раньше, совершенно бесполезно».
**Как реализован РТ-2? **
RT-2 от DeepMind разбирается и читается как Robotic Transformer — модель робота-трансформера.
Роботам непросто понять человеческую речь и продемонстрировать живучесть, как в фантастических фильмах. По сравнению с виртуальной средой, реальный физический мир сложен и неупорядочен, и роботам обычно нужны сложные инструкции, чтобы делать какие-то простые вещи за людей. Вместо этого люди инстинктивно знают, что делать.
Раньше на обучение робота уходило много времени, и исследователям приходилось создавать решения для разных задач индивидуально, но благодаря мощности RT-2 робот может самостоятельно анализировать больше информации и делать выводы, что делать дальше.
RT-2 основывается на модели Vision-Language Model (VLM) и создает новую концепцию: модель Vision-Language-Action (VLA), которая может учиться на данных сети и данных робота и комбинировать эти знания Преобразовывать в общие инструкции, которые робот может контроль. Модель даже могла использовать подсказки цепочки мыслей, например, какой напиток лучше всего подходит для уставшего человека (энергетические напитки).
Архитектура РТ-2 и учебный процесс
Фактически, еще в прошлом году Google запустила версию робота RT-1.Требуется только одна предварительно обученная модель, и RT-1 может генерировать инструкции на основе различных сенсорных входов (таких как зрение, текст и т. д.). ) для выполнения нескольких задач вид задачи.
Как предварительно обученная модель, она, естественно, требует большого количества данных для самоконтролируемого обучения, чтобы построить ее хорошо. RT-2 основан на RT-1 и использует демонстрационные данные RT-1, собранные 13 роботами в офисе и на кухне в течение 17 месяцев.
DeepMindсоздала модель VLA
Ранее мы упоминали, что RT-2 построен на основе VLM, где модели VLM были обучены на данных веб-масштаба и могут использоваться для выполнения таких задач, как визуальные ответы на вопросы, создание субтитров к изображениям или распознавание объектов. Кроме того, исследователи также внесли адаптивные коррективы в две ранее предложенные модели VLM PaLI-X (модель языка путей и изображений) и PaLM-E (воплощенная модель языка путей) в качестве основы RT-2, и эти модели The Vision Версии с языком и движением называются RT-2-PaLI-X и RT-2-PaLM-E.
Для того чтобы модель языка зрения могла управлять роботом, все равно необходимо управлять движением. В исследовании применялся очень простой подход: они представляли действия роботов на другом языке, текстовыми токенами и обучали их с помощью набора данных языка видения в веб-масштабе.
Кодирование движения робота основано на методе дискретизации, предложенном Броханом и др. для модели RT-1.
Как показано на рисунке ниже, это исследование представляет действия робота в виде текстовых строк, которые могут быть последовательностью номеров токенов действий робота, например «1 128 91 241 5 101 127 217».
Строка начинается с флага, указывающего, продолжает ли робот текущий эпизод или завершает его, а затем робот меняет положение и вращение концевого эффектора и команды, такие как захват робота, как указано.
Поскольку действия представлены в виде текстовых строк, роботу так же легко выполнить команду действия, как и строку. С помощью этого представления мы можем напрямую настраивать существующие модели языка видения и преобразовывать их в модели языка видения-действия.
Во время логического вывода текстовые токены разлагаются на действия робота для достижения замкнутого цикла управления.
Экспериментальный
Исследователи провели серию качественных и количественных экспериментов на модели РТ-2.
На рисунке ниже показаны показатели RT-2 в отношении семантического понимания и основных рассуждений. Например, для задачи «положить клубнику в правильную миску» RT-2 нужно не только понять изображение клубники и миски, но и в контексте сцены понять, что клубнику следует класть с похожие фрукты вместе. Для задачи по поднятию сумки, которая вот-вот упадет со стола, RT-2 необходимо понять физические свойства сумки, чтобы устранить неоднозначность между двумя сумками и идентифицировать объекты в неустойчивом положении.
Следует отметить, что все взаимодействия, протестированные в этих сценариях, никогда не наблюдались в данных робототехники.
На рисунке ниже показано, что модель RT-2 превосходит предыдущую базовую модель RT-1 и предварительно обученного зрения (VC-1) по четырем тестам.
RT-2 сохраняет производительность робота в исходной задаче и повышает производительность робота в ранее невиданных сценариях с 32% до 62% для RT-1.
Ряд результатов показывает, что модель видения-языка (VLM) может быть преобразована в мощную модель видения-языка-действия (VLA), а роботом можно напрямую управлять, комбинируя предварительное обучение VLM с данными робота.
Как и в случае с ChatGPT, если такая возможность применяется в больших масштабах, мир, по оценкам, претерпит значительные изменения. Однако в ближайшее время Google не планирует применять робота RT-2, говоря лишь о том, что исследователи считают, что эти роботы, способные понимать человеческую речь, никогда не остановятся на уровне демонстрации возможностей.
Только представьте себе робота со встроенной языковой моделью, которого можно разместить на складе, взять для вас лекарства или даже использовать в качестве домашнего помощника — складывать белье, вынимать предметы из посудомоечной машины и убираться в доме.
Это может действительно открыть дверь для использования роботов в человеческой среде, и все направления, требующие ручного труда, могут быть переняты, то есть в предыдущем отчете OpenAI о прогнозировании влияния ChatGPT на рабочие места та часть, которую большая модель не может влияние может теперь покрыто.
**Воплощенный разум недалеко от нас? **
В последнее время телесный интеллект является направлением, которое изучает большое количество исследователей. В этом месяце команда Ли Фейфей из Стэнфордского университета продемонстрировала новые результаты: с помощью большой языковой модели и визуальной языковой модели ИИ может анализировать и планировать в трехмерном пространстве и управлять действиями роботов.
Компания-стартап универсальных роботов-гуманоидов Чжихуэй Цзюня «Agibot» вчера вечером выпустила видео, в котором также продемонстрированы возможности автоматического программирования и выполнения задач роботами на основе больших языковых моделей.
Ожидается, что в августе компания Чжихуэй Цзюня представит внешнему миру некоторые последние достижения.
Можно видеть, что в области больших моделей все еще происходят большие события.
Справочное содержание:
Посмотреть Оригинал
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Робот ChatGPT здесь: большая модель входит в реальный мир, тяжеловесный прорыв DeepMind
Мы знаем, что после освоения языка и изображений в Интернете большая модель со временем войдет в реальный мир, и следующим направлением развития должен стать «воплощенный интеллект».
Подключение больших моделей к роботам, использование простого естественного языка вместо сложных инструкций для формирования конкретных планов действий, без дополнительных данных и обучения — это видение выглядит хорошо, но кажется немного далеким. В конце концов, область робототехники, как известно, сложна.
Однако ИИ развивается быстрее, чем мы думали.
В эту пятницу Google DeepMind объявил о запуске RT-2: первой в мире модели Vision-Language-Action (VLA) для управления роботами.
Теперь, когда сложные инструкции больше не используются, роботом можно управлять напрямую, как ChatGPT.
Скажите роботу, чтобы он дал Тейлор Свифт банку колы:
Разработка больших языковых моделей, таких как ChatGPT, знаменует собой революцию в области роботов.Google установила на роботов самые совершенные языковые модели, чтобы у них наконец-то появился искусственный мозг.
В документе, недавно представленном DeepMind, исследователи заявили, что модель RT-2 обучается на основе данных сети и роботов, используя результаты исследований крупномасштабных языковых моделей, таких как Bard, и комбинируя их с данными роботов. Также может понимать инструкции на языках, отличных от английского.
**Как реализован РТ-2? **
RT-2 от DeepMind разбирается и читается как Robotic Transformer — модель робота-трансформера.
Роботам непросто понять человеческую речь и продемонстрировать живучесть, как в фантастических фильмах. По сравнению с виртуальной средой, реальный физический мир сложен и неупорядочен, и роботам обычно нужны сложные инструкции, чтобы делать какие-то простые вещи за людей. Вместо этого люди инстинктивно знают, что делать.
Раньше на обучение робота уходило много времени, и исследователям приходилось создавать решения для разных задач индивидуально, но благодаря мощности RT-2 робот может самостоятельно анализировать больше информации и делать выводы, что делать дальше.
RT-2 основывается на модели Vision-Language Model (VLM) и создает новую концепцию: модель Vision-Language-Action (VLA), которая может учиться на данных сети и данных робота и комбинировать эти знания Преобразовывать в общие инструкции, которые робот может контроль. Модель даже могла использовать подсказки цепочки мыслей, например, какой напиток лучше всего подходит для уставшего человека (энергетические напитки).
Фактически, еще в прошлом году Google запустила версию робота RT-1.Требуется только одна предварительно обученная модель, и RT-1 может генерировать инструкции на основе различных сенсорных входов (таких как зрение, текст и т. д.). ) для выполнения нескольких задач вид задачи.
Как предварительно обученная модель, она, естественно, требует большого количества данных для самоконтролируемого обучения, чтобы построить ее хорошо. RT-2 основан на RT-1 и использует демонстрационные данные RT-1, собранные 13 роботами в офисе и на кухне в течение 17 месяцев.
DeepMind создала модель VLA
Ранее мы упоминали, что RT-2 построен на основе VLM, где модели VLM были обучены на данных веб-масштаба и могут использоваться для выполнения таких задач, как визуальные ответы на вопросы, создание субтитров к изображениям или распознавание объектов. Кроме того, исследователи также внесли адаптивные коррективы в две ранее предложенные модели VLM PaLI-X (модель языка путей и изображений) и PaLM-E (воплощенная модель языка путей) в качестве основы RT-2, и эти модели The Vision Версии с языком и движением называются RT-2-PaLI-X и RT-2-PaLM-E.
Для того чтобы модель языка зрения могла управлять роботом, все равно необходимо управлять движением. В исследовании применялся очень простой подход: они представляли действия роботов на другом языке, текстовыми токенами и обучали их с помощью набора данных языка видения в веб-масштабе.
Кодирование движения робота основано на методе дискретизации, предложенном Броханом и др. для модели RT-1.
Как показано на рисунке ниже, это исследование представляет действия робота в виде текстовых строк, которые могут быть последовательностью номеров токенов действий робота, например «1 128 91 241 5 101 127 217».
Поскольку действия представлены в виде текстовых строк, роботу так же легко выполнить команду действия, как и строку. С помощью этого представления мы можем напрямую настраивать существующие модели языка видения и преобразовывать их в модели языка видения-действия.
Во время логического вывода текстовые токены разлагаются на действия робота для достижения замкнутого цикла управления.
Экспериментальный
Исследователи провели серию качественных и количественных экспериментов на модели РТ-2.
На рисунке ниже показаны показатели RT-2 в отношении семантического понимания и основных рассуждений. Например, для задачи «положить клубнику в правильную миску» RT-2 нужно не только понять изображение клубники и миски, но и в контексте сцены понять, что клубнику следует класть с похожие фрукты вместе. Для задачи по поднятию сумки, которая вот-вот упадет со стола, RT-2 необходимо понять физические свойства сумки, чтобы устранить неоднозначность между двумя сумками и идентифицировать объекты в неустойчивом положении.
Следует отметить, что все взаимодействия, протестированные в этих сценариях, никогда не наблюдались в данных робототехники.
Как и в случае с ChatGPT, если такая возможность применяется в больших масштабах, мир, по оценкам, претерпит значительные изменения. Однако в ближайшее время Google не планирует применять робота RT-2, говоря лишь о том, что исследователи считают, что эти роботы, способные понимать человеческую речь, никогда не остановятся на уровне демонстрации возможностей.
Только представьте себе робота со встроенной языковой моделью, которого можно разместить на складе, взять для вас лекарства или даже использовать в качестве домашнего помощника — складывать белье, вынимать предметы из посудомоечной машины и убираться в доме.
**Воплощенный разум недалеко от нас? **
В последнее время телесный интеллект является направлением, которое изучает большое количество исследователей. В этом месяце команда Ли Фейфей из Стэнфордского университета продемонстрировала новые результаты: с помощью большой языковой модели и визуальной языковой модели ИИ может анализировать и планировать в трехмерном пространстве и управлять действиями роботов.
Можно видеть, что в области больших моделей все еще происходят большие события.
Справочное содержание: