¡Me tomó 2 años, Meta se asoció con CMU para crear la "inteligencia de robot universal" más fuerte! Un generalista que limpia el té y los tazones, generaliza fácilmente más de 100 tareas desconocidas

2023-08-21 06:35:04

**Fuente:**Xinzhiyuan

**Guía: ** En el camino hacia la "inteligencia robótica universal", Google se ha vuelto popular con RT-2. Ahora, RoboAgent, que los equipos de Meta y CMU tardaron 2 años en desarrollar, utiliza una pequeña cantidad de datos para realizar 12 habilidades complejas y puede hacer de todo, desde preparar té hasta limpiar la mesa.

El modelo explosivo está remodelando la investigación de los "agentes robóticos universales".

Hace algún tiempo, Google DeepMind lanzó el proyecto RT-2, que tardó 7 meses en construirse, puede razonar matemáticamente e identificar estrellas y se hizo popular en Internet.

Además de Google, los investigadores de Meta y CMU dedicaron 2 años a construir el agente robótico de propósito general "RoboAgent" más potente de la historia.

La diferencia es que RoboAgent solo se entrena en 7500 trayectorias.

Específicamente, RoboAgent implementó 12 habilidades complejas diferentes en 38 tareas, como hornear, recoger artículos, servir té, limpiar la cocina, etc.

Incluso, su habilidad puede generalizarse a 100 escenarios desconocidos.

Se puede decir que si subes al recibidor, puedes bajar a la cocina.

Curiosamente, no importa cuánto interfiera con él, RoboAgent aún logra completar la tarea.

¿Qué más puede hacer RoboAgent?

Hornear, servir té, limpiar la mesa a mano

En primer lugar, RoboAgent puede abrir o cerrar cajones sin problemas.

Aunque el yogur casi se volcó cuando se abrió, básicamente no hubo retraso en la conexión de la acción, y la acción de empujar y tirar se completó sin problemas.

Además de los cajones, RoboAgent puede abrir o cerrar fácilmente la puerta del horno microondas.

Pero en lugar de agarrar la manija como un ser humano, se atascó en el espacio entre la manija y la puerta y abrió y cerró la puerta del microondas con fuerza.

Del mismo modo, cuando se enfrenta a las tapas de botellas y latas, RoboAgent también puede manipular, abrir y cerrar las tapas con precisión, sin desorden.

Sin embargo, en la cocina, además de los tarros de condimentos tapados, también hay algunos tarros que hay que desenroscar, como vino de cocina y Laoganma, etc...

Afortunadamente, para varias tareas de recoger y colocar, RoboAgent básicamente no es motivo de preocupación.

En el video, RoboAgent saca cosas del cajón o pone bolsitas de té en tazas, enciende el microondas y coloca tazones, etc. Lo que se muestra es que RoboAgent puede comprender la serie de acciones involucradas en tareas como preparar té y calentar comida.

Disponer y combinar las nueve acciones anteriores puede cubrir básicamente una serie de tareas en la cocina.

Los ejemplos incluyen preparar para hornear, limpiar la cocina, servir sopa, preparar té, guardar cubiertos y más.

Cuando se prepara para hornear, el primer paso es abrir el cajón y encontrar la mantequilla dentro. Cuando lo encuentres, pon la mantequilla en la tabla de cortar y finalmente cierra el cajón.

Parece que la secuencia lógica de la serie de acciones de RoboAgent es muy parecida a la escena de la vida real.

Pero RoboAgent todavía no es tan flexible como los humanos, sin mencionar que los humanos tienen dos manos, que pueden sostener la mantequilla con una mano y cerrar el cajón con la otra. Incluso con una sola mano, un ser humano puede sostener la mantequilla mientras empuja el cajón hacia los lados. Pero RoboAgent solo puede poner la mantequilla primero y luego cerrar el cajón.

No parece tan flexible.

Al limpiar la cocina, RoboAgent también sigue cuatro pasos:

Cierra primero el cajón, luego el microondas. Luego saque una toalla del costado y finalmente limpie la tabla de cortar.

Para servir la sopa, RoboAgent primero enciende el microondas y luego retira el recipiente del microondas. Luego pon el bol sobre la mesa y por último apaga el microondas.

Pero el desempeño de RoboAgent aquí no es tan tranquilizador.

Solo se puede decir que, afortunadamente, el tazón en el video de demostración está vacío. Si RoboAgent realmente puede recoger el tazón lleno de comida en realidad, se estima que la comida se esparcirá por el suelo tan pronto como la recoja. arriba

Sin embargo, RoboAgent es útil para preparar té:

Primero retire la tapa de la tetera, saque la bolsita de té del interior, luego deje caer la bolsita de té en la taza con precisión y finalmente levante la tapa y vuelva a colocarla en la tetera.

Pero está un paso más cerca de la taza de té perfecta: vierta agua. ¿O RoboAgent nos invita a beber aire con olor a té?

En cuanto al rendimiento del RoboAgent mencionado anteriormente, aunque la mayoría de las tareas se pueden completar sin problemas, todavía es demasiado inconveniente tener una sola mano.

Espero que Meta y CMU puedan darle más manos a RoboAgent, para que pueda hacer varias cosas al mismo tiempo, mejorando mucho la eficiencia.

Se necesitaron 2 años para crear un "agente robot universal"

Los investigadores de Meta y CMU esperan que RoboAgent pueda convertirse en un verdadero agente robótico de propósito general.

Durante los últimos 2 años, están constantemente avanzando en el proyecto. RoboAgent es una colección de investigación multidireccional y también es el punto de partida para más direcciones de investigación en el futuro.

En el desarrollo de "agentes de robots universales", los investigadores se inspiraron en muchos proyectos recientes de aprendizaje de robots generalizables.

En la actualidad, en el camino hacia un agente robot general, es necesario resolver dos problemas importantes.

** Uno es el dilema de causa y efecto. **

Contar con un robot capaz de manipular objetos arbitrarios en diferentes entornos ha sido un objetivo lejano y ambicioso durante décadas. Esto se debe en parte a la falta de conjuntos de datos para entrenar a dichos agentes, pero también a la falta de agentes generales capaces de generar dichos datos.

El segundo es deshacerse del círculo vicioso. **

Para salir de este círculo vicioso, la investigación se centra en desarrollar un paradigma efectivo.

Puede proporcionar un agente general capaz de adquirir múltiples habilidades con un presupuesto de datos realista y generalizarlos a varias situaciones desconocidas.

Dirección en papel:

Según la introducción, RoboAgent se basa en los siguientes elementos modulares y compensables:

- RoboPen：

La infraestructura robótica distribuida construida con hardware básico puede funcionar sin interrupciones durante mucho tiempo.

- RoboHive：

Un marco unificado para el aprendizaje de robots en simulación y operaciones del mundo real.

- RoboSet： Un conjunto de datos de alta calidad que representa diversas habilidades de objetos cotidianos en diferentes escenas.

- MT-ACT:

Un marco eficiente para el aprendizaje de imitación fuera de línea en tareas múltiples condicionales lingüísticas. Multiplica los conjuntos de datos fuera de línea mediante la creación de un conjunto diverso de aumentos semánticos basados en la experiencia robótica existente y emplea una arquitectura de políticas novedosa con una representación de acción eficiente para recuperar políticas de alto rendimiento dentro de un presupuesto de datos.

Bloque de acción, nueva estructura MT-ACT

Para aprender las políticas operativas generales, los robots deben estar expuestos a experiencias ricas y diversas, incluidas varias habilidades y cambios ambientales.

Sin embargo, los costos operativos y los desafíos prácticos de recopilar un conjunto de datos tan extenso limitan el tamaño total del conjunto de datos.

El objetivo de los investigadores es abordar estas limitaciones mediante el desarrollo de un paradigma que pueda aprender agentes multitarea efectivos con un presupuesto de datos limitado.

Como se muestra en la figura a continuación, los equipos de Meta y CMU propusieron MT-ACT, el Transformador de fragmentación de acción multitarea (Multi-Task Action Chunking Transformer).

Este método consta de 2 etapas:

Fase 1: Mejora Semántica

RoboAgent inyecta antecedentes mundiales a partir de modelos base existentes mediante la creación de un aumento semántico del conjunto de datos de RoboSet (MT-ACT).

El conjunto de datos resultante multiplica la experiencia del robot con mundos previos sin costo adicional humano/robot.

Luego, los investigadores utilizaron el SAM para segmentar y mejorar semánticamente el objeto de destino en objetos distintos con variaciones en forma, color y textura.

Fase 2: Representación Eficiente de Políticas

El conjunto de datos resultante es multimodal y contiene una rica variedad de habilidades, tareas y escenarios.

Al adaptar la fragmentación de acciones a entornos multitarea, los investigadores desarrollan MT-ACT, una representación de políticas novedosa y eficiente que puede ingerir conjuntos de datos altamente multimodales y evitar el sobreajuste en entornos de bajo presupuesto de datos.

Los siguientes son los diversos componentes de la estrategia MT-ACT.

Conjunto de datos RoboSet

El objetivo del estudio era establecer un paradigma de aprendizaje robótico eficiente en datos, para lo cual los investigadores se limitaron a un conjunto de datos pequeño pero diverso congelado y recopilado previamente.

Para capturar la diversidad de comportamiento, los investigadores también aplicaron diferentes habilidades a diferentes tareas en diferentes escenarios de cocina.

En este proyecto, el conjunto de datos RoboSet (MT-ACT) consta de 7500 trayectorias recopiladas por teleoperación humana.

El conjunto de datos contiene 12 habilidades que abarcan múltiples tareas y escenarios.

La siguiente figura muestra la distribución de habilidades en el conjunto de datos.

Si bien la habilidad de "seleccionar y colocar" de uso común representa el 40% del conjunto de datos, también se incluyen habilidades de contacto ricas como limpiar, tapar y habilidades que involucran objetos articulados (abrir, cerrar).

Los investigadores recopilaron el conjunto de datos completo en 4 instancias diferentes de escenas de cocina, que contienen varios objetos cotidianos.

Además, el equipo intercambió cada instancia de la escena con diferentes variaciones del objeto, lo que permitió que cada habilidad alcanzara múltiples objetos objetivo e instancias de la escena.

Aumento de datos

Dado que los conjuntos de datos recopilados no pueden satisfacer la necesidad de diversidad de escenas y objetos, los investigadores aumentan el conjunto de datos agregando diferentes escenas cambiantes fuera de línea mientras preservan el comportamiento de manipulación en cada trayectoria.

Sobre la base de los avances recientes en la segmentación y los modelos de pintura, los investigadores destilan antecedentes semánticos del mundo real de los datos de Internet para modificar escenas de una manera estructurada.

Arquitectura MT-ACT

La arquitectura de políticas de MT-ACT está diseñada como un modelo Transformer con capacidad suficiente para manejar conjuntos de datos de robots multimodales y multitarea.

Para capturar datos multimodales, los investigadores siguen el trabajo anterior al agregar un CVAE que codifica secuencias de acción como incrustaciones de estilo latente z.

Para modelar datos de tareas múltiples, empleamos un codificador de lenguaje previamente entrenado que aprende una T incrustada de una descripción específica de la tarea.

Para reducir el problema del error compuesto, las acciones en H pasos por delante se predicen en cada paso de tiempo y se realizan suavizando temporalmente las acciones superpuestas predichas en un paso de tiempo particular.

Además, para mejorar la solidez a los cambios de escena, los investigadores proporcionaron la estrategia MT-ACT con cuatro vistas diferentes del espacio de trabajo a través de 4 ángulos de cámara.

Luego, se utiliza un método de acondicionamiento basado en FiLM para garantizar que los tokens de imagen puedan enfocarse de manera confiable en las instrucciones del idioma, de modo que la estrategia MT-ACT no confunda las tareas cuando puede haber varias tareas en una escena.

Los tokens codificados ingresarán al decodificador de políticas de Transformer con incrustación de posición fija y, finalmente, generarán el siguiente bloque de acción (acciones H).

En el momento de la ejecución, el investigador toma el promedio de todas las operaciones superpuestas previstas en el paso de tiempo actual (cuando H > 1, los bloques de acción se superponen) y ejecuta la acción promediada resultante.

Una pequeña cantidad de datos, ponte al día con Google RT-1

¿Cómo funciona la estrategia MT-ACT en el mundo real?

Los investigadores evaluaron experimentalmente la eficiencia de la muestra del marco propuesto, así como la generalidad del agente en diferentes escenarios.

La siguiente figura compara la estrategia MT-ACT con arquitecturas de aprendizaje de imitación comúnmente utilizadas.

Los investigadores solo trazaron los resultados de la generalización de L1 porque esta es la configuración estándar utilizada por la mayoría de los demás algoritmos de aprendizaje por imitación.

Como se puede ver en la figura, todos los métodos que solo simulan el comportamiento del siguiente paso (en lugar de las subtrayectorias) funcionan mal.

Entre estos métodos, los investigadores encontraron que el método basado en la agrupación de acciones (BeT) funcionó mucho peor en el entorno de múltiples tareas.

Además, métodos como RT1 que requieren grandes cantidades de datos no funcionan bien en este entorno debido al régimen de datos bajos utilizado en el estudio.

Por el contrario, la estrategia MT-ACT utiliza la inspección de acciones para modelar subtrayectorias, lo que supera significativamente a todos los métodos de referencia.

La Figura 7 (abajo a la derecha) muestra los resultados de todos los métodos en múltiples niveles de generalización (L1, l2 y L3).

Además, los investigadores informan los resultados de generalización para cada actividad por separado. En la Figura 8, podemos ver que cada método de mejora semántica afecta positivamente el rendimiento de cada actividad.

Finalmente, los investigadores también investigaron la arquitectura utilizando diferentes diseños, como el tamaño de los bloques de representación de acciones, la plasticidad y la robustez.

Referencias:

conjunto robotizado/

suplementario.html

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

Recompensa
Me gusta
Comentar
Compartir

Comentar

0/400

Sin comentarios

Tema
Gate 2025 Q2 Report Released
37k Popularidad
Altcoin Season Update
14k Popularidad
Bitcoin Whale Moves
8k Popularidad
4Gate Derivatives Volume Hits New High
16k Popularidad
5CPI Data Incoming
62k Popularidad
6Join Gate VIP to Win MacBook
31k Popularidad
7MicroStrategy Buys More Bitcoin
3k Popularidad
8BTC Hits New High
112k Popularidad
9My Gate Moments
27k Popularidad
10VIP Exclusive Airdrop Carnival
27k Popularidad

Anclado