CMU Tsinghua MIT detonó la primera transmisión infinita de Agentes del mundo, ¡y el robot "007" no puede dejar de trabajar horas extras y aprender por sí mismo! Se revoluciona la inteligencia encarnada

2023-11-04 08:23:51

Fuente del artículo: New Zhiyuan

Editor: Eneas tiene sueño

Recientemente, RoboGen, el primer agente robótico generativo del mundo propuesto por CMU/MIT/Tsinghua/Umass, puede generar datos de forma infinita y permitir que los robots entrenen sin parar las 24 horas del día, los 7 días de la semana. AIGC for Robotics es, de hecho, el camino del futuro.

¡Se ha lanzado el primer agente bot generativo del mundo!

Durante mucho tiempo, en comparación con los modelos de lenguaje o visión que pueden entrenarse con datos de Internet a gran escala, el modelo estratégico para entrenar robots requiere datos con información dinámica de interacción física, y la falta de estos datos siempre ha sido el mayor cuello de botella en el desarrollo de la inteligencia incorporada.

Recientemente, investigadores de la CMU, la Universidad de Tsinghua, el MIT, la UMass y otras instituciones han propuesto un nuevo agente RoboGen.

Utilizando el conocimiento a gran escala contenido en grandes modelos de lenguaje y modelos generativos, junto con la información física proporcionada por mundos simulados realistas, se pueden generar varias tareas, escenarios y datos de enseñanza "ilimitados", y el robot puede entrenarse completamente las 24 horas del día, los 7 días de la semana.

En este momento, nos estamos quedando rápidamente sin tokens del mundo real de alta calidad de la red. Los datos utilizados para entrenar la IA en todo el mundo se están agotando.

Hinton, el padre del aprendizaje profundo, dijo: "Las empresas de tecnología están entrenando nuevos modelos con 100 veces más potencia de cálculo que GPT-4 en los próximos 18 meses". Los parámetros del modelo son más grandes y la demanda de potencia de cálculo es enorme, pero ¿dónde están los datos?

Frente a los modelos hambrientos, la síntesis de IA es la respuesta.

Dirección:

Página de inicio del proyecto:

Dirección de código abierto:

En concreto, un equipo de investigación dirigido por Gan Chuang, científico jefe del MIT-IBM, propuso un bucle de "proponer-generar-aprender" con el apoyo de la IA generativa y simulaciones de física diferenciable, que permite a los agentes resolver problemas y entrenar robots por su cuenta.

En primer lugar, el agente sugirió que debíamos desarrollar esta habilidad.

A continuación, genera el entorno, la configuración y la guía de aprendizaje de aptitudes adecuados para crear un entorno simulado.

Finalmente, el agente descompondrá la tarea de nivel superior propuesta en subtareas, seleccionará el mejor método de aprendizaje y luego aprenderá la estrategia y dominará las habilidades propuestas.

Vale la pena señalar que todo el proceso casi no requiere supervisión humana, ¡y la cantidad de tareas es ilimitada!

Para este exitoso estudio, Jim Fan, científico sénior de NVIDIA, también lo envió.

Ahora, el robot ha aprendido una serie de operaciones de voladura:

Coloque sus pertenencias en un casillero:

Calienta un plato de sopa en el microondas:

Tire de la palanca para preparar café:

Además de volteretas hacia atrás y más:

Entorno simulado, la clave para el aprendizaje de habilidades diversas

El eterno dilema en la investigación robótica es cómo dotar a los robots de las habilidades necesarias para operar en entornos no industriales y realizar una amplia gama de tareas para los humanos.

En los últimos años, hemos enseñado a los robots una variedad de habilidades complejas, como la manipulación de fluidos, el lanzamiento de objetos, jugar al fútbol, el parkour y más, pero estas habilidades están aisladas, tienen un campo de visión corto y requieren descripciones de tareas diseñadas por humanos y supervisión de entrenamiento.

Debido a que la recopilación de datos del mundo real es costosa y laboriosa, estas habilidades se entrenan en simulaciones aleatorias en el dominio apropiado y luego se implementan en el mundo real.

Los entornos simulados tienen muchas ventajas sobre la exploración y la recopilación de datos en el mundo real, como proporcionar acceso privilegiado a un estado de bajo nivel y oportunidades ilimitadas de exploración; Admite computación paralela masiva y la velocidad de recopilación de datos se acelera significativamente; Permite que los bots desarrollen estrategias de bucle cerrado y capacidades de recuperación de errores.

Sin embargo, la construcción de un entorno simulado requiere una serie de tareas tediosas (diseño de tareas, selección de activos relevantes y semánticamente significativos, generación de diseños y configuraciones de escenarios sensatos, formulación de la supervisión de la formación, como las funciones de recompensa o pérdida). Incluso en el mundo simulado, la escalabilidad del aprendizaje de habilidades robóticas es muy limitada.

Por ello, los investigadores proponen un paradigma de "simulación generativa" que combina los avances en el aprendizaje de habilidades robóticas simuladas con los últimos avances en modelos fundacionales y generativos.

Aprovechando las capacidades de generación de modelos base de última generación, las simulaciones generativas pueden generar información para todas las etapas requeridas para las diversas habilidades robóticas en la simulación.

Gracias al amplio conocimiento de codificación en los últimos modelos base, los datos de escenarios y tareas generados de esta manera pueden ser muy similares a la distribución de escenarios del mundo real.

Además, estos modelos pueden proporcionar subtareas de bajo nivel descompuestas que se pueden manejar sin problemas mediante métodos de aprendizaje de políticas específicas del dominio, lo que da como resultado demostraciones de bucle cerrado de varias habilidades y escenarios.

Proceso RoboGen

RoboGen es un proceso totalmente automatizado que permite a los robots aprender diversas habilidades las 24 horas del día, los 7 días de la semana y consta de 4 etapas:

Propuesta de tarea;
Generación de escenas;
Capacitación de generación supervisada;
Utilizar la información generada para el aprendizaje de habilidades.

Aprovechando el sentido común integrado y las capacidades de generación de los últimos modelos base, RoboGen puede automatizar la generación de tareas, escenarios y supervisión de capacitación, lo que permite el aprendizaje de múltiples habilidades para robots a escala.

Sugerencia de tarea

En esta etapa, RoboGen es capaz de proponer tareas de nivel superior, generar el entorno correspondiente, descomponer los objetivos de nivel superior en subtareas de bajo nivel y luego aprender subhabilidades secuencialmente.

En primer lugar, RoboGen genera tareas significativas, diversas y de alto nivel para que el robot las aprenda.

El investigador inicializa el sistema utilizando un tipo de robot específico y muestras aleatorias de objetos de la piscina. A continuación, se introduce la información proporcionada sobre el robot y el objeto de muestra en el LLM.

Este proceso de muestreo garantiza la diversidad de tareas de generación.

Por ejemplo, un robot con patas, como un robot cuadrúpedo, puede adquirir una variedad de habilidades motoras, mientras que un manipulador de brazo robótico, cuando se empareja, tiene el potencial de realizar una variedad de tareas de manipulación con diferentes objetos de muestreo.

Los investigadores utilizaron GPT-4 para realizar consultas en el proceso actual. A continuación, se explican los detalles de RoboGen en el contexto de una máquina, así como las tareas relacionadas con la manipulación de objetos.

Los objetos utilizados para la inicialización se muestrean a partir de una lista predefinida, incluidos los objetos articulados y no articulados que son comunes en las escenas domésticas, como hornos, microondas, dispensadores de agua, ordenadores portátiles, lavavajillas, etc.

Debido a que GPT-4 ha sido entrenado en grandes conjuntos de datos de Internet, tiene una rica comprensión de la capacidad de estos objetos, cómo interactuar con ellos y con qué tareas significativas se pueden asociar.

Por ejemplo, si el objeto articulado muestreado es un horno de microondas, donde la junta 0 es la junta giratoria que conecta la puerta y la junta 1 es otra junta giratoria que controla la perilla del temporizador, GPT-4 devolverá una tarea: "El brazo robótico coloca un tazón de sopa en el horno microondas, cierra la puerta y configura el temporizador de microondas para calentar el tiempo a".

Los otros objetos necesarios para la tarea generada, hay un tazón de sopa a y las articulaciones y enlaces asociados con la tarea, incluida la articulación 0 (para abrir la puerta del microondas), la articulación 1 (para configurar el temporizador), el enlace 0 (a la puerta) y el vínculo 1 (la perilla del temporizador).

En el caso de los objetos articulados, dado que PartNetMobility es el único conjunto de datos de objetos articulados de alta calidad y ya cubre una amplia gama de activos articulados, las tareas se generan en función de los activos muestreados.

Al consultar repetidamente diferentes objetos muestreados y ejemplos, se puede generar una variedad de operaciones y tareas de movimiento.

Generación de escenas

Dada una tarea, puede continuar generando el escenario de simulación correspondiente para aprender las habilidades necesarias para completar esa tarea.

Como se muestra en la imagen, los componentes y las configuraciones de la escena se generan de acuerdo con la descripción de la tarea y se recuperan o generan los activos del objeto, que luego se rellenan con la escena de simulación.

Los componentes y configuraciones de la escena se componen de los siguientes elementos: una consulta para el activo relacionado que se va a rellenar en la escena, sus parámetros físicos (como el tamaño), la configuración (como el ángulo de articulación inicial) y la configuración espacial general del recurso.

Además de los activos de objetos necesarios necesarios para la tarea generada en el paso anterior, con el fin de aumentar la complejidad y diversidad de la escena generada, al tiempo que se asemeja a la distribución de objetos de la escena real, los investigadores también pidieron a GPT-4 que devolviera consultas adicionales para objetos relacionados con la semántica de la tarea.

Por ejemplo, para la tarea "Abre el armario, pon el juguete en él y ciérralo", la escena resultante también incluirá una alfombra de salón, una lámpara, un libro y una silla de oficina.

### Capacitación Generación Supervisada

Con el fin de adquirir habilidades relevantes, el aprendizaje de habilidades debe ser supervisado.

RoboGen primero consultará GPT-4 para planificar y dividir las tareas largas en subtareas más cortas.

Una suposición clave es que cuando una tarea se divide en subtareas suficientemente cortas, cada subtarea puede resolverse de manera confiable mediante algoritmos existentes como el aprendizaje por refuerzo, la planificación del movimiento, la optimización de trayectorias, etc.

Después de la descomposición, RoboGen consulta a GPT-4 para seleccionar el algoritmo apropiado para resolver cada subtarea.

En RoboGen se integran varios tipos diferentes de algoritmos de aprendizaje: aprendizaje por refuerzo, estrategias evolutivas, optimización de trayectorias basada en gradientes e inicialización de acciones con planificación de movimiento.

Cada uno es adecuado para diferentes tareas, como la optimización de trayectorias basada en gradientes, que es más adecuada para aprender tareas de manipulación de grano fino que involucran cuerpos blandos, como dar forma a la masa en una forma objetivo.

La inicialización de acciones en combinación con la planificación del movimiento es más fiable a la hora de resolver tareas, como acercarse a un objeto objetivo a través de una ruta sin colisiones.

El aprendizaje por refuerzo y las estrategias evolutivas son más adecuadas para tareas ricas en contacto que implican una interacción constante con otros componentes de la escena, como los movimientos de las piernas, o cuando la acción deseada no puede ser simplemente parametrizada por una pose discreta del efector final, como girar la perilla de un horno.

En resumen, GPT-4 elige qué algoritmo utilizar en línea en función de las subtareas generadas.

A continuación, es el momento de construir un escenario de simulación para el robot y dejar que aprenda habilidades.

Robot aprende a abrir caja fuerte

Por ejemplo, RoboGen le pedirá al robot que aprenda la delicada tarea de ajustar la dirección de una lámpara de escritorio.

Curiosamente, en esta escena, hay objetos frágiles como monitores de computadora en el suelo.

Se puede decir que es una gran prueba de la capacidad de reconocimiento ambiental del robot.

Para ello, RoboGen genera un código de operación muy detallado, que incluye la configuración de la escena, la descomposición de tareas y la supervisión:

Además, se entrenarán tareas que requieren muchos pasos para completarse, como hacer que el robot saque el contenido de la caja fuerte.

Esto implica abrir, tomar, bajar, cerrar la puerta y otras operaciones, durante las cuales también es necesario tratar de evitar colisiones con los muebles.

El código dado por RoboGen es el siguiente:

O, por ejemplo, hacer girar un robot humanoide en Boston Dynamics, que se puede encontrar en un espacio pequeño.

Aquí está el código:

Resultados experimentales

- Diversidad de misiones

Como se muestra en la Tabla 1, RoboGen logra la menor similitud de auto-BLEU e incrustación en comparación con todos los puntos de referencia anteriores. En otras palabras, la diversidad de las tareas de generación de RoboGen es mayor que la de los puntos de referencia y conjuntos de datos de aprendizaje de habilidades creados artificialmente.

- Efectividad del escenario

Como se muestra en la Figura 4, la eliminación de la verificación de tamaño da como resultado una fuerte caída en las puntuaciones de BLIP-2 debido a la gran discrepancia entre el tamaño de los objetos en Objaverse y PartNetMobility y el tamaño real en el mundo real. Además, BLIP-2 sin validación de objetos también tuvo una puntuación más baja y una mayor varianza.

Por el contrario, el paso de validación en RoboGen puede mejorar significativamente la eficacia de la selección de objetos.

- Efectividad de las instrucciones de entrenamiento

Como se muestra en la Figura 3, el robot aprende habilidades basadas en la guía de entrenamiento (es decir, la descomposición de tareas y la función de recompensa) generada por RoboGen en cuatro tareas de largo alcance.

Los resultados muestran que el robot aprende con éxito las habilidades para completar las tareas correspondientes. En otras palabras, los entrenadores de entrenamiento autogenerados son efectivos para derivar habilidades significativas y útiles.

- Aprendizaje de habilidades

Los resultados de la Tabla 2 muestran que permitir la elección del algoritmo de aprendizaje es beneficioso para mejorar el rendimiento de completar la tarea. Si solo usa RL, fallará el aprendizaje de habilidades para la mayoría de las tareas.

-Sistema

Como se muestra en la Figura 1, RoboGen puede generar una variedad de tareas para el aprendizaje de habilidades, incluida la manipulación de objetos rígidos/articulados, la locomoción y la manipulación de cuerpos blandos.

La Figura 3 muestra además que RoboGen es capaz de proporcionar habilidades de operación de largo alcance de una manera razonable de descomposición.

Introducción del autor

Yufei Wang es un estudiante de doctorado de tercer año en el Instituto de Robótica de la Universidad Carnegie Mellon, donde es supervisado por el Prof. Zackory Erickson y el Prof. David Held, con un interés de investigación en el aprendizaje de la robótica.

Anteriormente, recibió su maestría en ciencias de la computación de CMU en diciembre de 2020 bajo la supervisión del Prof. David Held, y su licenciatura en ciencia de datos del Yuanpei College de la Universidad de Pekín en julio de 2019 bajo la supervisión del Prof. Bin Dong.

Zhou Xian es estudiante de doctorado en el Instituto de Robótica de la Universidad Carnegie Mellon bajo la supervisión de Katerina Fragkiadaki. Sus intereses de investigación son la robótica, la visión por computadora y el aprendizaje de modelos de mundo.

Antes de unirse a CMU, completó su licenciatura en la Universidad Tecnológica de Nanyang, Singapur, bajo la supervisión de Pham Quang Cuong e I-Ming Chen. También ha realizado prácticas en Meta AI, Akshara Rai y MIT-IBM AI Lab bajo la tutela de Chuang Gan.

Actualmente, su investigación se centra en la construcción de una estrategia neuronal unificada y una infraestructura de simulación para el aprendizaje robótico escalable.

Además, también está Chen Feng de Tsinghua Yao Ban.

El líder del equipo, Gan Chuang, es actualmente el científico jefe de IBM y profesor asistente en la Universidad de Massachusetts, y es discípulo del académico Yao Chizhi. Durante su doctorado, ganó el Premio Especial Tsinghua, Microsoft Scholar y Baidu Scholar. Su investigación ha sido financiada por el Premio de Investigación de Amazon, el Premio de la Facultad de Sony, el Premio de la Facultad de Cisco, el Programa de Investigación de Modelos de la Fundación Microsoft Accelerate y otros.

Recursos:

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

Recompensa
Me gusta
Comentar
Republicar
Compartir

Comentar

0/400

Sin comentarios

Tema
#Gate & WLFI USD1 Points Program
59k Popularidad
#Trump Allows 401(k) Crypto Investing
34k Popularidad
#Join Copy Trading Share to Win $2,000
27k Popularidad
#Show My Alpha Points
77k Popularidad
#SOL Futures Reach New High
22k Popularidad

Anclado