Con GPT-4, el robot aprendió a girar el bolígrafo y el plato de nueces

Corazón de máquina original

Editor: Zhang Qian, Chen Ping

Con la combinación de GPT-4 y el aprendizaje por refuerzo, ¿cómo será el futuro de la robótica?

Cuando se trata de aprender, GPT-4 es un estudiante formidable. Después de digerir una gran cantidad de datos humanos, dominó varios conocimientos e incluso inspiró al matemático Tao Zhexuan en el chat.

Al mismo tiempo, se ha convertido en un excelente maestro y no solo enseña el conocimiento de los libros, sino que también enseña a los robots a girar bolígrafos.

El robot, llamado Eureka, fue un estudio de Nvidia, la Universidad de Pensilvania, el Instituto de Tecnología de California y la Universidad de Texas en Austin. Este estudio combina los resultados de grandes modelos lingüísticos y el aprendizaje por refuerzo: GPT-4 se utiliza para refinar la función de recompensa y el aprendizaje por refuerzo se utiliza para entrenar al controlador del robot.

Con la capacidad de GPT-4 para escribir código, Eureka tiene excelentes capacidades de diseño de funciones de recompensa, y sus recompensas autogeneradas son superiores a las de los expertos humanos en el 83% de las tareas. Esta capacidad permite al robot realizar muchas tareas que antes no eran fáciles de hacer, como girar bolígrafos, abrir cajones y armarios, lanzar pelotas para atrapar y botar, operar tijeras, etc. Por el momento, sin embargo, todo esto se hace en un entorno virtual.

Además, Eureka implementó un nuevo tipo de RLHF en contexto que incorpora retroalimentación de lenguaje natural de operadores humanos para guiar y alinear las funciones de recompensa. Puede proporcionar a los ingenieros de robótica potentes funciones auxiliares para ayudar a los ingenieros a diseñar comportamientos de movimiento complejos. Jim Fan, científico sénior de IA en NVIDIA y uno de los autores del artículo, comparó el estudio con "Voyager en el espacio API del simulador de física".

Vale la pena mencionar que este estudio es completamente de código abierto, y la dirección de código abierto es la siguiente:

Enlace de papel:

Enlace al proyecto:

Enlace de código:

Resumen del papel

Los grandes modelos de lenguaje (LLM) sobresalen en la planificación semántica de alto nivel de tareas robóticas (como SayCan de Google, bots RT-2), pero si se pueden usar para aprender tareas operativas complejas y de bajo nivel, como girar el lápiz, sigue siendo una pregunta abierta. Los intentos existentes requieren mucha experiencia en el dominio para crear indicaciones de tareas o aprender solo habilidades simples, lejos de la flexibilidad a nivel humano.

El robot RT-2 de Google

El aprendizaje por refuerzo (RL), por otro lado, ha logrado resultados impresionantes en flexibilidad y muchos otros aspectos (como el manipulador de OpenAI que reproduce el cubo de Rubik), pero requiere que los diseñadores humanos construyan cuidadosamente funciones de recompensa que codifiquen con precisión y proporcionen señales de aprendizaje para el comportamiento deseado. Dado que muchas tareas de aprendizaje por refuerzo del mundo real solo proporcionan recompensas dispersas que son difíciles de usar para el aprendizaje, la forma de recompensa es necesaria en la práctica para proporcionar señales de aprendizaje progresivas. Aunque la función de recompensa es muy importante, es notoriamente difícil de diseñar. Una encuesta reciente encontró que el 92% de los investigadores y profesionales del aprendizaje por refuerzo encuestados dijeron que cometieron pruebas y errores humanos al diseñar recompensas, y el 89% dijo que diseñaron recompensas que no eran óptimas y conducirían a un comportamiento inesperado.

Dado que el diseño de recompensas es tan importante, no podemos evitar preguntarnos, ¿es posible desarrollar un algoritmo de programación de recompensas universal utilizando LLM de codificación de última generación como GPT-4? Estos LLM sobresalen en la codificación, la generación de disparo cero y el aprendizaje en contexto, y han mejorado en gran medida el rendimiento de los agentes de programación. Idealmente, este algoritmo de diseño de recompensas debería tener capacidades de generación de recompensas a nivel humano que puedan escalar a una amplia gama de tareas, automatizar tediosos procesos de prueba y error sin supervisión humana y ser compatible con la supervisión humana para garantizar la seguridad y la coherencia.

En este artículo se propone un algoritmo de diseño de recompensas impulsado por LLM, EUREKA (Evolution-driven Universal REward Kit for Agent). El algoritmo logra lo siguiente:

El rendimiento del diseño de recompensa alcanza el nivel humano en 29 entornos RL de código abierto diferentes, que incluyen 10 formas diferentes de robot (cuadrúpedo, cuadricóptero, bípedo, manipulador y varias manos diestras, consulte la Figura 1). Sin ningún tipo de indicaciones específicas para cada tarea o plantillas de recompensas, las recompensas autogeneradas de EUREKA superaron a las de los expertos humanos en el 83% de las tareas y lograron una mejora media de la normalización del 52%.

2. Resuelva las tareas de operación diestras que antes no se podían lograr a través de la ingeniería manual de recompensas. Tomemos el problema del giro del bolígrafo, por ejemplo, en el que una mano con solo cinco dedos necesita girar rápidamente el bolígrafo de acuerdo con una configuración de rotación preestablecida y rotar tantos ciclos como sea posible. Al combinar EUREKA con el trabajo del curso, los investigadores demostraron por primera vez la operación de un giro rápido del lápiz en una "Mano de la Sombra" antropomórfica simulada (ver la parte inferior de la Figura 1).

  1. Este artículo proporciona un nuevo método de aprendizaje contextual sin gradientes para el aprendizaje por refuerzo basado en la retroalimentación humana (RLHF), que puede generar funciones de recompensa más eficientes y alineadas con el ser humano basadas en diversas formas de aportación humana. El documento muestra que EUREKA puede beneficiarse y mejorar las funciones de recompensa humanas existentes. Del mismo modo, los investigadores demostraron la capacidad de EUREKA para utilizar la retroalimentación textual humana para ayudar en el diseño de funciones de recompensa, que ayudan a capturar las preferencias humanas sutiles.

A diferencia de los trabajos anteriores de L2R que utilizaban el diseño de recompensas asistido por LLM, EUREKA no tiene indicaciones específicas para la tarea, plantillas de recompensas y un puñado de ejemplos. En el experimento, EUREKA se desempeñó significativamente mejor que L2R debido a su capacidad para generar y refinar programas de recompensa expresivos y de forma libre.

La versatilidad de EUREKA se debe a tres opciones clave de diseño del algoritmo: el contexto como contexto, la búsqueda evolutiva y la reflexión de recompensa.

En primer lugar, utilizando el código fuente del entorno como contexto, EUREKA puede generar funciones de recompensa ejecutables a partir de cero muestras en el LLM de codificación troncal (GPT-4). A continuación, EUREKA mejora en gran medida la calidad de las recompensas mediante la realización de búsquedas evolutivas, la propuesta iterativa de lotes de candidatos a recompensas y el perfeccionamiento de las recompensas más prometedoras en la ventana de contexto de LLM. Esta mejora en el contexto se logra a través de la reflexión de recompensas, que es un resumen de texto de calidad de recompensa basado en estadísticas de entrenamiento de estrategias que permite la edición automática y dirigida de recompensas.

LA FIG. 3 MUESTRA UN EJEMPLO DE LA RECOMPENSA DE MUESTRA CERO DE EUREKA Y LAS MEJORAS ACUMULADAS DURANTE LA OPTIMIZACIÓN. Para garantizar que EUREKA sea capaz de escalar su búsqueda de recompensas a su máximo potencial, EUREKA utiliza el aprendizaje de refuerzo distribuido acelerado por GPU en IsaacGym para evaluar las recompensas intermedias, lo que proporciona una mejora de hasta tres órdenes de magnitud en la velocidad de aprendizaje de políticas, lo que convierte a EUREKA en un algoritmo amplio que escala de forma natural a medida que aumenta la cantidad de cálculo.

Esto se muestra en la Figura 2. Los investigadores se comprometen a abrir el código de todos los consejos, entornos y funciones de recompensa generadas para facilitar una mayor investigación sobre el diseño de recompensas basado en LLM.

Introducción al método

EUREKA puede escribir el algoritmo de recompensa de forma autónoma, cómo se implementa, veámoslo a continuación.

EUREKA consta de tres componentes algorítmicos: 1) utilizar el entorno como contexto, lo que permite la generación de recompensas ejecutables de disparo cero; 2) búsqueda evolutiva, proponiendo y refinando iterativamente candidatos a recompensas; 3) Recompense la reflexión y apoye la mejora de la recompensa de grano fino.

El entorno como contexto

En este artículo se recomienda proporcionar el código de entorno original directamente como contexto. Con solo unas instrucciones mínimas, EUREKA puede generar recompensas en diferentes entornos sin muestras. En la figura 3 se muestra un ejemplo de la salida de EUREKA. EUREKA combina de forma experta las variables de observación existentes (por ejemplo, la posición de la yema de los dedos) en el código de entorno proporcionado y produce un código de recompensa válido, todo ello sin ninguna ingeniería de avisos específica del entorno ni plantillas de recompensas.

Sin embargo, en el primer intento, es posible que la recompensa resultante no siempre sea ejecutable e incluso si lo es, puede ser subóptima. Esto plantea la pregunta de cómo superar eficazmente la suboptimalidad de la generación de recompensas de una sola muestra.

Búsqueda evolutiva

A continuación, el artículo describe cómo la búsqueda evolutiva resuelve los problemas de soluciones subóptimas mencionados anteriormente. Se perfeccionan de tal manera que en cada iteración, EUREKA muestrea varias salidas independientes de LLM (línea 5 en el algoritmo 1). Dado que cada iteración es independiente y homogénea, la probabilidad de errores en todas las funciones de recompensa de la iteración disminuye exponencialmente a medida que aumenta el tamaño de la muestra.

Reflexión de recompensa

Para proporcionar un análisis de recompensas más complejo y específico, este artículo propone construir una retroalimentación automatizada para resumir la dinámica de capacitación en políticas en el texto. En concreto, teniendo en cuenta que la función de recompensa EUREKA requiere componentes individuales en el programa de recompensa (como el componente de recompensa de la Figura 3), este artículo realiza un seguimiento de los valores escalares de todos los componentes de recompensa en puntos de control de política intermedios a lo largo del proceso de formación.

Construir este proceso de reflexión de recompensas es simple, pero es importante debido a la dependencia del algoritmo de optimización de recompensas. Es decir, si la función de recompensa es válida o no se ve afectada por la elección específica del algoritmo RL, y la misma recompensa puede comportarse de manera muy diferente incluso bajo el mismo optimizador para una diferencia de hiperparámetros dada. Al detallar cómo el algoritmo RL optimiza los componentes individuales de la recompensa, la reflexión de la recompensa permite a EUREKA producir ediciones de recompensa más específicas y sintetizar las funciones de recompensa para trabajar mejor con el algoritmo de RL fijo.

Experimento

La parte experimental proporciona una evaluación integral de Eureka, incluida la capacidad de generar funciones de recompensa, la capacidad de resolver nuevas tareas y la capacidad de integrar diversas entradas humanas.

El entorno experimental incluye 10 robots diferentes y 29 tareas, 29 de las cuales son implementadas por el simulador IsaacGym. El experimento utiliza 9 entornos primitivos de IsaacGym (Isaac), que cubren una variedad de formas de robots, desde cuadrúpedos, bípedos, cuadricópteros, manipuladores hasta manos diestras robóticas. Además, este artículo asegura la profundidad de la evaluación al incorporar 20 tareas del benchmark de Destreza.

Eureka puede producir una función de recompensa de nivel sobrehumano. De las 29 tareas, la función de recompensa proporcionada por Eureka funcionó mejor que las recompensas escritas por expertos en el 83% de las tareas, mejorando en un promedio del 52%. En particular, Eureka logró mayores beneficios en un entorno de referencia de destreza de alta dimensión.

Eureka es capaz de evolucionar la búsqueda de recompensas para que las recompensas mejoren con el tiempo. Eureka produce progresivamente mejores recompensas al combinar búsquedas de recompensas a gran escala y comentarios detallados sobre el reflejo de las recompensas, superando finalmente los niveles humanos.

Eureka también puede generar recompensas novedosas. Este artículo evalúa la novedad de las recompensas Eureka mediante el cálculo de la correlación entre las recompensas Eureka y las recompensas humanas en todas las tareas de Isaac. Como se muestra en la figura, Eureka genera principalmente funciones de recompensa débilmente correlacionadas, que superan las funciones de recompensa humanas. Además, el documento también observa que cuanto más difícil es la tarea, menos relevante es la recompensa Eureka. En algunos casos, las recompensas de Eureka incluso se correlacionan negativamente con las recompensas humanas, pero funcionan significativamente mejor que las recompensas humanas.

想要实现机器人的灵巧手能够不停的转笔,需要操作程序有尽可能多的循环。本文通过以下方式解决此任务:(1) Instruya a Eureka para que genere una función de recompensa que redirija los bolígrafos a una configuración de destino aleatorio y, a continuación, (2) ajuste esta estrategia previamente entrenada con Eureka Rewards para lograr la configuración deseada de rotación de la secuencia de plumas. Como se muestra, Eureka se adaptó rápidamente a la estrategia, girando con éxito muchos ciclos seguidos. Por el contrario, ni las estrategias preentrenadas ni las aprendidas desde cero pueden completar un giro en un solo ciclo.

Este artículo también examina si comenzar con la inicialización de la función de recompensa humana es beneficioso para Eureka. Como se muestra, Eureka mejora y se beneficia de las recompensas humanas, independientemente de la calidad de las recompensas humanas.

Eureka también implementó RLHF, que puede modificar las recompensas en función de los comentarios humanos para guiar a los agentes paso a paso a través de un comportamiento más seguro y más humano. El ejemplo muestra cómo Eureka enseña a un robot humanoide a correr erguido con algo de retroalimentación humana que reemplaza el reflejo de recompensa automático anterior.

Robot humanoide aprende a correr con Eureka

Para obtener más información, consulte el artículo original.

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Compartir
Comentar
0/400
Sin comentarios
Opere con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)