¿Es el RT-2 de Google, el momento GPT-3 para los robots?

Question

El 29 de julio, un reportero del New York Times tomó la delantera al ver el último modelo de robot RT-2 de Google en Google Lab.

Un robot con un solo brazo está parado frente a una mesa. Sobre la mesa se sientan tres figuritas de plástico: un león, una ballena y un dinosaurio. El ingeniero le dio al robot la orden: "Recoge animales extinguidos." El robot zumbó por un momento, luego extendió los brazos, las patas se abrieron y cayó. Atrapó al dinosaurio.

Es un destello de inteligencia.

The New York Times describió: "Hasta la semana pasada, esta demostración era imposible. Los robots no pueden manipular de manera confiable objetos que nunca antes habían visto, y ciertamente no pueden lograr el objetivo de pasar de 'animales extintos' a 'dinosaurios de plástico'. salto lógico. "

**Aunque todavía está en la demostración, y Google no planea hacer un lanzamiento más grande o comercializarlo de inmediato, la demostración fue suficiente para mostrar un pequeño vistazo de las oportunidades que los modelos grandes pueden brindar a los robots. **

Antes de la llegada de la era de los modelos grandes, las personas entrenaban robots, generalmente optimizados para cada tarea, como agarrar un determinado juguete, lo que requería una cantidad suficiente de datos, para que el robot pudiera identificar con precisión este juguete desde todos los ángulos y bajo diversas condiciones. luces, y agarrar el juguete.éxito. Para que el robot se dé cuenta de que tiene la tarea de agarrar el juguete, el robot necesita ser programado para resolverlo.

Las capacidades de inteligencia y generalización del modelo grande permiten a las personas ver el amanecer de la solución de estos problemas y avanzar hacia robots universales.

Aplicar Transformador al robot

El nuevo modelo RT-2 de Google, llamado Robotic Transformer 2, utiliza la arquitectura Transformer como base de su modelo.

La arquitectura Transformer propuesta en 2018 es la base inferior del modelo de lenguaje grande (LLM) que actualmente es popular en todo el mundo, pero de hecho, como arquitectura, Transformer se puede usar no solo en modelos de lenguaje grande, sino también en Train. sobre otro tipo de datos. Ya en marzo de este año, Google lanzó PaLM-E, que era el modelo de lenguaje visual (VLM) más grande del mundo en ese momento.

En el modelo de lenguaje grande, el lenguaje se codifica como un vector, y las personas proporcionan una gran cantidad de corpus para el modelo, de modo que pueda predecir lo que los humanos suelen decir en la siguiente oración, para generar una respuesta de lenguaje.

En el modelo de lenguaje visual, el modelo puede codificar información de imagen en un vector similar a un lenguaje, lo que permite que el modelo "entienda" el texto y "entienda" las imágenes de la misma manera. Los investigadores proporcionaron una gran cantidad de corpus e imágenes al modelo de lenguaje visual, lo que le permitió realizar tareas como responder preguntas visuales, subtitular imágenes y reconocer objetos.

Tanto las imágenes como el lenguaje son relativamente fáciles de obtener una gran cantidad de datos. Por lo tanto, es fácil para el modelo lograr resultados sorprendentes.

Sin embargo, existe una gran dificultad en el uso de la arquitectura Transformer para generar el comportamiento del robot. "Los datos relacionados con los movimientos de los robots son muy caros", dijo el profesor Xu Huazhe, profesor asistente en el Instituto de Información Interdisciplinaria de la Universidad de Tsinghua, a Geek Park, "Los datos de visión y lenguaje provienen de los humanos, que son datos pasivos, mientras que los del robot todos los datos de movimiento provienen de datos activos para bots.

**Por ejemplo, quiero estudiar la acción de un robot sirviendo café. Ya sea escribiendo código para que el robot lo ejecute, o usando otros métodos para que el robot lo ejecute, es necesario que el robot ejecute esta operación una vez. para obtener estos datos. ** Por lo tanto, la escala y la magnitud de los datos, el lenguaje y las imágenes del robot son completamente diferentes. "

**En la primera generación del robot Transformer modelo RT-1 investigado por Google, Google abrió un desafío de este tipo por primera vez, tratando de construir un modelo de acción de lenguaje visual. **

Para construir un modelo de este tipo, Google utilizó 13 robots y pasó 17 meses recopilando un conjunto de datos compuesto por datos activos de robots en más de 700 tareas en un entorno de cocina construido.

El conjunto de datos registra simultáneamente tres dimensiones:

Visión: datos de la cámara cuando el robot está realizando tareas;
Idioma: texto de la tarea descrito en lenguaje natural;
y movimiento del robot: eje xyz y datos de desviación, etc. cuando la mano del robot realiza una tarea.

Aunque en ese momento se obtuvieron buenos resultados experimentales, es posible que sea muy difícil aumentar aún más la cantidad de datos en el conjunto de datos.

Fuente de la imagen: video de introducción de Google AI

**La innovación de RT-2 es que RT-2 utiliza el modelo de lenguaje visual (VLM) PaLM-E mencionado anteriormente y otro modelo de lenguaje visual PaLI-X como base: se puede pasar un modelo de lenguaje visual puro Los datos a nivel de red se entrena, porque la cantidad de datos es lo suficientemente grande y se pueden obtener resultados suficientemente buenos.En la etapa de ajuste fino, los datos de movimiento del robot se agregan y se ajustan juntos (co-ajuste fino). **

De esta manera, el robot es equivalente a tener primero un sistema de sentido común que se ha aprendido en datos masivos, aunque todavía no puede agarrar plátanos, ya puede reconocer plátanos e incluso sabe que los plátanos son un tipo de fruta. comer.

En la etapa de ajuste fino, al agregar el conocimiento de cómo el robot agarra los plátanos después de verlos en el mundo real, el robot no solo tiene la capacidad de reconocer los plátanos bajo varias luces y ángulos, sino que también tiene la capacidad de agarrar los plátanos. capacidad.

De esta forma, se reducen significativamente los datos necesarios para entrenar al robot con la arquitectura Transformer.

RT-2 utiliza directamente el conjunto de datos de acción de visión/lenguaje/robot utilizado en la etapa de entrenamiento de RT-1 en la etapa de ajuste fino. Los datos proporcionados por Google muestran que RT-2 se desempeña tan bien como RT-1 al tomar elementos que aparecían originalmente en los datos de entrenamiento. Y debido al "cerebro con sentido común", al agarrar elementos que no se han visto antes, la tasa de éxito ha aumentado del 32% de RT-1 al 62%.

"Esta es la belleza del modelo grande", dijo Xu Huazhe: "No puedes desarmarlo porque reconoce que los dos objetos son similares en material, o porque son similares en tamaño, o por otras razones. El éxito tasa de agarre ha aumentado. Después de que haya aprendido suficientes cosas, algunas habilidades surgirán ".

El futuro de interactuar con robots usando lenguaje natural

Académicamente, la fuerte generalización exhibida por RT-2 puede resolver el problema de la insuficiencia de datos de entrenamiento de robots. **Además de esto, el impacto intuitivo de RT-2 aún proviene de su lado inteligente. **

En experimentos en los que los investigadores querían que pudiera recoger "algo que pudiera usarse como un martillo", el robot recogió una piedra en una pila de objetos y, cuando se le pidió que recogiera una bebida, se la ofreció a un cansado Red Bull. se selecciona en la pila de elementos.

Tal habilidad proviene de la capacidad del investigador para introducir una "cadena de pensamiento" cuando entrena modelos grandes. Tal razonamiento semántico de múltiples segmentos es muy difícil de lograr en la investigación tradicional de aprendizaje por imitación de robots.

Sin embargo, usar lenguaje natural para interactuar con robots no es una idea original de RT-2.

En investigaciones anteriores sobre robótica, los investigadores siempre necesitaban convertir los requisitos de las tareas en códigos para que los robots los entendieran. Al mismo tiempo, una vez que ocurrían los problemas, también necesitaban escribir códigos para corregir el comportamiento de los robots. Todo el proceso requería múltiples interacciones y era ineficiente. . **Y ahora que ya tenemos un robot de diálogo muy inteligente, el siguiente paso natural es dejar que el robot interactúe con los humanos en lenguaje natural. **

"Comenzamos a trabajar en estos modelos de lenguaje hace unos dos años, y luego nos dimos cuenta de que había una gran cantidad de conocimiento en ellos", dice Karol Hausman, científica investigadora de Google, "así que comenzamos a conectarlos a robots".

Sin embargo, usar un modelo grande como la mente de un robot tiene sus propias dificultades. Uno de los problemas más importantes es el problema de conexión a tierra, es decir, cómo convertir la respuesta del modelo grande, que generalmente no tiene restricciones, en instrucciones que impulsen las acciones del robot.

** En 2022, Google lanzó el modelo Say-can. **Los modelos, como sugiere el nombre, utilizan consideraciones dobles para ayudar al robot a actuar. La primera consideración es decir. El modelo se combina con el modelo de lenguaje grande PaLM de Google, que puede descomponer las tareas obtenidas a través del lenguaje natural y la interacción humana, y encontrar la más adecuada para la acción actual; otra consideración es can. El modelo utiliza un algoritmo para calcular Encuentre la probabilidad de que el robot actual pueda realizar con éxito esta tarea. El robot se mueve en base a estas dos consideraciones.

Por ejemplo, dígale al robot "Mi leche se ha derramado, ¿me puede ayudar?" El robot primero planificará la tarea a través del modelo de lenguaje. En este momento, la forma más razonable puede ser encontrar un limpiador y luego encontrar un esponja para limpiarla sola. Luego, el robot calculará a través de un algoritmo que, como robot, la probabilidad de encontrar un limpiador con éxito es muy baja y la probabilidad de encontrar una esponja para limpiarlo solo es alta. Después de una doble consideración, el robot elegirá la acción de buscar una esponja para limpiar la leche.

Fuente de la imagen: vídeo de introducción de Saycan

Aunque en una arquitectura de modelo de dos capas de este tipo, las acciones que el robot puede realizar con éxito ya están prediseñadas, el modelo de lenguaje grande solo puede ayudar al robot a elegir un plan de tareas adecuado. En tal modelo, el robot ya ha demostrado un fuerte sentido de la inteligencia.

**Sin embargo, aunque el efecto parece similar desde el exterior, el RT-2 toma un camino diferente. Durante el entrenamiento, el modelo aprende los tres tipos de datos de visión, lenguaje y comportamiento del robot al mismo tiempo. El modelo RT-2 no realiza la descomposición de tareas primero y luego realiza operaciones de tareas, pero después de la entrada de lenguaje natural, genera acciones directamente a través de la operación del modelo. **

"La estructura de dos niveles es similar a lo que quiero hacer. Primero pienso en el primer paso para hacer esto, el segundo paso para hacer aquello, y luego implemento estas estrategias una por una", dijo el profesor Xu Huazhe, "Y la estructura de extremo a extremo es similar. Así que realmente no pensé en el primer paso y el segundo paso, así que simplemente lo hice ". Un ejemplo de este último se puede comparar con escribir y chatear en teléfonos móviles todos los días. Por lo general, no lo tomamos en serio al escribir y conversar. Piense en cómo deben moverse los músculos, pero piense en las palabras que se escribirán y escríbalas directamente.

"Dos rutas diferentes o métodos diferentes aún no han demostrado ser la única forma correcta", dijo Xu Huazhe. Sin embargo, debido al excelente rendimiento de RT-2, parece que vale la pena explorar un modelo que pueda hacerse cargo de la dirección técnica de entrada y salida.

"Debido a este cambio (el excelente desempeño de RT-2), tuvimos que repensar todo nuestro plan de investigación", dijo Vincent Vanhoucke, director de robótica en DeepMind de Google. "Muchas de las cosas que hice antes son completamente inútiles".

RT-2 es el momento GPT3 para robots?

El robot RT-2 de Google no es perfecto. En una demostración real presenciada por un reportero del New York Times, identificó erróneamente el sabor de una lata de refresco de limón (que decía "naranja"). En otra ocasión, cuando se le preguntó qué fruta había en la mesa, el robot respondió "blanco" (en realidad era un plátano). Un portavoz de Google explicó que el bot usó respuestas almacenadas en caché para responder preguntas de evaluadores anteriores porque su Wi-Fi se interrumpió brevemente.

**Además, el uso de modelos grandes para entrenar robots inevitablemente enfrentará problemas de costos. **En la actualidad, cuando los robots de Google están razonando y juzgando, necesitan transmitir datos a la nube, y múltiples TPU calcularán juntos y luego enviarán los resultados al robot, y el robot realizará la operación. Se puede imaginar que tales cálculos son muy costosos.

Vincent Vanhoucke, director de robótica en DeepMind de Google, cree que la nueva investigación abre la puerta para que los robots se utilicen en entornos humanos: los investigadores creen que los robots con modelos de lenguaje incorporados podrían ingresar a los almacenes, en la industria médica e incluso como un asistente doméstico, que ayuda a doblar la ropa, sacar los artículos del lavavajillas y ordenar la casa.

"Si abre una fábrica y necesita usar robots, la tasa de éxito debe ser muy alta. No quiere decir que después de comprar un robot, necesita mucha gente para mantener el robot y mejorar las cosas que el robot no lo hace bien Entonces este El costo es demasiado alto ". El profesor Xu Huazhe dijo:" Los robots en la escena del hogar pueden ser otra situación, porque tal vez los requisitos de la tasa de éxito para algunas tareas en la escena del hogar no son tan altos. ejemplo, doblar la ropa, el doblado no es tan bueno, tal vez a sus ojos, esta misión ha fallado, pero no tendrá un gran impacto en usted".

Yang Likun (Yaan Lecun), uno de los tres gigantes de la inteligencia artificial, tiene una famosa afirmación que se ha enfatizado muchas veces: la inteligencia artificial no es lo suficientemente inteligente. Cualquier niño puede aprender rápidamente a limpiar la mesa y poner los platos en el lavavajillas, pero un robot no puede.

Esto puede ser cierto para la investigación robótica actual, pero así como el imperfecto GPT-3 le mostró a la industria la dirección del desarrollo de modelos a gran escala, tal vez el imperfecto RT-2 de hoy también abra una era futura en la que los robots ingresen al hogar y conviértete en nuestros asistentes.

Ver originales

¿Es el RT-2 de Google, el momento GPT-3 para los robots?

Aplicar Transformador al robot

El futuro de interactuar con robots usando lenguaje natural

**RT-2 es el momento GPT3 para robots? **

RT-2 es el momento GPT3 para robots?