Sabemos que después de dominar el lenguaje y las imágenes en Internet, el modelo grande eventualmente ingresará al mundo real, y la "inteligencia incorporada" debería ser la próxima dirección de desarrollo.
Conectando modelos grandes a robots, utilizando lenguaje natural simple en lugar de instrucciones complejas para formar planes de acción específicos, sin datos ni capacitación adicionales, esta visión se ve bien, pero parece un poco lejana. Después de todo, el campo de la robótica es notoriamente difícil.
Sin embargo, la IA está evolucionando más rápido de lo que pensábamos.
Este viernes, GoogleDeepMindanunció el lanzamiento de RT-2: el primer modelo del mundo de Visión-Lenguaje-Acción (VLA) para controlar robots.
Ahora que ya no se usan instrucciones complejas, el robot se puede manipular directamente como ChatGPT.
¿Qué tan inteligente es RT-2? Los investigadores de DeepMind lo mostraron con un brazo robótico, le dijeron a AI que eligiera "animales extintos", el brazo se estiró, las garras se abrieron y cayeron, y agarró al muñeco de dinosaurio.
Antes de eso, los robots no podían comprender de manera confiable los objetos que nunca habían visto, y mucho menos razonar sobre cosas como vincular "animales extintos" con "muñecos de dinosaurios de plástico".
Dile al robot que le dé a Taylor Swift la lata de Coca-Cola:
Se puede ver que este robot es un verdadero fanático, lo cual es una buena noticia para los humanos.
El desarrollo de grandes modelos de lenguaje como ChatGPT está revolucionando el campo de los robots, Google ha instalado los modelos de lenguaje más avanzados en los robots, para que finalmente tengan un cerebro artificial.
En un artículo presentado recientemente por DeepMind, los investigadores afirmaron que el modelo RT-2 se entrena en función de datos de redes y robots, utilizando el progreso de la investigación de modelos de lenguaje a gran escala como Bard, y combinándolos con datos de robots. También puede comprender instrucciones en otros idiomas además del inglés.
Los ejecutivos de Google dicen que el RT-2 es un salto cuántico en la forma en que se construyen y programan los robots. "Debido a este cambio, tuvimos que repensar todo nuestro plan de investigación", dice Vincent Vanhoucke, director de robótica en DeepMind de Google. "Muchas de las cosas que hice antes son completamente inútiles".
**¿Cómo se implementa RT-2? **
El RT-2 de DeepMind se desmonta y se lee como Transformador robótico: el modelo transformador del robot.
No es una tarea fácil para los robots comprender el habla humana y demostrar capacidad de supervivencia como en las películas de ciencia ficción. En comparación con el entorno virtual, el mundo físico real es complejo y desordenado, y los robots suelen necesitar instrucciones complejas para hacer algunas cosas sencillas para los humanos. En cambio, los humanos instintivamente saben qué hacer.
Anteriormente, tomaba mucho tiempo entrenar al robot y los investigadores tenían que crear soluciones para diferentes tareas individualmente, pero con el poder del RT-2, el robot puede analizar más información por sí mismo e inferir qué hacer a continuación.
RT-2 se basa en el modelo de visión-lenguaje (VLM) y crea un nuevo concepto: el modelo de visión-lenguaje-acción (VLA), que puede aprender de la red y los datos del robot y combinar este conocimiento Traducir en instrucciones generales que el robot puede control. El modelo incluso pudo usar señales de cadena de pensamientos como qué bebida sería mejor para una persona cansada (bebidas energéticas).
Arquitectura RT-2 y proceso de entrenamiento
De hecho, ya el año pasado, Google lanzó la versión RT-1 del robot. Solo se necesita un único modelo preentrenado, y RT-1 puede generar instrucciones a partir de diferentes entradas sensoriales (como visión, texto, etc.). ) para ejecutar varias tareas tipo de tarea.
Como modelo preentrenado, naturalmente requiere una gran cantidad de datos para que el aprendizaje autosupervisado se desarrolle bien. RT-2 se basa en RT-1 y utiliza datos de demostración de RT-1 recopilados por 13 robots en un entorno de oficina y cocina durante 17 meses.
DeepMindmodelo VLA creado
Hemos mencionado anteriormente que RT-2 está construido sobre la base de VLM, donde los modelos de VLM se han entrenado en datos a escala web y se pueden usar para realizar tareas como responder preguntas visuales, generar subtítulos de imágenes o reconocer objetos. Además, los investigadores también realizaron ajustes adaptativos a los dos modelos de VLM propuestos anteriormente, PaLI-X (Pathways Language and Image model) y PaLM-E (Pathways Language model Embodied), como la columna vertebral de RT-2, y estos modelos The Vision -Las versiones de lenguaje y movimiento se denominan RT-2-PaLI-X y RT-2-PaLM-E.
Para que el modelo de visión-lenguaje pueda controlar el robot, todavía es necesario controlar el movimiento. El estudio adoptó un enfoque muy simple: representaron acciones de robots en otro idioma, tokens de texto y los entrenaron con un conjunto de datos de lenguaje de visión a escala web.
La codificación de movimiento del robot se basa en el método de discretización propuesto por Brohan et al., para el modelo RT-1.
Como se muestra en la figura a continuación, esta investigación representa las acciones del robot como cadenas de texto, que pueden ser una secuencia de números de token de acción del robot, como "1 128 91 241 5 101 127 217".
La cadena comienza con una bandera que indica si el robot continúa o finaliza el episodio actual, y luego el robot cambia la posición y la rotación del efector final y ordena la pinza del robot como se indica.
Dado que las acciones se representan como cadenas de texto, es tan fácil para un robot ejecutar un comando de acción como un comando de cadena. Con esta representación, podemos ajustar directamente los modelos de visión-lenguaje existentes y convertirlos en modelos de visión-lenguaje-acción.
Durante la inferencia, los tokens de texto se descomponen en acciones de robot para lograr un control de circuito cerrado.
Experimental
Los investigadores realizaron una serie de experimentos cualitativos y cuantitativos en el modelo RT-2.
La siguiente figura demuestra el rendimiento de RT-2 en la comprensión semántica y el razonamiento básico. Por ejemplo, para la tarea de "poner las fresas en el recipiente correcto", RT-2 no solo necesita comprender la representación de las fresas y los recipientes, sino que también necesita razonar en el contexto de la escena para saber que las fresas deben colocarse con frutas similares Juntos. Para la tarea de recoger una bolsa que está a punto de caerse de una mesa, RT-2 necesita comprender las propiedades físicas de la bolsa para eliminar la ambigüedad entre las dos bolsas e identificar objetos en posiciones inestables.
Cabe señalar que todas las interacciones probadas en estos escenarios nunca se han visto en los datos de robótica.
La siguiente figura muestra que el modelo RT-2 supera el rendimiento anterior del RT-1 y las líneas de base preentrenadas de visión (VC-1) en cuatro puntos de referencia.
RT-2 conserva el rendimiento del robot en la tarea original y mejora el rendimiento del robot en escenarios nunca antes vistos, del 32 % al 62 % para RT-1.
Una serie de resultados muestran que el modelo de visión-lenguaje (VLM) se puede transformar en un poderoso modelo de visión-lenguaje-acción (VLA), y el robot se puede controlar directamente combinando el entrenamiento previo de VLM con los datos del robot.
Al igual que ChatGPT, si dicha capacidad se aplica a gran escala, se estima que el mundo experimentará cambios considerables. Sin embargo, Google no tiene planes inmediatos para aplicar el robot RT-2, solo dice que los investigadores creen que estos robots que pueden entender el habla humana nunca se detendrán en el nivel de demostración de capacidades.
Imagínese un robot con un modelo de lenguaje incorporado que se puede colocar en un almacén, tomar su medicamento por usted o incluso usarse como asistente doméstico: doblar la ropa, sacar los artículos del lavavajillas y ordenar la casa.
Realmente puede abrir la puerta al uso de robots en un entorno humano, y se pueden tomar todas las direcciones que requieren trabajo manual, es decir, en el informe anterior de OpenAI sobre la predicción del impacto de ChatGPT en los trabajos, la parte que el modelo grande no puede. afectar puede ahora está cubierto.
**Inteligencia incorporada, ¿no muy lejos de nosotros? **
Recientemente, la inteligencia incorporada es una dirección que está explorando un gran número de investigadores. Este mes, el equipo de Li Feifei de la Universidad de Stanford demostró algunos resultados nuevos: a través de un gran modelo de lenguaje más un modelo de lenguaje visual, la IA puede analizar y planificar en el espacio 3D y guiar las acciones de los robots.
La empresa emergente de robots humanoides universales de Zhihui Jun, "Agibot", lanzó un video anoche, que también demostró la programación automática y las capacidades de ejecución de tareas de los robots basados en grandes modelos de lenguaje.
Se espera que en agosto, la compañía de Zhihui Jun presente algunos logros recientes al mundo exterior.
Se puede ver que en el campo de los modelos grandes, todavía hay grandes cosas por suceder.
Contenido de referencia:
Ver originales
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
El robot ChatGPT ya está aquí: la gran modelo entra en el mundo real, el gran avance de DeepMind
Sabemos que después de dominar el lenguaje y las imágenes en Internet, el modelo grande eventualmente ingresará al mundo real, y la "inteligencia incorporada" debería ser la próxima dirección de desarrollo.
Conectando modelos grandes a robots, utilizando lenguaje natural simple en lugar de instrucciones complejas para formar planes de acción específicos, sin datos ni capacitación adicionales, esta visión se ve bien, pero parece un poco lejana. Después de todo, el campo de la robótica es notoriamente difícil.
Sin embargo, la IA está evolucionando más rápido de lo que pensábamos.
Este viernes, Google DeepMind anunció el lanzamiento de RT-2: el primer modelo del mundo de Visión-Lenguaje-Acción (VLA) para controlar robots.
Ahora que ya no se usan instrucciones complejas, el robot se puede manipular directamente como ChatGPT.
Dile al robot que le dé a Taylor Swift la lata de Coca-Cola:
El desarrollo de grandes modelos de lenguaje como ChatGPT está revolucionando el campo de los robots, Google ha instalado los modelos de lenguaje más avanzados en los robots, para que finalmente tengan un cerebro artificial.
En un artículo presentado recientemente por DeepMind, los investigadores afirmaron que el modelo RT-2 se entrena en función de datos de redes y robots, utilizando el progreso de la investigación de modelos de lenguaje a gran escala como Bard, y combinándolos con datos de robots. También puede comprender instrucciones en otros idiomas además del inglés.
**¿Cómo se implementa RT-2? **
El RT-2 de DeepMind se desmonta y se lee como Transformador robótico: el modelo transformador del robot.
No es una tarea fácil para los robots comprender el habla humana y demostrar capacidad de supervivencia como en las películas de ciencia ficción. En comparación con el entorno virtual, el mundo físico real es complejo y desordenado, y los robots suelen necesitar instrucciones complejas para hacer algunas cosas sencillas para los humanos. En cambio, los humanos instintivamente saben qué hacer.
Anteriormente, tomaba mucho tiempo entrenar al robot y los investigadores tenían que crear soluciones para diferentes tareas individualmente, pero con el poder del RT-2, el robot puede analizar más información por sí mismo e inferir qué hacer a continuación.
RT-2 se basa en el modelo de visión-lenguaje (VLM) y crea un nuevo concepto: el modelo de visión-lenguaje-acción (VLA), que puede aprender de la red y los datos del robot y combinar este conocimiento Traducir en instrucciones generales que el robot puede control. El modelo incluso pudo usar señales de cadena de pensamientos como qué bebida sería mejor para una persona cansada (bebidas energéticas).
De hecho, ya el año pasado, Google lanzó la versión RT-1 del robot. Solo se necesita un único modelo preentrenado, y RT-1 puede generar instrucciones a partir de diferentes entradas sensoriales (como visión, texto, etc.). ) para ejecutar varias tareas tipo de tarea.
Como modelo preentrenado, naturalmente requiere una gran cantidad de datos para que el aprendizaje autosupervisado se desarrolle bien. RT-2 se basa en RT-1 y utiliza datos de demostración de RT-1 recopilados por 13 robots en un entorno de oficina y cocina durante 17 meses.
DeepMind modelo VLA creado
Hemos mencionado anteriormente que RT-2 está construido sobre la base de VLM, donde los modelos de VLM se han entrenado en datos a escala web y se pueden usar para realizar tareas como responder preguntas visuales, generar subtítulos de imágenes o reconocer objetos. Además, los investigadores también realizaron ajustes adaptativos a los dos modelos de VLM propuestos anteriormente, PaLI-X (Pathways Language and Image model) y PaLM-E (Pathways Language model Embodied), como la columna vertebral de RT-2, y estos modelos The Vision -Las versiones de lenguaje y movimiento se denominan RT-2-PaLI-X y RT-2-PaLM-E.
Para que el modelo de visión-lenguaje pueda controlar el robot, todavía es necesario controlar el movimiento. El estudio adoptó un enfoque muy simple: representaron acciones de robots en otro idioma, tokens de texto y los entrenaron con un conjunto de datos de lenguaje de visión a escala web.
La codificación de movimiento del robot se basa en el método de discretización propuesto por Brohan et al., para el modelo RT-1.
Como se muestra en la figura a continuación, esta investigación representa las acciones del robot como cadenas de texto, que pueden ser una secuencia de números de token de acción del robot, como "1 128 91 241 5 101 127 217".
Dado que las acciones se representan como cadenas de texto, es tan fácil para un robot ejecutar un comando de acción como un comando de cadena. Con esta representación, podemos ajustar directamente los modelos de visión-lenguaje existentes y convertirlos en modelos de visión-lenguaje-acción.
Durante la inferencia, los tokens de texto se descomponen en acciones de robot para lograr un control de circuito cerrado.
Experimental
Los investigadores realizaron una serie de experimentos cualitativos y cuantitativos en el modelo RT-2.
La siguiente figura demuestra el rendimiento de RT-2 en la comprensión semántica y el razonamiento básico. Por ejemplo, para la tarea de "poner las fresas en el recipiente correcto", RT-2 no solo necesita comprender la representación de las fresas y los recipientes, sino que también necesita razonar en el contexto de la escena para saber que las fresas deben colocarse con frutas similares Juntos. Para la tarea de recoger una bolsa que está a punto de caerse de una mesa, RT-2 necesita comprender las propiedades físicas de la bolsa para eliminar la ambigüedad entre las dos bolsas e identificar objetos en posiciones inestables.
Cabe señalar que todas las interacciones probadas en estos escenarios nunca se han visto en los datos de robótica.
Al igual que ChatGPT, si dicha capacidad se aplica a gran escala, se estima que el mundo experimentará cambios considerables. Sin embargo, Google no tiene planes inmediatos para aplicar el robot RT-2, solo dice que los investigadores creen que estos robots que pueden entender el habla humana nunca se detendrán en el nivel de demostración de capacidades.
Imagínese un robot con un modelo de lenguaje incorporado que se puede colocar en un almacén, tomar su medicamento por usted o incluso usarse como asistente doméstico: doblar la ropa, sacar los artículos del lavavajillas y ordenar la casa.
**Inteligencia incorporada, ¿no muy lejos de nosotros? **
Recientemente, la inteligencia incorporada es una dirección que está explorando un gran número de investigadores. Este mes, el equipo de Li Feifei de la Universidad de Stanford demostró algunos resultados nuevos: a través de un gran modelo de lenguaje más un modelo de lenguaje visual, la IA puede analizar y planificar en el espacio 3D y guiar las acciones de los robots.
Se puede ver que en el campo de los modelos grandes, todavía hay grandes cosas por suceder.
Contenido de referencia: