Gran movimiento del robot AGI de Google: equipo de 54 personas retenido durante 7 meses, generalización fuerte y razonamiento sólido, nuevos resultados después de la fusión de DeepMind y Google Brain
El explosivo gran modelo está remodelando la investigación de robots de DeepMind de Google.
Uno de los últimos logros es el proyecto del robot RT-2, que les llevó 7 meses construir y se hizo popular en Internet:
¿Qué tan efectivo es?
Solo da una orden en lenguaje humano, y el pequeño que está frente a él puede agitar su brazo robótico, pensar y completar la "tarea del maestro".
Como dar agua a la cantante de pop Taylor Swift, o identificar el logo de un equipo estrella:
Incluso puede pensar activamente y dejar que "recoja animales extintos", y puede elegir con precisión dinosaurios de los tres juguetes de plástico de leones, ballenas y dinosaurios.
En palabras de los internautas, no subestimes esta habilidad, es un salto lógico de "animales extintos" a "dinosaurios de plástico".
Lo que es más "aterrador" es que puede resolver fácilmente el problema de razonamiento de varias etapas de "elegir una bebida para una persona cansada" que debe combinarse con la cadena de pensamiento, tan pronto como se escuche la orden , la manita irá directamente al Red Bull, pero no seas demasiado inteligente.
Algunos internautas se lamentaron después de leer:
No puedo esperar, avance rápido para lavar platos para humanos (cabeza de perro manual)
Se entiende que el logro de Google DeepMind fue producido conjuntamente por 54 investigadores, y tomó 7 meses antes y después, antes de que finalmente se convirtiera en lo "tan fácil" que vimos.
Según el New York Times, Vincent Vanhoucke, director de robótica de Google DeepMind, cree que los modelos grandes han cambiado por completo la dirección de investigación de su departamento:
Debido a este cambio (de modelo grande), tuvimos que repensar todo el proyecto de investigación.
Muchas cosas que hemos estudiado antes han fallado por completo.
Entonces, ¿qué tipo de efectos puede lograr RT-2 y de qué se trata exactamente esta investigación?
Conecte el modelo grande multimodal al brazo robótico
El proyecto del robot, llamado RT-2 (Robotic Transformer 2), es una "versión evolutiva" del RT-1 lanzado a fines del año pasado.
En comparación con otras investigaciones de robots, la principal ventaja de RT-2 es que no solo puede entender "palabras humanas", sino también razonar sobre "palabras humanas" y convertirlas en instrucciones que los robots puedan entender, para completar tareas por etapas. .
Específicamente, tiene tres capacidades principales: comprensión de símbolos (Comprensión de símbolos), razonamiento (Razonamiento) y reconocimiento humano (Reconocimiento humano).
La primera habilidad es la "comprensión simbólica", que puede extender directamente el conocimiento del entrenamiento previo de modelos grandes a datos que el robot nunca antes había visto. Por ejemplo, aunque no hay "Red Bull" en la base de datos de robots, puede comprender y captar la apariencia de "Red Bull" a partir del conocimiento del modelo grande y manipular objetos.
La segunda habilidad es el "razonamiento", que también es la ventaja central de RT-2, que requiere que el robot domine las tres habilidades principales de matemáticas, razonamiento visual y comprensión multilingüe.
Habilidad 1, incluyendo el dominio del razonamiento lógico matemático, "poner la banana en la suma de 2+1":
Habilidad dos, Razonamiento visual, como "Pon las fresas en el tazón correcto":
La habilidad 3, comprensión multilingüe, puede completar instrucciones incluso sin inglés, por ejemplo, ordenarla en español para "elegir el más distintivo de un montón de elementos":
La tercera habilidad es el reconocimiento humano, que reconoce y comprende con precisión el comportamiento humano. El ejemplo de "dar agua a Taylor Swift" visto al principio es una de las demostraciones de habilidad.
Entonces, ¿cómo se realizan estas tres habilidades?
En pocas palabras, es combinar las capacidades de "razonamiento", "reconocimiento" y "matemáticas" del modelo grande multimodal de texto visual (VLM) con las capacidades operativas de los robots.
Para lograr esto, los investigadores agregaron directamente un modo llamado "modo de acción de robot" al modelo grande de texto visual (VLM), convirtiéndolo así en un modelo grande de acción de texto visual (VLA).
Posteriormente, los datos de acción del robot muy específicos originales se convierten en un token de texto.
Por ejemplo, los datos como el grado de rotación y el punto de coordenadas a colocar se convierten en texto "poner en una posición determinada".
De esta manera, los datos del robot también se pueden utilizar en el conjunto de datos de lenguaje visual para el entrenamiento. Al mismo tiempo, en el proceso de razonamiento, las instrucciones del texto original se volverán a convertir en datos del robot para realizar una serie de operaciones como como controlar el robot.
Así es, es así de simple y grosero (cabeza de perro manual)
En esta investigación, el equipo "actualizó" principalmente en función de una serie de modelos básicos a gran escala de Google, incluidos 5 mil millones y 55 mil millones PaLI-X, 3 mil millones PaLI y 12 mil millones PaLM-E.
Para mejorar la capacidad del modelo grande en sí, los investigadores también se han esforzado mucho, utilizando la cadena de pensamiento recientemente popular, la base de datos vectorial y las arquitecturas sin gradiente.
Esta serie de operaciones también le da al RT-2 muchas ventajas nuevas en comparación con el RT-1 lanzado el año pasado.
Echemos un vistazo a los resultados experimentales específicos.
Hasta tres veces el rendimiento de RT-1
RT-2 utiliza los datos del modelo de robot RT-1 de la generación anterior para el entrenamiento (es decir, los datos no han cambiado, pero el método es diferente).
Los datos se recolectaron durante un período de 17 meses utilizando 13 robots en un entorno de cocina instalado en la oficina.
En la prueba real (un total de 6000 veces), el autor le dio a RT-2 muchos objetos nunca antes vistos, lo que requirió que RT-2 realizara una comprensión semántica más allá de los datos de ajuste fino para completar la tarea.
Los resultados se hacen bastante bien:
Desde el reconocimiento simple de letras, banderas nacionales y personajes hasta el reconocimiento de animales terrestres de muñecos, la selección del que tiene un color diferente e incluso comandos complejos como recoger bocadillos que están a punto de caerse de la mesa.
Desde la perspectiva de las tres capacidades de subdivisión de comprensión de símbolos, razonamiento y reconocimiento humano, las dos variantes de RT-2 son mucho mejores que RT-1 y otro método de preentrenamiento visual VC-1, con un rendimiento de hasta 3 veces .
Como se mencionó anteriormente, las dos variantes se entrenan en PaLM-E con 12 000 millones de parámetros y PaLI-X con 55 000 millones de parámetros, respectivamente.
En términos de evaluación de la capacidad de generalización específica, a través de pruebas de subdivisión de múltiples categorías con múltiples modelos de referencia, finalmente se encontró que el rendimiento de RT-2 mejoró aproximadamente 2 veces.
(Desafortunadamente, no lo hemos visto en comparación con los últimos métodos robóticos basados en LLM de otros equipos)
Para comprender mejor cómo las diferentes configuraciones de RT-2 afectan los resultados de generalización, el autor diseñó dos categorías de evaluaciones:
Primero, en términos de tamaño del modelo, solo la variante RT-2 PaLI-X usa 5 mil millones de parámetros y 55 mil millones de parámetros para entrenamiento;
El segundo es el método de entrenamiento, que adopta el método de entrenamiento del modelo desde cero vs ajuste fino vs ajuste fino colaborativo.
Los resultados finales muestran que la importancia de los pesos preentrenados VLM y la capacidad de generalización del modelo tienden a aumentar con el tamaño del modelo.
Además, los autores también evalúan RT-2 en el punto de referencia de la tabla de lenguaje de código abierto, y los resultados muestran que alcanza los resultados de SOTA en el punto de referencia simulado (90 % frente al 77 % anterior).
Finalmente, dado que la variante RT-2 PaLM-E es un modelo de visión-lenguaje-acción que puede actuar como LLM, VLM y controlador de robot en una sola red neuronal, RT-2 también puede realizar un razonamiento de cadena de pensamiento controlado.
Entre las cinco tareas de razonamiento que se muestran en la figura a continuación (especialmente la última es muy interesante: elija un elemento que pueda reemplazar el martillo), generará los pasos de lenguaje natural después de recibir el comando y luego dará el token de acción específico.
Finalmente, en resumen, este último modelo RT-2 no solo puede aplicarse mejor a diferentes escenas que la máquina nunca antes había visto, sino que también tiene una mejor capacidad de generalización; al mismo tiempo, debido a una mejor Con la bendición de un modelo grande, también ha dominado algunas habilidades nuevas y difíciles, como el razonamiento.
Una cosa más
El enfoque de Google en la investigación de robótica en modelos grandes no parece ser "infundado".
Solo en los últimos dos días, también es muy popular un documento sobre "Uso de modelos grandes para ayudar a adquirir más habilidades de operación de robots" en coautoría con la Universidad de Columbia:
Este documento propone un nuevo marco que no solo permite que el robot se adapte bien al modelo grande, sino que también conserva las capacidades básicas de operación y control del robot original:
A diferencia de RT-2, este proyecto ha sido de código abierto:
Es cierto que el modelo grande se utilizó para impulsar la actualización de todo el departamento de robots.
Con reminiscencias de los logros de inteligencia incorporada del equipo de Li Feifei no hace mucho tiempo, se puede decir que el uso de modelos grandes para conducir robots se ha convertido en una tendencia de investigación y hemos visto una ola de progreso muy prometedor.
¿Cuáles son sus expectativas para esta dirección de investigación?
dirección del proyecto:
Link de referencia:
[1]
[2]
[3]
[4]
Ver originales
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Gran movimiento del robot AGI de Google: equipo de 54 personas retenido durante 7 meses, generalización fuerte y razonamiento sólido, nuevos resultados después de la fusión de DeepMind y Google Brain
Fuente original: Qubit
El explosivo gran modelo está remodelando la investigación de robots de DeepMind de Google.
Uno de los últimos logros es el proyecto del robot RT-2, que les llevó 7 meses construir y se hizo popular en Internet:
Solo da una orden en lenguaje humano, y el pequeño que está frente a él puede agitar su brazo robótico, pensar y completar la "tarea del maestro".
Como dar agua a la cantante de pop Taylor Swift, o identificar el logo de un equipo estrella:
En palabras de los internautas, no subestimes esta habilidad, es un salto lógico de "animales extintos" a "dinosaurios de plástico".
Lo que es más "aterrador" es que puede resolver fácilmente el problema de razonamiento de varias etapas de "elegir una bebida para una persona cansada" que debe combinarse con la cadena de pensamiento, tan pronto como se escuche la orden , la manita irá directamente al Red Bull, pero no seas demasiado inteligente.
Algunos internautas se lamentaron después de leer:
Conecte el modelo grande multimodal al brazo robótico
El proyecto del robot, llamado RT-2 (Robotic Transformer 2), es una "versión evolutiva" del RT-1 lanzado a fines del año pasado.
En comparación con otras investigaciones de robots, la principal ventaja de RT-2 es que no solo puede entender "palabras humanas", sino también razonar sobre "palabras humanas" y convertirlas en instrucciones que los robots puedan entender, para completar tareas por etapas. .
Específicamente, tiene tres capacidades principales: comprensión de símbolos (Comprensión de símbolos), razonamiento (Razonamiento) y reconocimiento humano (Reconocimiento humano).
La primera habilidad es la "comprensión simbólica", que puede extender directamente el conocimiento del entrenamiento previo de modelos grandes a datos que el robot nunca antes había visto. Por ejemplo, aunque no hay "Red Bull" en la base de datos de robots, puede comprender y captar la apariencia de "Red Bull" a partir del conocimiento del modelo grande y manipular objetos.
La segunda habilidad es el "razonamiento", que también es la ventaja central de RT-2, que requiere que el robot domine las tres habilidades principales de matemáticas, razonamiento visual y comprensión multilingüe.
Habilidad 1, incluyendo el dominio del razonamiento lógico matemático, "poner la banana en la suma de 2+1":
Entonces, ¿cómo se realizan estas tres habilidades?
En pocas palabras, es combinar las capacidades de "razonamiento", "reconocimiento" y "matemáticas" del modelo grande multimodal de texto visual (VLM) con las capacidades operativas de los robots.
Por ejemplo, los datos como el grado de rotación y el punto de coordenadas a colocar se convierten en texto "poner en una posición determinada".
De esta manera, los datos del robot también se pueden utilizar en el conjunto de datos de lenguaje visual para el entrenamiento. Al mismo tiempo, en el proceso de razonamiento, las instrucciones del texto original se volverán a convertir en datos del robot para realizar una serie de operaciones como como controlar el robot.
Así es, es así de simple y grosero (cabeza de perro manual)
En esta investigación, el equipo "actualizó" principalmente en función de una serie de modelos básicos a gran escala de Google, incluidos 5 mil millones y 55 mil millones PaLI-X, 3 mil millones PaLI y 12 mil millones PaLM-E.
Para mejorar la capacidad del modelo grande en sí, los investigadores también se han esforzado mucho, utilizando la cadena de pensamiento recientemente popular, la base de datos vectorial y las arquitecturas sin gradiente.
Esta serie de operaciones también le da al RT-2 muchas ventajas nuevas en comparación con el RT-1 lanzado el año pasado.
Echemos un vistazo a los resultados experimentales específicos.
Hasta tres veces el rendimiento de RT-1
RT-2 utiliza los datos del modelo de robot RT-1 de la generación anterior para el entrenamiento (es decir, los datos no han cambiado, pero el método es diferente).
Los datos se recolectaron durante un período de 17 meses utilizando 13 robots en un entorno de cocina instalado en la oficina.
En la prueba real (un total de 6000 veces), el autor le dio a RT-2 muchos objetos nunca antes vistos, lo que requirió que RT-2 realizara una comprensión semántica más allá de los datos de ajuste fino para completar la tarea.
Los resultados se hacen bastante bien:
Desde el reconocimiento simple de letras, banderas nacionales y personajes hasta el reconocimiento de animales terrestres de muñecos, la selección del que tiene un color diferente e incluso comandos complejos como recoger bocadillos que están a punto de caerse de la mesa.
Como se mencionó anteriormente, las dos variantes se entrenan en PaLM-E con 12 000 millones de parámetros y PaLI-X con 55 000 millones de parámetros, respectivamente.
Para comprender mejor cómo las diferentes configuraciones de RT-2 afectan los resultados de generalización, el autor diseñó dos categorías de evaluaciones:
Primero, en términos de tamaño del modelo, solo la variante RT-2 PaLI-X usa 5 mil millones de parámetros y 55 mil millones de parámetros para entrenamiento;
El segundo es el método de entrenamiento, que adopta el método de entrenamiento del modelo desde cero vs ajuste fino vs ajuste fino colaborativo.
Los resultados finales muestran que la importancia de los pesos preentrenados VLM y la capacidad de generalización del modelo tienden a aumentar con el tamaño del modelo.
Finalmente, dado que la variante RT-2 PaLM-E es un modelo de visión-lenguaje-acción que puede actuar como LLM, VLM y controlador de robot en una sola red neuronal, RT-2 también puede realizar un razonamiento de cadena de pensamiento controlado.
Entre las cinco tareas de razonamiento que se muestran en la figura a continuación (especialmente la última es muy interesante: elija un elemento que pueda reemplazar el martillo), generará los pasos de lenguaje natural después de recibir el comando y luego dará el token de acción específico.
Una cosa más
El enfoque de Google en la investigación de robótica en modelos grandes no parece ser "infundado".
Solo en los últimos dos días, también es muy popular un documento sobre "Uso de modelos grandes para ayudar a adquirir más habilidades de operación de robots" en coautoría con la Universidad de Columbia:
Con reminiscencias de los logros de inteligencia incorporada del equipo de Li Feifei no hace mucho tiempo, se puede decir que el uso de modelos grandes para conducir robots se ha convertido en una tendencia de investigación y hemos visto una ola de progreso muy prometedor.
¿Cuáles son sus expectativas para esta dirección de investigación?
dirección del proyecto:
Link de referencia:
[1]
[2]
[3]
[4]