Le RT-2 de Google est-il le moment GPT-3 pour les robots ?

Question

Le 29 juillet, un journaliste du New York Times a pris l'initiative de voir le dernier robot piloté par modèle RT-2 de Google au Google Lab.

Un robot manchot se tient devant une table. Sur la table sont posées trois figurines en plastique : un lion, une baleine et un dinosaure. L'ingénieur donna l'ordre au robot : « Ramassez les animaux disparus. » Le robot vrombit un moment, puis étendit les bras, les pattes écartées et tomba. Il a attrapé le dinosaure.

C'est un éclair d'intelligence.

Le New York Times a décrit : « Jusqu'à la semaine dernière, cette démonstration était impossible. Les robots ne peuvent pas manipuler de manière fiable des objets qu'ils n'ont jamais vus auparavant, et ils ne peuvent certainement pas atteindre l'objectif de passer des « animaux disparus » aux « dinosaures en plastique ». "

** Bien qu'encore dans la démo, et Google ne prévoit pas de faire une version plus importante ou de la commercialiser immédiatement, la démo était suffisante pour montrer un petit aperçu des opportunités que les grands modèles peuvent apporter aux robots. **

Avant l'arrivée de l'ère des grands modèles, les humains formaient des robots, généralement optimisés pour chaque tâche, comme saisir un certain jouet, ce qui nécessitait une quantité suffisante de données, afin que le robot puisse identifier avec précision ce jouet sous tous les angles et sous diverses lumières, et saisissez le jouet. Pour que le robot se rende compte qu'il a pour tâche de saisir le jouet, le robot doit être programmé pour le résoudre.

Les capacités d'intelligence et de généralisation du grand modèle permettent de voir l'aube de la résolution de ces problèmes et d'évoluer vers des robots universels.

Appliquez Transformer au robot

Le nouveau modèle RT-2 de Google, appelé Robotic Transformer 2, utilise l'architecture Transformer comme base de son modèle.

L'architecture Transformer proposée en 2018 est la base du grand modèle de langage (LLM) qui est actuellement populaire dans le monde entier, mais en fait, en tant qu'architecture, Transformer peut être utilisé non seulement dans les grands modèles de langage, mais aussi dans Train sur d'autres types de données. Dès mars de cette année, Google a publié PaLM-E, qui était à l'époque le plus grand modèle de langage visuel (VLM) au monde.

Dans le grand modèle de langage, le langage est encodé sous forme de vecteur, et les gens fournissent une grande quantité de corpus pour le modèle, afin qu'il puisse prédire ce que les humains disent habituellement dans la phrase suivante, afin de générer une réponse linguistique.

Dans le modèle de langage visuel, le modèle peut encoder des informations d'image dans un vecteur de type langage, permettant au modèle de "comprendre" le texte et de "comprendre" les images de la même manière. Les chercheurs ont fourni une grande quantité de corpus et d'images au modèle de langage visuel, lui permettant d'effectuer des tâches telles que la réponse visuelle à des questions, le sous-titrage d'images et la reconnaissance d'objets.

Les images et le langage sont relativement faciles à obtenir une grande quantité de données. Par conséquent, il est facile pour le modèle d'obtenir des résultats étonnants.

Cependant, il y a une grande difficulté à utiliser l'architecture Transformer pour générer le comportement du robot. "Les données liées aux mouvements du robot coûtent très cher." Le professeur Xu Huazhe, professeur adjoint à l'Institut d'information interdisciplinaire de l'Université Tsinghua, a déclaré à Geek Park : "Les données de vision et de langage proviennent des humains, qui sont des données passives, tandis que les données du robot les données de mouvement proviennent toutes des données actives pour les bots.

**Par exemple, je souhaite étudier l'action d'un robot versant du café. Qu'il s'agisse d'écrire du code à exécuter par le robot ou d'utiliser d'autres méthodes pour que le robot l'exécute, il est nécessaire que le robot exécute réellement cette opération une fois pour obtenir ces données. ** Par conséquent, l'échelle et l'ampleur des données, du langage et des images du robot sont complètement différentes. "

** Dans la première génération de robot Transformer modèle RT-1 étudié par Google, Google a lancé un tel défi pour la première fois, en essayant de construire un modèle d'action de langage visuel. **

Afin de construire un tel modèle, Google a utilisé 13 robots et a passé 17 mois à collecter un ensemble de données composé des données actives des robots sur plus de 700 tâches dans un environnement de cuisine construit.

Le jeu de données enregistre simultanément trois dimensions :

Vision - données de la caméra lorsque le robot exécute des tâches ;
Langue - texte de la tâche décrit en langage naturel ;
et mouvement du robot - axe xyz et données de déviation, etc. lorsque la main du robot exécute une tâche.

Bien que de bons résultats expérimentaux aient été obtenus à ce moment-là, il est concevable qu'il soit très difficile d'augmenter encore la quantité de données dans l'ensemble de données.

Source de l'image : vidéo de présentation de Google AI

** L'innovation de RT-2 est que RT-2 utilise le modèle de langage visuel (VLM) PaLM-E susmentionné et un autre modèle de langage visuel PaLI-X comme base - un modèle de langage visuel pur peut être transmis Les données au niveau du réseau est formé, car la quantité de données est suffisamment importante et des résultats suffisamment bons peuvent être obtenus. Dans la phase de réglage fin, les données de mouvement du robot y sont ajoutées et ajustées ensemble (co-réglage fin). **

De cette façon, le robot équivaut à avoir d'abord un système de bon sens qui a été appris sur des données massives - bien qu'il ne puisse pas encore saisir les bananes, il peut déjà reconnaître les bananes, et sait même que les bananes sont une sorte de fruit. manger.

Dans la phase de réglage fin, en ajoutant la connaissance de la façon dont le robot saisit les bananes après les avoir vues dans le monde réel, le robot a non seulement la capacité de reconnaître les bananes sous différents éclairages et angles, mais a également la capacité de saisir les bananes. capacité.

De cette manière, les données nécessaires pour entraîner le robot avec l'architecture Transformer sont considérablement réduites.

RT-2 utilise directement l'ensemble de données vision/langage/action du robot utilisé dans la phase de formation de RT-1 dans la phase de réglage fin. Les données fournies par Google montrent que RT-2 fonctionne aussi bien que RT-1 lors de la saisie d'éléments qui apparaissaient à l'origine dans les données d'entraînement. Et grâce au "cerveau de bon sens", lors de la saisie d'objets qui n'ont jamais été vus auparavant, le taux de réussite est passé de 32 % de RT-1 à 62 %.

"C'est la beauté du grand modèle." Xu Huazhe a déclaré: "Vous ne pouvez pas le démonter car il reconnaît que les deux objets sont similaires en matière, ou parce qu'ils sont de taille similaire, ou pour d'autres raisons. Le succès "Le taux de saisie a augmenté. Après avoir appris suffisamment de choses, certaines capacités émergeront."

L'avenir de l'interaction avec des robots en utilisant le langage naturel

Académiquement, la forte généralisation présentée par RT-2 peut résoudre le problème des données de formation de robot insuffisantes. ** En plus de cela, le choc intuitif du RT-2 vient toujours de son côté intelligent. **

Dans des expériences où les chercheurs voulaient qu'il puisse ramasser "quelque chose qui pourrait être utilisé comme un marteau", le robot a ramassé une pierre dans un tas d'objets, et lorsqu'on lui a demandé de ramasser une boisson offerte à un Red Bull fatigué est sélectionné dans la pile d'éléments.

Une telle compétence vient de la capacité du chercheur à introduire une "chaîne de pensée" lors de la formation de grands modèles. Un tel raisonnement sémantique multi-segments est très difficile à réaliser dans la recherche traditionnelle sur l'apprentissage par imitation de robot.

Cependant, utiliser le langage naturel pour interagir avec des robots n'est pas une idée originale de RT-2.

Dans les recherches antérieures en robotique, les chercheurs avaient toujours besoin de convertir les exigences des tâches en codes que les robots pouvaient comprendre. En même temps, une fois que des problèmes survenaient, ils devaient également écrire des codes pour corriger le comportement des robots. L'ensemble du processus nécessitait de multiples interactions et était inefficace. . ** Et maintenant que nous avons déjà un robot de dialogue très intelligent, la prochaine étape naturelle consiste à laisser le robot interagir avec les humains en langage naturel. **

"Nous avons commencé à travailler sur ces modèles de langage il y a environ deux ans, puis nous avons réalisé qu'ils contenaient une mine de connaissances", explique Karol Hausman, chercheur chez Google, "nous avons donc commencé à les connecter à des robots".

Cependant, l'utilisation d'un grand modèle comme esprit de robot présente ses propres difficultés. L'un des problèmes les plus importants est le problème de mise à la terre, c'est-à-dire comment convertir la réponse du grand modèle, qui est généralement relativement sans contrainte, en instructions qui pilotent les actions du robot.

** En 2022, Google a lancé le modèle Say-can. ** Les modèles, comme leur nom l'indique, utilisent des considérations doubles pour aider le robot à agir. La première considération est disons. Le modèle est combiné avec le grand modèle de langage PaLM de Google, qui peut décomposer les tâches obtenues grâce au langage naturel et à l'interaction humaine, et trouver la plus appropriée pour l'action en cours ; une autre considération est peut. Le modèle utilise un Algorithme pour calculer Trouver la probabilité que le robot actuel puisse réussir cette tâche. Le robot se déplace en fonction de ces deux considérations.

Par exemple, dites au robot "Mon lait s'est renversé, pouvez-vous m'aider ?" Le robot planifiera d'abord la tâche à l'aide du modèle de langage. À ce stade, le moyen le plus raisonnable peut être de trouver un nettoyeur, puis de trouver un éponge pour l'essuyer tout seul. Ensuite, le robot calculera grâce à un algorithme qu'en tant que robot, la probabilité de réussir à trouver un nettoyeur est très faible et la probabilité de trouver une éponge pour l'essuyer par elle-même est élevée. Après réflexion, le robot choisira l'action de chercher une éponge pour essuyer le lait.

Source de l'image : vidéo d'introduction de Saycan

Bien que dans une telle architecture de modèle à deux couches, les actions que le robot peut effectuer avec succès soient déjà préconçues, le grand modèle de langage ne peut qu'aider le robot à choisir un plan de tâches approprié. Dans un tel modèle, le robot a déjà fait preuve d'un fort sens de l'intelligence.

** Cependant, alors que l'effet semble similaire de l'extérieur, le RT-2 prend un chemin différent. Pendant la formation, le modèle apprend les trois types de données de vision, de langage et de comportement du robot en même temps. Le modèle RT-2 n'effectue pas d'abord la décomposition de la tâche, puis effectue les opérations de la tâche, mais après l'entrée en langage naturel, il génère directement des actions via le fonctionnement du modèle. **

"La structure à deux niveaux est similaire à ce que je veux faire. Je pense d'abord à la première étape pour faire ceci, à la deuxième étape pour faire cela, puis à mettre en œuvre ces stratégies une par une", a déclaré le professeur Xu Huazhe : "Et la structure de bout en bout est similaire. Je n'ai donc pas vraiment pensé à la première étape et à la deuxième étape, alors je l'ai fait. Nous ne prenons généralement pas cela au sérieux lorsque nous tapons et discutons. Pensez à la façon dont les muscles doivent bouger, mais pensez aux mots à taper et tapez-les directement.

« Deux itinéraires différents ou des méthodes différentes ne se sont pas encore avérés être le seul chemin correct », a déclaré Xu Huazhe. Cependant, en raison des excellentes performances de RT-2, un modèle capable de prendre en charge la direction technique de l'entrée et de la sortie semble mériter d'être exploré.

"En raison de ce changement (les excellentes performances de RT-2), nous avons dû repenser tout notre plan de recherche", a déclaré Vincent Vanhoucke, directeur de la robotique chez DeepMind de Google. "Beaucoup de choses que je faisais avant sont complètement inutiles."

RT-2 est le moment GPT3 pour les robots ?

Le robot RT-2 de Google n'est pas parfait. Lors d'une véritable démonstration à laquelle a assisté un journaliste du New York Times, il a mal identifié la saveur d'une canette de soda au citron (en disant "orange"). Une autre fois, lorsqu'on lui a demandé quel fruit était sur la table, le robot a répondu "blanc" (c'était en fait une banane). Un porte-parole de Google a expliqué que le bot utilisait des réponses en cache pour répondre aux questions des testeurs précédents car son Wi-Fi avait été brièvement interrompu.

** De plus, l'utilisation de grands modèles pour former des robots sera inévitablement confrontée à des problèmes de coût. ** À l'heure actuelle, lorsque les robots de Google font des raisonnements et des jugements, ils doivent transmettre des données au cloud, et plusieurs TPU calculeront ensemble, puis renverront les résultats au robot, et le robot effectuera l'opération. On peut imaginer que de tels calculs sont très coûteux.

Vincent Vanhoucke, directeur de la robotique chez DeepMind de Google, estime que la nouvelle recherche ouvre la porte à l'utilisation de robots dans des environnements humains - les chercheurs pensent que des robots avec des modèles de langage intégrés pourraient entrer dans les entrepôts, dans l'industrie médicale, et même en tant que un assistant à domicile, aidant à plier le linge, à retirer les articles du lave-vaisselle et à ranger la maison.

"Si vous ouvrez une usine et avez besoin d'utiliser des robots, le taux de réussite doit être très élevé. Vous ne voulez pas dire qu'après avoir acheté un robot, vous avez besoin de beaucoup de personnes pour entretenir le robot et améliorer les choses que le Le robot ne fonctionne pas bien. Alors cela Le coût est trop élevé. " Le professeur Xu Huazhe a déclaré: "Les robots dans la scène domestique peuvent être une autre situation, car peut-être que les exigences de taux de réussite pour certaines tâches dans la scène domestique ne sont pas si élevées. exemple, plier des vêtements n'est pas si bon. A vos yeux, cette mission a échoué, mais cela n'aura pas un grand impact sur vous.

Yang Likun (Yaan Lecun), l'un des trois géants de l'intelligence artificielle, a une affirmation célèbre maintes fois soulignée : l'intelligence artificielle n'est pas assez intelligente. N'importe quel enfant peut apprendre rapidement à débarrasser la table et à mettre la vaisselle au lave-vaisselle, mais pas un robot.

Cela peut être vrai pour la recherche actuelle sur les robots, mais tout comme le GPT-3 imparfait a montré à l'industrie la direction du développement de modèles à grande échelle, peut-être que le RT-2 imparfait d'aujourd'hui ouvrira également une ère future dans laquelle les robots entreront dans la maison et deviennent nos assistants.

Voir l'original

Le RT-2 de Google est-il le moment GPT-3 pour les robots ?

Appliquez Transformer au robot

L'avenir de l'interaction avec des robots en utilisant le langage naturel

**RT-2 est le moment GPT3 pour les robots ? **

RT-2 est le moment GPT3 pour les robots ?