Le grand déménagement du robot AGI de Google : équipe de 54 personnes retenue pendant 7 mois, forte généralisation et fort raisonnement, nouveaux résultats après la fusion de DeepMind et Google Brain

Source originale : Qubit

Le grand modèle explosif est en train de remodeler la recherche robot de DeepMind de Google.

L'une des dernières réalisations est le projet de robot RT-2, qui leur a pris 7 mois à construire, et qui est devenu populaire sur Internet :

Quelle est son efficacité ?

Donnez simplement un ordre en langage humain, et le petit gars devant lui peut agiter son bras robotique, réfléchir et terminer la "tâche du maître".

Comme donner de l'eau à la chanteuse pop Taylor Swift, ou identifier le logo d'une équipe vedette :

Il peut même penser activement et le laisser « ramasser des animaux disparus », et il peut choisir avec précision des dinosaures parmi les trois jouets en plastique de lions, de baleines et de dinosaures.

Dans les mots des internautes, ne sous-estimez pas cette capacité, c'est un saut logique des "animaux disparus" aux "dinosaures en plastique".

Ce qui est plus "effrayant", c'est qu'il peut facilement résoudre le ** problème de raisonnement en plusieurs étapes ** de "choisir une boisson pour une personne fatiguée" qui doit être combiné avec la chaîne de pensée - dès que la commande est entendue , la petite main ira directement au Red Bull, ne sois pas trop malin.

Certains internautes se sont lamentés après avoir lu :

Je ne peux pas attendre, avance rapide pour laver la vaisselle pour les humains (tête de chien manuelle)

Il est entendu que la réalisation de Google DeepMind a été réalisée conjointement par 54 chercheurs, et qu'il a fallu 7 mois avant et après, avant qu'elle ne devienne enfin le "si facile" que nous avons vu.

Selon le New York Times, Vincent Vanhoucke, directeur de la robotique chez Google DeepMind, estime que les grands modèles ont complètement changé l'orientation des recherches de leur département :

En raison de ce (gros modèle) changement, nous avons dû repenser l'ensemble du projet de recherche. Beaucoup de choses que nous avons étudiées auparavant ont complètement échoué.

Alors, quel genre d'effets le RT-2 peut-il obtenir, et sur quoi porte exactement cette recherche ?

Branchez le grand modèle multimodal dans le bras robotique

Le projet de robot, appelé RT-2 (Robotic Transformer 2), est une "version évolutive" du RT-1 sorti à la fin de l'année dernière.

Par rapport à d'autres recherches sur les robots, le principal avantage de RT-2 est qu'il peut non seulement comprendre les "mots humains", mais aussi raisonner sur les "mots humains" et les convertir en instructions que les robots peuvent comprendre, afin d'accomplir des tâches par étapes. .

Plus précisément, il dispose de trois fonctionnalités principales : compréhension des symboles (compréhension des symboles), raisonnement (raisonnement) et reconnaissance humaine (reconnaissance humaine).

La première capacité est la "compréhension symbolique", qui peut étendre directement la connaissance de la pré-formation de grands modèles à des données que le robot n'a jamais vues auparavant. Par exemple, bien qu'il n'y ait pas de "Red Bull" dans la base de données du robot, il peut comprendre et saisir l'apparence de "Red Bull" à partir de la connaissance du grand modèle et manipuler des objets.

La deuxième capacité est le "raisonnement", qui est également le ** principal avantage ** de RT-2, qui nécessite que le robot maîtrise les trois compétences principales que sont les mathématiques, le raisonnement visuel et la compréhension multilingue.

Compétence 1, y compris la commande de raisonnement logique mathématique, "mettez la banane dans la somme de 2 + 1":

Compétence 2, Raisonnement visuel, comme "Mettre les fraises dans le bon bol" :

La compétence 3, compréhension multilingue, peut compléter des instructions même sans anglais, par exemple, la commander en espagnol pour "choisir l'élément le plus distinctif parmi un ensemble d'éléments" :

La troisième capacité est la reconnaissance humaine, qui reconnaît et comprend avec précision le comportement humain.L'exemple de "donner de l'eau à Taylor Swift" vu au début est l'une des démonstrations de capacité.

Alors, comment ces trois capacités sont-elles réalisées ?

Pour faire simple, il s'agit de combiner les capacités de "raisonnement", de "reconnaissance" et de "mathématiques" du grand modèle multimodal visuel-texte (VLM) avec les capacités d'exploitation des robots.

Pour y parvenir, les chercheurs ont directement ajouté un mode appelé "mode d'action du robot" au grand modèle visuel-texte (VLM), le transformant ainsi en un grand modèle visuel-texte-action (VLA).

Par la suite, les données d'action originales très spécifiques du robot sont converties en un jeton de texte.

Par exemple, les données telles que le degré de rotation et le point de coordonnées à placer sont converties en texte "mettre à une certaine position".

De cette façon, les données du robot peuvent également être utilisées dans l'ensemble de données du langage visuel pour la formation. En même temps, dans le processus de raisonnement, les instructions textuelles d'origine seront reconverties en données du robot pour réaliser une série d'opérations telles que comme contrôle du robot.

C'est vrai, c'est aussi simple et impoli (tête de chien manuelle)

Dans cette recherche, l'équipe a principalement "mis à jour" sur la base d'une série de modèles de base à grande échelle de Google, dont 5 milliards et 55 milliards de PaLI-X, 3 milliards de PaLI et 12 milliards PaLM-E.

Afin d'améliorer la capacité du grand modèle lui-même, les chercheurs ont également déployé beaucoup d'efforts, en utilisant la chaîne de pensée récemment populaire, la base de données vectorielle et les architectures sans gradient.

Cette série d'opérations confère également au RT-2 de nombreux nouveaux avantages par rapport au RT-1 sorti l'année dernière.

Examinons les résultats expérimentaux spécifiques.

Jusqu'à trois fois les performances du RT-1

RT-2 utilise les données du modèle de robot de génération précédente RT-1 pour la formation (c'est-à-dire que les données n'ont pas changé, mais la méthode est différente).

Les données ont été collectées sur une période de 17 mois à l'aide de 13 robots dans un environnement de cuisine installé au bureau.

Dans le test réel (un total de 6 000 fois), l'auteur a donné à RT-2 de nombreux objets jamais vus auparavant, nécessitant que RT-2 effectue une compréhension sémantique au-delà des données de réglage fin pour terminer la tâche.

Les résultats sont tous assez bien faits:

Y compris la reconnaissance simple des lettres, des drapeaux nationaux et des caractères à la reconnaissance des animaux terrestres des poupées, la sélection de celui avec une couleur différente, et même des commandes complexes telles que ** ramasser des collations qui sont sur le point de tomber de la table **.

Du point de vue des trois capacités de subdivision de la compréhension des symboles, du raisonnement et de la reconnaissance humaine, les deux variantes de RT-2 sont bien meilleures que RT-1 et une autre méthode de pré-formation visuelle VC-1, avec une performance jusqu'à 3 fois supérieure. .

Comme mentionné précédemment, les deux variantes sont formées sur PaLM-E avec 12 milliards de paramètres et PaLI-X avec 55 milliards de paramètres, respectivement.

En termes d'évaluation de la capacité de généralisation spécifique, grâce à des tests de subdivision multi-catégories avec plusieurs modèles de base, il a finalement été constaté que les performances de RT-2 étaient améliorées d'environ 2 fois.

(Malheureusement, nous ne l'avons pas vu par rapport aux dernières méthodes robotiques basées sur le LLM d'autres équipes)

Afin de mieux comprendre comment différents paramètres de RT-2 affectent les résultats de la généralisation, l'auteur a conçu deux catégories d'évaluations :

Premièrement, en termes de taille de modèle, seule la variante RT-2 PaLI-X utilise 5 milliards de paramètres et 55 milliards de paramètres pour la formation ;

La seconde est la méthode de formation, qui adopte la méthode de formation du modèle à partir de zéro vs réglage fin vs réglage fin collaboratif.

Les résultats finaux montrent que l'importance des poids pré-formés VLM et la capacité de généralisation du modèle ont tendance à augmenter avec la taille du modèle.

De plus, les auteurs évaluent également RT-2 sur le benchmark de la table de langue open source, et les résultats montrent qu'il atteint les résultats SOTA sur le benchmark simulé (90 % contre 77 % auparavant).

Enfin, étant donné que la variante RT-2 PaLM-E est un modèle vision-langage-action qui peut agir comme un LLM, un VLM et un contrôleur de robot dans un seul réseau neuronal, RT-2 peut également effectuer un raisonnement contrôlé en chaîne de pensée.

Parmi les cinq tâches de raisonnement présentées dans la figure ci-dessous (en particulier la dernière est très intéressante : choisissez un élément qui peut remplacer le marteau), il affichera les étapes en langage naturel après avoir reçu la commande, puis donnera le jeton d'action spécifique.

Enfin, en résumé, ce dernier modèle RT-2 peut non seulement mieux s'appliquer à différentes scènes que la machine n'a jamais vues auparavant, mais a également une meilleure capacité de généralisation; en même temps, grâce à une meilleure Avec la bénédiction du grand modèle, il a également maîtrisé certaines nouvelles capacités difficiles, telles que le raisonnement.

Encore une chose

L'accent mis par Google sur la recherche robotique sur les grands modèles ne semble pas "sans fondement".

Juste au cours des deux derniers jours, un article sur "L'utilisation de grands modèles pour aider à acquérir plus de compétences en matière d'opération de robot" co-écrit avec l'Université de Columbia est également très populaire :

Cet article propose un nouveau cadre qui permet non seulement au robot de bien s'adapter au grand modèle, mais conserve également les capacités de fonctionnement et de contrôle de base du robot d'origine :

Contrairement à RT-2, ce projet a été open source :

Il est vrai que le grand modèle a été utilisé pour piloter la mise à niveau de tout le département robotique.

Rappelant les réalisations en matière d'intelligence incarnée de l'équipe de Li Feifei il n'y a pas si longtemps, on peut dire que l'utilisation de grands modèles pour conduire des robots est devenue une tendance de recherche, et nous avons vu une vague de progrès très prometteurs.

Quelles sont vos attentes vis-à-vis de cette direction de recherche ?

adresse du projet :

Lien de référence :

[1]

[2]

[3]

[4]

Voir l'original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Récompense
  • Commentaire
  • Partager
Commentaire
0/400
Aucun commentaire
  • Épingler
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)