Le robot ChatGPT est là : le grand modèle entre dans le monde réel, la percée poids lourd de DeepMind

2023-07-30 01:28:43

Envoyer des commandes aux robots n'a jamais été aussi facile.

Nous savons qu'après avoir maîtrisé le langage et les images sur Internet, le grand modèle finira par entrer dans le monde réel, et "l'intelligence incarnée" devrait être la prochaine direction de développement.

Connecter le grand modèle au robot, utiliser un langage naturel simple au lieu d'instructions complexes pour former un plan d'action spécifique, sans données ni formation supplémentaires, cette vision semble bonne, mais elle semble un peu lointaine. Après tout, le domaine de la robotique est notoirement difficile.

Cependant, l'IA évolue plus vite que nous ne le pensions.

Ce vendredi, Google DeepMind a annoncé le lancement de RT-2 : le premier modèle Vision-Langage-Action (VLA) au monde pour le contrôle des robots.

Maintenant que les instructions complexes ne sont plus utilisées, le robot peut être manipulé directement comme ChatGPT.

À quel point RT-2 est-il intelligent ? Les chercheurs de DeepMind l'ont montré avec un bras robotique, ont dit à l'IA de choisir des "animaux éteints", le bras s'est étiré, les griffes se sont ouvertes et sont tombées, et il a attrapé la poupée de dinosaure.

Avant cela, les robots ne pouvaient pas comprendre de manière fiable des objets qu'ils n'avaient jamais vus, et encore moins des choses comme lier des "animaux disparus" à des "poupées de dinosaures en plastique".

Dites au robot de donner à Taylor Swift la canette de Coca :

On peut voir que ce robot est un vrai fan, ce qui est une bonne nouvelle pour les humains.

Le développement de grands modèles de langage comme ChatGPT déclenche une révolution dans le domaine des robots.Google a installé les modèles de langage les plus avancés sur les robots, pour qu'ils aient enfin un cerveau artificiel.

Dans un article récemment soumis par DeepMind, les chercheurs ont déclaré que le modèle RT-2 est formé sur la base de données de réseau et de robot, en utilisant les progrès de la recherche de modèles de langage à grande échelle tels que Bard, et en le combinant avec des données de robot. peut également comprendre des instructions dans des langues autres que l'anglais.

Les dirigeants de Google affirment que le RT-2 est un saut quantique dans la façon dont les robots sont construits et programmés. "A cause de ce changement, nous avons dû repenser tout notre plan de recherche", explique Vincent Vanhoucke, directeur de la robotique chez Google DeepMind. "Beaucoup de choses que je faisais avant sont complètement inutiles."

Comment RT-2 est-il implémenté ?

Le RT-2 de DeepMind est démonté et lu comme Robotic Transformer - le modèle de transformateur du robot.

Ce n'est pas une tâche facile pour les robots de comprendre la parole humaine et de démontrer la capacité de survie comme dans les films de science-fiction. Comparé à l'environnement virtuel, le monde physique réel est complexe et désordonné, et les robots ont généralement besoin d'instructions complexes pour faire des choses simples pour les humains. Au lieu de cela, les humains savent instinctivement quoi faire.

Auparavant, il fallait beaucoup de temps pour former le robot et les chercheurs devaient créer des solutions pour différentes tâches individuellement, mais avec la puissance du RT-2, le robot peut analyser plus d'informations par lui-même et déduire ce qu'il faut faire ensuite.

RT-2 s'appuie sur le modèle Vision-Langage (VLM) et crée un nouveau concept : le modèle Vision-Langage-Action (VLA), qui peut apprendre des données du réseau et du robot et combiner ces connaissances Traduire en instructions générales que le robot peut contrôle. Le modèle était même capable d'utiliser des indices de chaîne de pensée comme quelle boisson serait la meilleure pour une personne fatiguée (boissons énergisantes).

Architecture RT-2 et processus de formation

En fait, dès l'année dernière, Google a lancé la version RT-1 du robot.Un seul modèle pré-formé est nécessaire, et RT-1 peut générer des instructions à partir de différentes entrées sensorielles (telles que la vision, le texte, etc. ) pour exécuter plusieurs tâches. type de tâche.

En tant que modèle pré-formé, il nécessite naturellement beaucoup de données pour que l'apprentissage auto-supervisé se construise bien. RT-2 s'appuie sur RT-1 et utilise les données de démonstration RT-1 collectées par 13 robots dans un environnement de bureau et de cuisine pendant 17 mois.

DeepMind créé un modèle VLA

Nous avons mentionné précédemment que RT-2 est construit sur la base de VLM, où les modèles VLM ont été formés sur des données à l'échelle du Web et peuvent être utilisés pour effectuer des tâches telles que la réponse visuelle aux questions, la génération de sous-titres d'image ou la reconnaissance d'objets. En outre, les chercheurs ont également apporté des ajustements adaptatifs aux deux modèles VLM proposés précédemment PaLI-X (Pathways Language and Image model) et PaLM-E (Pathways Language model Embodied), en tant que colonne vertébrale de RT-2, et ces modèles The Vision -Les versions Langue-Mouvement sont appelées RT-2-PaLI-X et RT-2-PaLM-E.

Pour que le modèle de langage visuel puisse contrôler le robot, il est encore nécessaire de contrôler le mouvement. L'étude a adopté une approche très simple : ils ont représenté des actions de robots dans une autre langue, des jetons de texte, et les ont entraînés avec un ensemble de données de langage de vision à l'échelle du Web.

Le codage de mouvement pour le robot est basé sur la méthode de discrétisation proposée par Brohan et al pour le modèle RT-1.

Comme le montre la figure ci-dessous, cette recherche représente les actions du robot sous forme de chaînes de texte, qui peuvent être une séquence de numéros de jetons d'action du robot, tels que "1 128 91 241 5 101 127 217".

La chaîne commence par un indicateur indiquant si le robot continue ou termine l'épisode en cours, et le robot modifie ensuite la position et la rotation de l'effecteur terminal et des commandes telles que la pince du robot comme indiqué.

Étant donné que les actions sont représentées sous forme de chaînes de texte, il est aussi facile pour un robot d'exécuter une commande d'action qu'une commande de chaîne. Avec cette représentation, nous pouvons directement affiner les modèles vision-langage existants et les convertir en modèles vision-langage-action.

Pendant l'inférence, les jetons de texte sont décomposés en actions de robot pour obtenir un contrôle en boucle fermée.

Expérimental

Les chercheurs ont réalisé une série d'expériences qualitatives et quantitatives sur le modèle RT-2.

La figure ci-dessous montre les performances de RT-2 sur la compréhension sémantique et le raisonnement de base. Par exemple, pour la tâche de "mettre les fraises dans le bon bol", RT-2 doit non seulement comprendre la représentation des fraises et des bols, mais doit également raisonner dans le contexte de la scène pour savoir que les fraises doivent être placées avec fruits similaires Ensemble. Pour la tâche de ramasser un sac qui est sur le point de tomber d'une table, RT-2 doit comprendre les propriétés physiques du sac pour lever l'ambiguïté entre les deux sacs et identifier les objets dans des positions instables.

Il convient de noter que toutes les interactions testées dans ces scénarios n'ont jamais été observées dans des données robotiques.

La figure ci-dessous montre que le modèle RT-2 surpasse les lignes de base précédentes RT-1 et vision pré-entraînée (VC-1) sur quatre points de référence.

RT-2 préserve les performances du robot sur la tâche d'origine et améliore les performances du robot sur des scénarios inédits, de 32 % à 62 % pour RT-1.

Une série de résultats montrent que le modèle vision-langage (VLM) peut être transformé en un puissant modèle vision-langage-action (VLA), et le robot peut être directement contrôlé en combinant la pré-formation VLM avec les données du robot.

Semblable à ChatGPT, si une telle capacité est appliquée à grande échelle, on estime que le monde subira des changements considérables. Cependant, Google n'a pas de plans immédiats pour appliquer le robot RT-2, affirmant seulement que les chercheurs pensent que ces robots capables de comprendre la parole humaine ne s'arrêteront jamais au niveau des capacités de démonstration.

Imaginez simplement un robot avec un modèle de langage intégré qui peut être placé dans un entrepôt, récupérer vos médicaments pour vous, ou même être utilisé comme assistant domestique - plier le linge, retirer les articles du lave-vaisselle et ranger la maison.

Cela peut vraiment ouvrir la porte à l'utilisation de robots dans un environnement humain, et toutes les directions qui nécessitent un travail manuel peuvent être prises en charge - c'est-à-dire, dans le précédent rapport OpenAI sur la prédiction de l'impact de ChatGPT sur les emplois, la partie que le grand modèle ne peut pas affecter peut maintenant est couvert.

L'intelligence incarnée, pas loin de chez nous ?

Depuis peu, l'intelligence incarnée est une voie qu'un grand nombre de chercheurs explorent. Ce mois-ci, l'équipe Li Feifei de l'Université de Stanford a démontré de nouveaux résultats. Grâce à un grand modèle de langage et à un modèle de langage visuel, l'IA peut analyser et planifier dans l'espace 3D et guider les actions du robot.

La start-up de robots humanoïdes universels de Zhihui Jun, "Agibot", a publié une vidéo hier soir, qui a également démontré les capacités de programmation automatique et d'exécution de tâches des robots basés sur de grands modèles de langage.

Il est prévu qu'en août, la société de Zhihui Jun présentera certaines réalisations récentes au monde extérieur.

On peut voir que dans le domaine des grands modèles, il y a encore de grandes choses qui se préparent.

Contenu de référence :

Voir l'original

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.