CMU Tsinghua MIT a fait exploser le premier flux infini d’agents au monde, et le robot « 007 » ne peut pas arrêter de faire des heures supplémentaires et d’apprendre par lui-même ! L’intelligence incarnée est révolutionnée

2023-11-04 08:23:51

Source de l’article : New Zhiyuan

Editeur : Énée a sommeil

Récemment, RoboGen, le premier agent robotique génératif au monde proposé par CMU/MIT/Tsinghua/Umass, peut générer des données à l’infini et permettre aux robots de s’entraîner sans interruption 24 heures sur 24, 7 jours sur 7. AIGC for Robotics est en effet la voie de l’avenir.

Le premier agent de bot génératif au monde a été lancé !

Pendant longtemps, comparé aux modèles de langage ou de vision qui peuvent être entraînés sur des données Internet à grande échelle, le modèle de stratégie pour l’entraînement des robots nécessite des données avec des informations d’interaction physique dynamiques, et le manque de ces données a toujours été le plus grand goulot d’étranglement dans le développement de l’intelligence incarnée.

Récemment, des chercheurs de la CMU, de l’Université Tsinghua, du MIT, de l’UMass et d’autres institutions ont proposé un nouvel agent RoboGen.

En utilisant les connaissances à grande échelle contenues dans les grands modèles de langage et les modèles génératifs, couplés aux informations physiques fournies par des mondes simulés réalistes, diverses tâches, scénarios et données d’enseignement peuvent être générés « de manière illimitée », et le robot peut être entièrement entraîné 24 heures sur 24, 7 jours sur 7.

À l’heure actuelle, nous sommes rapidement à court de jetons réels de haute qualité sur le réseau. Les données utilisées pour former l’IA dans le monde entier s’épuisent.

Hinton, le père de l’apprentissage profond, a déclaré : « Les entreprises technologiques entraînent de nouveaux modèles avec une puissance de calcul 100 fois supérieure à celle de GPT-4 au cours des 18 prochains mois. » Les paramètres du modèle sont plus importants et la demande de puissance de calcul est énorme, mais où sont les données ?

Face à des modèles affamés, la synthèse de l’IA est la réponse.

Adresse:

Page d’accueil du projet :

Adresse Open Source :

Plus précisément, une équipe de recherche dirigée par Gan Chuang, scientifique en chef au MIT-IBM, a proposé une boucle « proposer-générer-apprendre » avec le soutien de l’IA générative et des simulations physiques différentiables, permettant aux agents de résoudre des problèmes et d’entraîner des robots par eux-mêmes.

Tout d’abord, l’agent nous a suggéré de développer cette compétence.

Il génère ensuite l’environnement, la configuration et les conseils d’apprentissage des compétences appropriés pour créer un environnement simulé.

Enfin, l’agent décomposera la tâche de niveau supérieur proposée en sous-tâches, sélectionnera la meilleure méthode d’apprentissage, puis apprendra la stratégie et maîtrisera les compétences proposées.

Il convient de noter que l’ensemble du processus ne nécessite presque aucune supervision humaine et que le nombre de tâches est illimité !

Pour cette étude à succès, Jim Fan, scientifique principal chez NVIDIA, l’a également transmise.

Maintenant, le robot a appris une série d’opérations de dynamitage -

Mettez vos affaires dans un casier :

Cuire un bol de soupe au micro-ondes :

Tirez sur le levier pour préparer le café :

Ainsi que des backflips et plus encore :

L’environnement simulé, la clé de l’apprentissage de compétences diverses

L’éternel dilemme de la recherche en robotique est de savoir comment donner aux robots les compétences nécessaires pour opérer dans des environnements autres que les usines et effectuer un large éventail de tâches pour les humains.

Au cours des dernières années, nous avons enseigné aux robots une variété de compétences complexes, telles que la manipulation de fluides, le lancer d’objets, le football, le parkour, etc., mais ces compétences sont cloisonnées, ont un champ de vision court et nécessitent des descriptions de tâches conçues par l’homme et une supervision de la formation.

Étant donné que la collecte de données dans le monde réel est coûteuse et laborieuse, ces compétences sont entraînées dans des simulations randomisées dans le domaine approprié, puis déployées dans le monde réel.

Les environnements simulés présentent de nombreux avantages par rapport à l’exploration et à la collecte de données dans le monde réel, tels que la fourniture d’un accès privilégié à un état de bas niveau et des possibilités illimitées d’exploration ; Prend en charge le calcul massivement parallèle et la vitesse de collecte des données est considérablement accélérée ; Permet aux bots de développer des stratégies en boucle fermée et des capacités de récupération d’erreurs.

Cependant, la création d’un environnement simulé nécessite une série de tâches fastidieuses (conception de tâches, sélection d’actifs pertinents et sémantiquement significatifs, génération de mises en page et de configurations de scénarios sensées, formulation de la supervision de l’entraînement telles que les fonctions de récompense ou de perte). Même dans le monde simulé, l’évolutivité de l’apprentissage des compétences robotiques est très limitée.

Par conséquent, les chercheurs proposent un paradigme de « simulation générative » qui combine les progrès dans l’apprentissage des compétences robotiques simulées avec les dernières avancées en matière de modèles fondamentaux et génératifs.

En tirant parti des capacités de génération des modèles de base de pointe, les simulations génératives peuvent générer des informations pour toutes les étapes requises pour les différentes compétences robotiques de la simulation.

Grâce aux connaissances approfondies en matière de codage des modèles de base les plus récents, les données de scénario et de tâche ainsi générées peuvent être très similaires à la distribution de scénarios réels.

En outre, ces modèles peuvent fournir des sous-tâches de bas niveau décomposées qui peuvent être gérées de manière transparente par des méthodes d’apprentissage des politiques spécifiques à un domaine, ce qui donne lieu à des démonstrations en boucle fermée de diverses compétences et scénarios.

Processus RoboGen

RoboGen est un processus entièrement automatisé qui permet aux robots d’apprendre diverses compétences 24 heures sur 24 et 7 jours sur 7 et se compose de 4 étapes :

Proposition de tâche ;
Génération de scènes ;
Formation à la génération supervisée ;
Utilisez les informations générées pour l’apprentissage des compétences.

En tirant parti du bon sens et des capacités de génération intégrés des derniers modèles de base, RoboGen peut automatiser la génération de tâches, de scénarios et la supervision de la formation, permettant ainsi un apprentissage multi-compétences pour les robots à grande échelle.

Suggestion de tâche

À ce stade, RoboGen est capable de proposer des tâches de niveau supérieur, de générer l’environnement correspondant, de décomposer les objectifs de niveau supérieur en sous-tâches de bas niveau, puis d’apprendre des sous-compétences de manière séquentielle.

Tout d’abord, RoboGen génère des tâches significatives, diversifiées et de haut niveau que le robot doit apprendre.

Le chercheur initialise le système à l’aide d’un type de robot spécifique et d’échantillons aléatoires d’objets du pool. Les informations fournies sur le robot et l’échantillon d’objet sont ensuite saisies dans le LLM.

Ce processus d’échantillonnage assure la diversité des tâches de production.

Par exemple, un robot à pattes tel qu’un robot quadrupède peut acquérir une variété d’habiletés motrices, tandis qu’un manipulateur de bras robotique, lorsqu’il est couplé, a le potentiel d’effectuer une variété de tâches de manipulation avec différents objets d’échantillonnage.

Les chercheurs ont utilisé GPT-4 pour effectuer des requêtes dans le processus actuel. S’ensuit une explication des détails de RoboGen dans le contexte d’une machine, ainsi que des tâches liées à la manipulation d’objets.

Les objets utilisés pour l’initialisation sont échantillonnés à partir d’une liste prédéfinie, y compris les objets articulés et non articulés qui sont courants dans les scènes domestiques, tels que les fours, les micro-ondes, les distributeurs d’eau, les ordinateurs portables, les lave-vaisselle, etc.

Étant donné que GPT-4 a été entraîné sur de grands ensembles de données Internet, il a une compréhension approfondie de l’affordance de ces objets, de la façon d’interagir avec eux et des tâches significatives auxquelles ils peuvent être associés.

Par exemple, si l’objet articulé échantillonné est un four à micro-ondes, où le joint 0 est le joint rotatif qui relie la porte et le joint 1 est un autre joint rotatif qui contrôle le bouton de la minuterie, GPT-4 renverra une tâche - « Le bras du robot met un bol de soupe dans le four à micro-ondes, ferme la porte et règle la minuterie du micro-ondes pour chauffer le temps a ».

Les autres objets requis pour la tâche générée, il y a un bol de soupe a, ainsi que les articulations et les liens associés à la tâche, y compris la liaison 0 (pour ouvrir la porte du micro-ondes), la liaison 1 (pour régler la minuterie), la liaison 0 (vers la porte) et la liaison 1 (le bouton de la minuterie).

Pour les objets articulés, étant donné que PartNetMobility est le seul jeu de données d’objets articulés de haute qualité et qu’il couvre déjà un large éventail d’actifs articulés, les tâches sont générées en fonction des actifs échantillonnés.

En interrogeant à plusieurs reprises différents objets échantillonnés et exemples, il est possible de générer une variété d’opérations et de tâches de mouvement.

Génération de scènes

À partir d’une tâche, vous pouvez continuer à générer le scénario de simulation correspondant pour acquérir les compétences nécessaires à l’exécution de cette tâche.

Comme le montre l’image, les composants et les configurations de la scène sont générés en fonction de la description de la tâche, et les ressources de l’objet sont récupérées ou générées, qui sont ensuite renseignées avec la scène de simulation.

Les composants et configurations de scène sont constitués des éléments suivants : une requête pour la ressource associée à renseigner dans la scène, ses paramètres physiques (tels que la taille), sa configuration (telle que l’angle de liaison initial) et la configuration spatiale globale de la ressource.

En plus des ressources d’objet nécessaires à la tâche générée à l’étape précédente, afin d’augmenter la complexité et la diversité de la scène générée, tout en ressemblant à la distribution d’objets de la scène réelle, les chercheurs ont également demandé à GPT-4 de renvoyer des requêtes supplémentaires pour les objets liés à la sémantique de la tâche.

Par exemple, pour la tâche « Ouvrez l’armoire, mettez-y le jouet et fermez-le », la scène résultante comprendra également un tapis de salon, une lampe, un livre et une chaise de bureau.

### Formation Génération supervisée

Afin d’acquérir des compétences pertinentes, l’apprentissage des compétences doit être supervisé.

RoboGen interrogera d’abord GPT-4 pour planifier et décomposer les tâches longues en sous-tâches plus courtes.

Une hypothèse clé est que lorsqu’une tâche est décomposée en sous-tâches suffisamment courtes, chaque sous-tâche peut être résolue de manière fiable par des algorithmes existants tels que l’apprentissage par renforcement, la planification du mouvement, l’optimisation de la trajectoire, etc.

Après la décomposition, RoboGen interroge GPT-4 pour sélectionner l’algorithme approprié pour résoudre chaque sous-tâche.

Plusieurs types d’algorithmes d’apprentissage sont intégrés dans Robogen : l’apprentissage par renforcement, les stratégies évolutives, l’optimisation de trajectoire basée sur le gradient et l’initialisation d’actions avec planification de mouvement.

Chacune d’entre elles convient à différentes tâches, telles que l’optimisation de trajectoire basée sur le gradient, qui convient mieux à l’apprentissage de tâches de manipulation fines impliquant des corps mous, telles que la mise en forme de la pâte dans une forme cible.

L’initialisation de l’action en combinaison avec la planification de mouvement est plus fiable lors de la résolution de tâches, telles que l’approche d’un objet cible via une trajectoire sans collision.

L’apprentissage par renforcement et les stratégies évolutives sont mieux adaptés aux tâches riches en contacts qui impliquent une interaction constante avec d’autres composants de la scène, tels que les mouvements des jambes, ou lorsque l’action souhaitée ne peut pas simplement être paramétrée par une pose d’effecteur final discret, comme tourner le bouton d’un four.

En résumé, GPT-4 choisit l’algorithme à utiliser en ligne en fonction des sous-tâches générées.

Ensuite, il est temps de construire un scénario de simulation pour le robot et de lui permettre d’acquérir des compétences.

Le robot apprend à ouvrir le coffre-fort

Par exemple, RoboGen demandera au robot d’apprendre la tâche très délicate d’ajuster la direction d’une lampe de bureau.

Il est intéressant de noter que dans cette scène, il y a des objets fragiles tels que des écrans d’ordinateur sur le sol.

On peut dire qu’il s’agit d’un excellent test de la capacité de reconnaissance environnementale du robot.

Pour cela, RoboGen génère un code d’opération très détaillé, incluant la configuration de la scène, la décomposition des tâches et la supervision :

De plus, les tâches qui nécessitent de nombreuses étapes à accomplir, comme demander au robot de sortir le contenu du coffre-fort, seront entraînées.

Cela implique l’ouverture, la prise, le dépôt, la fermeture de la porte et d’autres opérations, au cours desquelles il est également nécessaire d’essayer d’éviter les collisions avec les meubles.

Le code donné par RoboGen est le suivant :

Ou, par exemple, avoir un robot humanoïde à Boston Dynamics qui tourne en place, qui peut être rencontré dans un petit espace.

Voici le code :

Résultats expérimentaux

- Diversité des quêtes

Comme le montre le tableau 1, RoboGen obtient la plus faible similarité d’auto-BLEU et d’intégration par rapport à tous les benchmarks précédents. En d’autres termes, la diversité des tâches de génération de RoboGen est supérieure à celle des benchmarks et des ensembles de données d’apprentissage des compétences fabriqués artificiellement !

- Efficacité du scénario

Comme le montre la figure 4, la suppression de la vérification de la taille entraîne une forte baisse des scores BLIP-2 en raison de l’écart important entre la taille des objets dans Objaverse et PartNetMobility et la taille réelle dans le monde réel. De plus, BLIP-2 sans validation d’objet avait également un score plus faible et une variance plus élevée.

En revanche, l’étape de validation dans RoboGen peut améliorer considérablement l’efficacité de la sélection d’objets.

- Efficacité des instructions de formation

Comme le montre la figure 3, le robot acquiert des compétences en fonction des conseils d’entraînement (c’est-à-dire la décomposition des tâches et la fonction de récompense) générés par RoboGen dans quatre tâches à longue portée.

Les résultats montrent que le robot apprend avec succès les compétences nécessaires pour accomplir les tâches correspondantes. En d’autres termes, les coachs de formation générés automatiquement sont efficaces pour obtenir des compétences significatives et utiles.

- Apprentissage des compétences

Les résultats du tableau 2 montrent que le fait de permettre le choix de l’algorithme d’apprentissage est bénéfique pour améliorer les performances de l’exécution de la tâche. Si vous n’utilisez que RL, vous échouerez à l’apprentissage des compétences pour la plupart des tâches.

-Système

Comme le montre la figure 1, RoboGen peut générer une variété de tâches pour l’apprentissage des compétences, y compris la manipulation d’objets rigides/articulaires, la locomotion et la manipulation de corps mous.

La figure 3 montre en outre que RoboGen est capable de fournir des compétences opérationnelles à longue portée d’une manière raisonnable de décomposition.

Introduction de l’auteur

Yufei Wang est étudiant en troisième année de doctorat à l’Institut de robotique de l’Université Carnegie Mellon, où il est supervisé par le professeur Zackory Erickson et le professeur David Held, avec un intérêt de recherche dans l’apprentissage de la robotique.

Auparavant, il a obtenu sa maîtrise en informatique de la CMU en décembre 2020 sous la supervision du professeur David Held, et sa licence en science des données du Yuanpei College de l’Université de Pékin en juillet 2019 sous la supervision du professeur Bin Dong.

Zhou Xian est doctorant à l’Institut de robotique de l’Université Carnegie Mellon sous la supervision de Katerina Fragkiadaki. Ses intérêts de recherche sont la robotique, la vision par ordinateur et l’apprentissage par modèle mondial.

Avant de rejoindre la CMU, il a obtenu sa licence à l’Université technologique de Nanyang, à Singapour, sous la supervision de Pham Quang Cuong et I-Ming Chen. Il a également effectué des stages chez Meta AI, Akshara Rai et MIT-IBM AI Lab sous le mentorat de Chuang Gan.

Actuellement, ses recherches portent sur la création d’une stratégie neuronale unifiée et d’une infrastructure de simulation pour l’apprentissage robotique évolutif.

En outre, il y a aussi Chen Feng de Tsinghua Yao Ban.

Le chef d’équipe, Gan Chuang, est actuellement le scientifique en chef d’IBM et professeur adjoint à l’Université du Massachusetts, et est un disciple de l’académicien Yao Chizhi. Au cours de son doctorat, il a remporté le prix spécial Tsinghua, le Microsoft Scholar et le Baidu Scholar. Ses recherches ont été financées par l’Amazon Research Award, le Sony Faculty Award, le Cisco Faculty Award, le Microsoft Accelerate Foundation Models Research Program et d’autres.

Ressources:

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

Récompense
J'aime
Commentaire
Reposter
Partager

Commentaire

0/400

Aucun commentaire

Rubrique
#Gate & WLFI USD1 Points Program
62k Popularité
#Trump Allows 401(k) Crypto Investing
36k Popularité
#Join Copy Trading Share to Win $2,000
29k Popularité
#Show My Alpha Points
77k Popularité
#SOL Futures Reach New High
22k Popularité

Épingler