Il a fallu 2 ans, Meta s'est associé à CMU pour créer la plus puissante "intelligence robotique universelle" ! Un généraliste qui essuie le thé et les bols, généralise facilement plus de 100 tâches inconnues

**Source :**Xinzhiyuan

**Guide : ** Sur le chemin de "l'intelligence robotique universelle", Google est devenu populaire avec RT-2. Désormais, le RoboAgent, qui a mis 2 ans à être construit par les équipes Meta et CMU, utilise une petite quantité de données pour réaliser 12 compétences complexes, et il peut tout faire, de la préparation du thé à l'essuyage de la table.

Le modèle explosif remodèle la recherche des "agents robotiques universels".

Il y a quelque temps, Google DeepMind a lancé le projet RT-2, qui a pris 7 mois à construire, capable de raisonner mathématiquement et d'identifier les étoiles, et qui est devenu populaire sur Internet.

En plus de Google, des chercheurs de Meta et de CMU ont passé 2 ans à construire l'agent robotique polyvalent le plus puissant "RoboAgent" de l'histoire.

La différence est que RoboAgent n'est formé que sur 7500 trajectoires.

Plus précisément, RoboAgent a mis en œuvre 12 compétences complexes différentes dans 38 tâches, telles que cuisiner, ramasser des articles, servir du thé, nettoyer la cuisine, etc.

Même, sa capacité peut être généralisée à 100 scénarios inconnus.

On peut dire que si vous montez dans le hall, vous pouvez descendre dans la cuisine.

Fait intéressant, peu importe à quel point vous interférez, RoboAgent parvient toujours à terminer la tâche.

Que peut faire d'autre RoboAgent ?

Cuisson, service du thé, nettoyage de la table à la main

Tout d'abord, RoboAgent peut ouvrir ou fermer les tiroirs en douceur.

Bien que le yaourt ait été presque renversé lorsqu'il a été ouvert, il n'y avait pratiquement aucun décalage dans la connexion de l'action, et l'action de pousser et de tirer s'est déroulée en douceur.

En plus des tiroirs, RoboAgent peut facilement ouvrir ou fermer la porte du four à micro-ondes.

Mais au lieu de saisir la poignée comme un humain, il s'est coincé dans l'espace entre la poignée et la porte, et a ouvert et fermé la porte du micro-ondes avec force.

De même, lorsqu'il est confronté aux couvercles des bouteilles et des bocaux, RoboAgent peut également manipuler, ouvrir et fermer les couvercles avec précision - jamais en désordre.

Cependant, en cuisine, en plus des bocaux d'assaisonnement couverts, il y a aussi quelques bocaux qu'il faut dévisser, comme le vin de cuisson et le Laoganma, etc...

Heureusement, pour diverses tâches de sélection et de placement, RoboAgent n'a pratiquement rien à craindre.

Dans la vidéo, RoboAgent sort des choses du tiroir, ou met des sachets de thé dans des tasses, allume le micro-ondes et met des bols, etc. Ce qui est montré, c'est que RoboAgent peut comprendre la série d'actions impliquées dans des tâches telles que faire du thé et chauffer des aliments.

Organiser et combiner les neuf actions ci-dessus peut essentiellement couvrir une série de tâches dans la cuisine.

Les exemples incluent la préparation de la cuisson, le nettoyage de la cuisine, le service de la soupe, la préparation du thé, le rangement des couverts, etc.

Lors de la préparation de la cuisson, la première étape consiste à ouvrir le tiroir et à trouver le beurre à l'intérieur. Lorsque vous l'avez trouvé, placez le beurre sur la planche à découper et fermez enfin le tiroir.

Il semble que la séquence logique de la série d'actions de RoboAgent soit très proche de la scène de la vie réelle.

Mais RoboAgent n'est toujours pas aussi flexible que les humains, sans compter que les humains ont deux mains, qui peuvent tenir le beurre d'une main et fermer le tiroir de l'autre. Même avec une seule main, un humain peut tenir le beurre tout en repoussant le tiroir sur le côté. Mais RoboAgent ne peut que déposer le beurre en premier, puis fermer le tiroir.

Il n'a pas l'air si souple.

Lors du nettoyage de la cuisine, RoboAgent effectue également quatre étapes :

Fermez d'abord le tiroir, puis le micro-ondes. Retirez ensuite une serviette sur le côté et essuyez enfin la planche à découper.

Pour servir la soupe, RoboAgent allume d'abord le micro-ondes, puis retire le bol du micro-ondes. Posez ensuite le bol sur la table et enfin éteignez le micro-onde.

Mais les performances de RoboAgent ici ne sont pas si rassurantes.

On peut seulement dire qu'heureusement, le bol de la vidéo de démonstration est vide. Si RoboAgent est vraiment autorisé à ramasser le bol rempli de nourriture dans la réalité, on estime que la nourriture sera éparpillée sur le sol dès qu'elle sera cueillie. ça monte.

Cependant, RoboAgent est pratique pour faire du thé :

Retirez d'abord le couvercle de la théière, sortez le sachet de thé de l'intérieur, puis déposez le sachet de thé dans la tasse avec précision, et enfin prenez le couvercle et remettez-le sur la théière.

Mais c'est un pas de plus vers la tasse de thé parfaite : versez de l'eau. Ou RoboAgent nous invite-t-il à boire de l'air parfumé au thé ?

En regardant les performances du RoboAgent mentionné ci-dessus, bien que la plupart des tâches puissent être accomplies en douceur, il est encore trop gênant de n'avoir qu'une seule main.

J'espère que Meta et CMU pourront donner plus de mains à RoboAgent, afin qu'il puisse faire plusieurs choses en même temps, améliorant ainsi considérablement l'efficacité.

Il a fallu 2 ans pour créer un "agent robot universel"

Les chercheurs de Meta et CMU espèrent que RoboAgent pourra devenir un véritable agent robotique polyvalent.

Depuis 2 ans, ils font constamment avancer le projet. RoboAgent est une collection de recherches multidirectionnelles, et c'est aussi le point de départ pour d'autres directions de recherche à l'avenir.

Dans le développement des "agents robots universels", les chercheurs se sont inspirés de nombreux projets récents d'apprentissage robotique généralisable.

A l'heure actuelle, sur la voie d'un robot agent général, deux problèmes majeurs doivent être résolus.

** L'un est le dilemme de cause à effet. **

Avoir un robot capable de manipuler des objets arbitraires dans différents environnements est un objectif lointain et ambitieux depuis des décennies. Cela est dû en partie à un manque d'ensembles de données pour former ces agents, mais aussi à un manque d'agents généraux capables de générer de telles données.

La seconde est de sortir du cercle vicieux. **

Pour sortir de ce cercle vicieux, la recherche s'attache à développer un paradigme efficace.

Il peut fournir un agent général capable d'acquérir de multiples compétences avec un budget de données réaliste et de les généraliser à diverses situations inconnues.

Adresse papier :

Selon l'introduction, RoboAgent est construit sur les éléments modulaires et indemnisables suivants :

- Stylo Robo:

L'infrastructure robotique distribuée construite avec du matériel de base peut fonctionner sans interruption pendant une longue période.

- RoboHive:

Un cadre unifié pour l'apprentissage des robots à travers la simulation et les opérations du monde réel.

- Ensemble Robo: Un ensemble de données de haute qualité représentant diverses compétences d'objets du quotidien dans différents scénarios.

- MT-ACT:

Un cadre efficace pour l'apprentissage par imitation hors ligne dans le multitâche conditionnel linguistique. Il multiplie les ensembles de données hors ligne en créant un ensemble diversifié d'augmentations sémantiques basées sur l'expérience robotique existante et utilise une nouvelle architecture de politique avec une représentation d'action efficace pour récupérer des politiques hautes performances dans un budget de données.

Bloc d'action, nouvelle structure MT-ACT

Afin d'apprendre les politiques générales de fonctionnement, les robots doivent être exposés à des expériences riches et diverses, y compris diverses compétences et changements environnementaux.

Cependant, les coûts opérationnels et les défis pratiques liés à la collecte d'un ensemble de données aussi vaste limitent la taille globale de l'ensemble de données.

Les chercheurs visent à remédier à ces limitations en développant un paradigme qui peut apprendre des agents multitâches efficaces avec un budget de données limité.

Comme le montre la figure ci-dessous, les équipes Meta et CMU ont proposé MT-ACT, le Multi-Task Action Chunking Transformer (Multi-Task Action Chunking Transformer).

Cette méthode se compose de 2 étapes :

Phase 1 : Amélioration sémantique

RoboAgent injecte des priors mondiaux à partir de modèles de base existants en créant une augmentation sémantique de l'ensemble de données RoboSet (MT-ACT).

L'ensemble de données résultant multiplie l'expérience du robot avec les précédents mondiaux sans coût humain/robot supplémentaire.

Les chercheurs ont ensuite utilisé le SAM pour segmenter et améliorer sémantiquement l'objet cible en objets distincts avec des variations de forme, de couleur et de texture.

Phase 2 : Représentation efficace des politiques

L'ensemble de données résultant est multimodal, contenant une grande variété de compétences, de tâches et de scénarios.

En adaptant la segmentation d'action aux environnements multitâches, les chercheurs développent MT-ACT - une représentation politique nouvelle et efficace qui peut ingérer des ensembles de données hautement multimodaux tout en évitant le surajustement dans les environnements à faible budget de données.

Voici les différentes composantes de la stratégie MT-ACT.

Ensemble de données RoboSet

L'objectif de l'étude était d'établir un paradigme d'apprentissage robotique efficace en termes de données, pour lequel les chercheurs se sont limités à un ensemble de données congelées, pré-collectées, petites mais diverses.

Pour capturer la diversité comportementale, les chercheurs ont également appliqué différentes compétences à différentes tâches dans différents scénarios de cuisine.

Dans ce projet, le jeu de données RoboSet (MT-ACT) est constitué de 7500 trajectoires collectées par téléopération humaine.

L'ensemble de données contient 12 compétences couvrant plusieurs tâches et scénarios.

La figure ci-dessous montre la répartition des compétences dans l'ensemble de données.

Alors que la compétence « pick-and-place » couramment utilisée représente 40 % de l'ensemble de données, des compétences de contact riches telles que l'essuyage, le recouvrement et les compétences impliquant des objets articulés (flip-open, flip-close) sont également incluses.

Les chercheurs ont collecté l'ensemble des données dans 4 instances différentes de scènes de cuisine, qui contiennent divers objets du quotidien.

De plus, l'équipe a échangé chaque instance de la scène avec différentes variantes de l'objet, permettant à chaque capacité d'atteindre plusieurs objets cibles et instances de la scène.

Augmentation des données

Étant donné que les ensembles de données collectés ne peuvent pas satisfaire le besoin de diversité des scènes et des objets, les chercheurs augmentent l'ensemble de données en ajoutant différentes scènes changeantes hors ligne tout en préservant le comportement de manipulation dans chaque trajectoire.

S'appuyant sur les avancées récentes des modèles de segmentation et d'inpainting, les chercheurs distillent des priors sémantiques du monde réel à partir de données Internet pour modifier les scènes de manière structurée.

Architecture MT-ACT

L'architecture de politique de MT-ACT est conçue comme un modèle de transformateur avec une capacité suffisante pour gérer des ensembles de données de robots multitâches multimodaux.

Pour capturer des données multimodales, les chercheurs suivent des travaux antérieurs en ajoutant un CVAE qui encode les séquences d'action sous forme d'incorporations de style latent z.

Pour modéliser les données multi-tâches, nous utilisons un encodeur de langage pré-formé qui apprend un T d'intégration d'une description spécifique à la tâche.

Pour réduire le problème d'erreur composée, les actions à H pas d'avance sont prédites à chaque pas de temps et effectuées par lissage temporel des actions qui se chevauchent prédites à un pas de temps particulier.

De plus, pour améliorer la robustesse aux changements de scène, les chercheurs ont fourni à la stratégie MT-ACT quatre vues différentes de l'espace de travail à travers 4 angles de caméra.

Ensuite, une méthode de conditionnement basée sur FiLM est utilisée pour garantir que les jetons d'image peuvent se concentrer de manière fiable sur les instructions du langage, de sorte que la stratégie MT-ACT ne confond pas les tâches lorsqu'il peut y avoir plusieurs tâches dans une scène.

Les jetons codés entreront dans le décodeur de politique Transformer avec une intégration à position fixe, et sortiront finalement le bloc d'action suivant (actions H).

Au moment de l'exécution, le chercheur prend la moyenne de toutes les opérations qui se chevauchent prédites au pas de temps actuel (lorsque H > 1, les blocs d'action se chevauchent) et exécute l'action moyenne résultante.

Une petite quantité de données, rattraper Google RT-1

Comment la stratégie MT-ACT fonctionne-t-elle dans le monde réel ?

Les chercheurs ont évalué expérimentalement l'efficacité de l'échantillon du cadre proposé, ainsi que la généralité de l'agent dans différents scénarios.

La figure ci-dessous compare la stratégie MT-ACT avec les architectures d'apprentissage par imitation couramment utilisées.

Les chercheurs n'ont tracé que les résultats de la généralisation L1 car il s'agit du paramètre standard utilisé par la plupart des autres algorithmes d'apprentissage par imitation.

Comme on peut le voir sur la figure, toutes les méthodes qui simulent uniquement le comportement de l'étape suivante (plutôt que des sous-trajectoires) fonctionnent mal.

Parmi ces méthodes, les chercheurs ont constaté que la méthode basée sur le regroupement d'actions (BeT) fonctionnait bien moins bien dans le cadre de tâches multiples.

De plus, les méthodes comme RT1 qui nécessitent de grandes quantités de données ne fonctionnent pas bien dans ce contexte en raison du régime de données faibles utilisé dans l'étude.

En revanche, la stratégie MT-ACT utilise l'inspection d'action pour modéliser les sous-trajectoires, ce qui surpasse de manière significative toutes les méthodes de base.

La figure 7 (en bas à droite) montre les résultats de toutes les méthodes sur plusieurs niveaux de généralisation (L1, L2 et L3).

De plus, les chercheurs rapportent les résultats de la généralisation pour chaque activité séparément. À partir de la figure 8, nous pouvons voir que chaque méthode d'amélioration sémantique affecte positivement les performances de chaque activité.

Enfin, les chercheurs ont également étudié l'architecture en utilisant différentes conceptions, telles que la taille des blocs de représentation d'action, la plasticité et la robustesse.

Les références:

ensemble robotique/

supplementaire.html

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Partager
Commentaire
0/400
Aucun commentaire
  • Épingler
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)