Briseur de jeu ! Les nouvelles réalisations de NVIDIA en matière de données synthétiques : la création d’une « machine à mouvement perpétuel de données d’entraînement » pour les robots
Source originale : Science and Technology Innovation Board Daily
Source de l’image : Généré par Unbounded AI
Avec l’énorme demande de données provenant de l’IA, les ressources de données sont presque épuisées, de sorte que les entreprises ont commencé à trouver un « nouveau moyen » d’obtenir des données : « créer » elles-mêmes des données. Cependant, la plupart des données synthétiques précédentes ont été utilisées pour l’entraînement de grands modèles d’IA, et cette fois, Nvidia a créé un « grenier à données » pour l’entraînement des robots.
Dans un nouveau document de recherche entre NVIDIA et l’Université du Texas à Austin, un système appelé « MimicGen » est décrit qui peut générer automatiquement des ensembles de données d’entraînement de robots à grande échelle avec seulement un petit nombre de démonstrations humaines. Jim Fan, scientifique principal chez Nvidia, a déclaré que la société ouvrirait tout, y compris les ensembles de données générés.
Quelle est l’échelle des données générées ? À l’aide de 10 démonstrations humaines, MimicGen peut générer 1000 exemples de synthèse ; Avec 200 démonstrations humaines, MimicGen a pu générer directement 50 000 données d’entraînement sur 18 tâches et plusieurs environnements simulés.
Qu’en est-il du jeu de données généré ?
MimicGen peut « faire évoluer » la même scène en différentes étapes sur la base des données d’origine :
Il peut également générer différents ensembles de données sur un large éventail de distributions de réinitialisation de tâches, y compris l’assemblage d’éléments, le versement du café, le nettoyage des tasses, etc.
Possibilité de générer différentes démos de nouveaux bras robotiques :
Il existe également des données d’entraînement pour les tâches à long terme :
Des données de scénarios réels sont également disponibles :
Les chercheurs ont notamment comparé les données générées par différents ensembles de données sources. Cependant, ils ont constaté que les deux ensembles de résultats étaient comparables, ce qui suggère que « la qualité des données n’est peut-être pas aussi importante dans les mécanismes de données à grande échelle ».
Non seulement cela, mais les chercheurs ont comparé les données générées par 10 démos humaines avec 200 démos humaines, et les résultats n’étaient pas non plus très différents. Par conséquent, l’article admet également que des recherches supplémentaires sont nécessaires pour déterminer si davantage de données de présentation humaine entraîneront une redondance et des coûts inutiles d’étiquetage des données.
Pourquoi êtes-vous si obsédé par les données synthétiques ? En plus des ressources limitées de données sources mentionnées au début de l’article, la collecte de données est extrêmement coûteuse et prend beaucoup de temps, et avec un système comme MimicGen, il est possible de générer automatiquement des ensembles de données riches et à grande échelle avec seulement une petite quantité de données, couvrant plusieurs scénarios, capacités d’objets, bras robotiques et tâches à long terme ou de haute précision, ce qui en fait un moyen efficace de « faire évoluer la puissance et l’économie de l’apprentissage robotique ».
« Les données synthétiques fourniront le prochain trillion de données pour nos modèles « affamés ». « L’une des principales raisons pour lesquelles la robotique est loin derrière d’autres domaines de l’IA est le manque de données – vous ne pouvez pas obtenir de signaux de contrôle à partir d’Internet. "
« Nous épuisons rapidement les données de haute qualité du monde réel sur le Web, et l’IA née de données synthétiques sera la voie à suivre. »
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
Briseur de jeu ! Les nouvelles réalisations de NVIDIA en matière de données synthétiques : la création d’une « machine à mouvement perpétuel de données d’entraînement » pour les robots
Source originale : Science and Technology Innovation Board Daily
Avec l’énorme demande de données provenant de l’IA, les ressources de données sont presque épuisées, de sorte que les entreprises ont commencé à trouver un « nouveau moyen » d’obtenir des données : « créer » elles-mêmes des données. Cependant, la plupart des données synthétiques précédentes ont été utilisées pour l’entraînement de grands modèles d’IA, et cette fois, Nvidia a créé un « grenier à données » pour l’entraînement des robots.
Dans un nouveau document de recherche entre NVIDIA et l’Université du Texas à Austin, un système appelé « MimicGen » est décrit qui peut générer automatiquement des ensembles de données d’entraînement de robots à grande échelle avec seulement un petit nombre de démonstrations humaines. Jim Fan, scientifique principal chez Nvidia, a déclaré que la société ouvrirait tout, y compris les ensembles de données générés.
Qu’en est-il du jeu de données généré ?
MimicGen peut « faire évoluer » la même scène en différentes étapes sur la base des données d’origine :
Non seulement cela, mais les chercheurs ont comparé les données générées par 10 démos humaines avec 200 démos humaines, et les résultats n’étaient pas non plus très différents. Par conséquent, l’article admet également que des recherches supplémentaires sont nécessaires pour déterminer si davantage de données de présentation humaine entraîneront une redondance et des coûts inutiles d’étiquetage des données.
Pourquoi êtes-vous si obsédé par les données synthétiques ? En plus des ressources limitées de données sources mentionnées au début de l’article, la collecte de données est extrêmement coûteuse et prend beaucoup de temps, et avec un système comme MimicGen, il est possible de générer automatiquement des ensembles de données riches et à grande échelle avec seulement une petite quantité de données, couvrant plusieurs scénarios, capacités d’objets, bras robotiques et tâches à long terme ou de haute précision, ce qui en fait un moyen efficace de « faire évoluer la puissance et l’économie de l’apprentissage robotique ».
« Les données synthétiques fourniront le prochain trillion de données pour nos modèles « affamés ». « L’une des principales raisons pour lesquelles la robotique est loin derrière d’autres domaines de l’IA est le manque de données – vous ne pouvez pas obtenir de signaux de contrôle à partir d’Internet. "
« Nous épuisons rapidement les données de haute qualité du monde réel sur le Web, et l’IA née de données synthétiques sera la voie à suivre. »