出典:科学技術イノベーション委員会日報 画像ソース: Unbounded AIによって生成AIによるデータに対する需要が高まる中、データリソースが枯渇しかけているため、企業はデータを取得するための「新しい方法」、つまり自分でデータを「作成」する方法を見つけ始めています。 **しかし、これまでの合成データのほとんどはAIの大規模モデルの学習に使用されていましたが、今回、Nvidiaはロボットの学習用の「データ粒度」を作成しました**。NVIDIAとテキサス大学オースティン校が共同で発表した新しい研究論文では、少数の人間によるデモンストレーションで大規模なロボット学習データセットを自動生成できる「MimicGen」というシステムが紹介されています。 エヌビディアのシニアサイエンティストであるジム・ファン氏は、同社は生成されたデータセットを含め、すべてをオープンソース化すると述べている。 生成されるデータの規模はどれくらいですか? **MimicGen は、10 個のヒト デモを使用して、1000 個の合成例を生成できます。 MimicGen は、200 回の人間によるデモにより、18 のタスクと複数のシミュレーション環境** で 50,000 のトレーニング データを直接生成することができました。 ## 生成されたデータセットはどうですか? MimicGen は、元のデータに基づいて、同じシーンを異なる段階で「進化」させることができます。 また、アイテムの組み立て、コーヒーの注ぐ、マグカップの掃除など、さまざまなタスクリセット分布にわたってさまざまなデータセットを生成することもできます。 新しいロボットアームのさまざまなデモを生成する機能: また、長期的なタスクのトレーニングデータもあります。 実際のシナリオデータも利用できます。 注目すべきは、研究者が異なるソースデータセットによって生成されたデータを比較したことです。 しかし、この2つの結果は同等であり、「大規模なデータメカニズムではデータ品質はそれほど重要ではない可能性がある」ことが示唆された。それだけでなく、研究者たちは10人の人間のデモと200人の人間のデモによって生成されたデータを比較し、結果は同様に大きな違いはありませんでした。 したがって、この論文では、人間のプレゼンテーションデータが増えると冗長性や不要なデータラベリングコストが発生するかどうかについて、さらなる研究が必要であることも認めています。なぜ合成データにこだわるのですか? 冒頭で触れたソースデータリソースが限られていることに加え、データ収集には莫大なコストと時間がかかりますが、MimicGenのようなシステムでは、少ないデータ量で、複数のシナリオ、オブジェクト機能、ロボットアーム、長期的または高精度なタスクにまたがる大規模でリッチなデータセットを自動生成できるため、「ロボット学習のパワーと経済性をスケールアップする」のに有効な方法です。「合成データは、私たちの『ハングリー』モデルに次の1兆個のデータを提供します。 「ロボティクスが他のAI分野に大きく遅れをとっている主な理由の1つは、データの不足です。インターネットから制御信号を取得できないからです。 "「私たちはウェブから高品質のリアルワールドデータを急速に枯渇させており、合成データから生まれたAIが進むべき道となるでしょう」
ゲームブレイカー! 合成データにおけるNVIDIAの新たな成果:ロボット向けの「学習データ永久機関」の開発
出典:科学技術イノベーション委員会日報
AIによるデータに対する需要が高まる中、データリソースが枯渇しかけているため、企業はデータを取得するための「新しい方法」、つまり自分でデータを「作成」する方法を見つけ始めています。 しかし、これまでの合成データのほとんどはAIの大規模モデルの学習に使用されていましたが、今回、Nvidiaはロボットの学習用の「データ粒度」を作成しました。
NVIDIAとテキサス大学オースティン校が共同で発表した新しい研究論文では、少数の人間によるデモンストレーションで大規模なロボット学習データセットを自動生成できる「MimicGen」というシステムが紹介されています。 エヌビディアのシニアサイエンティストであるジム・ファン氏は、同社は生成されたデータセットを含め、すべてをオープンソース化すると述べている。
生成されたデータセットはどうですか?
MimicGen は、元のデータに基づいて、同じシーンを異なる段階で「進化」させることができます。
それだけでなく、研究者たちは10人の人間のデモと200人の人間のデモによって生成されたデータを比較し、結果は同様に大きな違いはありませんでした。 したがって、この論文では、人間のプレゼンテーションデータが増えると冗長性や不要なデータラベリングコストが発生するかどうかについて、さらなる研究が必要であることも認めています。
なぜ合成データにこだわるのですか? 冒頭で触れたソースデータリソースが限られていることに加え、データ収集には莫大なコストと時間がかかりますが、MimicGenのようなシステムでは、少ないデータ量で、複数のシナリオ、オブジェクト機能、ロボットアーム、長期的または高精度なタスクにまたがる大規模でリッチなデータセットを自動生成できるため、「ロボット学習のパワーと経済性をスケールアップする」のに有効な方法です。
「合成データは、私たちの『ハングリー』モデルに次の1兆個のデータを提供します。 「ロボティクスが他のAI分野に大きく遅れをとっている主な理由の1つは、データの不足です。インターネットから制御信号を取得できないからです。 "
「私たちはウェブから高品質のリアルワールドデータを急速に枯渇させており、合成データから生まれたAIが進むべき道となるでしょう」