ゲームブレイカー! 合成データにおけるNVIDIAの新たな成果:ロボット向けの「学習データ永久機関」の開発

2023-10-30 03:01:27

出典:科学技術イノベーション委員会日報

画像ソース: Unbounded AIによって生成

AIによるデータに対する需要が高まる中、データリソースが枯渇しかけているため、企業はデータを取得するための「新しい方法」、つまり自分でデータを「作成」する方法を見つけ始めています。しかし、これまでの合成データのほとんどはAIの大規模モデルの学習に使用されていましたが、今回、Nvidiaはロボットの学習用の「データ粒度」を作成しました。

NVIDIAとテキサス大学オースティン校が共同で発表した新しい研究論文では、少数の人間によるデモンストレーションで大規模なロボット学習データセットを自動生成できる「MimicGen」というシステムが紹介されています。エヌビディアのシニアサイエンティストであるジム・ファン氏は、同社は生成されたデータセットを含め、すべてをオープンソース化すると述べている。

生成されるデータの規模はどれくらいですか? MimicGen は、10 個のヒトデモを使用して、1000 個の合成例を生成できます。 MimicGen は、200 回の人間によるデモにより、18 のタスクと複数のシミュレーション環境で 50,000 のトレーニングデータを直接生成することができました。

生成されたデータセットはどうですか?

MimicGen は、元のデータに基づいて、同じシーンを異なる段階で「進化」させることができます。

また、アイテムの組み立て、コーヒーの注ぐ、マグカップの掃除など、さまざまなタスクリセット分布にわたってさまざまなデータセットを生成することもできます。

新しいロボットアームのさまざまなデモを生成する機能:

また、長期的なタスクのトレーニングデータもあります。

実際のシナリオデータも利用できます。

注目すべきは、研究者が異なるソースデータセットによって生成されたデータを比較したことです。しかし、この2つの結果は同等であり、「大規模なデータメカニズムではデータ品質はそれほど重要ではない可能性がある」ことが示唆された。

それだけでなく、研究者たちは10人の人間のデモと200人の人間のデモによって生成されたデータを比較し、結果は同様に大きな違いはありませんでした。したがって、この論文では、人間のプレゼンテーションデータが増えると冗長性や不要なデータラベリングコストが発生するかどうかについて、さらなる研究が必要であることも認めています。

なぜ合成データにこだわるのですか? 冒頭で触れたソースデータリソースが限られていることに加え、データ収集には莫大なコストと時間がかかりますが、MimicGenのようなシステムでは、少ないデータ量で、複数のシナリオ、オブジェクト機能、ロボットアーム、長期的または高精度なタスクにまたがる大規模でリッチなデータセットを自動生成できるため、「ロボット学習のパワーと経済性をスケールアップする」のに有効な方法です。

「合成データは、私たちの『ハングリー』モデルに次の1兆個のデータを提供します。「ロボティクスが他のAI分野に大きく遅れをとっている主な理由の1つは、データの不足です。インターネットから制御信号を取得できないからです。 "

「私たちはウェブから高品質のリアルワールドデータを急速に枯渇させており、合成データから生まれたAIが進むべき道となるでしょう」

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。

報酬
いいね
コメント
共有

0/400

コメントなし

トピック
1/3
1Show My Alpha Points
14k 人気度
2Crypto Market Rebound
167k 人気度
3SEC Crypto Project
22k 人気度
4CandyDrop Airdrop Event 6.0
101k 人気度
5White House Crypto Report
82k 人気度

ピン

サイトマップ