ゲームブレイカー! 合成データにおけるNVIDIAの新たな成果:ロボット向けの「学習データ永久機関」の開発

出典:科学技術イノベーション委員会日報

画像ソース: Unbounded AIによって生成

AIによるデータに対する需要が高まる中、データリソースが枯渇しかけているため、企業はデータを取得するための「新しい方法」、つまり自分でデータを「作成」する方法を見つけ始めています。 しかし、これまでの合成データのほとんどはAIの大規模モデルの学習に使用されていましたが、今回、Nvidiaはロボットの学習用の「データ粒度」を作成しました

NVIDIAとテキサス大学オースティン校が共同で発表した新しい研究論文では、少数の人間によるデモンストレーションで大規模なロボット学習データセットを自動生成できる「MimicGen」というシステムが紹介されています。 エヌビディアのシニアサイエンティストであるジム・ファン氏は、同社は生成されたデータセットを含め、すべてをオープンソース化すると述べている。

生成されるデータの規模はどれくらいですか? MimicGen は、10 個のヒト デモを使用して、1000 個の合成例を生成できます。 MimicGen は、200 回の人間によるデモにより、18 のタスクと複数のシミュレーション環境 で 50,000 のトレーニング データを直接生成することができました。

生成されたデータセットはどうですか?

MimicGen は、元のデータに基づいて、同じシーンを異なる段階で「進化」させることができます。

また、アイテムの組み立て、コーヒーの注ぐ、マグカップの掃除など、さまざまなタスクリセット分布にわたってさまざまなデータセットを生成することもできます。

新しいロボットアームのさまざまなデモを生成する機能:

また、長期的なタスクのトレーニングデータもあります。

実際のシナリオデータも利用できます。

注目すべきは、研究者が異なるソースデータセットによって生成されたデータを比較したことです。 しかし、この2つの結果は同等であり、「大規模なデータメカニズムではデータ品質はそれほど重要ではない可能性がある」ことが示唆された。

それだけでなく、研究者たちは10人の人間のデモと200人の人間のデモによって生成されたデータを比較し、結果は同様に大きな違いはありませんでした。 したがって、この論文では、人間のプレゼンテーションデータが増えると冗長性や不要なデータラベリングコストが発生するかどうかについて、さらなる研究が必要であることも認めています。

なぜ合成データにこだわるのですか? 冒頭で触れたソースデータリソースが限られていることに加え、データ収集には莫大なコストと時間がかかりますが、MimicGenのようなシステムでは、少ないデータ量で、複数のシナリオ、オブジェクト機能、ロボットアーム、長期的または高精度なタスクにまたがる大規模でリッチなデータセットを自動生成できるため、「ロボット学習のパワーと経済性をスケールアップする」のに有効な方法です。

「合成データは、私たちの『ハングリー』モデルに次の1兆個のデータを提供します。 「ロボティクスが他のAI分野に大きく遅れをとっている主な理由の1つは、データの不足です。インターネットから制御信号を取得できないからです。 "

「私たちはウェブから高品質のリアルワールドデータを急速に枯渇させており、合成データから生まれたAIが進むべき道となるでしょう」

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • 共有
コメント
0/400
コメントなし
  • ピン
いつでもどこでも暗号資産取引
qrCode
スキャンしてGateアプリをダウンロード
コミュニティ
日本語
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)