破局利刃! 英偉達合成數據新成果:為機器人造出“訓練數據永動機”

原文來源:科創板日報

圖片來源:由無界 AI生成

AI對數據的龐大需求之下,數據資源幾近枯竭,因此各家公司已開始摸索一條獲取數據的“新路”——自己“造”數據。 不過之前的合成數據大多用於AI大模型訓練,這一次,英偉達為機器人訓練造出了“數據糧倉”

英偉達與德克薩斯大學奧斯丁分校的一項最新研究論文中,介紹了一個名為“MimicGen”的系統,只需少量人類示範,便能自動生成大規模的機器人訓練數據集。 英偉達高級科學家Jim Fan表示,公司將開源一切,包括生成的數據集。

生成的數據規模有多大? 利用10個人類演示,MimicGen能生成1000個合成示例; 而有了200個人類演示,MimicGen更能直接生成50000個訓練數據,涉及18個任務及多個模擬環境

產生的數據集如何?

MimicGen能夠在原有數據的基礎上,對同一場景進行不同階段的「進化」:

其還能在廣泛的任務重置分佈中生成不同的數據集,包括組裝物品、倒咖啡、清理馬克杯等:

能生成不同的新機械臂演示:

還有長時程任務訓練數據:

現實世界場景數據也不在話下:

值得注意的是,研究人員們對比了不同的源數據集生成的數據。 然而他們發現,得到的兩組成果不相上下——這也表明瞭,“在大規模數據機制中,(源)數據品質可能不那麼重要”

不僅如此,研究人員們還比較了由10個人類演示與200個人類演示生成的數據,得出的結果同樣差別不大。 因此論文也坦承,需要進一步研究更多的人類演示數據是否會造成冗餘及多餘不必要的數據標註成本。

為何如此執著於合成數據? 除了文章開頭提到的源數據資源有限之外,收集數據也極為昂貴且耗時,而有了MimicGen這類系統,可以僅憑藉少量數據,便自動生成大規模的豐富數據集,並且這些數據集橫跨多個場景、對象實力、機械臂,還能用於長時程或高精度任務,堪稱一條“擴大機器人學習的強大且經濟”的有效途徑。

“**合成數據將為我們的'饑腸辘辘'的模型提供下一波萬億級數據。 **“英偉達高級科學家Jim Fan在介紹MimicGen時如此說道,”機器人技術發展步調遠遠落後於其他AI領域的關鍵原因之一,便是缺乏數據——你無法從互聯網上獲取(機器人的)控制信號。 ”

“我們正在迅速耗盡來自網络的高品質真實數據,誕生於合成數據的AI將是未來的發展方向。”

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 留言
  • 分享
留言
0/400
暫無留言
交易,隨時隨地
qrCode
掃碼下載 Gate APP
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)