Pemecah permainan! Prestasi baru NVIDIA dalam data sintetis: menciptakan "mesin gerak abadi data pelatihan" untuk robot

Sumber asli: Science and Technology Innovation Board Daily

Sumber gambar: Dihasilkan oleh Unbounded AI

Dengan permintaan besar akan data dari AI, sumber daya data hampir habis, sehingga perusahaan mulai menemukan "cara baru" untuk mendapatkan data - "membuat" data sendiri. Namun, sebagian besar data sintetis sebelumnya digunakan untuk pelatihan model besar AI, dan kali ini, Nvidia telah membuat "lumbung data" untuk pelatihan robot.

Dalam sebuah makalah penelitian baru antara NVIDIA dan University of Texas di Austin, sebuah sistem yang disebut "MimicGen" dijelaskan yang secara otomatis dapat menghasilkan dataset pelatihan robot skala besar dengan hanya sejumlah kecil demonstrasi manusia. Jim Fan, seorang ilmuwan senior di Nvidia, mengatakan perusahaan akan membuka sumber segalanya, termasuk kumpulan data yang dihasilkan.

Berapa skala data yang dihasilkan? Menggunakan 10 demo manusia, MimicGen dapat menghasilkan 1000 contoh sintesis; Dengan 200 demo manusia, MimicGen dapat secara langsung menghasilkan 50.000 data pelatihan di 18 tugas dan beberapa lingkungan simulasi.

Bagaimana dengan dataset yang dihasilkan?

MimicGen dapat "mengembangkan" adegan yang sama dalam tahap yang berbeda berdasarkan data asli:

Ini juga dapat menghasilkan kumpulan data yang berbeda di berbagai distribusi pengaturan ulang tugas, termasuk merakit item, menuangkan kopi, membersihkan mug, dan banyak lagi:

Kemampuan untuk menghasilkan demo yang berbeda dari lengan robot baru:

Ada juga data pelatihan untuk tugas jangka panjang:

Data skenario dunia nyata juga tersedia:

Khususnya, para peneliti membandingkan data yang dihasilkan oleh kumpulan data sumber yang berbeda. Namun, mereka menemukan bahwa dua set hasil sebanding - menunjukkan bahwa "kualitas data mungkin tidak sepenting dalam mekanisme data skala besar".

Tidak hanya itu, para peneliti membandingkan data yang dihasilkan oleh 10 demo manusia dengan 200 demo manusia, dan hasilnya juga tidak jauh berbeda. Oleh karena itu, makalah ini juga mengakui bahwa penelitian lebih lanjut diperlukan tentang apakah lebih banyak data presentasi manusia akan menyebabkan redundansi dan biaya pelabelan data yang tidak perlu.

Mengapa Anda begitu terobsesi dengan data sintetis? Selain sumber daya data sumber terbatas yang disebutkan di awal artikel, mengumpulkan data sangat mahal dan memakan waktu, dan dengan sistem seperti MimicGen, dimungkinkan untuk secara otomatis menghasilkan kumpulan data berskala besar dan kaya hanya dengan sejumlah kecil data, mencakup beberapa skenario, kemampuan objek, lengan robot, dan tugas jangka panjang atau presisi tinggi, menjadikannya cara yang efektif untuk "meningkatkan kekuatan dan ekonomi pembelajaran robot."

"Data sintetis akan menyediakan triliunan data berikutnya untuk model 'lapar' kami. "Salah satu alasan utama mengapa robotika tertinggal jauh di belakang bidang AI lainnya adalah kurangnya data – Anda tidak bisa mendapatkan sinyal kontrol dari internet. "

"Kami dengan cepat menghabiskan data dunia nyata berkualitas tinggi dari web, dan AI yang lahir dari data sintetis akan menjadi jalan ke depan."

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Bagikan
Komentar
0/400
Tidak ada komentar
  • Sematkan
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)