Ezber bozan! NVIDIA'nın sentetik verilerdeki yeni başarıları: robotlar için bir "eğitim verisi sürekli hareket makinesi" oluşturma

Orijinal kaynak: Bilim ve Teknoloji İnovasyon Kurulu Günlük

Görüntü kaynağı: Sınırsız AI tarafından oluşturuldu

Yapay zekadan gelen verilere olan büyük taleple birlikte, veri kaynakları neredeyse tükendi, bu nedenle şirketler veri elde etmek için "yeni bir yol" bulmaya başladılar - verileri kendileri "yaratmak". Bununla birlikte, önceki sentetik verilerin çoğu AI büyük model eğitimi için kullanıldı ve bu sefer Nvidia, robot eğitimi için bir "veri tahıl ambarı" oluşturdu.

NVIDIA ve Austin'deki Texas Üniversitesi arasındaki yeni bir araştırma makalesinde, yalnızca az sayıda insan gösterisi ile otomatik olarak büyük ölçekli robot eğitim veri kümeleri oluşturabilen "MimicGen" adlı bir sistem tanımlanmıştır. Nvidia'da kıdemli bir bilim adamı olan Jim Fan, şirketin oluşturulan veri kümeleri de dahil olmak üzere her şeyi açık kaynaklı hale getireceğini söyledi.

Üretilen verilerin ölçeği nedir? MimicGen, 10 insan demosu kullanarak 1000 sentez örneği oluşturabilir; 200 insan demosu ile MimicGen, 18 görevde ve birden çok simüle edilmiş ortamda doğrudan 50.000 eğitim verisi oluşturabildi.

Oluşturulan veri kümesi ne olacak?

MimicGen, orijinal verilere dayanarak aynı sahneyi farklı aşamalarda "geliştirebilir":

Ayrıca, öğeleri birleştirme, kahve dökme, kupaları temizleme ve daha fazlası dahil olmak üzere çok çeşitli görev sıfırlama dağıtımlarında farklı veri kümeleri oluşturabilir:

Yeni robotik kolların farklı demolarını oluşturma yeteneği:

Uzun vadeli görevler için eğitim verileri de vardır:

Gerçek dünya senaryo verileri de mevcuttur:

Özellikle, araştırmacılar farklı kaynak veri kümeleri tarafından üretilen verileri karşılaştırdılar. Bununla birlikte, iki sonuç kümesinin karşılaştırılabilir olduğunu buldular - "veri kalitesinin büyük ölçekli veri mekanizmalarında o kadar önemli olmayabileceğini" öne sürdüler.

Sadece bu da değil, araştırmacılar 10 insan demosu tarafından üretilen verileri 200 insan demosu ile karşılaştırdılar ve sonuçlar benzer şekilde çok farklı değildi. Bu nedenle, makale ayrıca, daha fazla insan sunumu verisinin fazlalığa ve gereksiz veri etiketleme maliyetlerine neden olup olmayacağı konusunda daha fazla araştırmaya ihtiyaç olduğunu kabul etmektedir.

Sentetik verilere neden bu kadar takıntılısınız? Makalenin başında bahsedilen sınırlı kaynak veri kaynaklarına ek olarak, veri toplamak son derece pahalı ve zaman alıcıdır ve MimicGen gibi bir sistemle, yalnızca az miktarda veriyle otomatik olarak büyük ölçekli, zengin veri kümeleri oluşturmak mümkündür, birden fazla senaryoyu, nesne yeteneklerini, robotik kolları ve uzun vadeli veya yüksek hassasiyetli görevleri kapsar, bu da onu "robot öğreniminin gücünü ve ekonomisini ölçeklendirmenin" etkili bir yolu haline getirir.

"Sentetik veriler, 'aç' modellerimiz için bir sonraki trilyon veriyi sağlayacak. "Robotiğin diğer yapay zeka alanlarının çok gerisinde kalmasının temel nedenlerinden biri veri eksikliğidir - internetten kontrol sinyalleri alamazsınız. "

"Web'deki yüksek kaliteli gerçek dünya verilerini hızla tüketiyoruz ve sentetik verilerden doğan yapay zeka ileriye giden yol olacak."

View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Reward
  • Comment
  • Share
Comment
0/400
No comments
  • Pin
Trade Crypto Anywhere Anytime
qrCode
Scan to download Gate app
Community
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)