Butuh waktu 2 tahun, Meta bekerja sama dengan CMU untuk menciptakan "kecerdasan robot universal" terkuat! Seorang generalis yang menyeka teh dan mangkuk, dengan mudah menggeneralisasi lebih dari 100 tugas yang tidak diketahui

**Sumber:**Xinzhiyuan

** Panduan: ** Dalam perjalanan menuju "kecerdasan robot universal", Google telah menjadi populer dengan RT-2. Sekarang, RoboAgent, yang dibangun selama 2 tahun oleh tim Meta dan CMU, menggunakan sejumlah kecil data untuk mewujudkan 12 keterampilan kompleks, dan dapat melakukan apa saja mulai dari memanggang teh hingga membersihkan meja.

Model eksplosif membentuk kembali penelitian "agen robot universal".

Beberapa waktu lalu, Google DeepMind meluncurkan proyek RT-2, yang membutuhkan waktu 7 bulan untuk membangunnya, dapat bernalar secara matematis dan mengidentifikasi bintang, dan menjadi populer di Internet.

Selain Google, peneliti dari Meta dan CMU menghabiskan waktu 2 tahun untuk membangun agen robot tujuan umum terkuat "RoboAgent" dalam sejarah.

Bedanya RoboAgent hanya dilatih di 7500 lintasan.

Secara khusus, RoboAgent menerapkan 12 keterampilan kompleks yang berbeda dalam 38 tugas, seperti memanggang, mengambil barang, menyajikan teh, membersihkan dapur, dan sebagainya.

Bahkan, kemampuannya bisa digeneralisasi menjadi 100 skenario yang tidak diketahui.

Bisa dibilang kalau naik ke hall bisa turun ke dapur.

Menariknya, tidak peduli seberapa banyak Anda mengganggunya, RoboAgent tetap berhasil menyelesaikan tugasnya.

Apa lagi yang bisa dilakukan RoboAgent?

Memasak, menyajikan teh, membersihkan meja dengan tangan

Pertama-tama, RoboAgent dapat membuka atau menutup laci dengan lancar.

Meskipun yogurt hampir terguling saat dibuka, pada dasarnya tidak ada jeda dalam kaitannya dengan tindakan, dan tindakan mendorong dan menarik diselesaikan dengan lancar.

Selain laci, RoboAgent dapat membuka atau menutup pintu oven microwave dengan mudah.

Tapi alih-alih memegang pegangannya seperti manusia, ia malah menjejalkan dirinya ke celah antara pegangan dan pintu, dan membuka dan menutup pintu microwave dengan paksa.

Demikian pula, saat berhadapan dengan tutup botol dan kaleng, RoboAgent juga dapat menangani, membuka, dan menutup tutup dengan akurat - tidak pernah berantakan.

Namun di dapur, selain toples bumbu yang tertutup, ada juga beberapa toples yang perlu dibuka tutupnya, seperti arak masak dan Laoganma, dll...

Untungnya, untuk berbagai tugas pick-and-place, RoboAgent pada dasarnya tidak perlu dikhawatirkan.

Dalam video tersebut, RoboAgent mengeluarkan barang-barang dari laci, atau memasukkan kantong teh ke dalam cangkir, menyalakan microwave dan memasukkan mangkuk, dll. Apa yang diperlihatkan adalah bahwa RoboAgent dapat memahami rangkaian tindakan yang terlibat dalam tugas-tugas seperti membuat teh dan memanaskan makanan.

Mengatur dan menggabungkan sembilan tindakan di atas pada dasarnya dapat mencakup serangkaian tugas di dapur.

Contohnya termasuk menyiapkan kue, membersihkan dapur, menyajikan sup, membuat teh, menyimpan peralatan makan, dan lainnya.

Saat bersiap untuk memanggang, langkah pertama adalah membuka laci dan menemukan mentega di dalamnya. Saat Anda menemukannya, taruh mentega di atas talenan, dan terakhir tutup lacinya.

Tampaknya urutan logis dari rangkaian tindakan RoboAgent sangat mirip dengan adegan kehidupan nyata.

Namun RoboAgent masih belum sefleksibel manusia, apalagi manusia memiliki dua tangan yang dapat memegang mentega dengan satu tangan dan menutup laci dengan tangan lainnya. Meski hanya dengan satu tangan, manusia bisa memegang mentega sambil mendorong laci ke belakang. Tapi RoboAgent hanya bisa meletakkan mentega dulu, lalu menutup laci.

Itu tidak terlihat fleksibel.

Saat membersihkan dapur, RoboAgent juga melakukan empat langkah:

Tutup laci terlebih dahulu, lalu microwave. Kemudian keluarkan handuk dari samping, dan terakhir bersihkan talenan.

Untuk menyajikan sup, pertama-tama RoboAgent menyalakan microwave, lalu mengeluarkan mangkuk dari microwave. Kemudian letakkan mangkuk di atas meja dan terakhir matikan microwave.

Namun performa RoboAgent di sini tidak begitu meyakinkan.

Hanya bisa dikatakan untungnya mangkuk di video demonstrasi itu kosong, jika RoboAgent benar-benar diizinkan untuk mengambil mangkuk berisi makanan dalam kenyataan, diperkirakan makanan akan berserakan di tanah segera setelah diambil itu.

Namun, RoboAgent berguna untuk membuat teh:

Pertama buka tutup teko teh, keluarkan kantong teh dari dalam, lalu masukkan kantong teh ke dalam cangkir dengan presisi, dan terakhir angkat tutupnya dan taruh kembali di atas teko.

Tapi itu satu langkah lebih dekat ke secangkir teh yang sempurna: tuangkan air. Atau RoboAgent mengundang kita untuk minum udara beraroma teh?

Melihat kinerja RoboAgent yang disebutkan di atas, meskipun sebagian besar tugas dapat diselesaikan dengan lancar, masih terlalu merepotkan jika hanya memiliki satu tangan.

Saya berharap Meta dan CMU dapat memberikan RoboAgent lebih banyak tangan, sehingga dapat melakukan beberapa hal pada saat yang sama, sangat meningkatkan efisiensi.

Butuh waktu 2 tahun untuk membuat "agen robot universal"

Peneliti Meta dan CMU berharap RoboAgent dapat menjadi agen robot yang benar-benar serba guna.

Selama 2 tahun terakhir, mereka terus memajukan proyek. RoboAgent adalah kumpulan penelitian multi-arah, dan juga merupakan titik awal untuk lebih banyak arah penelitian di masa mendatang.

Dalam pengembangan "agen robot universal", para peneliti terinspirasi oleh banyak proyek pembelajaran robot yang dapat digeneralisasikan baru-baru ini.

Saat ini, dalam perjalanan menuju agen robot umum, dua masalah besar perlu diselesaikan.

** Salah satunya adalah dilema sebab dan akibat. **

Memiliki robot yang mampu memanipulasi objek sewenang-wenang di lingkungan yang berbeda telah menjadi tujuan yang jauh dan ambisius selama beberapa dekade. Hal ini sebagian karena kurangnya kumpulan data untuk melatih agen tersebut, tetapi juga kurangnya agen umum yang mampu menghasilkan data tersebut.

Yang kedua adalah menyingkirkan lingkaran setan. **

Untuk keluar dari lingkaran setan ini, penelitian berfokus pada pengembangan paradigma yang efektif.

Ini dapat memberikan agen umum yang mampu memperoleh banyak keterampilan dengan anggaran data yang realistis dan menggeneralisasikannya ke berbagai situasi yang tidak diketahui.

Alamat kertas:

Menurut pengantar, RoboAgent dibangun di atas elemen modular dan dapat dikompensasi berikut:

- RoboPen:

Infrastruktur robot terdistribusi yang dibangun dengan perangkat keras komoditas dapat berjalan tanpa gangguan untuk waktu yang lama.

- RoboHive:

Kerangka Kerja Terpadu untuk Pembelajaran Robot di Seluruh Simulasi dan Operasi Dunia Nyata.

- RoboSet: Kumpulan data berkualitas tinggi yang mewakili beragam keterampilan objek sehari-hari dalam berbagai skenario.

- MT-ACT:

Kerangka Kerja Efisien untuk Pembelajaran Imitasi Offline dalam Multi-Tasking Bersyarat Linguistik. Ini mengalikan kumpulan data offline dengan membuat serangkaian augmentasi semantik yang beragam berdasarkan pengalaman robotika yang ada, dan menggunakan arsitektur kebijakan baru dengan representasi tindakan yang efisien untuk memulihkan kebijakan berkinerja tinggi dalam anggaran data.

Blok aksi, struktur baru MT-ACT

Untuk mempelajari kebijakan operasi umum, robot harus dihadapkan pada pengalaman yang kaya dan beragam, termasuk berbagai keterampilan dan perubahan lingkungan.

Namun, biaya operasional dan tantangan praktis untuk mengumpulkan kumpulan data yang begitu luas membatasi ukuran keseluruhan kumpulan data.

Para peneliti bertujuan untuk mengatasi keterbatasan ini dengan mengembangkan paradigma yang dapat mempelajari agen multi-tugas yang efektif dengan anggaran data yang terbatas.

Seperti terlihat pada gambar di bawah ini, tim Meta dan CMU mengusulkan MT-ACT, Transformator Pemecah Tindakan Multi Tugas (Multi-Task Action Chunking Transformer).

Metode ini terdiri dari 2 tahap:

Fase 1: Peningkatan Semantik

RoboAgent menyuntikkan dunia sebelumnya dari model dasar yang ada dengan membuat augmentasi semantik dari kumpulan data RoboSet (MT-ACT).

Kumpulan data yang dihasilkan mengalikan pengalaman robot dengan dunia sebelumnya tanpa tambahan biaya manusia/robot.

Para peneliti kemudian menggunakan SAM untuk mensegmentasi dan meningkatkan semantik objek target menjadi objek yang berbeda dengan variasi bentuk, warna, dan tekstur.

Fase 2: Representasi Kebijakan yang Efisien

Kumpulan data yang dihasilkan bersifat multimodal, berisi beragam keterampilan, tugas, dan skenario.

Mengadaptasi pemotongan tindakan ke pengaturan multi-tugas, para peneliti mengembangkan MT-ACT - representasi kebijakan yang baru dan efisien yang dapat menyerap kumpulan data yang sangat multimodal sambil menghindari overfitting dalam pengaturan anggaran data yang rendah.

Berikut adalah berbagai komponen dari strategi MT-ACT.

Kumpulan Data RoboSet

Tujuan dari penelitian ini adalah untuk membangun paradigma pembelajaran robotik yang hemat data, di mana para peneliti membatasi diri mereka pada kumpulan data kecil tapi beragam yang dibekukan sebelumnya.

Untuk menangkap keragaman perilaku, para peneliti juga menerapkan keterampilan yang berbeda untuk tugas yang berbeda dalam skenario dapur yang berbeda.

Dalam proyek ini, dataset RoboSet (MT-ACT) terdiri dari 7500 lintasan yang dikumpulkan oleh teleoperasi manusia.

Kumpulan data berisi 12 keterampilan yang mencakup banyak tugas dan skenario.

Gambar di bawah ini menunjukkan distribusi keterampilan dalam dataset.

Sementara keterampilan "pilih-dan-tempatkan" yang umum digunakan menyumbang 40% dari kumpulan data, keterampilan kontak yang kaya seperti menyeka, menutup, dan keterampilan yang melibatkan objek yang diartikulasikan (membuka-balik, menutup-balik) juga disertakan.

Para peneliti mengumpulkan seluruh kumpulan data dalam 4 contoh adegan dapur yang berbeda, yang berisi berbagai objek sehari-hari.

Selain itu, tim menukar setiap contoh adegan dengan variasi objek yang berbeda, memungkinkan setiap kemampuan untuk menjangkau beberapa objek target dan contoh adegan.

Augmentasi Data

Karena kumpulan data yang dikumpulkan tidak dapat memenuhi kebutuhan akan keragaman adegan dan objek, para peneliti menambah kumpulan data dengan menambahkan berbagai adegan yang berubah secara offline sambil mempertahankan perilaku manipulasi di setiap lintasan.

Dibangun di atas kemajuan terbaru dalam model segmentasi dan lukisan, peneliti menyaring prior semantik dunia nyata dari data internet untuk memodifikasi adegan dengan cara yang terstruktur.

Arsitektur MT-ACT

Arsitektur kebijakan MT-ACT dirancang sebagai model Transformer dengan kapasitas yang cukup untuk menangani kumpulan data robot multi-tugas multi-modal.

Untuk menangkap data multimodal, para peneliti mengikuti pekerjaan sebelumnya dengan menambahkan CVAE yang menyandikan urutan tindakan sebagai penyematan gaya laten z.

Untuk memodelkan data multitugas, kami menggunakan encoder bahasa terlatih yang mempelajari penyematan T dari deskripsi khusus tugas.

Untuk mengurangi masalah kesalahan majemuk, tindakan pada langkah H di depan diprediksi pada setiap langkah waktu dan dilakukan dengan perataan sementara dari tindakan tumpang tindih yang diprediksi pada langkah waktu tertentu.

Selain itu, untuk meningkatkan kekokohan terhadap perubahan pemandangan, para peneliti memberikan strategi MT-ACT dengan empat tampilan ruang kerja yang berbeda melalui 4 sudut kamera.

Kemudian, metode pengondisian berbasis FiLM digunakan untuk memastikan bahwa token gambar dapat dengan andal fokus pada instruksi bahasa, sehingga strategi MT-ACT tidak membingungkan tugas saat mungkin ada banyak tugas dalam satu adegan.

Token yang disandikan akan memasuki dekoder kebijakan Transformer dengan penyematan posisi tetap, dan akhirnya menampilkan blok tindakan berikutnya (tindakan H).

Pada waktu eksekusi, peneliti mengambil rata-rata dari semua operasi yang tumpang tindih yang diprediksi pada langkah waktu saat ini (ketika H > 1, blok tindakan tumpang tindih), dan mengeksekusi tindakan rata-rata yang dihasilkan.

Sedikit data, ikuti Google RT-1

Bagaimana kinerja strategi MT-ACT di dunia nyata?

Para peneliti secara eksperimental mengevaluasi efisiensi sampel dari kerangka kerja yang diusulkan, serta keumuman agen dalam skenario yang berbeda.

Gambar di bawah membandingkan strategi MT-ACT dengan arsitektur pembelajaran imitasi yang umum digunakan.

Para peneliti hanya memplot hasil generalisasi L1 karena ini adalah pengaturan standar yang digunakan oleh sebagian besar algoritma pembelajaran imitasi lainnya.

Seperti dapat dilihat dari gambar, semua metode yang hanya mensimulasikan perilaku langkah selanjutnya (bukan sub-lintasan) berkinerja buruk.

Di antara metode ini, para peneliti menemukan bahwa metode berdasarkan pengelompokan tindakan (BeT) bekerja jauh lebih buruk dalam pengaturan multi-tugas.

Selain itu, metode seperti RT1 yang membutuhkan data dalam jumlah besar tidak bekerja dengan baik dalam pengaturan ini karena rezim data rendah yang digunakan dalam penelitian ini.

Sebaliknya, strategi MT-ACT menggunakan inspeksi tindakan untuk memodelkan sub-lintasan, yang secara signifikan mengungguli semua metode dasar.

Gambar 7 (kanan bawah) menunjukkan hasil dari semua metode di beberapa level generalisasi (L1, l2 dan L3).

Selain itu, peneliti melaporkan hasil generalisasi untuk setiap kegiatan secara terpisah. Dari Gambar 8, kita dapat melihat bahwa setiap metode peningkatan semantik secara positif mempengaruhi kinerja setiap kegiatan.

Akhirnya, para peneliti juga menyelidiki arsitektur menggunakan desain yang berbeda, seperti ukuran blok representasi tindakan, plastisitas, dan kekokohan.

Referensi:

robot/

supplementary.html

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Bagikan
Komentar
0/400
Tidak ada komentar
  • Sematkan
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)