CMU Tsinghua MIT meledakkan aliran tak terbatas Agen pertama di dunia, dan robot "007" tidak dapat berhenti bekerja lembur dan belajar mandiri! Kecerdasan yang diwujudkan mengalami revolusi

2023-11-04 08:23:51

Sumber artikel: Zhiyuan Baru

Editor: Aeneas mengantuk

Baru-baru ini, RoboGen, agen robot generatif pertama di dunia yang diusulkan oleh CMU / MIT / Tsinghua / Umass, dapat menghasilkan data tanpa batas dan memungkinkan robot untuk berlatih tanpa henti 24/7. AIGC untuk Robotika memang jalan masa depan.

Agen bot generatif pertama di dunia telah dirilis!

Untuk waktu yang lama, dibandingkan dengan model bahasa atau visi yang dapat dilatih pada data Internet skala besar, model strategi untuk melatih robot membutuhkan data dengan informasi interaksi fisik yang dinamis, dan kurangnya data ini selalu menjadi hambatan terbesar dalam pengembangan kecerdasan yang diwujudkan.

Baru-baru ini, para peneliti dari CMU, Universitas Tsinghua, MIT, UMass dan lembaga lain telah mengusulkan agen RoboGen baru.

Menggunakan pengetahuan skala besar yang terkandung dalam model bahasa besar dan model generatif, ditambah dengan informasi fisik yang disediakan oleh dunia simulasi realistis, berbagai tugas, skenario dan data pengajaran dapat dihasilkan "tanpa batas", dan robot dapat sepenuhnya dilatih 24/7.

Saat ini, kami dengan cepat kehabisan token dunia nyata berkualitas tinggi dari jaringan. Data yang digunakan untuk melatih AI di seluruh dunia hampir habis.

Hinton, bapak pembelajaran mendalam, mengatakan, "Perusahaan teknologi sedang melatih model-model baru dengan daya komputasi 100 kali lebih banyak daripada GPT-4 dalam 18 bulan ke depan." Parameter model lebih besar, dan permintaan daya komputasi sangat besar, tetapi di mana datanya?

Dalam menghadapi model yang lapar, sintesis AI adalah jawabannya.

Alamat:

Beranda Proyek:

Alamat Sumber Terbuka:

Secara khusus, tim peneliti yang dipimpin oleh Gan Chuang, kepala ilmuwan di MIT-IBM, mengusulkan loop "usulkan-hasilkan-pelajari" dengan dukungan AI generatif dan simulasi fisika yang dapat dibedakan, yang memungkinkan agen untuk memecahkan masalah dan melatih robot sendiri.

Pertama-tama, agen menyarankan agar kita mengembangkan keterampilan ini.

Kemudian menghasilkan lingkungan, konfigurasi, dan panduan pembelajaran keterampilan yang sesuai untuk menciptakan lingkungan simulasi.

Akhirnya, agen akan menguraikan tugas tingkat atas yang diusulkan menjadi subtugas, memilih metode pembelajaran terbaik, dan kemudian mempelajari strategi dan menguasai keterampilan yang diusulkan.

Perlu dicatat bahwa seluruh proses hampir tidak memerlukan pengawasan manusia, dan jumlah tugas tidak terbatas!

Untuk studi blockbuster ini, Jim Fan, seorang ilmuwan senior di NVIDIA, juga meneruskannya.

Sekarang, robot telah mempelajari serangkaian operasi peledakan -

Masukkan barang-barang Anda ke dalam loker:

Microwave semangkuk sup:

Tarik tuas untuk menyeduh kopi:

Serta backflips dan banyak lagi:

Lingkungan simulasi, kunci untuk pembelajaran keterampilan yang beragam

Dilema abadi dalam penelitian robotika adalah bagaimana memberi robot keterampilan untuk beroperasi di lingkungan non-pabrik dan melakukan berbagai tugas untuk manusia.

Dalam beberapa tahun terakhir, kami telah mengajarkan robot berbagai keterampilan kompleks, seperti manipulasi cairan, melempar benda, bermain sepak bola, parkour, dan banyak lagi, tetapi keterampilan ini tertutup, memiliki bidang pandang pendek, dan memerlukan deskripsi tugas yang dirancang manusia dan pengawasan pelatihan.

Karena pengumpulan data dunia nyata mahal dan melelahkan, keterampilan ini dilatih dalam simulasi yang diacak dalam domain yang sesuai dan kemudian digunakan di dunia nyata.

Lingkungan simulasi memiliki banyak keunggulan dibandingkan eksplorasi dan pengumpulan data dunia nyata, seperti menyediakan akses istimewa ke keadaan tingkat rendah dan peluang tak terbatas untuk eksplorasi; Mendukung komputasi paralel besar-besaran, dan kecepatan pengumpulan data dipercepat secara signifikan; Memungkinkan bot mengembangkan strategi loop tertutup dan kemampuan pemulihan kesalahan.

Namun, membangun lingkungan simulasi membutuhkan serangkaian tugas yang membosankan (merancang tugas, memilih aset yang relevan dan bermakna semantik, menghasilkan tata letak dan konfigurasi skenario yang masuk akal, merumuskan pengawasan pelatihan seperti fungsi hadiah atau kerugian). Bahkan di dunia simulasi, skalabilitas pembelajaran keterampilan robot sangat terbatas.

Oleh karena itu, para peneliti mengusulkan paradigma "simulasi generatif" yang menggabungkan kemajuan dalam pembelajaran keterampilan robot simulasi dengan kemajuan terbaru dalam model dasar dan generatif.

Memanfaatkan kemampuan generasi model dasar state-of-the-art, simulasi generatif dapat menghasilkan informasi untuk semua tahap yang diperlukan untuk berbagai keterampilan robot dalam simulasi.

Berkat pengetahuan pengkodean yang komprehensif dalam model dasar terbaru, data skenario dan tugas yang dihasilkan dengan cara ini bisa sangat mirip dengan distribusi skenario dunia nyata.

Selain itu, model-model ini selanjutnya dapat memberikan subtugas tingkat rendah yang terurai yang dapat ditangani dengan mulus oleh metode pembelajaran kebijakan khusus domain, menghasilkan demonstrasi loop tertutup dari berbagai keterampilan dan skenario.

Proses RoboGen

RoboGen adalah proses yang sepenuhnya otomatis yang memungkinkan robot mempelajari berbagai keterampilan 24/7 dan terdiri dari 4 tahap:

Usulan tugas;
Generasi adegan;
Pelatihan generasi yang diawasi;
Gunakan informasi yang dihasilkan untuk pembelajaran keterampilan.

Memanfaatkan akal sehat tertanam dan kemampuan generasi model dasar terbaru, RoboGen dapat mengotomatisasi generasi tugas, skenario, dan pengawasan pelatihan, memungkinkan pembelajaran multi-keterampilan untuk robot dalam skala besar.

Saran Tugas

Pada tahap ini, RoboGen mampu mengusulkan tugas tingkat atas, menghasilkan lingkungan yang sesuai, menguraikan tujuan tingkat atas menjadi sub-tugas tingkat rendah, dan kemudian mempelajari sub-keterampilan secara berurutan.

Pertama, RoboGen menghasilkan tugas tingkat tinggi yang bermakna, beragam, dan dapat dipelajari robot.

Peneliti menginisialisasi sistem menggunakan jenis robot tertentu dan sampel acak objek dari kolam. Robot yang disediakan dan informasi objek sampel kemudian dimasukkan ke dalam LLM.

Proses pengambilan sampel ini memastikan keragaman tugas pembangkitan.

Misalnya, robot berkaki empat seperti robot berkaki empat dapat memperoleh berbagai keterampilan motorik, sementara manipulator lengan robot, ketika dipasangkan, memiliki potensi untuk melakukan berbagai tugas manipulasi dengan objek pengambilan sampel yang berbeda.

Para peneliti menggunakan GPT-4 untuk membuat kueri dalam proses saat ini. Ini diikuti dengan penjelasan tentang detail RoboGen dalam konteks mesin, serta tugas-tugas yang terkait dengan manipulasi objek.

Objek yang digunakan untuk inisialisasi diambil sampelnya dari daftar yang telah ditentukan, termasuk objek yang diartikulasikan dan tidak diartikulasikan yang umum di adegan rumah, seperti oven, microwave, dispenser air, laptop, mesin pencuci piring, dan sebagainya.

Karena GPT-4 telah dilatih pada kumpulan data internet yang besar, ia memiliki pemahaman yang kaya tentang kemampuan objek-objek ini, bagaimana berinteraksi dengannya, dan tugas bermakna apa yang dapat dikaitkan dengannya.

Misalnya, jika objek artikulasi yang diambil sampelnya adalah oven microwave, di mana sambungan 0 adalah sambungan berputar yang menghubungkan pintu, dan sambungan 1 adalah sambungan berputar lain yang mengontrol kenop pengatur waktu, GPT-4 akan mengembalikan tugas - "Lengan robot memasukkan semangkuk sup ke dalam oven microwave, menutup pintu, dan mengatur timer microwave untuk memanaskan waktu a".

Benda-benda lain yang diperlukan untuk tugas yang dihasilkan, ada semangkuk sup a, dan sendi dan tautan yang terkait dengan tugas, termasuk sendi 0 (untuk membuka pintu microwave), sambungan 1 (untuk mengatur timer), tautan 0 (ke pintu), dan tautan 1 (kenop pengatur waktu).

Untuk objek yang diartikulasikan, karena PartNetMobility adalah satu-satunya himpunan data objek artikulasi berkualitas tinggi dan sudah mencakup berbagai aset yang diartikulasikan, tugas dihasilkan berdasarkan aset sampel.

Dengan berulang kali menanyakan objek dan contoh sampel yang berbeda, berbagai operasi dan tugas gerak dapat dihasilkan.

Generasi Adegan

Dengan tugas, Anda dapat terus menghasilkan skenario simulasi yang sesuai untuk mempelajari keterampilan untuk menyelesaikan tugas itu.

Seperti yang ditunjukkan pada gambar, komponen dan konfigurasi adegan dihasilkan sesuai dengan deskripsi tugas, dan aset objek diambil atau dihasilkan, yang kemudian diisi dengan adegan simulasi.

Komponen dan konfigurasi pemandangan terdiri dari elemen-elemen berikut: kueri untuk aset terkait yang akan diisi ke dalam adegan, parameter fisiknya (seperti ukuran), konfigurasi (seperti sudut sambungan awal), dan konfigurasi spasial keseluruhan aset.

Selain aset objek yang diperlukan untuk tugas yang dihasilkan pada langkah sebelumnya, untuk meningkatkan kompleksitas dan keragaman adegan yang dihasilkan, sambil menyerupai distribusi objek dari adegan nyata, para peneliti juga meminta GPT-4 untuk mengembalikan kueri tambahan untuk objek yang terkait dengan semantik tugas.

Misalnya, untuk tugas "Buka kabinet, masukkan mainan ke dalamnya, dan tutup", adegan yang dihasilkan juga akan mencakup tikar ruang tamu, lampu, buku, dan kursi kantor.

### Pelatihan Generasi yang Diawasi

Untuk memperoleh keterampilan yang relevan, pembelajaran keterampilan perlu diawasi.

RoboGen pertama-tama akan meminta GPT-4 untuk merencanakan dan memecah tugas panjang menjadi subtugas yang lebih pendek.

Asumsi utama adalah bahwa ketika tugas dipecah menjadi subtugas yang cukup singkat, setiap subtugas dapat diselesaikan dengan andal oleh algoritma yang ada seperti pembelajaran penguatan, perencanaan gerak, pengoptimalan lintasan, dll.

Setelah dekomposisi, RoboGen meminta GPT-4 untuk memilih algoritma yang sesuai untuk menyelesaikan setiap subtugas.

Beberapa jenis algoritma pembelajaran terintegrasi dalam RoboGen: pembelajaran penguatan, strategi evolusioner, optimasi lintasan berbasis gradien, dan inisialisasi tindakan dengan perencanaan gerak.

Masing-masing cocok untuk tugas yang berbeda, seperti optimasi lintasan berbasis gradien, yang lebih cocok untuk mempelajari tugas manipulasi berbutir halus yang melibatkan tubuh lunak, seperti membentuk adonan menjadi bentuk target.

Inisialisasi tindakan dalam kombinasi dengan perencanaan gerak lebih dapat diandalkan saat menyelesaikan tugas, seperti mendekati objek target melalui jalur bebas tabrakan.

Pembelajaran penguatan dan strategi evolusioner lebih cocok untuk tugas-tugas kaya kontak yang melibatkan interaksi konstan dengan komponen adegan lainnya, seperti gerakan kaki, atau ketika tindakan yang diinginkan tidak dapat dengan mudah diparameterisasi oleh pose efektor akhir diskrit, seperti memutar kenop oven.

Singkatnya, GPT-4 memilih algoritma mana yang akan digunakan secara online berdasarkan subtugas yang dihasilkan.

Selanjutnya, saatnya untuk membangun skenario simulasi untuk robot dan membiarkan mereka belajar keterampilan.

Robot belajar membuka brankas

Misalnya, RoboGen akan meminta robot untuk mempelajari tugas yang sangat rumit dalam menyesuaikan arah lampu meja.

Menariknya, dalam adegan ini, ada benda-benda rapuh seperti monitor komputer di tanah.

Dapat dikatakan bahwa ini adalah ujian besar bagi kemampuan pengenalan lingkungan robot.

Untuk ini, RoboGen menghasilkan kode operasi yang sangat rinci, termasuk konfigurasi adegan, dekomposisi tugas, dan pengawasan:

Selain itu, tugas-tugas yang membutuhkan banyak langkah untuk diselesaikan, seperti meminta robot mengeluarkan isi brankas, akan dilatih.

Ini melibatkan membuka, mengambil, meletakkan, menutup pintu dan operasi lainnya, di mana juga perlu untuk mencoba menghindari tabrakan dengan furnitur.

Kode yang diberikan oleh RoboGen adalah sebagai berikut:

Atau, misalnya, memiliki robot humanoid di Boston Dynamics berputar di tempat, yang dapat ditemui di ruang kecil.

Berikut kodenya:

Hasil Eksperimental

- Keragaman Quest

Seperti yang ditunjukkan pada Tabel 1, RoboGen mencapai self-BLEU terendah dan menanamkan kesamaan dibandingkan dengan semua tolok ukur sebelumnya. Dengan kata lain, keragaman tugas generasi RoboGen lebih tinggi daripada tolok ukur dan kumpulan data pembelajaran keterampilan yang dibuat secara artifisial!

- Efektivitas Skenario

Seperti yang ditunjukkan pada Gambar 4, penghapusan verifikasi ukuran menghasilkan penurunan tajam dalam skor BLIP-2 karena perbedaan besar antara ukuran objek di Objaverse dan PartNetMobility dan ukuran sebenarnya di dunia nyata. Selain itu, BLIP-2 tanpa validasi objek juga memiliki skor yang lebih rendah dan varians yang lebih besar.

Sebaliknya, langkah validasi dalam RoboGen dapat secara signifikan meningkatkan efektivitas pemilihan objek.

**- Efektivitas Instruksi Pelatihan **

Seperti yang ditunjukkan pada Gambar 3, robot belajar keterampilan berdasarkan panduan pelatihan (yaitu, dekomposisi tugas dan fungsi penghargaan) yang dihasilkan oleh RoboGen dalam empat tugas jangka panjang.

Hasilnya menunjukkan bahwa robot berhasil mempelajari keterampilan untuk menyelesaikan tugas yang sesuai. Dengan kata lain, pelatih pelatihan yang dihasilkan secara otomatis efektif dalam memperoleh keterampilan yang bermakna dan berguna.

- Pembelajaran Keterampilan

Hasil pada Tabel 2 menunjukkan bahwa memungkinkan pemilihan algoritma pembelajaran bermanfaat untuk meningkatkan kinerja penyelesaian tugas. Jika Anda hanya menggunakan RL, Anda akan gagal dalam pembelajaran keterampilan untuk sebagian besar tugas.

-Sistem

Seperti yang ditunjukkan pada Gambar 1, RoboGen dapat menghasilkan berbagai tugas untuk pembelajaran keterampilan, termasuk manipulasi objek kaku / sendi, penggerak, dan manipulasi tubuh lunak.

Gambar 3 lebih lanjut menunjukkan bahwa RoboGen mampu memberikan keterampilan operasi jarak jauh dengan cara dekomposisi yang wajar.

Pengantar Penulis

Yufei Wang adalah mahasiswa PhD tahun ketiga di Institut Robotika Universitas Carnegie Mellon, di mana ia diawasi oleh Prof. Zackory Erickson dan Prof. David Held, dengan minat penelitian dalam pembelajaran robotika.

Sebelumnya, ia menerima gelar master di bidang ilmu komputer dari CMU pada Desember 2020 di bawah pengawasan Prof. David Held, dan gelar sarjana di bidang ilmu data dari Yuanpei College, Universitas Peking pada Juli 2019 di bawah pengawasan Prof. Bin Dong.

Zhou Xian adalah Ph.D. mahasiswa di Institut Robotika Universitas Carnegie Mellon di bawah pengawasan Katerina Fragkiadaki. Minat penelitiannya adalah robotika, visi komputer, dan pembelajaran model dunia.

Sebelum bergabung dengan CMU, beliau menyelesaikan gelar sarjana di Nanyang Technological University, Singapura, di bawah bimbingan Pham Quang Cuong dan I-Ming Chen. Dia juga magang di Meta AI, Akshara Rai, dan MIT-IBM AI Lab di bawah mentor Chuang Gan.

Saat ini, penelitiannya berfokus pada membangun strategi saraf terpadu dan infrastruktur simulasi untuk pembelajaran robot yang dapat diskalakan.

Selain itu, ada juga Chen Feng dari Tsinghua Yao Ban.

Pemimpin tim, Gan Chuang, saat ini adalah kepala ilmuwan IBM dan asisten profesor di University of Massachusetts, dan merupakan murid Akademisi Yao Chizhi. Selama Ph.D., ia memenangkan Penghargaan Khusus Tsinghua, Microsoft Scholar, dan Baidu Scholar. Penelitiannya telah didanai oleh Amazon Research Award, Sony Faculty Award, Cisco Faculty Award, Microsoft Accelerate Foundation Models Research Program, dan lain-lain.

Sumber daya:

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

Hadiah
suka
Komentar
Posting ulang
Bagikan

Komentar

0/400

Tidak ada komentar

Topik
#Gate & WLFI USD1 Points Program
61k Popularitas
#Trump Allows 401(k) Crypto Investing
31k Popularitas
#Join Copy Trading Share to Win $2,000
28k Popularitas
#Show My Alpha Points
75k Popularitas
#SOL Futures Reach New High
22k Popularitas

Sematkan

peta situs