Dengan GPT-4, robot belajar membalik pena dan piring kenari

2023-10-21 08:49:08

** Jantung Mesin Asli **

** Editor: Zhang Qian, Chen Ping **

Dengan kombinasi GPT-4 dan pembelajaran penguatan, seperti apa masa depan robotika?

Dalam hal pembelajaran, GPT-4 adalah siswa yang tangguh. Setelah mencerna sejumlah besar data manusia, ia menguasai berbagai pengetahuan, dan bahkan menginspirasi ahli matematika Tao Zhexuan dalam obrolan.

Pada saat yang sama, ia telah menjadi guru yang sangat baik, dan tidak hanya mengajarkan pengetahuan buku, tetapi juga mengajarkan robot untuk membalik pena.

Robot bernama Eureka ini merupakan studi dari Nvidia, University of Pennsylvania, California Institute of Technology, dan University of Texas di Austin. Penelitian ini menggabungkan hasil model bahasa besar dan pembelajaran penguatan: GPT-4 digunakan untuk memperbaiki fungsi penghargaan, dan pembelajaran penguatan digunakan untuk melatih pengontrol robot.

Dengan kemampuan GPT-4 untuk menulis kode, Eureka memiliki kemampuan desain fungsi penghargaan yang sangat baik, dan penghargaan yang dihasilkan sendiri lebih unggul daripada para ahli manusia dalam 83% tugas. Kemampuan ini memungkinkan robot untuk melakukan banyak tugas yang tidak mudah dilakukan sebelumnya, seperti membalik pena, membuka laci dan lemari, melempar bola untuk menangkap dan menggiring bola, mengoperasikan gunting, dll. Namun, untuk saat ini, ini semua dilakukan dalam lingkungan virtual.

Selain itu, Eureka menerapkan jenis baru RLHF dalam konteks yang menggabungkan umpan balik bahasa alami dari operator manusia untuk memandu dan menyelaraskan fungsi penghargaan. Ini dapat memberi insinyur robotika fungsi tambahan yang kuat untuk membantu insinyur merancang perilaku gerak yang kompleks. Jim Fan, seorang ilmuwan AI senior di NVIDIA dan salah satu penulis makalah ini, menyamakan penelitian ini dengan "Voyager di ruang API simulator fisika."

Perlu disebutkan bahwa penelitian ini sepenuhnya open source, dan alamat open source adalah sebagai berikut:

Tautan Kertas:

Tautan Proyek:

Tautan kode:

Ikhtisar Makalah

Model Bahasa Besar (LLM) unggul dalam perencanaan semantik tingkat tinggi dari tugas-tugas robot (seperti Google SayCan, bot RT-2), tetapi apakah mereka dapat digunakan untuk mempelajari tugas-tugas operasional tingkat rendah yang kompleks, seperti pembubutan pena, tetap menjadi pertanyaan terbuka. Upaya yang ada membutuhkan banyak keahlian domain untuk membangun petunjuk tugas atau hanya mempelajari keterampilan sederhana, jauh dari fleksibilitas tingkat manusia.

Robot RT-2 Google

Pembelajaran penguatan (RL), di sisi lain, telah mencapai hasil yang mengesankan dalam fleksibilitas dan banyak aspek lainnya (seperti manipulator OpenAI yang memainkan Rubik's Cube), tetapi membutuhkan desainer manusia untuk secara hati-hati membangun fungsi penghargaan yang secara akurat mengkodifikasi dan memberikan sinyal pembelajaran untuk perilaku yang diinginkan. Karena banyak tugas pembelajaran penguatan dunia nyata hanya memberikan imbalan yang jarang yang sulit digunakan untuk belajar, pembentukan hadiah diperlukan dalam praktik untuk memberikan sinyal pembelajaran progresif. Meskipun fungsi hadiah sangat penting, sangat sulit untuk dirancang. Sebuah survei baru-baru ini menemukan bahwa 92% peneliti dan praktisi pembelajaran penguatan yang disurvei mengatakan mereka membuat trial and error manusia ketika merancang hadiah, dan 89% mengatakan mereka merancang hadiah yang kurang optimal dan akan mengarah pada perilaku yang tidak terduga.

Mengingat bahwa desain hadiah sangat penting, kami tidak bisa tidak bertanya, apakah mungkin untuk mengembangkan algoritma pemrograman hadiah universal menggunakan LLM pengkodean canggih seperti GPT-4? LLM ini unggul dalam pengkodean, generasi zero-shot, dan pembelajaran dalam konteks, dan telah sangat meningkatkan kinerja agen pemrograman. Idealnya, algoritma desain hadiah ini harus memiliki kemampuan menghasilkan hadiah tingkat manusia yang dapat diskalakan ke berbagai tugas, mengotomatiskan proses coba-coba yang membosankan tanpa pengawasan manusia, dan kompatibel dengan pengawasan manusia untuk memastikan keamanan dan konsistensi.

Makalah ini mengusulkan algoritma desain hadiah berbasis LLM, EUREKA (Evolution-driven Universal REward Kit for Agent). Algoritma mencapai hal-hal berikut:

Kinerja desain hadiah mencapai tingkat manusia di 29 lingkungan RL open source yang berbeda, yang mencakup 10 bentuk robot yang berbeda (quadruped, quadcopter, bipedal, manipulator, dan beberapa tangan yang cekatan, lihat Gambar 1). Tanpa petunjuk khusus tugas atau templat hadiah, penghargaan EUREKA yang dihasilkan sendiri mengungguli para ahli manusia dalam 83% tugas dan mencapai peningkatan normalisasi rata-rata 52%.

2. Selesaikan tugas operasi tangkas yang tidak dapat dicapai melalui rekayasa hadiah manual sebelumnya. Ambil masalah pembubutan pena, misalnya, di mana tangan dengan hanya lima jari perlu memutar pena dengan cepat sesuai dengan konfigurasi rotasi yang telah ditentukan sebelumnya dan memutar siklus sebanyak mungkin. Dengan menggabungkan EUREKA dengan kursus, para peneliti menunjukkan untuk pertama kalinya pengoperasian pena cepat pada simulasi antropomorfik "Tangan Bayangan" (lihat bagian bawah Gambar 1).

Makalah ini menyediakan metode pembelajaran konteks bebas gradien baru untuk pembelajaran penguatan berdasarkan umpan balik manusia (RLHF), yang dapat menghasilkan fungsi penghargaan yang lebih efisien dan selaras dengan manusia berdasarkan berbagai bentuk input manusia. Makalah ini menunjukkan bahwa EUREKA dapat mengambil manfaat dari dan meningkatkan fungsi penghargaan manusia yang ada. Demikian pula, para peneliti menunjukkan kemampuan EUREKA untuk menggunakan umpan balik tekstual manusia untuk membantu merancang fungsi penghargaan, yang membantu menangkap preferensi manusia yang halus.

Tidak seperti pekerjaan L2R sebelumnya yang menggunakan desain hadiah yang dibantu LLM, EUREKA tidak memiliki petunjuk khusus tugas, templat hadiah, dan beberapa contoh. Dalam percobaan, EUREKA tampil secara signifikan lebih baik daripada L2R karena kemampuannya untuk menghasilkan dan memperbaiki bentuk bebas, program hadiah ekspresif.

Fleksibilitas EUREKA adalah karena tiga pilihan desain algoritma utama: konteks sebagai konteks, pencarian evolusioner, dan refleksi hadiah.

Pertama, dengan menggunakan kode sumber lingkungan sebagai konteks, EUREKA dapat menghasilkan fungsi hadiah yang dapat dieksekusi dari nol sampel dalam pengkodean tulang punggung LLM (GPT-4). EUREKA kemudian sangat meningkatkan kualitas hadiah dengan melakukan pencarian evolusioner, secara iteratif mengusulkan batch kandidat hadiah, dan menyempurnakan hadiah yang paling menjanjikan di jendela konteks LLM. Peningkatan dalam konteks ini dicapai melalui refleksi hadiah, yang merupakan ringkasan teks berkualitas hadiah berdasarkan statistik pelatihan strategi yang memungkinkan pengeditan hadiah otomatis dan bertarget.

3 MENUNJUKKAN CONTOH EUREKA ZERO-SAMPLE REWARD DAN PENINGKATAN YANG TERAKUMULASI SELAMA OPTIMASI. Untuk memastikan bahwa EUREKA mampu menskalakan pencarian hadiahnya ke potensi maksimumnya, EUREKA menggunakan pembelajaran penguatan terdistribusi yang dipercepat GPU di IsaacGym untuk mengevaluasi hadiah menengah, yang memberikan peningkatan hingga tiga kali lipat dalam kecepatan pembelajaran kebijakan, menjadikan EUREKA algoritma luas yang berskala secara alami ketika jumlah komputasi meningkat.

Ini ditunjukkan pada Gambar 2. Para peneliti berkomitmen untuk membuka sumber semua tips, lingkungan, dan fungsi hadiah yang dihasilkan untuk memfasilitasi penelitian lebih lanjut tentang desain hadiah berbasis LLM.

Pengantar metode

EUREKA dapat menulis algoritma penghargaan secara mandiri, bagaimana penerapannya, mari kita lihat selanjutnya.

EUREKA terdiri dari tiga komponen algoritmik: 1) menggunakan lingkungan sebagai konteks, sehingga mendukung generasi zero-shot dari hadiah yang dapat dieksekusi; 2) pencarian evolusioner, secara iteratif mengusulkan dan menyempurnakan kandidat hadiah; 3) Menghargai refleksi dan mendukung peningkatan hadiah berbutir halus.

Lingkungan sebagai konteks

Artikel ini merekomendasikan untuk menyediakan kode lingkungan asli secara langsung sebagai konteks. Dengan hanya instruksi minimal, EUREKA dapat menghasilkan hadiah di lingkungan yang berbeda dengan nol sampel. Contoh output EUREKA ditunjukkan pada Gambar 3. EUREKA ahli menggabungkan variabel pengamatan yang ada (misalnya, posisi ujung jari) dalam kode lingkungan yang disediakan dan menghasilkan kode hadiah yang valid - semua tanpa rekayasa prompt khusus lingkungan atau template hadiah.

Namun, pada upaya pertama, hadiah yang dihasilkan mungkin tidak selalu dapat dieksekusi, dan bahkan jika itu, mungkin kurang optimal. Hal ini menimbulkan pertanyaan tentang bagaimana cara efektif mengatasi suboptimalitas generasi hadiah sampel tunggal?

** Pencarian Evolusioner **

Selanjutnya, makalah ini menjelaskan bagaimana pencarian evolusioner memecahkan masalah solusi suboptimal yang disebutkan di atas. Mereka disempurnakan sedemikian rupa sehingga dalam setiap iterasi, EUREKA mengambil sampel beberapa output independen LLM (baris 5 dalam algoritma 1). Karena setiap iterasi secara independen dan homogen, probabilitas kesalahan dalam semua fungsi hadiah dalam iterasi berkurang secara eksponensial saat ukuran sampel meningkat.

Refleksi Hadiah

Untuk memberikan analisis hadiah yang lebih kompleks dan bertarget, artikel ini mengusulkan untuk membangun umpan balik otomatis untuk meringkas dinamika pelatihan kebijakan dalam teks. Secara khusus, mengingat bahwa fungsi hadiah EUREKA memerlukan komponen individu dalam program hadiah (seperti komponen hadiah pada Gambar 3), artikel ini melacak nilai skalar dari semua komponen hadiah di pos pemeriksaan kebijakan menengah selama proses pelatihan.

Membangun proses refleksi hadiah ini sederhana, tetapi penting karena ketergantungan algoritma pengoptimalan hadiah. Artinya, apakah fungsi reward valid atau tidak dipengaruhi oleh pilihan spesifik algoritma RL, dan reward yang sama mungkin berperilaku sangat berbeda bahkan di bawah pengoptimal yang sama untuk perbedaan hyperparameter yang diberikan. Dengan merinci bagaimana algoritma RL mengoptimalkan komponen hadiah individu, refleksi hadiah memungkinkan EUREKA untuk menghasilkan pengeditan hadiah yang lebih bertarget dan mensintesis fungsi hadiah untuk bekerja lebih baik dengan algoritma RL tetap.

Percobaan

Bagian eksperimental memberikan penilaian komprehensif Eureka, termasuk kemampuan untuk menghasilkan fungsi penghargaan, kemampuan untuk menyelesaikan tugas-tugas baru, dan kemampuan untuk mengintegrasikan berbagai input manusia.

Lingkungan eksperimental mencakup 10 robot yang berbeda dan 29 tugas, 29 di antaranya dilaksanakan oleh simulator IsaacGym. Percobaan ini menggunakan 9 lingkungan primitif dari IsaacGym (Isaac), yang mencakup berbagai bentuk robot dari quadruped, bipedal, quadcopter, manipulator hingga robot tangan cekatan. Selain itu, artikel ini memastikan kedalaman penilaian dengan memasukkan 20 tugas dari tolok ukur Dexterity.

Eureka dapat menghasilkan fungsi hadiah tingkat manusia super. Dari 29 tugas, fungsi hadiah yang diberikan oleh Eureka berkinerja lebih baik daripada hadiah yang ditulis ahli pada 83% tugas, meningkat rata-rata 52%. Secara khusus, Eureka mencapai manfaat yang lebih besar dalam lingkungan benchmark Dexterity dimensi tinggi.

Eureka mampu mengembangkan pencarian hadiah sehingga hadiah meningkat seiring waktu. Eureka secara progresif menghasilkan hadiah yang lebih baik dengan menggabungkan pencarian hadiah skala besar dan umpan balik refleksi hadiah terperinci, yang akhirnya melampaui tingkat manusia.

Eureka juga dapat menghasilkan hadiah baru. Makalah ini mengevaluasi kebaruan hadiah Eureka dengan menghitung korelasi antara hadiah Eureka dan hadiah manusia pada semua tugas Ishak. Seperti yang ditunjukkan pada gambar, Eureka terutama menghasilkan fungsi penghargaan yang berkorelasi lemah, yang mengungguli fungsi penghargaan manusia. Selain itu, makalah ini juga mengamati bahwa semakin sulit tugasnya, semakin tidak relevan hadiah Eureka. Dalam beberapa kasus, hadiah Eureka bahkan berkorelasi negatif dengan hadiah manusia, tetapi berkinerja jauh lebih baik daripada hadiah manusia.

想要实现机器人的灵巧手能够不停的转笔，需要操作程序有尽可能多的循环。本文通过以下方式解决此任务：(1) Instruksikan Eureka untuk menghasilkan fungsi hadiah yang mengalihkan pena ke konfigurasi target acak, dan kemudian (2) menyempurnakan strategi pra-terlatih ini dengan Eureka Rewards untuk mencapai konfigurasi rotasi urutan pena yang diinginkan. Seperti yang ditunjukkan, Eureka fine-tuned dengan cepat beradaptasi dengan strategi, berhasil memutar banyak siklus berturut-turut. Sebaliknya, baik strategi pra-terlatih maupun yang dipelajari dari awal tidak dapat menyelesaikan putaran dalam satu siklus.

Makalah ini juga meneliti apakah memulai dengan inisialisasi fungsi penghargaan manusia bermanfaat bagi Eureka. Seperti yang ditunjukkan, Eureka meningkatkan dan mendapat manfaat dari imbalan manusia, terlepas dari kualitas imbalan manusia.

Eureka juga menerapkan RLHF, yang dapat memodifikasi hadiah berdasarkan umpan balik manusia untuk memandu agen langkah demi langkah melalui perilaku yang lebih aman dan lebih mirip manusia. Contoh ini menunjukkan bagaimana Eureka mengajarkan robot humanoid untuk berlari tegak dengan beberapa umpan balik manusia yang menggantikan refleksi hadiah otomatis sebelumnya.

* Robot humanoid belajar berlari dengan Eureka *

Untuk informasi lebih lanjut, silakan merujuk ke makalah asli.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

Hadiah
suka
Komentar
Bagikan

Komentar

0/400

Tidak ada komentar

Topik
1/3
1CandyDrop Airdrop Event 6.0
55k Popularitas
2White House Crypto Report
53k Popularitas
3Join Alpha RION Airdrop to Earn $40
38k Popularitas
4Fed Holds Rates Decision
9k Popularitas
5July Spark Program TOP 10 Creators Announced
3k Popularitas

Sematkan

peta situs