Apakah RT-2 Google, momen GPT-3 untuk robot?

Pada tanggal 29 Juli, seorang reporter dari New York Times memimpin dalam melihat robot berbasis model RT-2 terbaru Google di Google Lab.

Robot satu tangan berdiri di depan meja. Di atas meja duduk tiga patung plastik: singa, paus, dan dinosaurus. Insinyur memberi perintah pada robot: "Ambil hewan yang punah." Robot itu berputar sesaat, lalu mengulurkan tangannya, cakarnya menyebar dan jatuh. Itu menangkap dinosaurus.

Ini adalah kilasan kecerdasan.

The New York Times menjelaskan, "Sampai minggu lalu, demonstrasi ini tidak mungkin dilakukan. Robot tidak dapat dengan andal memanipulasi objek yang belum pernah mereka lihat sebelumnya, dan mereka pasti tidak dapat mencapai tujuan untuk beralih dari "binatang punah" menjadi "dinosaurus plastik". "

**Sementara masih dalam demo, dan Google tidak berencana untuk membuat rilis yang lebih besar atau segera mengkomersialkannya, demo tersebut cukup untuk menunjukkan sekilas peluang yang dapat dibawa oleh model besar ke robot. **

Sebelum kedatangan era model besar, orang melatih robot, biasanya dioptimalkan untuk setiap tugas, seperti memegang mainan tertentu, yang membutuhkan data yang cukup, sehingga robot dapat mengidentifikasi mainan ini secara akurat dari semua sudut dan di bawah berbagai sudut. lampu, dan pegang mainannya. sukses. Untuk menyadarkan robot bahwa ia memiliki tugas untuk merebut mainan tersebut, robot perlu diprogram untuk menyelesaikannya.

Kecerdasan dan kemampuan generalisasi dari model besar memungkinkan orang untuk melihat awal penyelesaian masalah ini dan bergerak menuju robot universal.

Menerapkan Transformator ke robot

Model RT-2 baru Google, yang disebut Robotic Transformer 2, menggunakan arsitektur Transformer sebagai dasar modelnya.

Arsitektur Transformer yang diusulkan pada tahun 2018 adalah basis bawah model bahasa besar (LLM) yang saat ini populer di seluruh dunia, namun nyatanya, sebagai arsitektur, Transformer dapat digunakan tidak hanya dalam model bahasa besar, tetapi juga di Train. pada jenis data lainnya. Pada awal Maret tahun ini, Google merilis PaLM-E, yang merupakan model bahasa visual (VLM) terbesar di dunia saat itu.

Dalam model bahasa besar, bahasa dikodekan sebagai vektor, dan orang menyediakan sejumlah besar korpus untuk model tersebut, sehingga dapat memprediksi apa yang biasanya dikatakan manusia pada kalimat berikutnya, sehingga menghasilkan jawaban bahasa.

Dalam model bahasa visual, model dapat menyandikan informasi gambar ke dalam vektor mirip bahasa, memungkinkan model untuk "memahami" teks dan "memahami" gambar dengan cara yang sama. Para peneliti memberikan sejumlah besar korpus dan gambar ke model bahasa visual, memungkinkannya melakukan tugas-tugas seperti menjawab pertanyaan secara visual, memberi teks pada gambar, dan pengenalan objek.

Baik gambar maupun bahasa relatif mudah untuk mendapatkan data dalam jumlah besar. Oleh karena itu, mudah bagi model tersebut untuk mencapai hasil yang luar biasa.

Namun, ada kesulitan besar dalam menggunakan arsitektur Transformer untuk menghasilkan perilaku robot. “Data yang terkait dengan gerakan robot sangat mahal.” Profesor Xu Huazhe, asisten profesor di Institut Informasi Interdisipliner di Universitas Tsinghua, mengatakan kepada Geek Park, “Data penglihatan dan bahasa berasal dari manusia, yang merupakan data pasif, sedangkan data robot data pergerakan semua berasal dari Data aktif untuk bot.

**Misalnya, saya ingin mempelajari aksi robot menuangkan kopi. Apakah itu menulis kode untuk dieksekusi robot, atau menggunakan metode lain agar robot dapat mengeksekusi, robot perlu benar-benar menjalankan operasi ini satu kali untuk mendapatkan data ini. ** Oleh karena itu, skala dan besaran data dan bahasa serta gambar robot benar-benar berbeda. "

**Pada model robot Transformer generasi pertama RT-1 yang diteliti oleh Google, Google membuka tantangan seperti itu untuk pertama kalinya, mencoba membangun model aksi bahasa visual. **

Untuk membangun model seperti itu, Google menggunakan 13 robot dan menghabiskan 17 bulan mengumpulkan kumpulan data yang terdiri dari data aktif robot pada lebih dari 700 tugas di lingkungan dapur yang dibangun.

Kumpulan data secara bersamaan mencatat tiga dimensi:

  • Penglihatan - data kamera saat robot melakukan tugas;
  • Bahasa - teks tugas dijelaskan dalam bahasa alami;
  • dan gerak robot - sumbu xyz dan data defleksi, dll. saat tangan robot melakukan tugas.

Meskipun hasil percobaan yang baik diperoleh pada saat itu, dapat dibayangkan bahwa akan sangat sulit untuk menambah jumlah data dalam kumpulan data lebih lanjut.

Sumber gambar: Video pengantar Google AI

**Inovasi RT-2 adalah bahwa RT-2 menggunakan model bahasa visual (VLM) PaLM-E yang disebutkan di atas dan model bahasa visual lainnya PaLI-X sebagai dasarnya - model bahasa visual murni dapat diteruskan Data tingkat jaringan dilatih, karena jumlah data yang cukup besar, dan hasil yang diperoleh cukup baik.Pada tahap fine-tuning, data gerak robot ditambahkan ke dalamnya dan dilakukan fine-tuning bersama (co-finetuning). **

Dengan cara ini, robot tersebut setara dengan pertama-tama memiliki sistem akal sehat yang telah dipelajari pada data masif — meskipun belum dapat memahami pisang, ia sudah dapat mengenali pisang dan bahkan mengetahui bahwa pisang adalah sejenis buah. bandingkan suka makan.

Pada tahap fine-tuning, dengan menambahkan pengetahuan tentang bagaimana robot menangkap pisang setelah melihatnya di dunia nyata, robot tersebut tidak hanya memiliki kemampuan untuk mengenali pisang di berbagai sudut dan cahaya, tetapi juga memiliki kemampuan untuk menangkap pisang. kemampuan.

Dengan cara ini, data yang dibutuhkan untuk melatih robot dengan arsitektur Transformer berkurang secara signifikan.

RT-2 secara langsung menggunakan dataset vision/language/robot action yang digunakan pada tahap pelatihan RT-1 pada tahap fine-tuning. Data yang diberikan oleh Google menunjukkan bahwa RT-2 bekerja sebaik RT-1 saat mengambil item yang awalnya muncul di data pelatihan. Dan karena "otak dengan akal sehat", saat mengambil item yang belum pernah dilihat sebelumnya, tingkat keberhasilannya meningkat dari 32% RT-1 menjadi 62%.

“Inilah keindahan model besar itu.” Xu Huazhe berkata, “Anda tidak dapat membongkarnya karena ia mengakui bahwa kedua benda itu serupa secara material, atau karena ukurannya serupa, atau karena alasan lain. tingkat menggenggam telah meningkat. Setelah mempelajari cukup banyak hal, beberapa kemampuan akan muncul.

Masa depan berinteraksi dengan robot menggunakan bahasa alami

Secara akademis, generalisasi kuat yang ditunjukkan oleh RT-2 dapat memecahkan masalah kurangnya data pelatihan robot. **Selain itu, kejutan intuitif RT-2 masih berasal dari sisi kecerdasannya. **

Dalam percobaan di mana para peneliti menginginkannya untuk dapat mengambil "sesuatu yang dapat digunakan sebagai palu", robot tersebut mengambil batu di tumpukan benda, dan ketika diminta untuk mengambil minuman yang ditawarkan kepada Red Bull yang kelelahan. dipilih dalam tumpukan item.

Keterampilan tersebut berasal dari kemampuan peneliti untuk memperkenalkan "rantai pemikiran" saat melatih model besar. Penalaran semantik multi-segmen seperti itu sangat sulit dicapai dalam penelitian pembelajaran imitasi robot tradisional.

Namun, menggunakan bahasa alami untuk berinteraksi dengan robot bukanlah ide orisinal RT-2.

Dalam penelitian robotika sebelumnya, peneliti selalu perlu mengubah persyaratan tugas menjadi kode untuk dipahami robot. Pada saat yang sama, begitu masalah terjadi, mereka juga perlu menulis kode untuk mengoreksi perilaku robot. Seluruh proses memerlukan banyak interaksi dan tidak efisien . **Dan sekarang kita sudah memiliki robot dialog yang sangat cerdas, langkah alami selanjutnya adalah membiarkan robot berinteraksi dengan manusia dalam bahasa alami. **

"Kami mulai mengerjakan model bahasa ini sekitar dua tahun lalu, lalu kami menyadari bahwa ada banyak pengetahuan di dalamnya," kata ilmuwan riset Google Karol Hausman, "jadi kami mulai menghubungkannya dengan robot."

Namun, menggunakan model besar sebagai otak robot memiliki kesulitan tersendiri. Salah satu masalah terpenting adalah masalah pentanahan, yaitu bagaimana mengubah respons model besar, yang biasanya relatif tidak dibatasi, menjadi instruksi yang menggerakkan tindakan robot.

** Pada tahun 2022, Google meluncurkan model Say-can. **Model, seperti namanya, menggunakan pertimbangan ganda untuk membantu robot bertindak. Pertimbangan pertama adalah katakanlah. Model ini digabungkan dengan model PaLM model bahasa besar Google, yang dapat menguraikan tugas yang diperoleh melalui bahasa alami dan interaksi manusia, dan menemukan yang paling cocok untuk tindakan saat ini; pertimbangan lain adalah bisa. Model menggunakan algoritma untuk menghitung Temukan probabilitas bahwa robot saat ini berhasil melakukan tugas ini. Robot bergerak berdasarkan dua pertimbangan tersebut.

Misalnya, katakan kepada robot "Susu saya tumpah, bisakah Anda membantu saya?" Robot pertama-tama akan merencanakan tugas melalui model bahasa. Saat ini, cara yang paling masuk akal adalah mencari pembersih, lalu mencari spons untuk menghapusnya dengan sendirinya. Kemudian robot akan menghitung melalui algoritme bahwa sebagai robot, kemungkinan berhasil menemukan pembersih sangat rendah, dan kemungkinan menemukan spons untuk membersihkannya sendiri tinggi. Setelah melakukan pertimbangan ganda, robot akan memilih aksi mencari spons untuk menyeka susu.

Sumber gambar: Video pengantar Saycan

Meskipun dalam arsitektur model dua lapis seperti itu, tindakan yang berhasil dilakukan robot sudah dirancang sebelumnya, model bahasa besar hanya dapat membantu robot memilih rencana tugas yang sesuai. Dalam model seperti itu, robot telah menunjukkan kecerdasan yang kuat.

**Namun, meskipun efeknya terlihat serupa dari luar, RT-2 mengambil jalur yang berbeda. Selama pelatihan, model mempelajari tiga jenis data penglihatan, bahasa, dan perilaku robot secara bersamaan Model RT-2 tidak melakukan dekomposisi tugas terlebih dahulu, kemudian melakukan operasi tugas, tetapi setelah input bahasa alami, itu langsung menghasilkan tindakan melalui pengoperasian model Output. **

"Struktur dua tingkat mirip dengan apa yang ingin saya lakukan. Saya pertama-tama memikirkan langkah pertama untuk melakukan ini, langkah kedua untuk melakukan itu, dan kemudian menerapkan strategi ini satu per satu." Profesor Xu Huazhe berkata, "Dan struktur end-to-end mirip. Jadi saya tidak terlalu memikirkan langkah pertama dan langkah kedua, jadi saya lakukan saja.” Contoh yang terakhir dapat dibandingkan dengan mengetik dan mengobrol di ponsel setiap hari . Kami biasanya tidak menganggapnya serius saat mengetik dan mengobrol. Pikirkan tentang bagaimana otot harus bergerak, tetapi pikirkan kata-kata yang akan diketik, dan langsung ketik.

“Dua rute berbeda atau metode berbeda belum membuktikan diri sebagai satu-satunya cara yang benar,” kata Xu Huazhe. Namun, karena kinerja RT-2 yang luar biasa, model yang dapat mengambil alih arah teknis input dan output tampaknya perlu ditelusuri.

“Karena perubahan ini (kinerja luar biasa RT-2), kami harus memikirkan kembali seluruh rencana penelitian kami,” kata Vincent Vanhoucke, direktur robotika di Google DeepMind. "Banyak hal yang saya lakukan sebelumnya sama sekali tidak berguna."

**RT-2 adalah momen GPT3 untuk robot? **

Robot RT-2 Google tidak sempurna. Dalam demonstrasi aktual yang disaksikan oleh seorang reporter New York Times, itu salah mengidentifikasi rasa sekaleng soda lemon (mengatakan "oranye"). Di lain waktu, saat ditanya buah apa yang ada di atas meja, robot menjawab "putih" (sebenarnya pisang). Seorang juru bicara Google menjelaskan bahwa bot menggunakan jawaban yang di-cache untuk menjawab pertanyaan dari penguji sebelumnya karena Wi-Fi-nya terganggu sebentar.

**Selain itu, menggunakan model besar untuk melatih robot pasti akan menghadapi masalah biaya. **Saat ini, saat robot Google membuat penalaran dan penilaian, mereka perlu mengirimkan data ke cloud, dan beberapa TPU akan menghitung bersama, lalu mengirimkan hasilnya kembali ke robot, dan robot akan melakukan operasi. Perhitungan seperti itu bisa dibayangkan sangat mahal.

Vincent Vanhoucke, direktur robotika di Google's DeepMind, percaya bahwa penelitian baru membuka pintu bagi robot untuk digunakan di lingkungan manusia -- para peneliti percaya bahwa robot dengan model bahasa bawaan dapat memasuki gudang, di industri medis, dan bahkan sebagai asisten rumah tangga, membantu melipat cucian, mengeluarkan barang-barang dari mesin pencuci piring, dan merapikan rumah.

“Jika Anda membuka pabrik dan perlu menggunakan robot, tingkat keberhasilannya pasti sangat tinggi. Anda tidak ingin mengatakan bahwa setelah Anda membeli robot, Anda membutuhkan banyak orang untuk memelihara robot dan meningkatkan hal-hal yang robot tidak berfungsi dengan baik. Maka ini Biayanya terlalu tinggi." Profesor Xu Huazhe berkata, "Robot di lingkungan rumah mungkin merupakan situasi lain, karena mungkin persyaratan tingkat keberhasilan untuk beberapa tugas di lingkungan rumah tidak terlalu tinggi. Untuk Misalnya, melipat pakaian tidak begitu bagus. Di mata Anda, misi ini telah gagal, tetapi tidak akan berdampak besar bagi Anda."

Yang Likun (Yaan Lecun), salah satu dari tiga raksasa kecerdasan buatan, memiliki pernyataan terkenal yang telah berkali-kali ditekankan: kecerdasan buatan tidak cukup pintar. Setiap anak dapat dengan cepat belajar membersihkan meja dan meletakkan piring di mesin pencuci piring, tetapi robot tidak bisa.

Ini mungkin benar untuk penelitian robot saat ini, tetapi karena GPT-3 yang tidak sempurna telah menunjukkan arah pengembangan model skala besar kepada industri, mungkin RT-2 yang tidak sempurna saat ini juga akan membuka era masa depan di mana robot memasuki rumah dan menjadi asisten kami.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Bagikan
Komentar
0/400
Tidak ada komentar
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)