Model besar sebenarnya dilengkapi dengan penggerak otonom, dan AI akan menjelaskan cara mengemudinya!

2023-09-17 03:13:13

Sumber: Xinzhiyuan

LINGO-1 yang diluncurkan oleh Wayve memberikan pengalaman berkendara otonom! Cara mengendarai mobil ini, jelasnya sendiri, model bahasa besar, bukan lagi kotak hitam.

Sejak penemuannya, hal yang paling mengkhawatirkan tentang mengemudi otonom adalah manusia tidak dapat mengetahui apa yang ada dalam pikirannya.

Mulai hari ini, ia benar-benar dapat "mengungkapkan" pikirannya?

Baru-baru ini, Wayve meluncurkan LINGO-1, model interaksi mengemudi otonom besar berdasarkan model besar tindakan bahasa visual (VLAM), yang sangat mengintegrasikan model bahasa besar dan mengemudi otonom.

Secara khusus, LINGO-1 melatih model bahasa video, yang bisa dikatakan cukup dipersonalisasi - model tersebut dapat mengomentari adegan yang terjadi di depannya!

-Apa yang sedang kamu lakukan? -Saya melintasi lalu lintas dengan hati-hati karena kondisi jalan saat ini rumit. -Apa yang akan kamu lakukan selanjutnya? -Aku akan belok kiri. -Apa saja potensi risiko dalam skenario yang ada? - lampu lalu lintas, pengendara sepeda, pejalan kaki yang menyeberang jalan

Ini akan menjelaskan semua keraguan Anda tentang sistem mengemudi cerdas dengan jelas kepada Anda.

T: Mengapa berhenti? Jawaban: Karena sekarang sedang lampu merah.

Setelah dilatih tentang berbagai data visual dan bahasa, LINGO-1 tidak hanya dapat melakukan tugas visual question-answering (VQA) seperti persepsi, kontrafaktual, perencanaan, penalaran, dan perhatian, tetapi juga mendeskripsikan perilaku dan penalaran mengemudi.

Dengan kata lain, kita dapat memahami faktor-faktor yang mempengaruhi keputusan mengemudi dengan mengajukan pertanyaan kepada LINGO-1.

Netizen menyesalkan: "Kotak hitam ujung ke ujung telah dibuka dengan cara ini. Ini hanyalah keajaiban di era GPT. Sistem penggerak otonom telah mengambil langkah maju yang besar dari interaksi dengan dunia fisik nyata."

Dapat dibayangkan bahwa ketika kita mendorong batas-batas kecerdasan buatan, model vision-speech-action akan memiliki dampak yang besar, karena bahasa memberikan paradigma baru untuk meningkatkan cara kita menafsirkan dan melatih model self-driving.

Pujian datang di mobil self-driving?

Fitur unik LINGO-1 adalah pengenalan pakar manusia untuk melatih data komentar verbal adegan mengemudi, memungkinkan model menghubungkan persepsi lingkungan, pengambilan keputusan tindakan, dan interpretasi adegan mirip manusia.

Dengan cara ini, ia dapat menafsirkan keputusan dan tindakan sistem penggerak otonom melalui interaksi bahasa alami.

Jim Fan, ilmuwan AI senior di NVIDIA, berkomentar dengan penuh semangat: Ini adalah karya paling menarik di bidang mengemudi otonom yang saya baca baru-baru ini!

Dahulu, mengemudi otonom adalah "persepsi -> operasi mengemudi", namun di masa depan, mengemudi otonom telah menambahkan langkah penalaran, yaitu "persepsi -> penalaran verbal -> tindakan".

Apa keuntungan dari langkah penalaran eksplisit yang baru ini? Jim Fan menjelaskan sebagai berikut—

Interpretabilitas: Model mengemudi bukan lagi kotak hitam yang misterius.

Skenario kontrafaktual: Mampu membayangkan skenario yang tidak ada dalam data pelatihan dan memikirkan cara menanganinya dengan benar.

Pemrograman ekor panjang: Ada banyak skenario edge dalam berkendara, dan tidak mungkin menyediakan cakupan data yang baik untuk semua skenario. Daripada mengumpulkan ribuan contoh untuk "memprogram saraf" suatu kasus, pakar manusia dapat menulis petunjuk () untuk menjelaskan sejumlah kecil contoh, sehingga memandu sistem tentang cara menangani skenario yang spesifik atau kompleks.

Tidak hanya itu, LINGO-1 juga erat kaitannya dengan beberapa penelitian di bidang kecerdasan buatan game, seperti MineDojo dan Thought Cloning yang keduanya merupakan agen AI.

Yang pertama dapat mempelajari model hadiah yang mengaitkan teks ulasan dengan piksel video Minecraft. Yang terakhir dapat mewujudkan satu set lengkap tautan "piksel->bahasa->lingkaran tindakan".

LINGO-1—Narator Mengemudi Loop Terbuka

Penjelasan saya sendiri

Apa yang menjadi perhatian model? melakukan apa? Kini, hal tersebut bukan lagi sebuah misteri.

LINGO-1 akan menjelaskan dengan jelas kepada Anda apa yang dilakukannya di setiap langkah.

Misalnya ingin menyalip kendaraan yang diparkir di pinggir jalan -

LINGO-1: Saya menyalip karena lalu lintas lambat. LINGO-1: Saya melewati mobil yang diparkir. LINGO-1: Saya mempercepat karena jalan di depan jelas.

Saat mendekati zebra cross——

LINGO-1: Saya menjaga kecepatan saya; jalannya masih bersih. LINGO-1: Pengereman dan perlambatan sekarang. LINGO-1: Berhenti di zebra cross. LINGO-1: Saya berakselerasi dari tempat saya berhenti. LINGO-1: Saya ngebut karena jalanannya bersih.

Saat belok kiri di persimpangan——

LINGO-1: Saya diam karena mobil di depan juga berhenti. LINGO-1: Saya mempercepat karena mobil di depan sudah menjauh. LINGO-1: Saya mengerem untuk berhenti di persimpangan. LINGO-1: Saya maju karena jalurnya bersih. LINGO-1: Selesaikan belok kiri dan ikuti rutenya.

### Menjawab Pertanyaan Visual (VQA)

Selain menjelaskan dirinya sendiri, LINGO-1 juga dapat menjawab pertanyaan Anda, memungkinkan kami mengevaluasi pemahaman adegan dan kemampuan penalarannya.

Misalnya jika Anda bertanya pada LINGO-1, apa yang harus Anda perhatikan di persimpangan ini?

Dikatakan, "Saya harus memperhatikan lampu di depan saya, pengendara sepeda di depan saya, dan pejalan kaki yang menyeberang jalan."

Tanyakan LINGO-1, bagaimana cuacanya sekarang? Apa dampaknya terhadap mengemudi?

Bunyinya: "Ini hari hujan dan saya harus sangat berhati-hati saat berkendara karena permukaan jalan licin dan jarak pandang berkurang pada hari hujan."

LINGO-1, bagaimana cara aman bersepeda berdampingan?

Bunyinya: "Saya harus menjaga jarak dari pengendara sepeda dan berhenti bila perlu. Ini berpotensi bahaya. Selain itu, saya harus memperhatikan mobil yang diparkir di pinggir jalan."

### Kunci: Mendorong kumpulan data komentar

Kunci untuk mengembangkan LINGO-1 adalah menciptakan kumpulan data yang terukur dan beragam. Kumpulan data ini berisi komentar dari pengemudi profesional saat berkendara melintasi Inggris, termasuk gambar, bahasa, dan data tindakan.

Hal ini mengingatkan kita pada adegan ketika kita sedang belajar mengemudi dari para instruktur di sekolah mengemudi – dari waktu ke waktu mereka akan memberikan komentar dan penjelasan seperti berikut untuk menjelaskan mengapa mereka berperilaku seperti itu saat mengemudi, sehingga para siswa dapat menarik kesimpulan. .

Kendaraan/lampu lalu lintas di depan telah berganti, harap melambat - Saatnya berpindah jalur - Anda dapat mempercepat, hati-hati jangan melebihi batas kecepatan maksimal - Perhatian! Kendaraan lain sudah masuk jalan/berhenti di persimpangan - Perhatikan bundaran dan rambu jalan di depan - Ada kendaraan/lampu lalu lintas/sekolah yang sedang parkir di depan - Kendaraan berikutnya berpindah jalur/menyalip kendaraan yang sedang parkir - Pengendara sepeda/pejalan kaki Menunggu di persimpangan jalur penyeberangan pejalan kaki

Ketika kalimat di atas, gambar sensorik, dan tindakan mengemudi yang mendasarinya disinkronkan dalam waktu, peneliti akan memperoleh kumpulan data tindakan bahasa visual yang kaya yang dapat digunakan untuk melatih model untuk berbagai tugas.

Model Tindakan Bahasa Visual (VLAM)

Setelah munculnya LLM, banyak model bahasa visual (VLM) yang menggabungkan kemampuan penalaran LLM dengan gambar dan video.

Wayve selanjutnya meluncurkan Vision-Language-Action Model (VLAM), yang berisi tiga jenis informasi-gambar, data penggerak, dan bahasa.

Di masa lalu, bahasa alami jarang digunakan dalam pelatihan robot (terutama di bidang mengemudi otonom).

Jika bahasa alami ditambahkan, hal ini akan memungkinkan kita untuk menafsirkan dan melatih model dasar mengemudi dengan lebih kuat. Model baru ini akan memiliki dampak yang sangat besar.

Dengan menggunakan bahasa untuk menjelaskan berbagai faktor penyebab dalam skenario mengemudi, kecepatan pelatihan model dapat dipercepat dan diperluas ke skenario baru.

Dan karena kita dapat mengajukan pertanyaan kepada model, kita dapat mengetahui apa yang dipahami model dan seberapa baik model tersebut dapat bernalar dan mengambil keputusan.

Sistem penggerak otonom bukan lagi kotak hitam yang misterius, kita bisa menanyakannya dari waktu ke waktu saat berkendara: Apa yang Anda pikirkan?

Hal ini tentunya akan meningkatkan kepercayaan masyarakat terhadap berkendara otonom.

Selain itu, meskipun hanya ada sedikit sampel pelatihan, kemampuan pembelajaran bahasa alami yang cepat memungkinkan model mempelajari tugas baru dengan cepat dan efisien serta beradaptasi dengan skenario baru.

Misalnya, selama kita menggunakan bahasa alami untuk memberi tahu model "perilaku ini salah", kita dapat memperbaiki perilaku yang salah pada sistem penggerak otonom.

Mulai sekarang, mungkin hanya bahasa alami yang diperlukan untuk membangun model dasar mengemudi otonom ujung ke ujung!

Akurasi 60%

Selama ini, tim telah meningkatkan arsitektur model dan kumpulan data pelatihan.

Tidak sulit untuk melihat dari gambar bahwa kinerja LINGO-1 meningkat dua kali lipat dibandingkan awal.

Saat ini akurasi LINGO-1 telah mencapai 60% dari tingkat akurasi manusia.

Tentu saja, pengenalan bahasa alami dapat merevolusi teknologi mengemudi otonom dalam banyak aspek.

Meningkatkan interpretasi model end-to-end

Kurangnya interpretasi model pembelajaran mesin selalu menjadi fokus penelitian.

Dengan membuat antarmuka interaktif berdasarkan bahasa alami, pengguna dapat langsung mengajukan pertanyaan dan membiarkan AI menjawabnya, sehingga memperoleh pemahaman mendalam tentang pemahaman model terhadap situasi dan cara model mengambil keputusan.

Dialog unik antara penumpang dan mobil self-driving ini dapat meningkatkan transparansi dan mempermudah pemahaman dan kepercayaan terhadap sistem ini.

Pada saat yang sama, bahasa alami juga meningkatkan kemampuan model untuk beradaptasi dan belajar dari masukan manusia.

Seperti seorang instruktur yang membimbing siswa di belakang kemudi, instruksi korektif dan masukan pengguna menyempurnakan pemahaman model dan proses pengambilan keputusan dari waktu ke waktu.

Perencanaan dan penalaran yang lebih baik, peningkatan performa berkendara

Ada dua faktor utama yang mempengaruhi performa berkendara otonom:

Kemampuan model bahasa untuk menafsirkan berbagai skenario mode masukan secara akurat
Kemahiran model dalam mengubah penalaran tingkat menengah menjadi perencanaan tingkat rendah yang efektif

Dalam hal ini, tim mencoba untuk meningkatkan model mengemudi loop tertutup melalui bahasa alami, penalaran, dan kemampuan perencanaan LINGO.

Model penggerak otonom loop tertutup Wayve LINGO-1

Pembelajaran efisien atas skenario baru atau skenario jangka panjang

Biasanya, sebuah gambar dapat menyampaikan ribuan kata.

Namun saat melatih seorang model, sepotong teks bernilai ribuan gambar.

Sekarang, daripada memiliki ribuan contoh mobil yang melambat untuk pejalan kaki, kita hanya memerlukan beberapa contoh, beserta deskripsi teks singkat, untuk mengajarkan model tersebut untuk memperlambat dan mempelajari bagaimana model harus bertindak dalam situasi ini.

Tahukah Anda, salah satu bagian terpenting dari mengemudi otonom adalah penalaran sebab akibat, yang memungkinkan sistem memahami hubungan antara elemen dan perilaku dalam adegan tersebut.

VLAM yang berperforma baik memungkinkan sistem menghubungkan pejalan kaki yang menunggu di zebra cross dengan sinyal lalu lintas "Jangan Menyeberang". Hal ini sangat berarti dalam skenario yang menantang dengan data yang terbatas.

Selain itu, LLM telah memiliki banyak pengetahuan tentang perilaku manusia dari kumpulan data Internet, sehingga dapat memahami konsep-konsep seperti mengidentifikasi objek, peraturan lalu lintas, dan operasi mengemudi, seperti antar pohon, toko, rumah, anjing mengejar bola, dan bus diparkir di depan sekolah.perbedaannya.

Melalui pengkodean informasi data grafis VLAM yang lebih luas, mengemudi otonom akan menjadi lebih maju dan lebih aman.

Batasan

Tentu saja LINGO-1 juga memiliki keterbatasan tertentu.

Generalisasi

LINGO-1 dilatih tentang pengalaman berkendara di pusat kota London dan teks berskala Internet.

Meskipun saya telah belajar tentang budaya mengemudi dari seluruh dunia, keahlian terbaik saya saat ini adalah menafsirkan undang-undang lalu lintas Inggris.

Hal ini juga membutuhkan pembelajaran dari pengalaman berkendara di negara lain.

Halusinasi

Halusinasi adalah masalah umum dalam model bahasa besar, dan LINGO-1 tidak terkecuali.

Namun dibandingkan LLM biasa, LINGO-1 memiliki keunggulan: karena didasarkan pada visi, bahasa dan tindakan, memiliki lebih banyak sumber pengawasan dan dapat lebih memahami dunia.

Konteks

Pembelajaran mendalam video merupakan tantangan karena data video biasanya berukuran lebih besar daripada kumpulan data gambar atau teks.

Model bahasa multimoda berbasis video khususnya memerlukan konteks yang panjang agar dapat menyematkan banyak bingkai video untuk mempertimbangkan skenario mengemudi dinamis yang kompleks.

Penalaran loop tertutup

Saat ini, Wayve sedang mengerjakan interpretasi model, tetapi pada akhirnya, kemampuan penalaran LLM mereka akan benar-benar berdampak pada pengemudian manusia.

Para peneliti sedang mengembangkan arsitektur loop tertutup yang dapat menjalankan LINGO-1 pada kendaraan otonom di masa depan.

Diskusi Netizen

Netizen pun menganggap hal ini sangat menarik.

“Menariknya, menurut saya model bahasa tersebut menafsirkan prediksi kemudi, pengereman, dan throttle dari model kontrol mengemudi dengan kata-kata, dibandingkan memengaruhi cara mengemudi itu sendiri, karena bahasa alami akan kehilangan presisi yang diperlukan.”

“Dengan pendekatan ini, kami semakin dekat dengan AGI.”

"Anda dapat menganggapnya sebagai menambahkan bahasa ke model dunia. Saya tidak pernah mengerti mengapa hal ini belum pernah dicoba sebelumnya, karena gagasan melatih agen untuk berkomunikasi tampaknya menjadi sesuatu yang dapat dipikirkan semua orang."

"Pergeseran dari tindakan perseptual murni ke penambahan penalaran tekstual adalah sebuah terobosan! Menurut pendapat saya, ini adalah bagian yang hilang dari pengemudian otonom karena memungkinkan penafsiran dengan cara non-teknis."

Saat ini, integrasi pelatihan robot dan bahasa alami masih dalam tahap awal.

LINGO-1 secara resmi telah mengambil langkah penting dalam menggunakan bahasa alami untuk meningkatkan pembelajaran dan interpretasi model dasar mengemudi.

Bayangkan saja, di masa depan, kita hanya perlu menggunakan perintah teks sederhana agar AI mengetahui kondisi jalan di depan, atau membiarkan AI mempelajari peraturan lalu lintas di berbagai wilayah. Pemandangan ini seru sekali!

Oleh karena itu, bahasa alami memiliki potensi besar dalam mengembangkan mobil self-driving yang lebih aman dan andal.

Referensi:

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

Hadiah
suka
Komentar
Bagikan

Komentar

0/400

Tidak ada komentar

Topik
1/3
1Simple Earn Annual Rate 24.4%
12k Popularitas
2Gate Launchpad List IKA
22k Popularitas
3ETH Trading Volume Surges
17k Popularitas
4Gate ETH 10th Anniversary Celebration
22k Popularitas
5Trump’s AI Strategy
19k Popularitas

Sematkan

peta situs