Anda akan melihat model dasar untuk Humanoids yang terus menggunakan arsitektur gaya Sistem 2 + Sistem 1 yang sebenarnya terinspirasi oleh kognisi manusia.



Sebagian besar model visi-bahasa-tindakan (VLA) saat ini dibangun sebagai sistem multimodal terpusat yang menangani persepsi, bahasa, dan tindakan dalam satu jaringan.

Infrastruktur Codec sangat cocok untuk ini karena memperlakukan setiap Operator sebagai modul yang terisolasi. Artinya, Anda dapat menjalankan beberapa Operator secara paralel, masing-masing menjalankan model atau tugasnya sendiri, sambil menjaga mereka tetap terenkapsulasi dan terkoordinasi melalui arsitektur yang sama.

Robot dan Humanoid pada umumnya biasanya memiliki beberapa otak, di mana satu Operator mungkin menangani pemrosesan visual, yang lain menangani keseimbangan, yang lain melakukan perencanaan tingkat tinggi, dll, yang semuanya dapat dikoordinasikan melalui sistem Codec.

Model dasar Nvidia, Issac GR00T N1, menggunakan arsitektur dua modul System 2 + System 1. System 2 adalah model visi-bahasa (a versi PaLM atau yang serupa, multimodal) yang mengamati dunia melalui kamera robot dan mendengarkan instruksi, kemudian membuat rencana tingkat tinggi.

Sistem 1 adalah kebijakan transformer difusi yang mengambil rencana itu dan mengubahnya menjadi gerakan kontinu secara real time. Anda dapat menganggap Sistem 2 sebagai otak deliberatif dan Sistem 1 sebagai pengendali tubuh instinktif. Sistem 2 mungkin mengeluarkan sesuatu seperti "bergerak ke cangkir merah, meraihnya, kemudian meletakkannya di rak," dan Sistem 1 akan menghasilkan trajektori sendi yang terperinci untuk kaki dan lengan agar dapat melaksanakan setiap langkah dengan lancar.

Sistem 1 dilatih dengan banyak data trajektori ( termasuk demo teleoperasi manusia dan data simulasi fisika ) untuk menguasai gerakan halus, sementara Sistem 2 dibangun di atas transformer dengan pra-pelatihan internet ( untuk pemahaman semantik ).

Pemisahan antara penalaran dan tindakan ini sangat kuat bagi NVIDIA. Ini berarti GR00T dapat menangani tugas jangka panjang yang memerlukan perencanaan ( berkat Sistem 2) dan juga bereaksi secara instan terhadap gangguan ( berkat Sistem 1).

Jika sebuah robot membawa nampan dan seseorang menyenggol nampan tersebut, Sistem 1 dapat segera mengoreksi keseimbangan daripada menunggu Sistem 2 yang lebih lambat untuk menyadarinya.

GR00T N1 adalah salah satu model fondasi robotika yang pertama kali tersedia secara terbuka, dan dengan cepat mendapatkan perhatian.

Secara langsung, ia menunjukkan keterampilan di berbagai tugas dalam simulasi, ia dapat mengambil dan memindahkan objek dengan satu tangan atau dua, berpindah barang antara tangannya, dan melakukan tugas bertahap tanpa pemrograman spesifik tugas. Karena ia tidak terikat pada satu bentuk, para pengembang menunjukkan ia bekerja pada berbagai robot dengan penyesuaian minimal.

Ini juga berlaku untuk model dasar Helix (Figure yang menggunakan jenis arsitektur ini. Helix memungkinkan dua robot atau beberapa keterampilan untuk beroperasi, Codec dapat memungkinkan otak multi agen dengan menjalankan beberapa Operator yang berbagi informasi.

Desain "pod terisolasi" ini berarti setiap komponen dapat dispesialisasi ) sama seperti Sistem 1 vs Sistem 2( dan bahkan dikembangkan oleh tim yang berbeda, namun mereka dapat bekerja sama.

Ini adalah pendekatan yang unik dalam arti bahwa Codec sedang membangun tumpukan perangkat lunak yang dalam untuk mendukung kecerdasan modular dan terdistribusi, sedangkan sebagian besar yang lain hanya fokus pada model AI itu sendiri.

Codec juga memanfaatkan model besar yang telah dilatih sebelumnya. Jika Anda sedang membangun aplikasi robot di atasnya, Anda mungkin akan menghubungkan model dasar OpenVLA atau Pi Zero sebagai bagian dari Operator Anda. Codec menyediakan konektor, akses mudah ke umpan kamera atau API robot, sehingga Anda tidak perlu menulis kode tingkat rendah untuk mendapatkan gambar dari kamera robot atau mengirim perintah kecepatan ke motornya. Semuanya terabstraksi di balik SDK tingkat tinggi.

Salah satu alasan mengapa saya sangat optimis terhadap Codec adalah tepat seperti yang saya jelaskan di atas. Mereka tidak mengejar narasi, arsitekturnya dibangun untuk menjadi pengikat antara model dasar, dan mendukung sistem multi otak tanpa hambatan, yang sangat penting untuk kompleksitas humanoid.

Karena kita masih sangat awal dalam tren ini, penting untuk mempelajari desain para pemimpin industri dan memahami mengapa desain tersebut berhasil. Robotika sulit dipahami mengingat lapisan-lapisan di antara perangkat keras dan perangkat lunak, tetapi setelah Anda belajar untuk memecah setiap bagian menjadi bagian-bagian kecil, itu menjadi jauh lebih mudah untuk dicerna.

Mungkin sekarang terasa seperti membuang-buang waktu, tetapi ini adalah metode yang sama yang memberi saya keunggulan selama musim AI dan mengapa saya terlibat lebih awal dalam banyak proyek. Jadilah disiplin dan pelajari komponen mana yang dapat berdampingan dan komponen mana yang tidak dapat diskalakan.

Itu akan memberikan hasil dalam beberapa bulan ke depan.

Deca Trillions ) $CODEC ( terkode.
LL1.14%
VSN-2.69%
IN-7.04%
Lihat Asli
post-image
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
0/400
Tidak ada komentar
  • Sematkan
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)