Perhatikan bahwa pemain ini memainkan "Minecraft" dengan terampil, dan dia dapat mengumpulkan makanan ringan dan memecahkan balok dengan mudah.
Segera setelah kamera diputar, kami menemukan bahwa identitas asli pemain tersebut ternyata adalah orangutan!
Ya, ini adalah percobaan jaringan saraf biologis non-manusia dari Ape Initiative.
Protagonis percobaan, Kanzi, adalah bonobo berusia 42 tahun.
Setelah pelatihan, ia telah mempelajari berbagai keterampilan, menantang lingkungan seperti desa, kuil gurun, dan portal di alam bawah, dan menyelesaikan bea cukai hingga akhir.
Pakar AI menemukan bahwa proses mengajar pelatih orangutan untuk mempelajari keterampilan mirip dengan manusia yang mengajar AI bermain Minecraft, seperti pembelajaran penguatan kontekstual, RLHF, pembelajaran imitasi, pembelajaran kursus, dll.
Saat orangutan belajar bermain Minecraft
Kanzi, seekor bonobo dari Ape Initiative, adalah salah satu orangutan terpintar di dunia, mengerti bahasa Inggris dan menggunakan layar sentuh.
Di Ape Initiative, Kanzi memiliki akses ke berbagai layar sentuh elektronik, yang mungkin menjadi dasar baginya untuk memulai "Minecraft" dengan cepat.
Pertama kali orang menunjukkan Kanzi Minecraft, ia menemukan panah hijau segera setelah ia duduk di depan layar, lalu menggesekkan jarinya ke arah target.
### Pelajari Tiga Keterampilan
Dalam hitungan detik, Kanzi menemukan cara bergerak di Minecraft.
Selanjutnya, ia juga belajar mengumpulkan hadiah.
Setiap kali hadiah terkumpul, maka akan dihadiahi snack seperti kacang tanah, anggur, dan apel.
Operasi Kanzi semakin terampil.
Itu mengenali rintangan yang merupakan silinder hijau yang sama dengan panah target, dan menghindarinya saat mengumpulkan hadiah.
Tentu saja Kanzi juga akan menghadapi kesulitan. Itu membutuhkan pemecahan blok besar dengan alat break, yang belum pernah dilihatnya sebelumnya.
Melihat Kanzi macet, para manusia mulai membantu dengan menunjuk tombol alat yang diinginkan. Namun, Kanzi masih belum mengerti setelah membacanya.
Manusia harus melakukannya sendiri, memecahkan balok kayu dengan alat. Kanzi berpikir setelah menontonnya, dan di mata harapan semua orang, itu juga mengikuti, dan menghancurkan balok kayu setelah mengklik tombol. Orang-orang langsung bersorak sorai.
Sekarang, pohon keterampilan Kanzi memiliki dua hal: mengumpulkan makanan ringan dan memecahkan balok.
Saat mempelajari keterampilan gua, staf menemukan bahwa jika Kanzi terlepas dari balok kayu yang dia coba hancurkan, Kanzi akan pergi begitu saja. Oleh karena itu, orang secara khusus menyesuaikan tugas untuk itu——
Hancurkan balok kayu di gua yang penuh dengan dinding berlian untuk membuktikan keahliannya dalam mengumpulkan dan menghancurkan.
Semuanya baik-baik saja di dalam gua, namun, Kanzi punya masalah: tersangkut di sudut. Saat ini, manusia sangat dibutuhkan untuk mengulurkan tangan membantu.
Akhirnya, Kanzi mencapai dasar gua, menghancurkan dinding terakhir.
Penonton meledak dengan sorak sorai, dan Kanzi memberikan tos kepada para staf.
### Manusia Tertipu
Selanjutnya, hal yang menarik datang: staf mengundang pemain manusia untuk bermain game dengan Kanzi, tentu saja dia tidak mengetahui identitas Kanzi.
Staf bermaksud untuk melihat berapa lama waktu yang dibutuhkan pemain untuk menyadari bahwa orang yang bermain game dengannya bukanlah manusia.
Awalnya, adik kecil ini hanya merasa bahwa kecepatan gerak lawan sangat lambat,
Ketika gambar Kanzi diperlihatkan di depan matanya, adik laki-laki itu ketakutan dan tersentak.
Keluar dari labirin
Setelah memainkan "Minecraft", Kanzi menjadi semakin berani.
Setiap kali Kanzi mengumpulkan hadiah, orang akan menegaskan perilakunya dalam bentuk sorakan, dan jika gagal, pelatih juga akan mendorongnya untuk melanjutkan permainan dengan bertepuk tangan dan bersorak.
Saat ini, ia telah belajar untuk membuka kunci peta labirin bawah tanah:
Hancurkan rintangan di depan Anda:
Temukan batu kecubung:
Saat Kanzi macet, ia akan keluar jalan-jalan dan membawa kembali tongkat untuk diletakkan di sampingnya.
Bahkan jika dia gagal, Kanzi akan mengklik tombol untuk meregenerasi dirinya sendiri.
Level terakhir adalah labirin besar yang penuh dengan garpu.
Karena terlambat keluar dari labirin, Kanzi menjadi cemas dan mulai berteriak dengan dahan, atau mematahkan dahan karena marah.
Pada akhirnya, itu menjadi tenang dan terus menembus level, dan keluar dari labirin.
Segera, tepuk tangan dan sorak sorai mengelilingi Kanzi.
Tampaknya "My World" dimainkan oleh Kanzi, seekor bonobo.
Persamaan antara mengajar orangutan dan mengajar AI
Menonton bonobo dengan ahli memainkan video game bisa terasa sedikit aneh dan aneh.
Ilmuwan Senior Nvidia Jim Fan mengomentari ini -
Meskipun Kanzi dan nenek moyangnya belum pernah melihat Minecraft seumur hidup mereka, Minecraft dengan cepat beradaptasi dengan tekstur dan fisika Minecraft yang ditampilkan di layar elektronik.
Dan ini sangat berbeda dengan lingkungan alam yang telah mereka alami dan tinggali. Tingkat generalisasi ini jauh melebihi model visi paling kuat hingga saat ini.
Teknik melatih hewan untuk bermain Minecraft pada dasarnya adalah prinsip yang sama dengan melatih kecerdasan buatan:
- Pembelajaran Penguatan Berbasis Konteks:
Setiap kali Kanzi mencapai tonggak penting dalam permainan, dia mendapatkan buah atau kacang, memotivasi dia untuk tetap mengikuti aturan dalam permainan.
- RLHF:
Kanzi tidak mengerti bahasa manusia, tapi dia bisa melihat pelatihnya menyemangati dia dan sesekali menanggapi. Sorakan dari staf pelatihan memberi Kanzi sinyal kuat bahwa dia berada di jalur yang benar.
- Belajar dengan meniru:
Setelah pelatih menunjukkan kepada Kanzi cara menyelesaikan tugas, ia segera memahami arti dari operasi yang relevan. Pengaruh presentasi jauh melampaui strategi menggunakan hadiah saja.
- Pembelajaran kurikulum:
Pelatih dan Kanzi mulai dengan lingkungan yang sangat sederhana dan secara bertahap mengajari Kanzi keterampilan kontrol. Akhirnya, Kanzi dapat melakukan perjalanan melalui gua, labirin, dan bawah yang kompleks.
Tidak hanya itu, bahkan dengan teknik pelatihan serupa, sistem visual hewan dapat mengenali dan beradaptasi dengan lingkungan baru dalam waktu yang sangat singkat, sedangkan model penglihatan AI akan memakan lebih banyak waktu dan biaya pelatihan, dan seringkali sulit dicapai Efek ideal.
Sekali lagi kita jatuh ke jurang paradoks Moravec:
Kecerdasan buatan berperilaku berbanding terbalik dengan kemampuan manusia. Dalam aktivitas kecerdasan tingkat rendah yang kita anggap sebagai non-pemikiran atau insting (seperti persepsi dan kontrol motorik), kecerdasan buatan sangat buruk. Namun dalam aktivitas kecerdasan tingkat lanjut yang membutuhkan penalaran dan abstraksi (seperti penalaran logis dan pemahaman bahasa), kecerdasan buatan dapat dengan mudah melampaui manusia.
Ini sesuai persis dengan hasil yang disajikan dalam percobaan ini:
AI terbaik kami (GPT-4) mendekati level manusia dalam memahami bahasa, tetapi jauh di belakang hewan dalam hal persepsi, pengenalan.
Netizen: Ternyata Orangutan Bisa Marah Kalau Main Game
Baik Kanzi dan LLM dapat memainkan Minecraft, tetapi ada perbedaan yang tidak dapat diabaikan antara cara Kanzi belajar dan LLM, yang perlu kita ketahui.
Menghadapi kemampuan belajar Kanzi yang luar biasa, netizen mulai melakukan spoof.
Beberapa orang meramalkan bahwa dunia dalam 6 tahun akan menjadi perang untuk planet kera...
Atau orangutan meminum Coke dan menyatu dengan masyarakat manusia...
Bahkan Boss Ma ditembak dan diubah menjadi "versi monyet" dari Musk.
Dikatakan juga bahwa Kanzi adalah non-manusia pertama yang memiliki kemarahan seorang gamer, dan dia puas.
"Jika Kanzi memiliki saluran game sendiri, saya akan menontonnya dengan jujur."
"Tidak banyak perbedaan antara manusia dan bonobo dalam hal bermain game. Kita semua termotivasi oleh hadiah untuk melakukan tugas tertentu dan menyelesaikan tujuan, satu-satunya perbedaan adalah konten hadiah yang sebenarnya."
"Di Minecraft, hadiah Kanzi untuk menambang berlian lebih langsung dan mentah (makanan), sedangkan hadiah kami untuk menambang berlian lebih tertunda dan terkait dengan game. Ngomong-ngomong, agak gila."
Pertama, GPT belajar memainkan "Minecraft", dan sekarang bonobo juga bisa bermain, yang membuat orang menantikan masa depan menggunakan Neuralink.
Jim Fan mengajari agen AI untuk bermain Minecraft
Manusia telah mengumpulkan banyak pengalaman lanjutan dalam mengajar AI untuk bermain Minecraft.
Pada awal Mei tahun ini, tim Jim Fan menghubungkan agen AI Nvidia ke GPT-4 dan membuat agen AI baru Voyager.
Voyager tidak hanya mengungguli performa AutoGPT, tetapi juga dapat melakukan pembelajaran seumur hidup dalam game di seluruh adegan!
Itu dapat menulis kode secara mandiri untuk mendominasi "Minecraft" tanpa campur tangan manusia.
Dapat dikatakan bahwa setelah kemunculan Voyager, kita selangkah lebih dekat dengan AGI kecerdasan buatan umum.
** Kehidupan Digital Sejati **
Setelah mengakses GPT-4, Voyager sama sekali tidak perlu mengkhawatirkan manusia, dan sepenuhnya otodidak.
Ia tidak hanya menguasai keterampilan dasar bertahan hidup seperti menggali, membangun rumah, mengumpulkan, dan berburu, tetapi juga belajar melakukan penjelajahan terbuka dengan sendirinya.
Didorong dengan sendirinya, ia terus memperluas item dan perlengkapannya, dilengkapi dengan berbagai tingkat baju besi, menggunakan perisai untuk memblokir Shanghai, dan menggunakan pagar untuk menampung hewan.
Munculnya model bahasa besar telah membawa kemungkinan baru pada konstruksi agen yang diwujudkan. Karena agen berbasis LLM dapat menggunakan pengetahuan dunia yang terkandung dalam model pra-pelatihan untuk menghasilkan rencana aksi yang konsisten atau strategi yang dapat dieksekusi.
Jim Fan: Kami memiliki ide ini sebelum BabyAGI/AutoGPT dan menghabiskan banyak waktu untuk memikirkan arsitektur bebas gradien terbaik
Pengenalan GPT-4 di agen membuka paradigma baru ("pelatihan" dengan eksekusi kode, bukan penurunan gradien), memungkinkan agen untuk menghilangkan cacat karena tidak dapat belajar seumur hidup.
Ilmuwan OpenAI Karpathy juga memuji ini: Ini adalah "arsitektur bebas gradien" untuk keterampilan tingkat lanjut. Di sini, LLM setara dengan korteks prefrontal, dan API mineflayer tingkat rendah dihasilkan melalui kode.
3 komponen utama
Untuk menjadikan Voyager sebagai agen pembelajaran seumur hidup yang efektif, tim dari Nvidia, Caltech, dan institusi lainnya mengusulkan 3 komponen utama:
1. Mekanisme prompt iteratif yang menggabungkan umpan balik game, kesalahan eksekusi, dan validasi mandiri untuk meningkatkan program
2. Basis kode keterampilan untuk menyimpan dan mengambil perilaku kompleks
3. Tutorial otomatis yang memaksimalkan eksplorasi agen
Pertama, Voyager akan mencoba menggunakan Minecraft Java API (Mineflayer) yang populer untuk menulis program guna mencapai tujuan tertentu.
Umpan balik lingkungan game dan kesalahan implementasi Java (jika ada) akan membantu GPT-4 meningkatkan program.
Kiri: Umpan balik lingkungan. GPT-4 menyadari bahwa perlu 2 papan lagi sebelum membuat tongkat.
Kanan: Kesalahan eksekusi. GPT-4 menyadari bahwa itu harus membuat kapak kayu, bukan kapak "Acacia", karena tidak ada kapak "Acacia" di Minecraft.
Dengan menyediakan status dan tugas agen saat ini, GPT-4 memberi tahu program apakah tugas telah diselesaikan.
Selain itu, jika tugas gagal, GPT-4 juga akan memberikan kritik dan saran cara menyelesaikan tugas.
verifikasi diri
Kedua, Voyager secara bertahap membangun bank keterampilan dengan menyimpan prosedur yang berhasil dalam database vektor. Setiap program dapat diambil dengan menyematkan docstring-nya.
Keterampilan kompleks disintesis dengan menggabungkan keterampilan sederhana, yang memungkinkan kemampuan Voyager berkembang pesat seiring waktu dan mengurangi amnesia bencana.
Atas: Tambahkan keterampilan. Setiap keterampilan diindeks dengan penyematan deskripsinya, yang dapat diambil dalam situasi serupa di masa mendatang.
Bawah: Ambil keterampilan. Ketika dihadapkan dengan tugas baru yang diusulkan oleh kurikulum otomatis, kueri dibuat dan 5 keterampilan relevan teratas diidentifikasi.
Ketiga, kurikulum otomatis mengusulkan tugas eksplorasi yang sesuai berdasarkan tingkat keterampilan agen saat ini dan keadaan dunia.
Misalnya, jika ia menemukan dirinya di gurun, bukan di hutan, belajarlah mengumpulkan pasir dan kaktus, bukan besi. Pelajaran dihasilkan oleh GPT-4 berdasarkan tujuan "menemukan sebanyak mungkin".
kursus otomatis
Sebagai kecerdasan terwujud pertama yang digerakkan oleh LLM yang dapat dipelajari seumur hidup, kesamaan antara proses pelatihan Voyager dan proses pelatihan orangutan dapat memberi kita banyak inspirasi.
Referensi:
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
Orangutan belajar bermain "Minecraft", metodenya sebenarnya sama dengan tubuh cerdas GPT-4?
Sumber asli: Xinzhiyuan
Perhatikan bahwa pemain ini memainkan "Minecraft" dengan terampil, dan dia dapat mengumpulkan makanan ringan dan memecahkan balok dengan mudah.
Segera setelah kamera diputar, kami menemukan bahwa identitas asli pemain tersebut ternyata adalah orangutan!
Ya, ini adalah percobaan jaringan saraf biologis non-manusia dari Ape Initiative.
Protagonis percobaan, Kanzi, adalah bonobo berusia 42 tahun.
Setelah pelatihan, ia telah mempelajari berbagai keterampilan, menantang lingkungan seperti desa, kuil gurun, dan portal di alam bawah, dan menyelesaikan bea cukai hingga akhir.
Pakar AI menemukan bahwa proses mengajar pelatih orangutan untuk mempelajari keterampilan mirip dengan manusia yang mengajar AI bermain Minecraft, seperti pembelajaran penguatan kontekstual, RLHF, pembelajaran imitasi, pembelajaran kursus, dll.
Saat orangutan belajar bermain Minecraft
Kanzi, seekor bonobo dari Ape Initiative, adalah salah satu orangutan terpintar di dunia, mengerti bahasa Inggris dan menggunakan layar sentuh.
Di Ape Initiative, Kanzi memiliki akses ke berbagai layar sentuh elektronik, yang mungkin menjadi dasar baginya untuk memulai "Minecraft" dengan cepat.
Dalam hitungan detik, Kanzi menemukan cara bergerak di Minecraft.
Selanjutnya, ia juga belajar mengumpulkan hadiah.
Itu mengenali rintangan yang merupakan silinder hijau yang sama dengan panah target, dan menghindarinya saat mengumpulkan hadiah.
Melihat Kanzi macet, para manusia mulai membantu dengan menunjuk tombol alat yang diinginkan. Namun, Kanzi masih belum mengerti setelah membacanya.
Manusia harus melakukannya sendiri, memecahkan balok kayu dengan alat. Kanzi berpikir setelah menontonnya, dan di mata harapan semua orang, itu juga mengikuti, dan menghancurkan balok kayu setelah mengklik tombol. Orang-orang langsung bersorak sorai.
Hancurkan balok kayu di gua yang penuh dengan dinding berlian untuk membuktikan keahliannya dalam mengumpulkan dan menghancurkan.
Semuanya baik-baik saja di dalam gua, namun, Kanzi punya masalah: tersangkut di sudut. Saat ini, manusia sangat dibutuhkan untuk mengulurkan tangan membantu.
Akhirnya, Kanzi mencapai dasar gua, menghancurkan dinding terakhir.
Selanjutnya, hal yang menarik datang: staf mengundang pemain manusia untuk bermain game dengan Kanzi, tentu saja dia tidak mengetahui identitas Kanzi.
Staf bermaksud untuk melihat berapa lama waktu yang dibutuhkan pemain untuk menyadari bahwa orang yang bermain game dengannya bukanlah manusia.
Awalnya, adik kecil ini hanya merasa bahwa kecepatan gerak lawan sangat lambat,
Ketika gambar Kanzi diperlihatkan di depan matanya, adik laki-laki itu ketakutan dan tersentak.
Keluar dari labirin
Setelah memainkan "Minecraft", Kanzi menjadi semakin berani.
Setiap kali Kanzi mengumpulkan hadiah, orang akan menegaskan perilakunya dalam bentuk sorakan, dan jika gagal, pelatih juga akan mendorongnya untuk melanjutkan permainan dengan bertepuk tangan dan bersorak.
Bahkan jika dia gagal, Kanzi akan mengklik tombol untuk meregenerasi dirinya sendiri.
Segera, tepuk tangan dan sorak sorai mengelilingi Kanzi.
Persamaan antara mengajar orangutan dan mengajar AI
Menonton bonobo dengan ahli memainkan video game bisa terasa sedikit aneh dan aneh.
Meskipun Kanzi dan nenek moyangnya belum pernah melihat Minecraft seumur hidup mereka, Minecraft dengan cepat beradaptasi dengan tekstur dan fisika Minecraft yang ditampilkan di layar elektronik.
Dan ini sangat berbeda dengan lingkungan alam yang telah mereka alami dan tinggali. Tingkat generalisasi ini jauh melebihi model visi paling kuat hingga saat ini.
- Pembelajaran Penguatan Berbasis Konteks:
Setiap kali Kanzi mencapai tonggak penting dalam permainan, dia mendapatkan buah atau kacang, memotivasi dia untuk tetap mengikuti aturan dalam permainan.
- RLHF:
Kanzi tidak mengerti bahasa manusia, tapi dia bisa melihat pelatihnya menyemangati dia dan sesekali menanggapi. Sorakan dari staf pelatihan memberi Kanzi sinyal kuat bahwa dia berada di jalur yang benar.
- Belajar dengan meniru:
Setelah pelatih menunjukkan kepada Kanzi cara menyelesaikan tugas, ia segera memahami arti dari operasi yang relevan. Pengaruh presentasi jauh melampaui strategi menggunakan hadiah saja.
- Pembelajaran kurikulum:
Pelatih dan Kanzi mulai dengan lingkungan yang sangat sederhana dan secara bertahap mengajari Kanzi keterampilan kontrol. Akhirnya, Kanzi dapat melakukan perjalanan melalui gua, labirin, dan bawah yang kompleks.
Tidak hanya itu, bahkan dengan teknik pelatihan serupa, sistem visual hewan dapat mengenali dan beradaptasi dengan lingkungan baru dalam waktu yang sangat singkat, sedangkan model penglihatan AI akan memakan lebih banyak waktu dan biaya pelatihan, dan seringkali sulit dicapai Efek ideal.
Sekali lagi kita jatuh ke jurang paradoks Moravec:
Kecerdasan buatan berperilaku berbanding terbalik dengan kemampuan manusia. Dalam aktivitas kecerdasan tingkat rendah yang kita anggap sebagai non-pemikiran atau insting (seperti persepsi dan kontrol motorik), kecerdasan buatan sangat buruk. Namun dalam aktivitas kecerdasan tingkat lanjut yang membutuhkan penalaran dan abstraksi (seperti penalaran logis dan pemahaman bahasa), kecerdasan buatan dapat dengan mudah melampaui manusia.
Ini sesuai persis dengan hasil yang disajikan dalam percobaan ini:
AI terbaik kami (GPT-4) mendekati level manusia dalam memahami bahasa, tetapi jauh di belakang hewan dalam hal persepsi, pengenalan.
Netizen: Ternyata Orangutan Bisa Marah Kalau Main Game
Baik Kanzi dan LLM dapat memainkan Minecraft, tetapi ada perbedaan yang tidak dapat diabaikan antara cara Kanzi belajar dan LLM, yang perlu kita ketahui.
Beberapa orang meramalkan bahwa dunia dalam 6 tahun akan menjadi perang untuk planet kera...
"Di Minecraft, hadiah Kanzi untuk menambang berlian lebih langsung dan mentah (makanan), sedangkan hadiah kami untuk menambang berlian lebih tertunda dan terkait dengan game. Ngomong-ngomong, agak gila."
Manusia telah mengumpulkan banyak pengalaman lanjutan dalam mengajar AI untuk bermain Minecraft.
Pada awal Mei tahun ini, tim Jim Fan menghubungkan agen AI Nvidia ke GPT-4 dan membuat agen AI baru Voyager.
Itu dapat menulis kode secara mandiri untuk mendominasi "Minecraft" tanpa campur tangan manusia.
Dapat dikatakan bahwa setelah kemunculan Voyager, kita selangkah lebih dekat dengan AGI kecerdasan buatan umum.
** Kehidupan Digital Sejati **
Setelah mengakses GPT-4, Voyager sama sekali tidak perlu mengkhawatirkan manusia, dan sepenuhnya otodidak.
Ia tidak hanya menguasai keterampilan dasar bertahan hidup seperti menggali, membangun rumah, mengumpulkan, dan berburu, tetapi juga belajar melakukan penjelajahan terbuka dengan sendirinya.
Didorong dengan sendirinya, ia terus memperluas item dan perlengkapannya, dilengkapi dengan berbagai tingkat baju besi, menggunakan perisai untuk memblokir Shanghai, dan menggunakan pagar untuk menampung hewan.
Munculnya model bahasa besar telah membawa kemungkinan baru pada konstruksi agen yang diwujudkan. Karena agen berbasis LLM dapat menggunakan pengetahuan dunia yang terkandung dalam model pra-pelatihan untuk menghasilkan rencana aksi yang konsisten atau strategi yang dapat dieksekusi.
Pengenalan GPT-4 di agen membuka paradigma baru ("pelatihan" dengan eksekusi kode, bukan penurunan gradien), memungkinkan agen untuk menghilangkan cacat karena tidak dapat belajar seumur hidup.
Ilmuwan OpenAI Karpathy juga memuji ini: Ini adalah "arsitektur bebas gradien" untuk keterampilan tingkat lanjut. Di sini, LLM setara dengan korteks prefrontal, dan API mineflayer tingkat rendah dihasilkan melalui kode.
Untuk menjadikan Voyager sebagai agen pembelajaran seumur hidup yang efektif, tim dari Nvidia, Caltech, dan institusi lainnya mengusulkan 3 komponen utama:
1. Mekanisme prompt iteratif yang menggabungkan umpan balik game, kesalahan eksekusi, dan validasi mandiri untuk meningkatkan program
2. Basis kode keterampilan untuk menyimpan dan mengambil perilaku kompleks
3. Tutorial otomatis yang memaksimalkan eksplorasi agen
Umpan balik lingkungan game dan kesalahan implementasi Java (jika ada) akan membantu GPT-4 meningkatkan program.
Dengan menyediakan status dan tugas agen saat ini, GPT-4 memberi tahu program apakah tugas telah diselesaikan.
Selain itu, jika tugas gagal, GPT-4 juga akan memberikan kritik dan saran cara menyelesaikan tugas.
Kedua, Voyager secara bertahap membangun bank keterampilan dengan menyimpan prosedur yang berhasil dalam database vektor. Setiap program dapat diambil dengan menyematkan docstring-nya.
Keterampilan kompleks disintesis dengan menggabungkan keterampilan sederhana, yang memungkinkan kemampuan Voyager berkembang pesat seiring waktu dan mengurangi amnesia bencana.
Ketiga, kurikulum otomatis mengusulkan tugas eksplorasi yang sesuai berdasarkan tingkat keterampilan agen saat ini dan keadaan dunia.
Misalnya, jika ia menemukan dirinya di gurun, bukan di hutan, belajarlah mengumpulkan pasir dan kaktus, bukan besi. Pelajaran dihasilkan oleh GPT-4 berdasarkan tujuan "menemukan sebanyak mungkin".
Sebagai kecerdasan terwujud pertama yang digerakkan oleh LLM yang dapat dipelajari seumur hidup, kesamaan antara proses pelatihan Voyager dan proses pelatihan orangutan dapat memberi kita banyak inspirasi.
Referensi: