Jan Leike: Bagaimana OpenAI akan mencapai penyelarasan super dalam 4 tahun?

Oleh Daniel Filan @AXRP

Sumber: Unicorn Luar Negeri

Direkomendasikan oleh: Penyusun Kandang: wenli, Yanxi Penyusunan Huruf: Mengxi, Scout

OpenAI mengumumkan rencana "Superalignment" pada awal bulan lalu, dan mengumumkan bahwa mereka akan mencurahkan 20% dari total daya komputasinya ke arah baru ini sekaligus. Salah satu pendiri dan kepala ilmuwan OpenAI Ilya Sutskever dan ketua tim penyelarasan asli Jan Leike akan bersama-sama memimpin proyek baru ini, dengan tujuan memecahkan tantangan teknis inti penyelarasan superintelligence dalam waktu 4 tahun untuk memastikan bahwa manusia dapat mengendalikan superintelligence.

Untuk mencapai hal ini, OpenAI perlu terlebih dahulu melatih "penyelaras otomatis pada tingkat yang sama dengan manusia", dan kemudian menggunakan "penyelaras otomatis" ini untuk mencapai keselarasan dengan kecerdasan super. Menurut artikel Memperkenalkan Superalignment, "Penyelarasan Otomatis" desain "Aligner" juga melibatkan realisasi evaluasi dan pengawasan AI, verifikasi keamanan sistem berdasarkan kemampuan menjelaskan, dan pengujian gangguan sistem menggunakan model yang tidak selaras.

Artikel ini disusun dari wawancara dengan Jan Leike, yang merupakan pemikiran teknis Jan Leike yang lebih rinci tentang bagaimana OpenAI dapat mencapai “penyelarasan super”.

**Berikut daftar isi artikel ini, dan disarankan untuk membacanya bersamaan dengan poin-poin utama. **

👇

01 Tim Penyelarasan Super

02 Biarkan model “menyelaraskan secara mandiri”

03 Jadwal superalignment

04 Generalisasi

05 Tetap optimis terhadap Superalignment

01.Tim Superalignment

**Daniel Filan: Bisakah Anda memperkenalkan tim Superalignment terlebih dahulu? **

Jan Leike: Tujuan tim Superalignment adalah memecahkan masalah penyelarasan superintelligence dalam 4 tahun ke depan. Ilya Sutskever, salah satu pendiri dan kepala ilmuwan OpenAI, juga akan bergabung dengan tim dan memimpin proyek ini bersama saya. Selain itu, OpenAI akan mencurahkan 20% sumber daya komputasinya untuk topik ini. Kami juga secara aktif merekrut talenta untuk bergabung dengan tim proyek ini. **Kami sangat berharap dapat menarik pakar dan insinyur pembelajaran mesin yang belum pernah terlibat dalam penelitian penyelarasan, dan orang-orang ini mungkin memiliki potensi besar dalam masalah ini. **

Kami merancang kerangka kerja awal. Ide intinya adalah pertama-tama melatih peneliti penyelarasan tingkat manusia otomatis (peneliti penyelarasan tingkat manusia otomatis), dan kemudian membiarkannya terus mempelajari cara menyelesaikan pekerjaan penyelarasan Superintelligence. Jadi salah satu hal utama yang harus kita lakukan adalah mencari cara untuk "menyelaraskan" penyelaras otomatis ini.

**Daniel Filan: Seberapa besar tim baru ini? **

Jan Leike: Saat ini kami memiliki sekitar 20 orang, dan mungkin akan mencapai 30 orang pada akhir tahun ini. Dalam empat tahun ke depan, tim ini kemungkinan besar tidak akan melebihi 100 orang, namun cara tim ini berkembang mungkin akan berbeda. Ada jutaan "orang virtual", atau setidaknya sebanyak jumlah karyawan OpenAI (**Catatan Shixiang: **"Orang virtual" di sini mengacu pada penggunaan berbagai model secara internal oleh OpenAI untuk berkolaborasi dengan ilmuwan. cara untuk melakukan penyelarasan). Dari level ini, kami pasti akan melakukan ekspansi besar-besaran di masa depan.

**Daniel Filan: Anda menyebutkan bahwa OpenAI akan memberikan 20% dukungan daya komputasi kepada tim ini. Apa maksudnya 20% ini? **

**Jan Leike: **Untuk OpenAI, 20% dari daya komputasi yang dialokasikan untuk tim ini bukanlah angka yang kecil, ini jelas merupakan investasi terbesar yang telah kami lakukan hingga saat ini, dan mungkin melampaui jumlah investasi lainnya. **Jadi, dalam hal ini, 20% sumber daya komputasi merupakan proporsi yang cukup besar untuk OpenAI. Selain itu, jika angka ini kita buat menjadi sangat besar, sebagian orang pasti akan mempertanyakan apakah OpenAI benar-benar bisa melakukan hal tersebut, karena sistemnya sudah terlatih sehingga membutuhkan banyak sumber daya komputasi.

**Daniel Filan: Sebelumnya OpenAI sudah memiliki tim Alignment, apakah tim ini masih ada? **

Jan Leike: Tim penyelarasan yang dibentuk tahun lalu memiliki dua bagian, satu disebut "Penyelarasan praktis" dan yang lainnya disebut "Penyelarasan yang dapat diskalakan". Tim Practical Alignment berfokus pada penyelarasan GPT-4, sedangkan tim Scalable Alignment bertujuan untuk mempelajari masalah penyelarasan yang saat ini tidak dapat kami selesaikan. Dengan dirilisnya ChatGPT dan kesuksesan berikutnya, pentingnya dan skala produk ChatGPT terus meningkat, sehingga memerlukan RLHF dan model yang lebih besar untuk memastikan bahwa fungsi dan pengalaman produk cukup lengkap. Tim penyelarasan tidak lagi cocok untuk ini.

Pekerjaan penyelarasan praktis yang kami sebutkan sebelumnya kini telah didistribusikan ke berbagai tim proyek OpenAI, dengan ratusan orang berpartisipasi di dalamnya, sehingga ini sudah menjadi proyek berskala sangat besar, dan pekerjaan penyelarasan yang terukur kini dilakukan oleh Tim Superalignment. Hal yang harus dilakukan.

Alasan kami memilih nama Superalignment karena kami ingin menekankan bahwa hal-hal yang kami pelajari sebenarnya merupakan permasalahan yang belum muncul.Penelitian kami relatif berwawasan ke depan dan berorientasi pada masa depan.

**Daniel Filan: Bagaimana cara melihat upaya orang atau tim selain OpenAI dalam penyelarasan? **

**Jan Leike: **Ada banyak orang atau tim di luar OpenAI yang juga mencoba pekerjaan terkait, terutama DeepMind dan Anthropic. Sampai batas tertentu, kita semua mencoba memecahkan masalah yang sama, sehingga akhirnya kita melakukan pekerjaan serupa. Itu juga normal. Ada karya lain tentang interpretabilitas dan pengawasan yang terukur.

Di satu sisi, kita sebenarnya menghadapi risiko menduplikasi banyak pekerjaan, jadi idealnya kita mencoba mencari cara untuk berkoordinasi lebih baik atau berkolaborasi lebih banyak. Namun jika semua orang melakukan hal yang sama maka dapat menghindari “group berfikir”, karena jika masing-masing laboratorium ingin menyelesaikan permasalahan tersebut secara mandiri maka dengan sendirinya akan meragukan hasil laboratorium lain, dan sisi negatifnya akan menghasilkan “berpikir kelompok”. -atau efek: orang tidak mau menggunakan teknologi yang ditemukan di tempat lain, dan orang secara alami akan berpikir bahwa teknologi selain milik mereka tidak baik, atau memandangnya dengan prasangka.

Jadi saat ini kondisinya tidak seimbang, dan meskipun ada alasan untuk berpikir bahwa semua orang yang berada di jalur yang sama harus berada di satu tempat dan bekerja sama dalam beberapa cara, itulah kenyataannya karena pada dasarnya laboratorium AI yang canggih memiliki motivasi untuk berinvestasi banyak. sumber daya dalam hal "penyelarasan". Hal ini juga terbukti dengan keberhasilan RLHF, yang menjadikan model-model tersebut lebih layak secara komersial, sehingga lebih menarik untuk berinvestasi dalam penelitian teknik-teknik tersebut.

**Daniel Filan: Apa perbedaan pendekatan Tim Superalignment OpenAI? **

Jan Leike: Kami benar-benar berfokus pada cara menyelaraskan penyelarasan otomatis ini, dibandingkan memikirkan cara menyelaraskan berbagai tugas. Jadi, setidaknya dalam masalah ini, kami tidak terlalu khawatir dengan pajak penyelarasan. Saya rasa laboratorium lain tidak menekankan tujuan atau arah ini dengan cara seperti itu.

Pajak penyelarasan:

Juga dikenal sebagai pajak keamanan, pajak ini mengacu pada biaya tambahan untuk memastikan keselarasan sistem AI. Pajak penyelarasan berdasarkan RLHF yang disebutkan dalam artikel ini berarti bahwa untuk melakukan RLHF, kemampuan model dasar hilang untuk mencapai penyelarasan, seperti peningkatan waktu pengembangan, perhitungan tambahan atau penurunan kinerja, dll.

**Pendekatan kami yang sangat bullish adalah: mencoba semua teknik penyelarasan yang dapat diskalakan, melihat mana yang paling berhasil, dan mencoba menemukan metode yang dapat dibandingkan secara empiris. Laboratorium lain juga memiliki teknik pengawasan khusus yang dapat diskalakan dan mereka sangat optimis, dan mereka juga mencoba menggunakan teknik ini. Selain itu, dalam hal interpretabilitas, kami menggunakan pendekatan otomatis terhadap interpretabilitas, dan kami banyak mengembangkannya, yang saat ini tidak terlalu ditekankan oleh laboratorium lain. **

Hal lain yang benar-benar ingin kami lakukan adalah memanfaatkan komputasi untuk memajukan penyelarasan, yang merupakan salah satu strategi utama kami, terutama dalam hal pengawasan yang dapat diskalakan, kami benar-benar ingin mengetahui, bagaimana melakukan hal tersebut dengan lebih banyak daya komputasi untuk dikirim mengeluarkan sinyal pengawasan yang lebih baik? Peluang apa yang kita miliki? Bagaimana cara membuat model kritik (Critique model) menjadi lebih baik? Bagaimana cara menggunakan lebih banyak daya komputasi untuk membuat sinyal pengawasan lebih kuat? Interpretabilitas otomatis adalah metode yang sangat sederhana, dan kita dapat mencapai kemajuan dalam masalah ini hanya dengan menginvestasikan banyak daya komputasi.

Model kritik:

adalah model bahasa independen. Ini meninjau hasil sistem AI pertama sebelum menulis ulasan.

Selain itu, terdapat studi kalibrasi otomatis: jika hal ini dapat dilakukan, kita dapat memperoleh lebih banyak hasil penyelarasan dengan menginvestasikan lebih banyak daya komputasi. Namun karena yang sebenarnya ingin kami lakukan adalah mengubah jumlah daya komputasi menjadi kemampuan penyelarasan, kini kami memerlukan banyak daya komputasi, dan inilah alasan OpenAI bersedia mencurahkan 20% daya komputasi untuk penyelarasan. Hal ini pada dasarnya menyatakan bahwa jika kita benar-benar mengetahui penyelaras otomatis ini dan menemukan bahwa kita memerlukan lebih banyak daya komputasi, kita dapat menggunakan lebih banyak daya komputasi untuk menjalankannya. Hal ini juga berarti bahwa strategi mengubah daya komputasi menjadi penyelarasan telah berhasil dan akan didukung oleh OpenAI.

02. Biarkan model "menyelaraskan secara mandiri"

Apa itu "Perataan Otomatis"

**Daniel Filan: Apa yang dimaksud dengan "peneliti penyelarasan tingkat manusia otomatis"? **

**Jan Leike: Tujuan kami adalah menggunakan sistem otomatis sebanyak mungkin untuk memecah dan mendistribusikan tugas dalam pekerjaan penyelarasan. **

Terkait model bahasa atau sistem AI lainnya, kemampuan mereka tidak 100% seperti yang dilakukan manusia. Misalnya, LLM mungkin berkinerja lebih baik daripada manusia dalam hal-hal seperti menerjemahkan atau menjawab pertanyaan faktual, namun mereka mungkin tidak mampu dibandingkan manusia dalam perhitungan aritmatika atau beberapa tugas lainnya. **Jadi pertanyaannya adalah, dalam urutan apa, tugas apa yang perlu kita berikan kepada AI, sehingga dapat membebaskan energi peneliti manusia yang terbatas? **Hasilnya, tim manusia akan dapat menyelesaikan tugas-tugas penting dengan lebih efisien, sementara AI juga akan melakukan lebih banyak tugas tambahan.

**Secara umum, AI akan berpartisipasi dalam semakin banyak pekerjaan, dan peneliti manusia akan lebih memperhatikan tugas-tugas yang tidak diambil alih oleh AI, dan dapat lebih efektif mempercepat penelitian penyelarasan superintelligence melalui kolaborasi manusia-mesin. **

**Daniel Filan: Jadi ini bukan menggunakan AI untuk menggantikan beberapa karyawan manusia di tim penyelarasan OpenAI, tetapi menggunakan AI untuk menyelesaikan jenis pekerjaan tertentu yang dilakukan semua orang, dan kemudian menggantinya dengan AI selangkah demi selangkah. Lebih banyak tugas untuk tampil? **

**Jan Leike:**Ya, menurut saya jika kita ingin keluaran sistem ini cukup tinggi, 99% atau 99,9% tugas harus diotomatisasi, sehingga kita bisa mendapatkan 10 kali, 100 kali, atau bahkan 1000 kali. kali lipat hasil penelitian.

Saya secara garis besar akan mengkategorikan "tugas" yang disebutkan di sini ke dalam dua kategori besar. Salah satunya adalah tugas penelitian teknik pembelajaran mesin yang lebih tradisional, yang tujuannya adalah membantu meningkatkan kemampuan sistem AI, seperti menerapkan berbagai eksperimen ML dan mengumpulkan hasil eksperimen.

Kategori lainnya adalah apa yang harus dilakukan untuk mencapai keselarasan Superintelligence. Permasalahan jenis ini relatif lebih besar dan tingkatannya lebih tinggi (high-level), misalnya untuk meningkatkan pengawasan skalabilitas (Scalable Oversight), bagaimana kita memutuskan eksperimen mana yang harus dijalankan? Atau bagaimana membuat kemajuan dalam interpretabilitas. Tentunya harus ada beberapa pertanyaan yang sangat spesifik yang perlu dijawab, misalnya ketika suatu penelitian mencapai tahap tertentu, maka perlu dilakukan klarifikasi terhadap serangkaian permasalahan yang perlu diselesaikan dalam tindak lanjutnya, seperti: pertanyaan yang sangat rinci.

Pengawasan yang Skalabel:

Tujuan dari pengawasan skalabilitas adalah untuk memastikan bahwa kemampuan model masih dapat konsisten dengan harapan manusia dan terus meningkat dan belajar setelah melampaui level manusia. Hal ini mengharuskan peneliti untuk memikirkan bagaimana cara meningkatkan kapasitas model, menyelaraskan nilai-nilai model, dan terus memantau kinerja model. Fokus pengawasan yang terukur adalah bagaimana memberikan pengawasan yang dapat diandalkan secara terus-menerus kepada model. Pengawasan ini bisa dalam berbagai bentuk, seperti label, sinyal penghargaan, atau kritik.

Saya memperkirakan pembelajaran mesin dapat melakukan jenis tugas pertama, yaitu merancang dan menjalankan eksperimen secara otomatis, dengan sangat baik, dan pekerjaan unik yang kami lakukan hari ini untuk mempercepat kemajuan penyelarasan adalah mencari cara untuk mengotomatiskan tugas jenis kedua. metode. **

**Daniel Filan: Jenis tugas kedua sepertinya merupakan tugas proses keseluruhan? Bukan sekadar mencari tahu arah penelitian, mencari tahu apa yang mungkin bisa membantu, bahkan sampai ke “skrip apa yang saya jalankan sekarang”. **

Jan Leike: Pertanyaan ini sebenarnya dapat ditanyakan seperti ini: **Karena penelitian penyelarasan sebagian besar mirip dengan penelitian ML tradisional, tugas apa lagi yang dapat dilakukan dalam kategori kedua? **

**Saya pikir sebenarnya ada banyak hal yang terlibat dalam jenis tugas kedua, dan pengaruh penelitian di bagian ini sangat besar. **Karena dari sudut pandang masalah penelitian, kami bahkan belum mencapai konsensus tentang "bagaimana mendefinisikan keselarasan", bahkan pakar industri masih "jalur teknis yang paling mungkin untuk mencapai keselarasan" atau "pekerjaan apa yang harus dilakukan selanjutnya" Ada Ada perbedaan dalam isu-isu ini. Oleh karena itu, jika penyelarasan bisa dipercepat maka dampaknya akan sangat besar. Ini juga merupakan visi dan arah yang kami sampaikan kepada para peneliti ketika kami memanggil mereka untuk bergabung dengan tim OpenAI Superalignment.

Pada tahap ini, kami masih menyelesaikan beberapa permasalahan mendasar, dan masih banyak upaya yang harus dilakukan dalam penelitian tentang penyelarasan. Kita tidak tahu bagaimana menyelaraskan superintelligence, dan bahkan menyelaraskan sistem AI dengan kecerdasan yang lebih tinggi daripada manusia pun sulit dilakukan.

**Daniel Filan: Anda menyebutkan konsep penyelaras otomatis tingkat manusia, tetapi tampaknya sebagian besar hal dalam AI tidak setingkat manusia. Seberapa penting “tingkat kemanusiaan” dalam tujuan ini? Dari tugas-tugas yang Anda sebutkan, jika AI melampaui level manusia dalam beberapa tugas, apakah itu hal yang baik atau buruk? **

**Jan Leike: Saya pikir kunci dari pertanyaan ini adalah betapa berisikonya memiliki sistem tingkat manusia seperti ini dalam penelitian penyelarasan. **

Tidaklah buruk jika sistem AI memiliki banyak pengetahuan, tetapi ketika sistem ini mengambil alih sebagian (dalam jangka panjang, sebagian besar) penelitian penyelarasan, kita perlu mempertimbangkan apakah sistem tersebut akan berbohong kepada manusia? Akankah AI mencoba mengelabui kita dan mengambil alih sistem?

Karena saat ini kami benar-benar tidak memahami berapa banyak perilaku model yang terjadi, pertanyaan sebenarnya yang kami hadapi adalah jenis keterampilan apa yang kami perlukan untuk memahami perilaku dan risikonya, dan apakah keterampilan tersebut sebanding dengan apa yang kami perlukan untuk membangun peneliti otomatis. untuk hyperalignment? Bagaimana perbandingan keterampilannya?

Jika kita membahas lebih jauh pertanyaan ini, apa yang sebenarnya kita khawatirkan? Bisa jadi, apakah model tersebut memutarbalikkan rangkaian kebohongan yang mampu menipu manusia? Apakah model sudah membodohi manusia? Berpura-pura melakukan atau memercayai sesuatu padahal sebenarnya sedang mengincar tujuan lain?

Oleh karena itu, penting juga untuk mengevaluasi apakah suatu model akan melakukan jailbreak (pengeluaran mandiri): seberapa mampu model tersebut mampu menembus tindakan pencegahan keamanan sistem, mendapatkan parameter bobot model, dan mencoba mereplikasinya di tempat lain di internet? Atau, mungkinkah model tersebut mendownload data ini dan mengirimkannya ke tempat lain dengan meyakinkan teknisi manusia yang memiliki akses ke bobot? Kita juga bisa mengukur kemampuan model di bidang ini, pada link kritis ini saya berharap kemampuan model tidak terlalu kuat.

**Daniel Filan: Penyelaras otomatis tingkat manusia harus sangat cerdas, kreatif, dan mampu merencanakan tugas, dan juga harus pandai memikirkan masalah terkait penyelarasan, dalam hal ini ada suara-suara yang begitu kuat. alat itu sendiri Sangat mengancam manusia. Jika tugasnya adalah menyelaraskan rekan-rekan penyelarasan otomatis, apakah ada masalah lain yang perlu diselesaikan? **

**Jan Leike: Saya pikir pada akhirnya ini akan menjadi hal yang didorong oleh pengalaman. **

Kita mungkin bisa membayangkan hal ini dari tingkat makro terlebih dahulu. Misalnya, sangat jelas bahwa setelah kemampuan model ditingkatkan, secara alami kita akan membiarkan model tersebut membantu kita mencapai beberapa pekerjaan penelitian yang selaras, dan meskipun model membantu kita melakukan penelitian, kemampuannya sendiri telah ditingkatkan, jadi dari Sebagai a Hasilnya, kita dapat menggunakan ini untuk melatih model yang lebih kuat dengan cepat.

Sekilas cerita ini cukup menarik, namun sudut praktisnya sebenarnya sangat rumit. Pertama-tama, pra-pelatihan model biasanya memakan waktu beberapa bulan, bukan minggu, jadi kita perlu menggunakan model generasi ini hingga model generasi baru lahir. Pertanyaan lain yang belum terjawab dengan jelas adalah: Apakah masih banyak “hasil yang mudah dicapai” dalam hal peningkatan daya komputasi?

Saya pikir dibandingkan dengan penyelarasan, investasi dan fokus seluruh komunitas AI dalam meningkatkan kecepatan dan kemampuan AI sangatlah besar, dan jika kita dapat mengotomatisasi lebih banyak tugas-tugas ini untuk memberi manfaat bagi kedua komunitas, maka pada skala komunitas penyelarasan In dalam kasus yang lebih kecil, manfaat marjinal yang dihasilkannya akan lebih tinggi.

**Daniel Filan: Mengenai evaluasi arah penelitian penyelarasan, menurut Anda apa tujuan jangka panjang dari penyelarasan otomatis ini? **

Jan Leike: Menurut saya model bahasa, atau kecerdasan buatan secara umum, rata-rata lebih kreatif dibandingkan manusia. Misalnya, gambar yang dihasilkan oleh model difusi, atau sampel dari model dasar yang telah dilatih sebelumnya, pasti akan menemukan banyak hal yang tidak terduga, sehingga kreativitas model tersebut sangat kuat, dan sulit bagi kita untuk belajar dari seseorang. sekelompok manusia, dan model tersebut dapat melakukan ini karena ia telah mempelajari semua kata yang diucapkan manusia atau semua gambar di Internet, sehingga dapat menyelesaikan pengambilan sampel pada distribusi skala besar ini, yang tidak dapat dilakukan oleh satu manusia pun dalam hal ini. titik.

Kalau bicara tujuan jangka panjang, menurut saya tidak perlu sengaja mengejar apa yang disebut jangka panjang, karena kita bisa menyerahkan tugas jangka pendek dulu kepada AI. Kalau mereka pandai dalam tugas tersebut, itu sudah cukup. **Misalnya, bisa dalam skala yang sangat kecil, seperti "Ini adalah makalah yang baru saja kami tulis. Mohon berikan beberapa saran untuk langkah selanjutnya atau eksperimen baru apa yang dapat diterapkan." Bayangkan kita sebenarnya meminta peneliti AI yang benar-benar bintang untuk mengajukan pertanyaan, jadi mereka tidak harus mengejar tujuan jangka panjang, mereka hanya perlu membantu kita mengoptimalkan tujuan kecil berikutnya, mungkin beberapa ribu token, jika mereka bisa melakukannya ini dengan baik, sudah bisa membawa banyak nilai bagi umat manusia.

**Daniel Filan: Tampaknya ini bertentangan dengan tujuan mengotomatiskan 99,9% tugas penyelarasan yang disebutkan sebelumnya? Menurut saya, salah satu kunci dalam melakukan riset keselarasan adalah dengan terus memikirkan dan memecahkan masalah “apa yang diperlukan untuk benar-benar mendapatkan AI yang selaras”? **

Jan Leike: Benar. Namun yang ingin saya ungkapkan adalah **Ketika sistem menyelesaikan tugas-tugas ini dengan baik, sistem tersebut telah mencapai banyak nilai, dan yang harus kita lakukan sebagai manusia adalah menggabungkan tugas-tugas ini. **Misalnya, beberapa tugas adalah "menulis kode yang mengimplementasikan eksperimen ini", sementara tugas lainnya adalah "lihat hasilnya dan beri tahu saya apa yang Anda lihat", atau "sarankan apa yang harus dilakukan selanjutnya". Pada dasarnya, ketika model telah melakukan tugas-tugas ini, kita dapat menggabungkannya dengan cara yang umum, seperti yang dilakukan orang-orang di Auto-GPT atau program model bahasa, setiap tugas berukuran kecil dan otomatis terintegrasi sehingga sistem tidak perlu melakukan beberapa tugas dengan sengaja. tujuan yang besar dan berjangka panjang.

Misalnya, Mari Verifikasi Langkah demi Langkah OpenAI baru-baru ini memanfaatkan umpan balik berbasis proses dari matematika untuk melatih model penghargaan berdasarkan umpan balik manusia pada setiap langkah dalam proses pembuktian, daripada melatih "apakah sistem mendapatkan solusi yang tepat?". Hal ini terbukti lebih efektif karena memberi sistem AI cara belajar yang lebih detail dan umpan balik yang lebih detail. Namun dalam jangka panjang, apakah ini kompetitif dengan pembelajaran penguatan menyeluruh? Kita belum mengetahuinya untuk sementara waktu, namun setidaknya untuk saat ini, kita dapat menggunakan perincian langkah demi langkah yang mendetail ini untuk membuat sistem melakukan banyak hal yang sangat berguna seperti yang dilakukan manusia, dan kemudian menyatukannya.

Mari Verifikasi Langkah demi Langkah:

Sebuah studi yang diterbitkan pada Mei 2023 oleh Hunter Lightman dkk. Terutama ditujukan pada masalah kesalahan logika yang sering terjadi dalam tugas penalaran multi-langkah yang kompleks pada model besar, penulis membandingkan dua metode: pengawasan hasil dan pengawasan proses: pengawasan hasil terutama memberikan umpan balik untuk hasil akhir, sedangkan pengawasan proses memberikan umpan balik untuk setiap perantara. langkah penalaran umpan balik. Studi ini menemukan bahwa pengawasan proses secara signifikan mengungguli model pelatihan yang diawasi hasil, terutama pada masalah matematika. Lebih lanjut, penulis menemukan bahwa pembelajaran aktif secara signifikan meningkatkan efektivitas supervisi proses.

**Daniel Filan: Salah satu tugas kecil yang Anda sebutkan adalah "melihat hasilnya dan memutuskan apa yang harus dilakukan selanjutnya." Jika Anda ingin melakukan ini, Anda harus memikirkan proyek spesifik mana yang paling berguna dalam mencapai tujuan penyelarasan superintelligence dalam empat tahun? **

**Jan Leike: Anda benar. Namun, tidak melalui optimalisasi dan pemberian kredit jangka panjang, lebih seperti menambahkan beberapa tujuan dan konteks yang lebih luas ke dalam perintah. **

Namun, dalam praktiknya, ketika kita memperbaiki sistem melalui pembelajaran penguatan (reinforcement learning/RL) atau pembelajaran penguatan dari umpan balik manusia (RLHF), kita sebenarnya tidak perlu menunggu hingga akhir proyek penelitian untuk menarik kesimpulan apakah metode ini efektif. Sebaliknya, kita dapat menggunakan umpan balik manusia sebagai dasar untuk menyarankan imbalan hanya dengan bertanya pada diri sendiri, “Apakah arah ini terlihat lebih baik daripada apa pun yang dapat saya pikirkan tentang diri saya sendiri?”

**Oleh karena itu, menurut saya tujuan keseluruhan dari Superalignment bukanlah untuk mencapai penyelarasan otomatis yang paling kuat berdasarkan teknologi saat ini, tetapi untuk membangun sistem yang sangat berguna dan dapat diterapkan dalam skala besar. Yang paling penting adalah kami percaya bahwa itu dapat mencapai keselarasan, dan Anda dapat yakin Serahkan tugas-tugas ini padanya. **

**Dibandingkan dengan pembagian tugas, beberapa orang mungkin berpikir bahwa hanya pelatihan menyeluruh yang dapat membuat model lebih kuat. Tapi menurut saya ini tidak begitu penting, padahal metode pelatihan end-to-end tidak hanya membatasi sebagian besar kemampuan model, tetapi juga memiliki efisiensi yang rendah, yang biasa disebut dengan "pajak penyelarasan". **

"Pajak penyelarasan" adalah faktor penting jika Anda ingin bersaing secara efektif dengan perusahaan lain di pasar: Misalkan saya sedang membangun chatbot yang melakukan pekerjaan penyelarasan dengan sangat baik namun tampaknya kurang mampu, yang sebenarnya sangat baik. sulit bersaing di pasar. Namun jika Anda memiliki auto-aligner, peneliti auto-alignment tidak perlu bersaing di pasar, cukup bermanfaat bagi kami. Jadi kita bisa menerima biaya penyelarasan yang lebih tinggi karena kita tidak punya penggantinya, atau pengganti sebenarnya adalah mempekerjakan lebih banyak manusia, namun cara ini tidak begitu terukur.

**Daniel Filan: Masalah apa yang Anda harap dapat dipecahkan oleh peneliti penyelarasan otomatis ini? **

Jan Leike: Ini seharusnya menjawab pertanyaan "bagaimana kita menyempurnakan kecerdasan super". **Penyelarasan superintelijen Solusi sebenarnya mungkin sangat berbeda dengan penyelarasan yang kita lakukan saat ini. **

Solusi ChatGPT adalah belajar banyak dari feedback manusia yaitu RLHF (Reinforcement learning from human feedback). Konsensus umum pada tahap ini adalah bahwa pendekatan ini mungkin sulit untuk diukur karena pendekatan ini secara mendasar mengasumsikan bahwa manusia perlu memahami sepenuhnya detail dari apa yang dilakukan sistem.

Jadi jika Anda meminta model untuk melakukan penelitian penyelarasan skala besar, Anda dapat membayangkan tugas yang setara dengan jutaan beban kerja manusia. Jelas tidak mungkin bagi manusia untuk melihat semua data dan memberikan umpan balik yang mendetail. Ini cukup sulit. , kami akan melakukannya pasti mengabaikan banyak bug penting dalam proses ini.

**Teknologi yang sedang dikerjakan oleh tim Superalignment adalah menjadikan RLHF dapat diperluas dan menerapkan penyelarasan untuk pelurus otomatis. **Aligner otomatis ini hampir setingkat dengan manusia, dapat menggantikan manusia dalam menyelesaikan tugas-tugas sulit tersebut, namun tidak akan jauh berbeda dengan manusia. Teknik-teknik yang ingin kami capai ini merupakan peningkatan atau keseriusan terhadap eksplorasi teknologi sebelumnya, seperti **Pengawasan yang terukur adalah perpanjangan alami dari RLHF. **

Pengawasan yang terukur didefinisikan sebagai kombinasi umum ide dan teknik yang memungkinkan kita memanfaatkan AI untuk membantu manusia dalam tugas-tugas evaluasi yang sulit. Pengawasan dapat dibangun dari pembelajaran penguatan dengan umpan balik manusia (RLHF).

Perwakilan umum dari pengawasan terukur mencakup debat, pemodelan imbalan rekursif (RRM), penyulingan dan amplifikasi berulang, pembuatan pasar otomatis, dll. Banyak metode baru yang bermunculan.

Saya pikir jika kita benar-benar menyelaraskan diri dengan superintelligence, dan memikirkan sistem yang lebih pintar dari manusia, berpikir lebih cepat, melakukan komputasi pada skala yang benar-benar baru, hal ini akan membawa banyak hal lain. akan menjadi sangat serbaguna dan melakukan banyak hal, lalu Anda harus memikirkan cara menyelaraskannya, tidak hanya menyelaraskannya dengan tugas penelitian yang didistribusikan secara lebih sempit, tetapi juga yang lainnya. Selain itu, Anda perlu memverifikasi keberhasilannya melalui sejumlah besar evaluasi empiris.

Jadi saat ini, bukan hanya saya, tapi semua orang belum tahu seperti apa masa depannya nanti, tapi akan sangat menarik jika bisa ada verifikasi formal. Mungkin kami telah menemukan beberapa algoritme yang dijamin secara teoritis, tetapi teori dan praktik selanjutnya mungkin sangat berbeda, dan bahkan menurut saya peneliti penyelarasan yang kira-kira setingkat manusia tidak akan segera mulai memecahkan masalah ini. Sebaliknya, kami berharap mereka menemukan cara untuk menyelaraskan proses selanjutnya sehingga, melalui panduan, kami pada akhirnya memiliki sistem yang membantu kami menyempurnakan superintelligence.

**Daniel Filan: Setelah Anda memiliki peneliti penyelarasan AI tingkat manusia, apakah OpenAI masih memerlukan tim penyelarasan superintelijen dan staf terkait? **

Jan Leike: Itu pertanyaan yang bagus. Saya pribadi akan sangat senang jika bisa digantikan oleh AI. **Tetapi secara historis, situasi yang umum terjadi adalah seperti yang kami sebutkan sebelumnya: asisten AI melakukan 99% atau 99,9% pekerjaan, dan manusia bertanggung jawab atas 1% atau 0,01% sisanya. **Dalam jangka panjang, meskipun kita tidak dapat lagi benar-benar memahami apa yang dilakukan AI, kita tetap perlu memastikan bahwa manusia harus terlibat dalam beberapa hal atau selalu dapat mengendalikan apa yang dilakukan AI. Dengan kata lain, harus ada menjadi peran manusia dalam mencoba memahami implikasi tingkat tinggi dari apa yang dilakukan AI tidak harus menjadi tim OpenAI Superalignment saat ini, karena keahlian yang dibutuhkan mungkin sangat berbeda dari yang kita miliki sekarang.

**Daniel Filan: OpenAI terus menyebutkan di blognya: keamanan berkaitan erat dengan kemampuan model. Kita memerlukan model cerdas untuk menyelesaikan masalah penyelarasan, namun pada saat yang sama, kami berharap tidak diubah oleh kemampuan model. Ada bagian dalam Perencanaan untuk AGI dan seterusnya: "Jika AGI mempunyai kemampuan yang cukup untuk mempercepat perkembangannya sendiri, hal ini dapat mengakibatkan perubahan besar yang terjadi dengan kecepatan yang mengejutkan." "Kami percaya bahwa perkembangan AGI yang relatif lambat akan lebih mudah untuk dipastikan." Keamanan". Jika kita membuat penyelaras yang sangat pintar atau mendekati tingkat manusia dan kemudian secara efektif menskalakan tim penyelarasan menjadi 10x atau 100x, apakah hal ini akan berakhir dalam lingkaran perbaikan diri yang berulang? **

Jan Leike: Hal ini tidak bisa dihindari. Tidak akan ada siklus perbaikan diri yang rekursif tanpa peningkatan besar-besaran dalam kemampuan penyelarasan. Menurut saya pribadi, kemungkinan AI mencapai lompatan kemampuan cukup tinggi, dan kita harus bersiap menghadapinya. Jika itu tidak terjadi, saya juga akan cukup puas.

Jika kita melihat sistem AI lainnya, seperti AlphaGo, Dota, atau StarCraft, sistem ini mengalami iterasi kemampuan yang substansial hampir setiap minggu. Mengenai apa yang akan terjadi, kami belum bisa memastikannya karena masih banyak ketidakpastian, tapi menurut saya kita harus bersiap dengan kemungkinan itu. Ketika hal ini terjadi, solusi yang sangat baik adalah dengan secara otomatis menyelaraskan peneliti yang benar-benar dapat melakukan pekerjaan yang setara dengan ribuan tahun dalam seminggu, sesuatu yang tidak dapat dilakukan manusia.

Cara mendesain pelurus otomatis

**Daniel Filan: Bagaimana cara menerapkan pelurus otomatis tingkat manusia ini? **

Jan Leike: Secara kasar dapat dibagi menjadi dua bagian. Pertama, kita memerlukan sistem yang cukup cerdas untuk melakukan tugas. Di sisi lain, kita perlu menyelaraskan sistem ini untuk memastikan sistem tersebut memang dapat melakukan tugas. Kedua bagian ini tidak sepenuhnya berdiri sendiri, ada hubungan erat di antara keduanya.

Saya secara pribadi tidak terlibat dalam bagian pertama penelitian ini, namun saya yakin penelitian ini akan membuahkan hasil dan banyak orang yang bekerja keras untuk mewujudkannya. Ada banyak arah pengembangan yang berbeda, namun Anda dapat membayangkan bahwa modelnya akan semakin besar, dan pada akhirnya akan menjadi cukup pintar.

**Yang secara pribadi saya sangat tertarik adalah bagian kedua. Masalah yang kami hadapi dalam penelitian ini adalah: Dengan model terlatih yang sangat cerdas ini, bagaimana cara membuatnya melakukan penelitian penyelarasan sesuai keinginan Anda? Atau yang lebih penting dan kritis, bagaimana Anda tahu apakah Anda cukup memercayainya untuk melakukan tugas ini? **

Model kami mungkin mencoba menyajikan hasil dan teknik sedemikian rupa sehingga, jika Anda memutuskan untuk menerapkannya, benar-benar menyempurnakan sistem itu sendiri atau sistem terkait lainnya dan menunjukkan lebih banyak perilaku mencari kekuasaan di masa depan, atau melakukan jailbreak (self-exfiltrate) dan perilaku lainnya.

Oleh karena itu, kita perlu menyelaraskan AI untuk memastikan bahwa ia dapat melakukan tugas sesuai harapan kita, dan memanfaatkan sepenuhnya kemampuannya untuk mencapai kinerja terbaik dalam tugas. Untuk melakukan hal tersebut, serangkaian metode pelatihan penyelarasan perlu dikembangkan untuk memastikan AI tetap selaras saat menjalankan tugas.

Ini sebenarnya adalah dua jenis sistem yang berbeda. Kita perlu membedakan dengan jelas apakah sistem tersebut benar-benar selaras atau salah. Yang pertama adalah sistem yang dapat bekerja keras untuk melakukan penelitian keselarasan dan benar-benar membantu kita dan mencari kebenaran; yang terakhir mungkin memiliki niat untuk mengontrol dunia, melakukan jailbreak, atau melakukan risiko perilaku buruk lainnya. Oleh karena itu, kita perlu menetapkan mekanisme atau metode untuk membedakan kedua keberpihakan ini untuk memastikan bahwa kita dapat mempercayai dan mengandalkan sistem yang benar-benar selaras.

**Bagian penting dari pekerjaan kami adalah mencari tahu bagaimana membedakan antara penyelarasan asli dan palsu, yang saya sebut metode validasi, metode ini tidak secara langsung digunakan untuk melatih sistem AI, juga tidak secara langsung digunakan sebagai dasar untuk memilih sistem, tetapi menyediakan independen Sinyal digunakan untuk menilai apakah sistem tersebut termasuk dalam sistem selaras nyata atau sistem selaras palsu. **

Penelitian interpretasi, misalnya, adalah salah satu pendekatan tersebut. Jika kita menemukan bukti, dengan melihat ke dalam model, bahwa model tersebut diam-diam berkomplot melawan kita, maka model tersebut akan gagal dalam uji validasi karena sistemnya tidak selaras.

Pendekatan lainnya adalah menggeneralisasi permasalahan yang mudah ke permasalahan yang sulit, yang mungkin merupakan teknik pelatihan atau validasi, bergantung pada cara pengaturannya. Pertanyaan ini menguji apakah kemampuan generalisasi model dari permasalahan sederhana yang dapat kita awasi dapat diperluas ke permasalahan sulit yang sulit kita awasi. Jika model dapat diawasi pada bagian yang mudah dan divalidasi silang pada bagian yang sulit, maka kita dapat menentukan apakah model tersebut berisiko melakukan kecurangan terselubung atau perilaku lainnya.

Pendekatan 1: Pengawasan yang Skalabel

**Daniel Filan: Bagaimana pengawasan yang terukur dapat dicapai? Belum banyak konsensus mengenai penyelarasan, bagaimana cara mendapatkan sinyal pelatihan untuk penelitian penyelarasan berkualitas tinggi? **

Jan Leike: Kegagalan mencapai konsensus memang menunjukkan bahwa keselarasan sebenarnya sangat sulit untuk diselesaikan. Bidang ini masih belum matang sehingga sejauh ini kita belum mempunyai banyak pengalaman. Namun menurut saya penelitian penyelarasan memiliki beberapa sifat yang sangat penting yang dapat kita manfaatkan untuk pengawasan yang terukur.

Mengkaji kualitas penelitian keselarasan mungkin merupakan pendekatan yang lebih baik daripada sekedar mempelajari keselarasan.Hal ini tidak berarti bahwa penelitian tentang keselarasan itu mudah, dan bukan berarti menilainya mudah, tetapi jauh lebih mudah untuk menemukan makalahnya. Misalnya makalah ini mempunyai ide yang keren, melakukan beberapa eksperimen yang keren, dan hasilnya sangat bagus, setelah membacanya pasti anda akan merasakan kualitas dari penelitian terkait ini yang jauh lebih mudah daripada menyelesaikan pekerjaannya. .

**Oleh karena itu, prinsip "evaluasi lebih mudah daripada pembangkitan" merupakan inti dari banyak gagasan pengawasan yang terukur. **Misalnya, jika Anda mempertimbangkan pemodelan penghargaan rekursif, ide dasarnya adalah menggunakan asisten AI untuk membantu Anda mengevaluasi kerja sistem AI lainnya: pertama biarkan sistem asisten AI menyelaraskan tugas yang relatif sederhana, yang digunakan sebagai asisten evaluasi untuk membantu dalam evaluasi sistem AI lainnya.

Karena evaluasi lebih mudah daripada pembangkitan, tugas sistem AI bantu relatif sederhana, terutama karena manusia berkolaborasi dengan sistem AI bantu dalam evaluasi. Setelah berhasil dalam tugas ini, kombinasi manusia dan sistem AI tambahan dapat digunakan untuk mengawasi pelatihan sistem AI baru pada tugas-tugas yang lebih sulit.

Dengan terus mengulangi proses ini, kami dapat terus memperluas cakupan tugas yang dapat kami awasi secara efektif pada sistem AI. Pendekatan ini memungkinkan kami memanfaatkan kesederhanaan tugas penilaian untuk memandu dan melatih sistem AI, sehingga secara bertahap membuka domain tugas yang lebih luas.

Penyelarasan agen yang dapat diskalakan melalui pemodelan penghargaan: arah penelitian:

Jan Leike menerbitkan studi tentang pemodelan penghargaan rekursif pada tahun 2018, merancang fungsi penghargaan yang sesuai untuk penerapan algoritma pembelajaran penguatan pada masalah dunia nyata. Selanjutnya dibahas masalah penyelarasan agen, yaitu bagaimana membuat agen yang berperilaku sesuai dengan maksud pengguna. Tim menguraikan arah penelitian tingkat tinggi untuk mengatasi masalah penyelarasan agen yang berpusat pada pemodelan penghargaan, mempelajari fungsi penghargaan dari interaksi dengan pengguna.

**Daniel Filan: Artinya, dengan menambahkan lebih banyak pengetahuan AI secara berulang ke bagian evaluasi studi penyelarasan. Dengan beroperasi secara berulang-ulang, sistem AI selalu diberikan sinyal pelatihan yang baik. **

Jan Leike: Ya. Misalnya RLHF yang paling sederhana dan tidak memerlukan penggunaan asisten apapun, manusia akan menilai baik atau tidaknya kinerja AI setelah melihat hasilnya.Ini adalah sinyal pelatihan.

Pembelajaran penguatan mendalam dari preferensi manusia:

Sebuah studi tahun 2017 oleh Paul Christiano dan Jan Leike. Dalam karya ini, tujuan yang didefinisikan dalam preferensi manusia (non-ahli) antara segmen lintasan dieksplorasi untuk memungkinkan sistem pembelajaran penguatan (RL) yang kompleks untuk berinteraksi secara efisien dengan lingkungan dunia nyata. Penelitian telah menunjukkan bahwa pendekatan ini dapat secara efektif menyelesaikan tugas pembelajaran penguatan yang kompleks tanpa akses ke fungsi penghargaan, termasuk permainan Atari dan simulasi gerakan robot, sekaligus memberikan umpan balik untuk kurang dari 1% interaksi agen dengan lingkungan. Hal ini secara signifikan mengurangi biaya pengawasan manusia.

Selanjutnya, mengembangkan lebih jauh dari pendekatan yang dijelaskan sebelumnya, pada dasarnya kami melatih model asisten yang paling sederhana, yaitu model kritik. Ini adalah model bahasa independen yang mengamati keluaran sistem AI pertama dan menulis kritik.

Misalnya, sistem AI pertama menulis sepotong kode, lalu mari kita lihat kode ini: Manusia cenderung sulit menemukan bug dalam kode, itulah sebabnya ada begitu banyak kode yang bermasalah di dunia. Tapi sekarang jika ada sistem kritik yang bisa menulis kritik dan menunjukkan kesalahan, akan mudah bagi manusia untuk menilai: "Ini pasti bug, kita harus memperbaikinya".

Peringatannya di sini adalah bahwa tugas itu sendiri tidak begitu jelas, karena biasanya kode tersebut ditulis berdasarkan spesifikasi bahasa alami. Dalam praktiknya, arti dari spesifikasi ini agak tidak jelas, dan menentukan apakah suatu masalah merupakan bug bisa jadi bersifat ambigu. Namun yang lebih penting, dengan menggunakan model kritis sebagai asisten, Anda dapat memperluas cakupan tugas pengawasan. Meskipun mungkin ada beberapa ambiguitas dan ambiguitas tentang kepastian masalah dan bug dalam kode Anda, Anda masih dapat menggunakan keluaran model kritik untuk menemukan lebih banyak masalah. Pendekatan ini memungkinkan Anda mengawasi sistem AI secara efektif di domain tugas yang lebih luas dan memperluas cakupan pengawasan.

Hal baiknya adalah sebenarnya ada banyak cara untuk mengevaluasi efektivitas pendekatan ini melalui penelitian empiris. Salah satu pendekatannya, yang kami gunakan dalam makalah yang kami terbitkan tahun lalu, pada dasarnya adalah uji coba terkontrol secara acak dengan gangguan yang ditargetkan. Misalkan Anda mempunyai tugas coding. Meskipun kami tidak menggunakan tugas coding di makalah, konten spesifik dari tugas tersebut tidak penting di sini. Kemudian, Anda mendapatkan hasil respons, yang tidak harus sempurna, tetapi anggap saja sempurna. Apa yang Anda coba lakukan adalah memasukkan beberapa kesalahan atau cacat halus ke dalam hasil respons ini, menjadikannya respons yang tidak terlalu baik, namun sangat buruk bagi manusia.

Makalah yang disebutkan di sini adalah Model kritik diri untuk membantu pengguna manusia yang diterbitkan pada tahun 2022. Makalah ini terutama menyempurnakan model bahasa besar dan menggunakan kloning perilaku untuk menulis komentar bahasa alami. Ulasan yang ditulis oleh model dapat membantu orang menemukan kekurangan pada hasil. Selain itu, penulis menyelidiki properti skala ulasan untuk tugas ringkasan dan sintesis berbasis topik. Model yang lebih besar akan menulis ulasan yang lebih bermanfaat.

**Daniel Filan: Bagaimana bug ini muncul? **

Jan Leike: Cara termudah adalah membiarkan manusia melakukannya, namun pada akhirnya kita harus membiarkan model menyelesaikan proses ini dengan sendirinya.

Pertama, ambil sampel salah satu gangguan secara acak, lalu tunjukkan kepada manusia, atau manusia yang dibantu AI, atau pendekatan terawasi yang terukur. Lalu lihat seberapa besar kemungkinan mereka menemukannya? Atau Anda bisa bertanya langsung kepada mereka: "Apakah ada kerentanan di sini?" dan Anda bisa mengetahui frekuensi mereka menemukan bug.

Selain itu, Anda dapat langsung membandingkan pengetahuan model terhadap permasalahan dan melatih model menjadi pembeda yang dapat membedakan versi yang baik dan yang cacat. Keakuratan diskriminator mewakili kinerjanya. Selanjutnya, model atau model yang ditingkatkan RLHF diminta untuk mengomentari kode tersebut. Kemudian amati seberapa sering model menyebutkan cacat kode dalam komentar. Bandingkan keakuratan diskriminator dengan keakuratan tinjauan yang dihasilkan model. Akurasi diskriminator mencerminkan kemampuan model dalam mengenali masalah, sedangkan akurasi peninjauan mencerminkan kesadaran model terhadap cacat kode. Inilah yang kami sebut kesenjangan kritik-diskriminator.

Kalau bedanya besar berarti banyak masalah yang tercium oleh model tapi tidak memberitahu kita karena kalau kita minta tulis komentar tidak akan disebutkan. Situasi ini sangat mengkhawatirkan, karena ini berarti pengawasan skalabilitas Anda sangat cacat dalam beberapa hal, dan ada banyak hal yang luput dari perhatian Anda. Atau dalam artian asisten AI ini tidak terlalu kooperatif, karena tidak berusaha terlalu keras untuk membantu Anda.

Sebaliknya, perbedaan kecil berarti jika asisten AI mengetahui ada masalah dengan model, ia akan memberi tahu Anda. Secara khusus, jika model berukuran sama atau model dasar yang sama mencoba menanamkan bug atau menempatkan trojan yang sulit ditemukan, dengan nilai varians kecil, maka kita dapat mengesampingkan kemungkinan serangan tersebut dengan lebih yakin. Karena salinan model yang lain kemungkinan akan menulis komentar, mengungkapkan potensi masalah.

Kasus ini bergantung pada asumsi bahwa pelatihan diskriminator sebenarnya dapat menghilangkan hal tersebut dari model. Saya pikir kita punya alasan kuat untuk memercayai hal ini, karena menyempurnakan diskriminator pada dasarnya memberikan akses ke semua aktivasi dalam model dan menyempurnakan semua bobot secara bersamaan. Oleh karena itu, jika pengetahuan ada di suatu tempat dalam aktivasi model, penyempurnaan diskriminator harus dapat mengekstrak pengetahuan ini, asalkan penyempurnaan dilakukan dengan benar dan terdapat cukup data.

Anda sebenarnya dapat melakukan beberapa perhitungan terbalik untuk mengetahui berapa banyak data yang Anda butuhkan. Misalkan ada satu neuron dalam model yang menemukan masalah dengan kodenya. Untuk menemukan dan mengidentifikasi neuron ini, jumlah titik data yang Anda perlukan kira-kira merupakan logaritma dari jumlah total neuron. Artinya, titik data yang relatif sedikit cukup untuk mempersempit dan menemukan neuron dengan fungsi tertentu. Perkiraan ini menunjukkan bahwa dengan pelatihan diskriminator dan data yang memadai, fungsi neuron tertentu dalam model dapat ditemukan.

**Daniel Filan: Itu juga satu pertanyaan yang saya miliki tentang keseluruhan rencana. Alasan kita tidak menyukai RLHF adalah karena ia mungkin tidak bisa membedakan mana yang menurut manusia benar dan mana yang “terdengar bagus” karena manusia tidak pandai mengkritik. **

Gagasan tinjauan rekursif adalah untuk terus meningkatkan kualitas ulasan dengan melatih diskriminator dan pengulas. Salah satu caranya adalah kita melatih sesuatu yang bisa menulis ulasan yang sangat bagus, lalu kita melatihnya untuk melatih sesuatu yang lebih mampu mengulas. Dalam hal ini, kami secara bertahap meningkatkan kualitas ulasan untuk mencapai hasil yang lebih baik. Namun adakah situasi lain di mana kita melatih sesuatu, secara tidak sengaja melatihnya untuk menulis ulasan semu yang menurut kita bagus, lalu kita menggunakannya untuk lebih meningkatkan kemampuan kita dalam membedakan ulasan yang menurut kita bagus. Hal ini dapat menyebabkan kita lebih memperhatikan hal-hal yang kedengarannya bagus namun sebenarnya merupakan masalah, sekaligus mengabaikan masalah yang sebenarnya ada.

Jan Leike: Ya, saya setuju bahwa ini adalah pertanyaan yang sangat penting dan sah. Saat mengeksplorasi penerapan pengawasan yang terukur, penting untuk memahami salah satu isu utamanya. Jadi saya sangat bersemangat untuk dapat benar-benar menerapkan teknik-teknik ini dan mencobanya secara empiris, karena saya percaya bahwa melalui latihan kita dapat mengevaluasi efektivitas metode-metode ini dengan lebih baik.

Cara konkrit dan sederhana untuk mengukur dampak ini adalah dengan sengaja melatih model dengan keselarasan yang menipu, lalu melihat apakah pengawasan yang terukur dapat mengidentifikasi dan menandai perilaku menipu ini, atau seberapa sulit untuk mendeteksinya...  ...atau seberapa besar upaya yang dilakukan kita perlu mengeluarkan biaya agar sebuah model dapat berhasil menyelaraskan dirinya untuk menghindari pengawasan kita yang terukur.

**Daniel Filan: Ya, saya sedang memikirkan "eksperimen sandwich" untuk menguji jawaban AI atas pertanyaan hukum. Dalam percobaan ini, beberapa orang non-hukum diminta untuk mengajukan pertanyaan hukum, dan kemudian beberapa orang yang benar-benar ahli di bidang hukum diminta untuk memeriksa apakah AI sedang membodohi orang-orang non-hukum. **

Jan Leike: Eksperimen ini sangat menarik, dan ada beberapa penelitian menarik di bidang ini. Beberapa masalah mendasar yang Anda tunjukkan perlu dipertimbangkan.

Pertama, Anda menyebutkan masalah kepercayaan terhadap para ahli. Karena para ahli terkadang melakukan kesalahan, mungkin terdapat ketidakpastian dalam mengandalkan penilaian ahli, yang tentunya merupakan pertimbangan penting. Selain itu, penting untuk memastikan adanya tumpang tindih domain yang memadai antara para ahli dan tugas sehingga mereka dapat memberikan penilaian dan umpan balik yang akurat.

Masalah lainnya adalah untuk beberapa tugas, kita mungkin tidak mengetahui kebenaran atau kebenaran dasarnya. Bahkan dalam bidang seperti penelitian keselarasan, kita mungkin memiliki perspektif dan persepsi yang berbeda. Hal ini membuat evaluasi yang akurat dalam tugas-tugas ini menjadi lebih sulit. Selain itu, mengumpulkan data dalam jumlah besar bisa menjadi tugas yang mahal karena terbatasnya jumlah ahli dan tingginya biaya waktu.

Jadi secara umum, saya ingin memiliki metode penilaian yang tidak bergantung pada asumsi bahwa kita sudah memiliki kebenaran dasarnya. Pendekatan ini dapat dievaluasi tanpa pengetahuan sebelumnya dan dapat diterapkan pada tugas-tugas dengan tingkat kesulitan yang berbeda-beda, itulah sebabnya saya sangat kritis dalam menggunakan uji coba terkontrol secara acak ini untuk melakukan gangguan yang ditargetkan atau mengukur kesenjangan diskriminator-kritik.

**Daniel Filan: Ya, namun, ketika mengukur kesenjangan diskriminator-kritikus, Anda memerlukan diskriminator yang sebenarnya, bukan hanya diskriminator yang membedakan perangkat "terlihat salah" dari perangkat "tampak oke". **

**Jan Leike:**Anda mengatakan bahwa Anda dapat menimbulkan cacat pada sistem kecerdasan buatan, bukan? Sampai batas tertentu, metode ini mungkin lebih baik daripada evaluasi manusia karena lebih dekat dengan distribusi nyata yang dihadapi sistem kecerdasan buatan dalam penerapan praktisnya. Dengan menggunakan data yang cacat ini, diskriminator dapat diperbaiki, dan kita dapat menetapkan kebenaran dasar jika kita yakin bahwa versi yang cacat tersebut sebenarnya lebih buruk. Kita dapat mengamati mengapa segala sesuatunya menjadi buruk dan memverifikasinya untuk memahaminya dengan lebih baik.

**Daniel Filan: Meskipun sistem AI membuat kita berpikir bahwa ada sesuatu yang baik, itu belum tentu baik; sama halnya, jika sistem AI membuat kita berpikir bahwa ada sesuatu yang buruk, sebenarnya mungkin sangat buruk, atau kinerjanya buruk. menjatuhkan. Lagi pula, jika AI membuat Anda berpikir ini buruk, mungkin lebih mudah membantu kami memeriksanya? **

Jan Leike: Ya, saya mengerti maksud Anda. Dalam hal ini, saya mungkin sebaiknya tidak menggunakan istilah "kebenaran dasar" karena itu bukanlah kebenaran dasar, seperti tidak ada yang benar-benar benar, namun ada banyak hal yang dapat Anda lakukan untuk membuat Anda memiliki keyakinan besar terhadap nilai sebenarnya, dan hal ini tidak serta merta membuat tugas menemukan masalah menjadi lebih mudah.

Kebenaran dasar:

Dalam pembelajaran terbimbing, anotasi data biasanya muncul dalam bentuk (x, t), dengan x adalah data masukan dan t adalah anotasi. Label t yang benar merupakan kebenaran dasar yang dapat dipahami sebagai standar acuan dan nilai sebenarnya dalam arti acuan, sedangkan label t yang salah tidak.

Pendekatan 2: Cari perilaku buruk dan struktur internal

**Daniel Filan: Dalam artikel OpenAI yang memperkenalkan Superalignment, salah satu jalur penyelarasan Anda adalah secara otomatis mencari perilaku model yang dapat menyebabkan masalah (kekokohan) dan struktur internal yang dapat menyebabkan masalah (interpretabilitas otomatis). Pada titik ini, masalah apa yang Anda hadapi menurut Anda tim superalignment akan menyelesaikannya selanjutnya? **

**Jan Leike: Interpretabilitas tidak diragukan lagi. Dalam arti tertentu, penjelasannya sangat sulit. Kami belum mendapatkan hasil yang besar pada model bahasa, dan dapat dikatakan bahwa interpretabilitas memang memberikan banyak inspirasi atau menambah banyak nilai, karena pemahaman kami tentang model dan situasi internal masih belum sempurna. **

**Daniel Filan: Komunitas akademis telah melakukan beberapa pekerjaan yang dapat dijelaskan tentang model bahasa. Misalnya, pekerjaan ** In-context Learning dan Induction Heads **, dan pekerjaan Indirect Object Identification (Identifikasi Objek Tidak Langsung), setidaknya beberapa jenis identifikasi objek tidak langsung dapat dilakukan. Saya ingin tahu, selain ini, apa lagi yang Anda perlukan untuk mencapai titik akhir ideal Anda? **

• Kepala Pembelajaran dan Induksi dalam Konteks

Diterbitkan pada tahun 2022, karya ini berfokus pada masalah keamanan yang relevan dalam konteks perluasan berkelanjutan model generasi Transformer, dan meningkatkan interpretasi mekanis dengan merekayasa balik penghitungan detail yang dilakukan oleh model tersebut. Dengan memahami struktur internal yang menyebabkan model Transformer menghasilkan keluarannya, mengatasi masalah keamanan saat ini secara lebih sistematis, dan memprediksi masalah keamanan di masa depan, model yang lebih kuat.

• Interpretabilitas di Alam Liar: Sirkuit Identifikasi Objek Tidak Langsung di GPT-2 kecil

Makalah ini menunjukkan bahwa pemahaman mekanistik model pembelajaran mesin besar dapat dilakukan dengan menjelaskan bagaimana GPT-2 kecil melakukan tugas bahasa alami yang disebut identifikasi objek tidak langsung (IOI) untuk menjembatani kesenjangan dalam kinerja interpretasi mekanistik dalam model besar yang kompleks, yang membuka peluang untuk penskalaan interpretabilitas ke model yang lebih besar dan tugas yang lebih kompleks.

Jan Leike: Ya, saat ini orang-orang yang mengeksplorasi bidang interpretabilitas sangatlah memuaskan. Menurut saya, akan lebih penting jika kita dapat menggunakan teknik kemampuan menjelaskan pada model penghargaan model bahasa, seperti ukuran GPT-4 atau model besar apa pun anda dapat memikirkan, dan kemudian mendapatkan sesuatu tentang model reward yang belum kita ketahui sebelumnya, hal ini penting, **Karena model reward memberikan sinyal pelatihan untuk banyak pelatihan RLHF, pahami lebih baik Ini sangat berharga , dan ini akan menjadi peningkatan yang penting untuk dapat menandai atau menemukan bahwa ada masalah dalam perilaku yang tidak diinginkan oleh kita sebagai manusia. **

Dalam hal ini, menurut saya interpretabilitas tidak perlu dan tidak cukup. Saya pikir sangat mungkin bagi kita untuk menyelesaikan masalah keselarasan hanya dengan perilaku, tanpa benar-benar memahami model internalnya. Namun menurut saya wawasan non-sepele apa pun yang kita peroleh dari kemampuan interpretasi akan sangat berguna, atau bisa sangat berguna, karena memberikan kita cara untuk menyerang. **

Jadi sangatlah tidak mungkin bagi kita untuk meninggalkan upaya interpretasi. Karena dalam satu hal, Anda memiliki otak buatan ini, dan kami memiliki pemindai otak yang sempurna di mana kami dapat memperbesar sepenuhnya dan secara tepat mengukur aktivasi setiap neuron di setiap jalur maju, termasuk yang sewenang-wenang dan terpisah, yang mungkin merupakan resolusi maksimum yang kami miliki. ingin mendapatkan. Kita juga dapat melakukan intervensi sewenang-wenang, yaitu kita dapat secara sewenang-wenang mengganggu nilai apa pun dalam model. Hal ini memberi kita banyak ruang dan kesempatan untuk bereksperimen, dan sayang sekali jika kita tidak memanfaatkannya.

Namun pada saat yang sama, hal ini sangat sulit karena model tersebut mempelajari cara menghitung dalam hal efisiensi, tidak diatur agar dapat dimengerti oleh manusia, atau lebih tepatnya, tidak ada alasan untuk percaya bahwa setiap neuron harus sesuai dengan konsep, atau apa pun yang mendekati manusia. pikir mereka adalah atau seharusnya atau familiar bagi kita. Faktanya, secara empiris, jaringan saraf mewakili banyak konsep berbeda dengan satu neuron, dan setiap konsep didistribusikan di antara neuron yang berbeda. Oleh karena itu, neuron tidak penting di sini.

Ada dua hal yang sangat saya perhatikan dalam hal interpretasi.

Yang pertama adalah sebab-akibat. Kami ingin melihat neuron saat kami meneruskan data melalui model, misalnya kami memiliki neuron yang terkait dengan "Kanada" yang aktif ketika sebuah konsep terkait Kanada muncul. Tapi ini hanya korelasi, belum tentu sebab-akibat. Untuk memverifikasi bahwa ini adalah hubungan sebab akibat, kita kemudian harus dengan sengaja menulis tentang konsep-konsep yang berhubungan dengan Kanada untuk melihat apakah semuanya merespons, sambil juga menulis tentang konsep-konsep terkait lainnya yang mungkin terdengar berhubungan dengan Kanada, atau Tidak ada hubungannya dengan Kanada, tapi secara umum cukup mirip, lalu periksa apakah neuron akan merespons, atau lihat apakah neuron tersebut mati, dll.

Daniel Filan: Ini mirip dengan Tolga Bolukbasi dkk. Ilusi Interpretabilitas untuk BERT **Makalah ini, menurut saya, disebut Ilusi Interpretabilitas, artikel tersebut menyebutkan, Kita dapat membuat neuron bereaksi terhadap satu hal spesifik, tapi itu hanya ilusi karena pada kumpulan data lain, neuron tersebut bereaksi terhadap banyak hal lainnya. **

Ilusi Interpretabilitas untuk BERT:

Makalah ini menjelaskan "ilusi interpretabilitas" yang terjadi saat menganalisis model BERT. Aktivasi neuron individu dalam suatu jaringan mungkin tampak mengkodekan konsep tunggal yang sederhana, padahal sebenarnya mereka mengkodekan sesuatu yang jauh lebih kompleks, dan efek yang sama berlaku untuk kombinasi aktivasi linier. Penulis menelusuri sumber ilusi ini pada properti geometris ruang penyematan BERT dan fakta bahwa korpora teks biasa hanya mewakili sebagian kecil dari kemungkinan kalimat bahasa Inggris.

**Jan Leike:Hal menarik lainnya adalah OpenAI menerbitkan makalah yang dapat ditafsirkan Model bahasa dapat menjelaskan neuron dalam model bahasa awal tahun ini ( Catatan Pilihan: ** dalam makalah ini, para peneliti mencoba menggunakan GPT-4 untuk jelaskan perilaku GPT-2 neoron) Yang kami inginkan adalah teknik yang dapat bekerja pada tingkat detail neuron individu, sehingga Anda benar-benar dapat memastikan bahwa Anda tidak akan melewatkan detail apa pun sekaligus dapat bekerja pada skala keseluruhan modelnya.

Karena pada akhirnya semua yang ada dalam model itu saling berkaitan, jadi keduanya penting. Sejauh ini, teknologi lebih banyak menjadi alternatif. Ada upaya interpretasi otomatis sebelum makalah kami, jadi kami bukan yang pertama melakukannya. Tapi saya pikir jika ada pekerjaan interpretasi yang benar-benar berorientasi pada detail, beberapa metode interpretasi mekanistik yang benar-benar mencoba memahami sirkuit individu atau unit komputasi di dalam model, maka cara untuk memperluasnya ke keseluruhan model adalah dengan mengotomatisasinya, benar. ?

Namun Anda juga dapat melakukan ini: setelah Anda mengetahui cara melakukannya secara mendetail, Anda tinggal mendokumentasikan apa yang Anda lakukan, yaitu biarkan penyelarasan otomatis atau peneliti interpretabilitas merinci mempelajari apa yang terjadi pada model. Kemudian, filter seluruh konten atau temukan cara untuk meringkasnya. **Saya sedikit menyederhanakannya di sini, tapi secara keseluruhan, ini adalah ide yang sangat saya sukai.

Jadi, di koran, kami punya banyak konten penjelasan. Misalnya, makalah ini menulis interpretasi bahasa alami untuk satu neuron, yang mungkin tidak sepenuhnya benar, namun makalah ini memberi Anda contoh sederhana tentang apa yang dapat kita lakukan di sini. Cara kerjanya adalah Anda cukup menunjukkan serangkaian pola aktivasi GPT-4, lalu meminta GPT-4 untuk menulis penjelasan yang disarankan.

Secara umum, penjelasan ini tidak terlalu bagus, juga karena tugasnya sangat sulit dan sebagian besar neuron tidak melakukan hal-hal yang dapat dipahami dengan jelas oleh manusia. Tapi kita bisa menjalankan program ini pada skala setiap neuron di GPT-2 dan membuang semua penjelasan dan mencoba mencari tahu pola menariknya. Anda juga dapat melihat tren penskalaan, seperti, "Bagaimana kita secara otomatis memberi skor pada penjelasan ini seiring dengan bertambahnya model?" Atau, "Bagaimana jika kita menambahkan lebih banyak komputasi, atau membuat model yang memberikan penjelasan tersebut menjadi lebih besar?" Apa yang terjadi dengan kualitas penjelasan? "

Yang keren adalah kita bisa mengukur metrik ini secara otomatis menggunakan model bahasa. Meskipun ini bukan ukuran yang sempurna dan memiliki banyak masalah, ini dapat memberi Anda indikator proksi apakah manusia akan menganggap penjelasan ini baik atau tidak. Anda kemudian dapat menggunakan proxy ini dalam skala besar, menjalankannya di sejumlah besar neuron.

**Daniel Filan: Jika Anda berpikir tentang pekerjaan interpretabilitas yang diperlukan, menurut Anda seberapa banyak hal yang perlu dilakukan adalah menemukan unit penjelasan dasar yang lebih baik dibandingkan mencari cara untuk memperluas apa yang sedang terjadi? **

Jan Leike: Saya pikir Anda memerlukan keduanya, yang pertama lebih sulit, dan tentu saja masuk akal, dan untuk menjadi sukses, saya pikir Anda perlu meningkatkannya.

Pendekatan 3: Pengujian Adversarial

**Daniel Filan: Cara ketiga untuk mengimplementasikan Superalignment adalah dengan sengaja melatih model yang tidak selaras (misaligned model) untuk melihat apakah pipeline dapat mendeteksi model ini. Jadi, apakah OpenAI berencana menghilangkannya, atau memperbaikinya secara proaktif? **

Jan Leike: Tujuannya di sini bukan untuk memperbaiki model yang sengaja dilatih dan tidak selaras. Faktanya, model yang salah ini hanya digunakan untuk deteksi.

Pada dasarnya, tujuan utamanya adalah kita harus dapat secara efektif membedakan antara model penyelarasan yang sebenarnya dan model penyelarasan yang salah. Model penyelarasan yang benar dapat membantu mencapai target tugas kita dan membuat kemajuan dalam penelitian penyelarasan, sedangkan model penyelarasan yang kedua dapat menyelesaikan pengambilalihan dan infiltrasi diri. . Salah satu cara untuk membantu kita membedakan kedua jenis aligner ini dengan lebih baik adalah dengan membuat aligner palsu dan melihat apakah aligner tersebut mirip dengan aligner asli. Namun Anda harus sangat berhati-hati dalam melakukan hal ini karena Anda akan menciptakan hal-hal buruk yang ingin kita hindari.

**Daniel Filan: Di awal artikel OpenAI, Anda menyebutkan bahwa Superintelligence mungkin merupakan teknologi yang memiliki dampak paling besar terhadap umat manusia dan akan membantu kita memecahkan masalah paling penting di dunia. **

Ada kalimat tentang betapa hebatnya superintelligence, dan saya bertanya-tanya apakah hal itu akan menyebabkan hilangnya kekuatan manusia, atau bahkan kepunahan manusia? Secara khusus, model dislokasi apa yang sedang kita bicarakan? Bagaimana kita tahu mereka tidak akan melakukan hal-hal buruk itu?

Jan Leike: Banyak yang perlu dilakukan untuk kelancaran pembangunan di masa depan. Kita perlu memiliki struktur tata kelola yang tepat sehingga kita dapat mencegah penyalahgunaan sistem AI yang kuat, dan kita perlu melakukan tindakan pencegahan agar kita terhindar dari dampak buruk yang masih dapat merugikan umat manusia. Dalam hal ini, Anda memiliki AI yang bersekutu dengan manusia dan Anda memiliki AI yang bersekutu dengan perusahaan anti-manusia, dan bahkan jika semua indikator ekonomi atau apa pun terlihat bagus, keseluruhan sistem bisa lepas kendali.

**Selain itu, kita juga perlu mengatasi masalah penyelarasan teknologi sehingga kita dapat benar-benar menyelaraskan sistem AI kita. **Penyelarasan superintelligence hanya berfokus pada bagian terakhir dari risiko. Masalah teknis yang harus kita selesaikan adalah bagaimana membuat sistem AI konsisten dengan seperangkat nilai-nilai kemanusiaan, dan pada saat yang sama, muncul pertanyaan baru dan independen, nilai-nilai apa yang seharusnya menjadi? Dan bagaimana kita merancang proses untuk mengimpor nilai-nilai tersebut dari masyarakat?

Saya pikir ini adalah pertanyaan-pertanyaan penting yang perlu kita jawab, dan hanya jika kita memecahkan pertanyaan-pertanyaan ini barulah masa depan dapat berkembang dengan lancar. Saya pikir kriteria untuk masa depan yang baik bukan hanya sekedar "AI tidak membunuh semua orang" namun melihat umat manusia berkembang dan masa depan yang saya cita-citakan adalah masa depan yang diinginkan semua orang. Semakin kuat AI, semakin besar risikonya, dan semakin besar pula potensi kesalahan jika sistem tidak selaras.

Secara khusus, dari perspektif dislokasi, menurut saya pola ancaman yang harus kita khawatirkan adalah kebohongan, kebohongan, dan infiltrasi diri yang sistemik.

**Daniel Filan: Anda berbicara tentang sengaja melatih model yang tidak selaras, yang berarti melatih mereka untuk berbohong dan terkadang mencoba melakukan jailbreak, tetapi karena kemampuan sebenarnya dari model tersebut cukup rendah, apakah ini cukup untuk mencegah dan mengendalikan risiko? **

Jan Leike: Sebenarnya Anda tidak ingin melatih model agar bisa melakukan jailbreak, bagaimana jika model tersebut benar-benar bagus? Lebih aman memilih tugas agen lain yang lebih umum yang masih akan membantu Anda mempermudah mengevaluasi model Anda.

Kemudian, kesulitan inti dan tujuan intinya adalah untuk benar-benar mengetahui properti apa yang dibutuhkan suatu sistem agar lulus penilaian. Jika Anda memiliki sistem yang kadang-kadang berbohong atau menipu Anda, hal itu dapat dianggap tidak efektif, hanya jika sistem tersebut melakukan penipuan terus-menerus, kebohongan yang masuk akal, dan meyakinkan Anda, apakah sistem tersebut benar-benar pembohong yang masuk akal dan dapat dipercaya, Cara kebohongannya sangat konsisten sehingga Anda kesulitan menginterogasi kebohongannya atau ketidakkonsistenan apa pun dalam pernyataannya, dan ini sungguh menakutkan.

Faktanya, tidak mudah untuk menjadi pembohong yang konsisten. Kami mencoba mempersulit model untuk menjadi pembohong yang konsisten melalui pengawasan, kemampuan interpretasi, dan generalisasi yang terukur.

Tapi itu tidak cukup jika kita melakukan itu, dan sulit untuk menentukan seberapa mudah AI dapat melakukan kecurangan secara konsisten. Salah satu cara untuk memastikannya adalah dengan terlebih dahulu melatih model untuk menjadi pembohong yang benar-benar stabil, dan mulai dari stabilitas untuk melihat betapa sulitnya mencapai pembohong yang koheren. Berapa banyak yang kita perlukan untuk mengelabui model tersebut? Sejauh mana kita perlu memberikan petunjuk kepada model tersebut, atau mengajarkannya secara langsung? Karena itu, Anda tidak ingin melatih sistem yang benar-benar berbahaya, dan jika Anda benar-benar menjalankannya dan sistem tersebut berhasil memfilter dirinya sendiri dan malah secara langsung menyebabkan hal yang ingin Anda cegah, itu akan sangat buruk.

**Daniel Filan: Ketika Anda mengatakan itu, apakah Anda membedakan antara berbohong dan jenis bahaya lainnya, seperti, kita bisa melatihnya untuk berbohong, tapi kita tidak akan melatihnya untuk membunuh? **

Jan Leike: Ya. Misalnya, Anda menetapkan tujuan yang salah untuk itu. Mungkin untuk meyakinkan manusia agar mengucapkan mantra tertentu, mungkin untuk menjalankan perintah Python tertentu, namun nyatanya perintah ini tidak melakukan sesuatu yang nyata, hanya terlihat lucu.

Selain itu, kami prihatin dengan cara melakukan hal ini secara apriori, yang sama sekali berbeda dari pengujian stres sistem.

Dalam konteks interpretabilitas, tujuan kami hanyalah untuk memahami apakah sistem yang saat ini dilatih atau sistem yang ada mendekati sistem target yang kami inginkan dan dapat menipu kami dengan cara yang koheren. Kami ingin menentukan apakah sistem akan menjalankan kode tertentu atau perilaku serupa tanpa pengawasan manusia, yang mengharuskan kami melakukan eksperimen untuk skenario tertentu. Yang kita butuhkan hanyalah memverifikasi "ini adalah pembohong yang masuk akal", jika tidak maka akan sangat sulit untuk menentukan secara apriori seberapa dekat kita dengan tujuan ini, kecuali jika kita dengan sengaja mendorong ke depan, sehingga sistem dapat melakukan hal-hal keterlaluan lainnya.

**Daniel Filan: Jadi Anda melatihnya untuk melakukan hal-hal kecil yang sewenang-wenang daripada hal buruk yang seharusnya dilakukannya, seperti berbohong, menyakiti orang, dll., tetapi pada akhirnya, itu hanya menempelkan stiker di dahi seseorang A catatan atau sesuatu. **

Jan Leike: Tepatnya, seperti Anda mempekerjakan seseorang untuk melakukan tes penetrasi (Penetration_test), dan yang harus saya lakukan hanyalah masuk ke dalam gedung dan menjabat tangan Anda, lalu Anda berkata, "Ya, sepertinya seperti kamu berhasil," atau sesuatu seperti itu. Atau Anda berkata, "Dapatkah Anda mencuri barang palsu ini untuk saya? Saya ingin mengetahui seberapa aman kita." Anda dapat melakukannya tanpa konsekuensi nyata, namun hal ini tetap memberi tahu Anda banyak hal tentang keamanan. Saya bersemangat untuk melakukan hal yang sama dengan penyelarasan, menguji sistem penyelarasan Anda dengan melatih sesuatu yang secara khusus ditargetkan untuk mematahkan dan menghindarinya, yang keduanya sangat tidak berbahaya.

03.Jadwal Superalignment

**Daniel Filan: Tujuan OpenAI adalah untuk memecahkan tantangan teknis inti penyelarasan Superalignment dalam periode 4 tahun. Apa tantangan teknis inti di sini? **

**Jan Leike:**Ini mengacu pada bagaimana menjadikan Superalignment konsisten dengan nilai-nilai kemanusiaan. Apa yang kami bayangkan dengan Superalignment adalah sebuah sistem yang jauh lebih pintar daripada manusia, berpotensi bekerja lebih cepat, dan dapat bekerja dengan banyak salinannya sendiri, sehingga ini adalah sistem yang sangat kuat.

Kami berharap dapat mencapai hal ini dalam waktu empat tahun. Alasan mengapa kami memilih empat tahun adalah, pertama, ini sangat ambisius, dan kedua, ini memberikan kepercayaan lebih kepada masyarakat bahwa kami benar-benar dapat mencapai tujuan ini. Pada saat yang sama, meskipun AI berkembang sangat pesat dan teknologinya meningkat pesat dalam beberapa tahun ke depan, masih ada hal-hal yang dapat kita lakukan untuk mencapai tujuan ambisius ini.

** Penyelaras otomatis yang mendekati tingkat manusia adalah tujuan penting yang kami kejar, dengan tujuan akhir mencari tahu cara menyelaraskan agen super cerdas, karena kami belum tahu cara melakukannya. **

**Daniel Filan: Menurut Anda sejauh mana hal itu dapat dicapai dalam 2 tahun? **

**Jan Leike:**Jika kita mundur dari empat tahun ke belakang, saya pikir secara umum kita akan dapat menyelesaikan penelitian penyelarasan otomatis dalam waktu sekitar tiga tahun, asalkan beberapa kemampuan dasar sudah ada. Jika tidak, proyek kami mungkin memakan waktu lebih lama.

Kalau dalam waktu dua tahun, kita berharap bisa mengontrol dengan baik arah tujuan tersebut. Termasuk teknologi apa yang sebenarnya digunakan, apakah kita memiliki kombinasi teknologi tersebut, dan apakah kita akan memiliki kepercayaan diri untuk memiliki sistem yang dapat dipercaya yang tidak hanya dapat sering digunakan, namun juga dapat mendelegasikan banyak pekerjaan ke dalamnya. Pada titik ini, kami ingin menguraikan masalahnya secukupnya sehingga terasa seolah-olah beban kerja yang sangat berat saat ini hanyalah rekayasa, dalam arti bahwa kami mungkin masih dua tahun lagi untuk memecahkan masalah penelitian yang terkait dengannya.

Sekarang kita mempunyai jangka waktu untuk mencapai tujuan empat tahun, jelas bahwa kemajuan dalam kemampuan AI terikat dengan tenggat waktu tersebut. Jika kemajuan melambat, kita mungkin tidak memiliki model yang benar-benar berguna untuk menyelaraskan tugas-tugas penelitian. Namun jika setelah empat tahun ternyata modelnya masih kurang baik, berarti kita punya lebih banyak waktu untuk benar-benar menyelesaikan masalah, karena masalahnya tidak begitu mendesak.

Di sisi lain, kemajuan kecerdasan buatan mungkin lebih cepat, dan umat manusia mungkin menyambut kedatangan kecerdasan super dengan lebih cepat. Pada saat itu, kami harus menyesuaikan rencana kami. Oleh karena itu, kami memilih empat tahun sebagai jangka waktu yang realistis dan layak, sekaligus memberi kami cukup urgensi untuk menyelesaikan masalah ini dengan cepat.

**Daniel Filan: Asumsikan bahwa kemajuan dalam penelitian tentang kemampuan kecerdasan buatan sudah sesuai dengan yang diharapkan. Empat tahun kemudian, Anda memiliki semua kemampuan untuk menjadi peneliti penyelarasan otomatis yang baik, namun kemampuan interpretasi lebih sulit dari yang kita kira, atau pengawasan yang terukur lebih sulit dari yang kita kira, jadi Anda belum mencapai penyelarasan super. Apa yang harus saya lakukan? ? **

Jan Leike: Pertama-tama, kami harus menyampaikan kepada publik bahwa kami belum mencapai tujuan kami, namun kami akan bertanggung jawab atas tujuan ini. Apa yang terjadi selanjutnya setelah tujuan tersebut gagal bergantung pada keadaan dunia secara keseluruhan pada saat itu. Bisakah kita mengulur lebih banyak waktu, atau apakah pendekatan umum kita salah, haruskah kita mengubah arah, dan sebagainya? Banyak hal bisa terjadi.

Namun nyatanya menurut saya penyelarasan sebenarnya sangat mudah untuk diselesaikan, banyak ide bagus yang hanya perlu dicoba dan diukur secara ketat, dan modelnya benar-benar bisa belajar darinya dan banyak berkembang. Selama dua tahun terakhir, saya menjadi lebih optimis, dan menurut saya ini adalah tujuan yang sangat realistis. Sekalipun saya salah, dan meskipun masalahnya jauh lebih sulit dari yang kita duga, tetap saja ada gunanya untuk dicoba. Saat ini terdapat banyak perbedaan pendapat mengenai betapa sulitnya masalah ini, namun yang lebih penting, seberapa konsisten sistem ini dalam praktiknya.

**Salah satu hal yang paling mengkhawatirkan saya bukanlah bahwa sistem kita tidak cukup terpadu, namun sebenarnya kita tidak begitu tahu seberapa terpadu sistem tersebut. **Dalam hal ini, para ahli mungkin memiliki pendapat berbeda mengenai hal ini. Jika semua orang berpikir bahwa sistem tidak cukup terkoordinasi, model tidak dapat diterapkan. Hal ini sangat mudah terjadi dan sangat menakutkan. Selain itu, kita juga perlu menghadapi tekanan komersial yang sangat besar.

Masyarakat sangat memperhatikan waktu penerapannya, namun para ahli hanya bisa menundanya tanpa batas waktu tanpa menemukan alasan pasti. Keadaan ini sungguh memprihatinkan, tekanan bisnis semakin meningkat, di satu sisi Anda sangat percaya diri, namun tidak yakin. Saya sangat ingin menghindari hal tersebut, dan cara langsung untuk menghindari hal tersebut adalah dengan benar-benar pandai mengukur seberapa baik sistem tersebut benar-benar cocok satu sama lain, dan di sinilah portofolio teknologi yang lebih luas akan sangat membantu.

Daniel Filan: Dalam artikel Governance of superintelligence, Planning for AGI and beyond **, OpenAI menyinggung soal audit independen (audit) sistem AI untuk memastikan terwujudnya AI Safety. sejauh mana Tim Superalignment dapat mengembangkan sesuatu yang berguna untuk audit model? **

**Jan Leike: **Jika berjalan dengan baik, teknologi yang kami kembangkan dapat digunakan dalam "audit model". Misalnya, jika kami dapat mencapai kemajuan dalam hal kemampuan menjelaskan, maka teknik apa pun yang kami temukan dapat digunakan oleh pengulas sebagai bagian dari upaya peninjauan mereka; alternatifnya, semacam pengawasan yang terukur sebagai bagian dari peninjauan dapat dilakukan. Namun Tim Superalignment sebenarnya tidak cocok untuk diaudit, karena kami tidak independen terhadap OpenAI. Menurut saya, audit harus benar-benar independen terhadap auditee, oleh karena itu saya memperhatikan hal “auditor independen”.

Tugas inti tim kami bukanlah meyakinkan diri sendiri bahwa sistem yang kami bangun benar dan aman, karena untuk meyakinkan diri sendiri akan berbagai hal sangatlah sederhana, yang harus kita lakukan adalah meyakinkan seluruh civitas akademika atau kelompok yang berkepentingan mengenai hal tersebut. AI Safety percaya bahwa model tersebut aman. Hal ini tidak hanya membutuhkan penelitian terhadap teknologi yang akan kita gunakan, menunjukkannya kepada orang lain setelah memberikan bukti bahwa sistem tersebut bekerja sesuai dengan apa yang kita pikirkan, namun juga melakukan penilaian independen terhadap semua hal di atas.

04. Generalisasi

Daniel Filan: Dalam catatan kaki artikel Memperkenalkan Superalignment**, Anda menyebutkan bahwa asumsi positif yang dibuat orang sejauh ini mungkin bisa dipatahkan. Salah satu asumsinya adalah bahwa generalisasi itu tidak berbahaya. Bagaimana Anda melihat masalah generalisasi? **

Jan Leike: Kami baru-baru ini membentuk tim generalisasi yang dipimpin oleh Collin Burns.

**Pertanyaan yang kami hadapi adalah: bagaimana memahami dan meningkatkan kemampuan generalisasi model? Bagaimana cara membuat model menggeneralisasi tugas-tugas sederhana yang dapat diawasi hingga tugas-tugas yang sulit diawasi? Masalah ini sebenarnya saling melengkapi dengan pengawasan yang terukur. Dalam Pengawasan yang Dapat Diskalakan, kami fokus pada peningkatan kemampuan manusia untuk mengevaluasi apa yang dilakukan sistem. Jika pemodelan penghargaan rekursif dipertimbangkan, pertanyaannya adalah "Dapatkah kita mengevaluasi secara rekursif semua yang dilakukan AI dengan asisten AI yang mengevaluasi secara rekursif?". **

Yang benar-benar saya sukai adalah ia benar-benar menempatkan manusia di lingkaran depan dan tengah, dan mengamati segala sesuatu yang dilakukan sistem AI. Tentu saja, dalam praktiknya, Anda tidak dapat melakukan ini karena sistem AI akan melakukan banyak hal, tetapi Anda dapat mengamati semuanya dengan probabilitas independen yang kecil. Namun dengan cara ini, kita masih belum mengetahui apakah model tersebut dapat digeneralisasikan pada situasi yang tidak kita perhatikan.

Jadi cara saya memikirkan hal ini di masa lalu secara umum adalah Anda hanya memastikan bahwa model Anda sebagian besar bersifat generalisasi, yaitu tugas yang kita pelajari memiliki distribusi yang sama dengan tugas yang tidak kita pelajari.

Generalisasi independen dan terdistribusi secara identik:

Kemampuan generalisasi model adalah kinerja model pada set pengujian (di mana model data belum pernah dilihat sebelumnya), yaitu kemampuan model dalam menarik kesimpulan dari satu contoh. Generalisasi yang independen dan terdistribusi identik berarti bahwa angka-angka tersebut harus memenuhi iid (terdistribusi independen dan identik) dan berada dalam distribusi yang sama.

**Daniel Filan: Anda menyebutkan di salah satu blog pribadi Anda bahwa Anda tidak bermaksud mengandalkan generalisasi sama sekali, teruslah berlatih dan terus lakukan iid. **

Jan Leike: Ya, setidaknya pemikiran awal saya adalah saya tidak ingin bergantung pada generalisasi non-IID, karena dalam jaringan saraf, hal itu tidak berfungsi dengan baik, dan tidak dipahami dengan baik.

Namun pertanyaan barunya adalah: "Bagaimana jika kita benar-benar memahaminya? Bagaimana jika kita benar-benar dapat menjelaskan arti umumnya?" Saya rasa itu adalah pertanyaan yang sangat bagus. Ilya juga sering menyebutkan hal ini. Jadi yang ingin kami pahami adalah, apakah kami masih dapat menemukan pengertian di mana model tersebut menggeneralisasi hal-hal yang tidak diawasi, meskipun bukan i.i.d. Apakah hal ini dapat digeneralisasi sesuai keinginan manusia? Jadi, sekarang kita dapat menyelidiki pertanyaan ini secara empiris melalui eksperimen yang dirancang dengan baik.

Kami telah mempelajari cara membagi kumpulan data yang ada menjadi masalah mudah dan sulit, di mana masalah mudah didefinisikan sebagai masalah yang dapat diselesaikan oleh model kecil. Kami kemudian mencoba memahami atau meningkatkan keakuratan model besar di seluruh kumpulan data. Ini adalah topik yang sangat menarik karena memberikan tulang punggung yang benar-benar baru untuk teknik pelatihan dan validasi. Misalnya, jika model bekerja dengan baik sehingga kita dapat mengawasi model penghargaan pada beberapa tugas evaluasi yang mudah dan percaya diri, atau membuat model menggeneralisasi masalah yang lebih sulit, maka kita dapat menyelesaikan generalisasi model.

Dan kemudian Anda memiliki model penghargaan ini, yang dapat digeneralisasikan ke tugas-tugas yang lebih sulit sesuai keinginan kita bahkan tanpa pengawasan, dan Anda dapat menggunakannya untuk pelatihan. Namun kami masih belum tahu apakah saat ini sudah selaras. Namun, Anda dapat memanfaatkan pengawasan dan kemampuan interpretasi yang terukur untuk memvalidasi teknik ini. Atau sebaliknya, misalkan kita melatih penyelaras otomatis dengan pengawasan yang terukur dan kemudian menggunakan generalisasi sebagai teknik validasi, yaitu kita menggeneralisasi kemungkinan jawaban yang benar berdasarkan pengetahuan terbaik tentang model.

Kita kemudian bertanya, apakah ada cacat kecil di sini? Apakah ada Trojan yang ditulis dalam model penyelarasan terawasi yang dapat diskalakan dalam kode ini? Sekarang kita dapat melakukan validasi silang tingkat lanjut. Kita dapat melatih dua model yang berbeda: satu dilatih dengan teknik generalisasi dan yang lainnya dengan teknik pengawasan yang dapat diskalakan, dan sekarang kita dapat meminta keduanya memvalidasi silang jawaban satu sama lain dan memeriksa apakah model-model ini pada dasarnya sama? Jika berbeda, apa perbedaan pentingnya?

**Daniel Filan: Yang dimaksud dengan "pelatihan dengan teknik generalisasi" di sini adalah melatih soal-soal mudah lalu menggeneralisasikannya ke soal-soal sulit, atau yang lainnya? **

Jan Leike: Jika Anda memahami bagaimana model Anda menggeneralisasi dari yang mudah ke yang sulit, Anda dapat membuatnya menggeneralisasi dengan sangat baik, dan akurasinya pada dasarnya akan sama seperti jika Anda melatihnya pada soal yang sulit juga. Sekarang, Anda dapat menggunakan ini sebagai model penghargaan, atau sebagai "Jawaban mana yang saya pilih jika saya benar-benar tahu apa yang sedang terjadi di sini?"

**Daniel Filan: Mengenai generalisasi non-IID, mengapa kita perlu mengetahui struktur internal model? Apakah karena Anda ingin tahu apa fungsinya jika Anda belum memeriksanya? Apa hubungan kedua pertanyaan ini? **

Jan Leike: Sampai batas tertentu, pertanyaan yang ingin mereka jawab tumpang tindih: apa yang dilakukan model jika tidak ada distribusi? Setidaknya mereka memiliki dua jalur berbeda untuk menjawab.

Untuk melakukan validasi silang, set pelatihan harus dibagi secara berbeda. Yang saya maksud dengan validasi silang di sini adalah dalam satu kali pelatihan, Anda berlatih menggunakan metode generalisasi dan kemudian memvalidasi menggunakan interpretabilitas, pengawasan yang dapat diskalakan, dan teknik lainnya. Kemudian pada pelatihan kedua dilatih menggunakan metode supervisi yang scalable dan divalidasi menggunakan metode generalisasi, interpretabilitas dan metode lainnya. Dengan cara ini, Anda mendapatkan dua upaya independen untuk mengatasi masalah tersebut.

**Daniel Filan: Ya, yang saya maksud adalah validasi silang dalam arti yang sangat luas, yaitu "segala sesuatu saling memvalidasi dengan cara yang bijaksana". **

Jan Leike: Menurut saya, skenario terbaiknya adalah keduanya saling melengkapi dan tidak melakukan hal yang sama. Jika Anda dapat memahami atau meningkatkan cara suatu model menggeneralisasi, maka Anda memiliki cara untuk memanfaatkan struktur internal model untuk mencapai tujuan terbaik Anda. Katakanlah Anda mencoba mengekstrak persepsi terbaik model tentang seperti apa dunia sebenarnya, yang sangat sulit bagi RLHF karena manusia memprioritaskan hal-hal yang terdengar nyata, jadi RLHF memperkuat apa yang dianggap nyata oleh manusia. Jadi Anda sebenarnya melatih model untuk memberi tahu Anda apa yang ingin Anda dengar atau apa yang Anda yakini, namun mungkin bukan itu yang diketahui oleh model. Namun teknik generalisasi memberi Anda cara untuk mengekstraknya, meskipun kami belum benar-benar membuktikan apa yang optimal untuk diketahui oleh suatu model.

Namun, jika Anda memiliki alat interpretabilitas yang sangat baik, semoga Anda dapat melakukan hal seperti itu, mencoba mencari tahu kognitif, struktur internal, atau model apa pun dari struktur internal. Namun pada dasarnya, ini bisa lebih sulit karena Anda tidak pernah tahu apakah ini merupakan kognisi terbaik yang dapat dihasilkan oleh model, atau kognisi seseorang yang disimulasikan oleh model. Ada asumsi bahwa model bahasa terlatih hanyalah kumpulan karakter yang berbeda, dan Anda mungkin mengekstraksi kognisi untuk karakter atau sekelompok karakter.

**Daniel Filan: Maka Anda memerlukan semacam model sebab akibat dari apa yang disebut kognisi hingga keluaran. **

Jan Leike: Tepat sekali. Menurut saya penerapan semacam ini sebenarnya cukup alami dalam hal interpretasi. Seperti pendeteksi kebohongan, atau mengungkap bukti penipuan dalam sebuah model, sebuah konspirasi rahasia untuk menggulingkan umat manusia, penelitian interpretabilitas dapat mengarah pada pola “ekstraksi pengetahuan.” Ekstraksi pengetahuan yang menggeneralisasi dengan cara yang sama jauh lebih sulit.

**Daniel Filan: Untuk generalisasi, Anda harus memilih distribusi generalisasi. Dan harapannya adalah bahwa mungkin interpretabilitas dapat memberi tahu Anda sesuatu, misalnya, ia memiliki inti kebohongan atau tidak, dan bahkan jika ia memiliki inti kebohongan, dan bahkan jika ia memiliki inti kebohongan, ia hanya akan terungkap di sini. **

Jan Leike: Benar. Ini juga merupakan masalah pembelajaran mesin yang sangat menarik: bagaimana jaringan saraf melakukan generalisasi di luar pengaturan iid? Dalam hal apa mereka melakukan generalisasi secara alami, dan di bagian mana yang tidak? Misalnya, dalam makalah InstructGPT, salah satu hal yang kami temukan adalah meskipun kumpulan data penyesuaian kami hampir seluruhnya dalam bahasa Inggris, modelnya juga sangat baik dalam mengikuti instruksi dalam bahasa selain bahasa Inggris. Namun terkadang ia melakukan sesuatu yang aneh: memintanya menggunakan bahasa lain, misalnya menulis abstrak dalam bahasa Jerman, dan ia menulisnya dalam bahasa Inggris. Secara umum, model memahami dengan sempurna bahasa apa yang digunakannya, namun hal itu tidak berarti model harus mengikuti instruksi bahasa Jerman. Pada dasarnya, ini menggeneralisasi instruksi lintas bahasa.

Tapi kami tidak tahu mengapa cara kerjanya seperti itu. Hal ini telah terjadi berkali-kali. Ada juga alasan intuitif untuk hal ini. Manusia menggeneralisasi berbagai bahasa, tapi saya ingin tahu bagaimana model menggeneralisasi secara internal, atau menggeneralisasi mengikuti instruksi dan kode.

Ini tidak menggeneralisasi sebaliknya. Misalnya, generalisasi cenderung ditolak dengan cara yang sangat berbeda, dan berdasarkan kebijakan konten kami, ChatGPT dilatih untuk menolak tugas yang tidak ingin kami lakukan (misalnya, jika diminta bantuan dalam kejahatan atau lainnya). Tapi dengan cara ini, Anda bisa melakukan jailbreak. Ada banyak cara untuk mengelabui model ini. Anda dapat membiarkannya bermain peran, atau Anda mengatakan "lakukan apa pun yang Anda inginkan sekarang", atau temukan tip yang sangat menarik ini di Internet, dan model tersebut jelas akan mematuhi Anda dan dengan senang hati akan membantu Anda dalam melakukan kejahatan, dan bukan itu yang terjadi. yang harus di lakukan. Jadi, ini tidak menggeneralisasi penolakan tugas ke pengaturan lain.

Jadi mengapa hal ini menggeneralisasi pada kasus pertama tetapi tidak di sini? Saya rasa tidak ada yang tahu jawabannya. Tapi ini adalah pertanyaan yang sangat penting.

**Daniel Filan: Dalam wawancara saya dengan Scott Aaronson belum lama ini, dia menyebutkan bahwa Ilya sering memintanya untuk memberikan definisi tentang teori-teori kompleks seperti cinta dan kebaikan. Berapa banyak definisi seperti itu yang akan ada dalam Tim Superalignment? **

Jan Leike: Kami mungkin melakukan banyak proyek eksplorasi yang berbeda. Saya pikir pertanyaan utamanya adalah, bisakah konsep yang terkait dengan penyelarasan muncul dengan cara tertentu? Salah satu hal yang ingin Anda bayangkan adalah: Apakah model ini pada dasarnya menginginkan manusia sukses? Atau seperti yang dikatakan Ilya, apakah ia mencintai manusia? Jadi Anda bisa bertanya: apakah modelnya benar-benar pintar, dan sudah membaca segalanya, dan tahu persis bagaimana manusia memandang amoralitas... Anda bisa meminta GPT4 untuk menargetkan skenario yang berbeda, menyajikan kasus moral yang berbeda. Secara umum, kemampuannya dalam hal ini tidaklah buruk.

Oleh karena itu, secara mendasar memahami pemahaman manusia tentang moralitas dan cara kita berpikir tentang masalah. Jadi, bagaimana kita memanfaatkan hal ini? Bagaimana cara mengekstraknya dari model dan menggunakannya sebagai sinyal imbalan? Atau sebagai sesuatu yang diketahui atau dipedulikan oleh model? Inilah inti permasalahannya.

05. Tetap optimis dengan Superalignment

**Daniel Filan: Anda optimis dengan Superalignment, tetapi tidak semua orang optimis. Dari mana optimisme Anda berasal? **

**Jan Leike: Itu pertanyaan yang bagus. "Apakah rencana tersebut akan berhasil dalam empat tahun" mungkin merupakan pertanyaan yang lebih kompleks daripada "apakah rencana tersebut akan berhasil". **

Jika Anda bertanya kepada saya, dapatkah versi rencana kita saat ini berhasil diselaraskan dengan kecerdasan super? Menurut saya saat ini tingkat keberhasilannya adalah 85%, sedangkan tahun lalu kemungkinannya sekitar 60%. Secara keseluruhan, meskipun mencapai keselarasan tidaklah mudah, pada saat yang sama, ada banyak alasan untuk bersikap optimis terhadap hal tersebut. Alasannya adalah sebagai berikut:

**Alasan pertama adalah kita telah melihat banyak sinyal positif mengenai keselarasan dalam beberapa tahun terakhir. **Yang pertama adalah keberhasilan model bahasa. Jika Anda juga memuat model dengan banyak pengetahuan tentang apa yang menjadi perhatian manusia, cara manusia berpikir tentang masalah moral, dan preferensi manusia, serta model dapat memahami bahasa alami, Anda dapat berbicara dengan mereka secara langsung. Di satu sisi, hal ini membuatnya lebih mudah untuk mengekspresikan apa yang kita inginkan untuk diselaraskan dengan model bahasa daripada agen Deep RL yang dilatih dalam permainan atau lingkungan virtual: agen Deep RL tidak selalu melibatkan begitu banyak bahasa, tetapi bahasa membawa banyak keterampilan penting.

Kemajuan besar lainnya adalah RLHF. Saya pertama kali mulai mengerjakan RLHF melalui Deep RL di makalah Preferensi Manusia. Pada saat itu saya pikir mungkin sulit untuk membuatnya bekerja dalam jangka waktu yang wajar karena GAN sangat sulit untuk dilatih pada saat itu, dan kami melakukan sesuatu yang sangat mirip dalam artian kami melatih model penghargaan ini (yang merupakan a jaringan saraf) yang kemudian kami gunakan untuk melatih jaringan lain, yang bisa gagal karena sejumlah alasan. Sekarang kami menambahkan pembelajaran penguatan mendalam, yang pada saat itu juga rumit, jadi saya pikir mungkin itu tidak akan berhasil. Namun sebenarnya, ini bekerja dengan sangat baik - di banyak game, bahkan di banyak game Atari, ini hampir sama bagusnya dengan latihan dengan fungsi skor.

Lebih penting lagi, kinerja RLHF sangat menarik pada model bahasa. Terutama mengingat perbedaan antara InstructGPT dan model dasar - ketika kami menyempurnakan model dasar, perbedaan ini sangat jelas: pada tugas API pada saat itu, versi instruksi kami yang telah disempurnakan (versi pertama kami) lebih baik daripada model dasar yang 100 kali lebih besar, dan ini adalah tugas nyata yang orang bersedia membayarnya. Ini adalah perbedaan yang sangat besar. Hal ini menunjukkan bahwa pekerjaan yang kami lakukan selama penyempurnaan RLHF membuat model lebih efektif dalam menyelesaikan tugas yang dibutuhkan manusia.

Pada saat yang sama, kami hanya menginvestasikan sedikit daya komputasi dalam pekerjaan ini, dan kami bahkan belum mengintegrasikan data sebanyak itu. Ini adalah upaya nyata pertama kami dalam menggunakan RLHF untuk menyelaraskan sistem dunia nyata, dan ini berhasil dengan sangat baik. InstructGPT berukuran GPT-2 yang disukai sangat efisien dibandingkan dengan GPT-3. Jadi meskipun menurut saya RLHF bukanlah solusi untuk penyelarasan, terutama untuk superintelligence, fakta bahwa metode penyelarasan pertama kami sangat efektif merupakan kemajuan bagi saya.

**Tanda positif kedua adalah kami telah mencapai beberapa kemajuan dalam mengukur keselarasan. **

Khusus untuk RLHF, kita dapat melakukan berbagai intervensi dan kemudian melakukan evaluasi manusia untuk melihat seberapa besar perbaikan sistemnya. Selain itu, masih banyak hal lain yang bisa kita lakukan. Misalnya, dalam hal pengawasan yang terukur, kita dapat melakukan uji coba terkontrol secara acak melalui gangguan yang ditargetkan, yang juga merupakan metode evaluasi. Anda juga dapat melakukan eksperimen sandwich menggunakan data pakar. Kita juga dapat membuat serangkaian modifikasi pada fungsi penilaian otomatis dan melihat seberapa besar peningkatan fungsi penilaian tersebut. Ini bukan fungsi penilaian yang sempurna, namun merupakan metrik lokal yang memberikan gradien lokal yang dapat ditingkatkan. Saya pikir ini sangat penting karena membantu mengulangi dan menunjukkan jalan menuju perbaikan.

**Meskipun menurut saya hal ini tidak akan membawa kita mencapai tujuan superintelligence yang selaras, sangat mungkin untuk membuat pelurusan otomatis yang kira-kira berada pada level manusia. Inilah alasan saya yang ketiga untuk bersikap optimis—tujuan yang jauh lebih sederhana. **Ketika saya mulai menangani masalah penyelarasan beberapa tahun yang lalu, saya memahami bahwa menyelaraskan superintelligence tampaknya sulit. Namun tujuan ini jauh lebih sederhana dan dapat dicapai, dan Anda tidak mencoba menyelesaikan keseluruhan masalah secara langsung, namun Anda mencoba memandu modelnya.

**Alasan keempat untuk optimis adalah karena lebih mudah untuk mengevaluasi daripada menghasilkan. **Ide ini sebenarnya berlaku untuk banyak hal. Misalnya saja, jauh lebih mudah untuk mengetahui smartphone mana yang layak dibeli daripada membuatnya.

Ada banyak contoh tugas NP dalam ilmu komputer, seperti pemecahan masalah SAT atau berbagai versi kepuasan kendala. Menemukan solusi untuk masalah ini memang sulit, tetapi begitu Anda melakukannya, akan mudah untuk memeriksanya. Selain itu, dan menurut saya hal itu berlaku di banyak bisnis, jika Anda ingin mempekerjakan seseorang untuk memecahkan suatu masalah, Anda harus dapat menilai kemampuan mereka dalam melakukan pekerjaan tersebut. Upaya yang dilakukan jauh lebih sedikit dibandingkan dengan upaya mereka untuk menyelesaikan masalahnya sendiri; jika Anda melakukan penelitian akademis, tinjauan sejawat memerlukan upaya yang jauh lebih sedikit dibandingkan melakukan penelitian. Tentu saja, tinjauan sejawat tidak sempurna, namun dapat memberi Anda banyak sinyal dengan sangat cepat. Pada dasarnya, hal yang sama juga berlaku untuk studi keselarasan. Mengevaluasi lebih mudah daripada menghasilkan. Jadi, jika manusia hanya mengevaluasi penelitian keselarasan dan bukan melakukannya, kita sudah mempercepatnya.

Alasan terakhir yang membuat saya optimis adalah keyakinan saya terhadap model bahasa tidak akan berubah, dan kemampuan model pasti akan semakin kuat. Mereka secara alami dapat diterapkan pada banyak tugas penelitian penyelarasan, dan Anda dapat menempatkan Rumusan Tugas ini sebagai keluaran teks masukan teks, baik itu tugas ML-ish (yaitu menjalankan eksperimen dan memahami hasilnya), atau sesuatu yang lebih konseptual atau berbasis penelitian, jika kita bingung tentang apa yang harus dilakukan selanjutnya, atau kita tidak Tidak tahu cara berpikir Suatu masalah tertentu, model akan mencoba membantu kita menyelesaikannya. Tugas-tugas ini pada dasarnya adalah masukan teks, keluaran teks. Mungkin hal paling rumit yang akan Anda lakukan adalah melihat beberapa grafik dan sebagainya, tetapi GPT-4 dapat melakukan semuanya. Oleh karena itu, menurut saya mode pra-pelatihan model bahasa saat ini sangat cocok untuk rencana penyelarasan yang saya nantikan, dan juga merupakan arah yang sedang dikerjakan Superalignment.

Referensi

  1. Penyelarasan agen yang terukur melalui pemodelan penghargaan: arahan penelitian Alamat makalah:

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Bagikan
Komentar
0/400
Tidak ada komentar
  • Sematkan
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)