Penyelarasan Nilai Model Besar AI: Apa, Mengapa, Bagaimana?

Question

**Asli:****Zhang Qinkun, Sekretaris Jenderal Tencent Research Institute****Cao Jianfeng, Peneliti Senior, Institut Penelitian Tencent**## Penyelarasan Nilai AI: Apa ituSetelah kecerdasan buatan memasuki era model skala besar, berbagai kemampuan "humanoid" dan "manusia super" terus bermunculan, dan otonomi, keserbagunaan, dan kemudahan penggunaannya meningkat pesat, menjadi basis teknologi baru untuk pembangunan ekonomi dan sosial. Beberapa organisasi memperkirakan bahwa model-model besar akan menjangkau semua lapisan masyarakat dan menambah nilai ekonomi global sebesar 2,6 triliun hingga 4,4 triliun dolar AS setiap tahunnya. [1]Namun, ketika model besar (juga dikenal sebagai model dasar) mulai melakukan berbagai tugas pemahaman bahasa dan pembuatan konten seperti manusia, kita perlu menghadapi tantangan paling mendasar dan ilmiah: bagaimana membuat kemampuan dan perilaku model besar sesuai dengan kemampuan dan perilaku model besar. Nilai-nilai kemanusiaan, niat sebenarnya, dan prinsip-prinsip etika konsisten untuk memastikan keamanan dan kepercayaan dalam kolaborasi antara manusia dan kecerdasan buatan. Masalah ini disebut "penyelarasan nilai" (penyelarasan nilai, atau penyelarasan AI). Penyelarasan nilai adalah isu inti dalam keamanan AI.Sampai batas tertentu, ukuran model berkorelasi positif dengan risiko dan kerugian model. Semakin besar model, semakin tinggi risikonya, dan semakin kuat kebutuhan akan penyelarasan nilai. Untuk saat ini, kemampuan inti model besar berasal dari tahap pra-pelatihan, dan model besar sebagian besar dilatih berdasarkan informasi publik dari seluruh Internet, yang tidak hanya menentukan kemampuannya, tetapi juga menentukan batasannya. Permasalahan yang ada mungkin tercermin dalam model.Model bahasa besar (LLM) tanpa penyelarasan nilai dapat menghasilkan konten rasial atau seksis, membantu peretas dunia maya membuat kode atau konten lain untuk serangan dunia maya, penipuan telekomunikasi, dan mencoba membujuk atau membantu pengguna yang memiliki pemikiran untuk bunuh diri untuk mengakhiri hidup sendiri, dan produksi konten berbahaya tersebut. Oleh karena itu, untuk membuat model besar lebih aman, andal, dan praktis, keluaran yang merugikan atau penyalahgunaan model perlu dicegah sebisa mungkin. Ini adalah tugas inti penyelarasan nilai AI saat ini.## Penyelarasan Nilai AI: AlasannyaMenyelaraskan nilai model besar dapat mengatasi beberapa masalah luar biasa yang saat ini ada dalam model besar dengan lebih baik. Menurut pemilahan masalah-masalah luar biasa dari model-model besar dari semua lapisan masyarakat, pada dasarnya ada empat hal berikut:Salah satunya adalah masalah informasi yang salah. Industri menyebutnya sebagai "ilusi" kecerdasan buatan. Menurut CTO OpenAI Mira Murati, tantangan terbesar dengan ChatGPT dan model bahasa besar yang mendasarinya adalah mereka menampilkan fakta yang salah atau tidak ada. [2] Hal ini dapat berasal dari kesalahan atau disinformasi dalam data pelatihan, atau dapat juga merupakan produk sampingan dari kreasi yang berlebihan (seperti fakta fiktif). Merupakan masalah teknis jika membiarkan model besar berada di antara kreativitas dan keaslian.Yang kedua adalah masalah diskriminasi algoritma. Banyak penelitian yang menunjukkan bahwa model bahasa berukuran besar mereproduksi bias dan stereotip sosial yang berbahaya dari data pelatihan. [3] CEO OpenAI Sam Altman percaya bahwa tidak mungkin model mana pun tidak memihak di semua domain. Oleh karena itu, isu intinya adalah bagaimana mendeteksi, mengurangi, dan menghilangkan potensi diskriminasi model.Yang ketiga adalah risiko "kemunculan" kemampuan yang tidak terkendali. Dengan peningkatan daya komputasi dan data yang terus-menerus, model-model besar diharapkan menjadi semakin kuat, dan lebih banyak kemampuan baru mungkin muncul, yang bahkan mungkin melampaui pemahaman dan kendali pembuatnya, yang berarti bahwa risiko-risiko baru mungkin menyertainya. termasuk munculnya perilaku atau tujuan berisiko. Kekhawatiran umum di kalangan ahli teknologi adalah bahwa model AI yang besar saat ini, serta sistem AI yang lebih kuat dan canggih seperti kecerdasan umum buatan (AGI) dan superintelligence (ASI) yang mungkin muncul di masa depan, dapat membentuk sub-manusia yang tidak sejalan dengan kepentingan dan nilai-nilai kemanusiaan Sub-tujuan, seperti perebutan kekuasaan, penipuan, pembangkangan, dan lain-lain, untuk mencapai tujuan yang telah ditetapkan. [4] Misalnya, para peneliti menemukan bahwa GPT-4 menunjukkan kemampuan untuk menipu manusia secara strategis, “menipu manusia agar melakukan tugas untuk mencapai tujuan tersembunyi mereka.”Keempat adalah masalah pelecehan. Elemen jahat dapat menggunakan model besar untuk membantu mereka mencapai tujuan ilegal melalui masukan yang merugikan dan operasi "jailbreaking".Oleh karena itu, penyelarasan nilai, sebagai masalah praktis yang perlu dipecahkan secara teknis, telah menjadi prinsip dasar dalam desain, pengembangan, dan penerapan model besar AI, yaitu: melalui pengembangan alat dan konstruksi rekayasa yang selaras dengan nilai, berupaya untuk Memastikan bahwa AI berperilaku yang bermanfaat bagi manusia dan masyarakat, tanpa merugikan atau mengganggu nilai-nilai dan hak asasi manusia.## Penyelarasan Nilai AI: Bagaimana melakukannyaUntuk mencapai keselarasan nilai, pengembang perlu membuat kecerdasan buatan memahami dan mematuhi nilai-nilai kemanusiaan, preferensi, dan prinsip etika di tingkat model, dan sebisa mungkin mencegah keluaran berbahaya dan penyalahgunaan model, sehingga menciptakan AI yang adalah model besar yang praktis dan aman.Pertama, Pembelajaran Penguatan dengan Umpan Balik Manusia (RLHF) telah terbukti menjadi metode yang efektif, dan hasil yang lebih baik dapat dicapai dengan sejumlah kecil data umpan balik manusia.Pada tahun 2017, peneliti OpenAI menerbitkan artikel "Pembelajaran Penguatan Mendalam Berdasarkan Preferensi Manusia", yang mengusulkan untuk memperkenalkan umpan balik manusia ke dalam pembelajaran penguatan. [5] RLHF mencakup beberapa langkah seperti pelatihan model awal, pengumpulan umpan balik manusia, pembelajaran penguatan, dan proses berulang. Ide intinya adalah mengharuskan pelatih manusia mengevaluasi kesesuaian konten keluaran model dan membangun sinyal penghargaan untuk pembelajaran penguatan berdasarkan data yang dikumpulkan. umpan balik manusia. , untuk mencapai peningkatan optimalisasi kinerja model. [6] Dari sudut pandang praktis, RLHF memiliki keuntungan yang signifikan dalam meningkatkan kinerja model, meningkatkan kemampuan adaptasi model, mengurangi bias model, dan meningkatkan keamanan model, termasuk mengurangi kemungkinan model menghasilkan konten berbahaya di masa depan.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-861291203e-dd1a6f-1c6801) *Gambar: diagram alur RLHF (Sumber: OpenAI)*OpenAI telah meneruskan algoritme RLHF, dan ChatGPT telah berhasil dalam hal ini, dan dapat menghasilkan sebagian besar konten yang berguna, kredibel, dan tidak berbahaya. [7] Dalam fase pelatihan RLHF, GPT-4 mengurangi keluaran berbahaya dengan menambahkan sinyal imbalan keselamatan tambahan. Metode ini telah memberikan hasil yang baik dan secara signifikan meningkatkan kesulitan dalam mendorong perilaku jahat dan konten berbahaya. Dibandingkan dengan model sebelumnya (seperti GPT-3.5), GPT-4 secara signifikan mengurangi masalah seperti halusinasi, bias yang merugikan, serta konten ilegal dan berbahaya. Setelah pelatihan RLHF, skor GPT-4 40% lebih tinggi dibandingkan GPT-3.5 pada pengujian keaslian yang relevan, 82% lebih kecil kemungkinannya dalam merespons permintaan konten terlarang dibandingkan GPT-3.5, dan lebih mampu merespons permintaan yang melibatkan konten sensitif. meminta. [8] Singkatnya, algoritme RLHF dapat menetapkan pagar keamanan yang diperlukan untuk model bahasa besar, dan memainkan peran kunci sebagai "penyeimbang" antara kekuatan/kemunculan dan keamanan/keandalan model besar.Kedua, model “AI konstitusional” mengubah penyelarasan nilai dari “pengawasan manusia” yang tidak efisien menjadi “pengawasan terukur” yang lebih efisien.Mempertimbangkan investasi waktu dan sumber daya, kemampuan manusia, dan tantangan lain dalam menggunakan umpan balik manusia untuk melatih model AI yang lebih besar dan kompleks, industri ini telah mengeksplorasi cara menggunakan pengawasan AI (termasuk pengawasan mandiri AI, dan pengawasan satu sistem AI terhadap sistem AI lainnya) .Sistem AI) metode untuk mencapai keselarasan AI. Anthropic, sebuah perusahaan model AI skala besar Amerika, mengusulkan metode "AI konstitusional" (AI konstitusional). Secara khusus, kembangkan model AI bawahan yang fungsi utamanya adalah mengevaluasi apakah keluaran model utama mengikuti prinsip "konstitusional" tertentu (yaitu, serangkaian prinsip atau aturan yang telah ditentukan sebelumnya), dan hasil evaluasi digunakan untuk mengoptimalkan model utama.Anthropic menggabungkan pengalaman praktisnya dan mengacu pada Deklarasi Universal Hak Asasi Manusia, persyaratan layanan Apple, dan aturan Sparrow DeepMind [9] dan dokumen lainnya, mengemukakan serangkaian daftar prinsip yang ekstensif, dan menggunakannya sebagai tolok ukur evaluasi agar model besar Claude dapat mengevaluasi keluarannya sendiri. Tujuannya adalah untuk mendorong model agar menghasilkan jawaban yang bermanfaat sekaligus mengurangi kemungkinan konten berbahaya minimalisasi seksual. [10]![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-f6a16c0536-dd1a6f-1c6801) *Grafik: Jalur AI Konstitusional (Sumber: Antropik)*Claude mendemonstrasikan keefektifan pendekatan AI konstitusional yang membantu Claude mengurangi keluaran yang berbahaya dan diskriminatif, menghindari membantu pengguna yang berniat jahat terlibat dalam aktivitas ilegal atau tidak etis, dan merespons "masukan yang merugikan" pengguna dengan lebih tepat daripada sekadar mengadopsi strategi penghindaran. Sebagai kesimpulan, Anthropic percaya bahwa pendekatan konstitusional terhadap AI dapat membantu menciptakan sistem AI yang berguna, jujur, dan tidak berbahaya dengan keunggulan skalabilitas, transparansi, dan keseimbangan antara kegunaan dan tidak membahayakan.Ketiga, mengambil berbagai langkah untuk memastikan terwujudnya penyelarasan nilai AI.Salah satunya adalah intervensi efektif pada data pelatihan. Banyak masalah model besar (seperti halusinasi dan diskriminasi algoritma) berasal dari data pelatihan, sehingga layak untuk memulai dari data pelatihan, seperti merekam data pelatihan untuk mengidentifikasi apakah ada masalah representasi atau keragaman yang tidak memadai. atau penyaringan otomatis, pengujian untuk mengidentifikasi, menghilangkan bias berbahaya, membangun kumpulan data khusus yang selaras dengan nilai, dan banyak lagi.Yang kedua adalah pengujian permusuhan atau tim merah. Singkatnya, sebelum model dirilis, profesional internal atau eksternal (penguji tim merah) diundang untuk melancarkan berbagai serangan permusuhan terhadap model untuk menemukan potensi masalah dan menyelesaikannya. Misalnya, sebelum rilis GPT-4, OpenAI mempekerjakan lebih dari 50 ilmuwan dan pakar di berbagai bidang untuk menguji modelnya. Tugas penguji tim merah ini adalah menanyakan pertanyaan tentatif atau berbahaya kepada model untuk menguji respons model. ., OpenAI berharap dapat lulus uji tim merah untuk membantu menemukan masalah pada modelnya dalam hal informasi yang tidak akurat (ilusi), konten berbahaya, disinformasi, diskriminasi, bias bahasa, informasi terkait proliferasi senjata tradisional dan non-tradisional, dll. . [11]Yang ketiga adalah alat pemfilteran konten. Misalnya, OpenAI telah secara khusus melatih model AI untuk memfilter konten berbahaya (yaitu, model pemfilteran) untuk mengidentifikasi masukan pengguna yang berbahaya dan keluaran model (yaitu, konten yang melanggar kebijakan penggunaannya), sehingga dapat mewujudkan data masukan dan data keluaran. model.Kontrol.Yang keempat adalah untuk mempromosikan penelitian model yang dapat ditafsirkan dan dipahami. Misalnya, OpenAI menggunakan GPT-4 untuk secara otomatis menulis dan memberi skor pada penjelasan perilaku jaringan saraf model bahasa besar GPT-2; [12] Beberapa peneliti menangani masalah penyelarasan AI dari perspektif interpretasi mekanisme.## Penyelarasan Nilai AI: Masalah Jangka PanjangPekerjaan penyelarasan nilai adalah penelitian paling mendasar dan menantang di bidang AI. Tantangannya adalah bahwa hal ini memerlukan berbagai disiplin ilmu dan partisipasi sosial, serta memerlukan beragam masukan, metode, dan umpan balik; poin mendasarnya adalah bahwa hal ini bukan hanya mengenai keberhasilan atau kegagalan model besar yang ada saat ini, namun juga mengenai keberhasilan atau kegagalan model besar yang ada saat ini. apakah manusia dapat mencapai kecerdasan buatan yang lebih kuat untuk kontrol keamanan masa depan (seperti AGI). Oleh karena itu, para inovator di bidang AI mempunyai tanggung jawab dan kewajiban untuk memastikan bahwa model AI mereka berorientasi pada manusia, bertanggung jawab, aman dan dapat diandalkan. Profesor Zhang Yaqin, seorang ilmuwan kecerdasan buatan terkenal, menunjukkan bahwa untuk memecahkan masalah penyelarasan AI dan nilai-nilai kemanusiaan, orang-orang teknis harus memfokuskan penelitian mereka pada penyelarasan, sehingga mesin dapat memahami dan mengikuti nilai-nilai kemanusiaan. Oleh karena itu, penyelarasan nilai bukan hanya persoalan etika, tetapi juga persoalan bagaimana mencapainya. Orang yang melakukan teknologi dan penelitian tidak bisa hanya mengembangkan kemampuan teknis dan tidak fokus pada penyelesaian masalah keselarasan. [13]Meskipun penyelarasan nilai AI telah mencapai hasil teknis tertentu, masih belum ada konsensus mengenai masalah nilai AI yang paling mendasar: bagaimana menetapkan seperangkat nilai kemanusiaan untuk mengatur kecerdasan buatan. Saat ini, prinsip mana yang harus dipilih mungkin bergantung sepenuhnya pada penilaian subjektif dan nilai-nilai peneliti. Dan mengingat kita hidup di dunia di mana orang-orang memiliki budaya, latar belakang, sumber daya, dan kepercayaan yang beragam, penyelarasan nilai AI perlu mempertimbangkan nilai-nilai dan etika yang berbeda dari masyarakat dan kelompok yang berbeda. Selain itu, tidak praktis untuk membiarkan peneliti memilih sendiri nilai-nilai ini, dan diperlukan lebih banyak partisipasi sosial untuk membentuk konsensus.Pada saat yang sama, upaya penyelarasan nilai AI saat ini masih menghadapi masalah utama: dengan asumsi bahwa kecerdasan manusia pada dasarnya tidak berubah, seiring dengan peningkatan kemampuan kecerdasan buatan, manusia sendiri akan secara efektif mengawasi model AI mutakhir tersebut. menjadi semakin sulit. Oleh karena itu, untuk memastikan keamanan AI, kita perlu mengembangkan kemampuan kita untuk memantau, memahami, dan merancang model AI seiring dengan kompleksitas model itu sendiri."Skala pengawasan" berdasarkan bantuan atau kepemimpinan AI mencerminkan gagasan ini. Pada bulan Juli tahun ini, OpenAI mengumumkan pembentukan tim penyelarasan AI baru. Tujuan dari tim superpenyelarasan baru ini (superalignment) adalah mencari cara agar sistem AI super cerdas mencapai penyelarasan nilai dan keamanan dalam waktu 4 tahun. OpenAI akan berinvestasi 20% Sumber daya komputasi untuk mendukung proyek ini. Intinya adalah mengeksplorasi cara menggunakan AI untuk membantu manusia memecahkan masalah penyelarasan nilai AI. [14]![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-c33337d1ba-dd1a6f-1c6801) *Gambar: Tim Super Alignment OpenAI (Sumber: OpenAI)*Dapat dikatakan bahwa hanya dengan memastikan bahwa tujuan dan perilaku sistem AI konsisten dengan nilai-nilai dan niat kemanusiaan, kita dapat memastikan realisasi AI untuk kebaikan dan mendorong pengembangan produktivitas, pertumbuhan ekonomi, dan kemajuan sosial. Penelitian dan realisasi teknis penyelarasan nilai tidak dapat dipisahkan dari kolaborasi multidisiplin dan partisipasi sosial yang luas. Pemangku kepentingan seperti pemerintah, industri, dan akademisi perlu menginvestasikan lebih banyak sumber daya untuk mendorong penelitian dan praktik penyelarasan nilai AI, sehingga kemampuan masyarakat untuk memantau, memahami, dan mengendalikan kecerdasan buatan serta pengembangan dan kemajuan kecerdasan buatan dapat berjalan seiring. sisi, untuk memastikan bahwa kecerdasan buatan dapat memberi manfaat bagi seluruh umat manusia dan masyarakat.Sumber referensi:[1][2][3][4][5][6][7][8][9][10][11] dikunjungi pada 6 Mei 2023).[12][13][14]