Penelitian terbaru tim Google mengusulkan penggunaan model besar untuk menggantikan manusia dalam anotasi preferensi, yaitu pembelajaran penguatan umpan balik AI (RLAIF).
Alamat kertas:
Ditemukan bahwa RLAIF dapat menghasilkan peningkatan yang sebanding dengan RLHF tanpa bergantung pada anotator manusia, dengan tingkat kemenangan sebesar 50%.
Pada saat yang sama, penelitian Google sekali lagi membuktikan bahwa RLAIF dan RLHF memiliki tingkat kemenangan lebih dari 70% dibandingkan dengan supervisored fine-tuning (SFT).
Bagian penting dari pelatihan model bahasa besar saat ini adalah RLHF. Manusia membuat respons menjadi lebih berguna dengan menilai kualitas keluaran AI.
Namun, hal ini memerlukan banyak upaya, termasuk memaparkan banyak anotator terhadap konten berbahaya yang dihasilkan oleh AI.
Sekarang RLAIF sebanding dengan RLHF, model masa depan tidak memerlukan umpan balik manusia dan juga dapat ditingkatkan melalui self-loop.
RLHF tidak membutuhkan manusia lagi
Saat ini, RLHF telah menjadi metode inti untuk menyempurnakan model besar, termasuk ChatGPT, Bard, dan model lain yang mengadopsi paradigma ini.
Secara khusus, RLHF dibagi menjadi tiga langkah: pra-pelatihan LLM penyesuaian yang diawasi; mengumpulkan data untuk melatih model penghargaan; dan menyempurnakan model dengan RL.
Dengan RLHF, model besar dapat dioptimalkan untuk tujuan tingkat urutan kompleks yang sulit dibedakan dengan SFT tradisional.
Namun, masalah yang sangat nyata adalah bahwa RLHF memerlukan data berlabel manusia berkualitas tinggi dalam skala besar, dan apakah data tersebut dapat mencapai hasil yang unggul.
Sebelum studi Google ini, peneliti Antropik adalah orang pertama yang mengeksplorasi penggunaan preferensi AI untuk melatih model penghargaan guna penyesuaian RL.
Mereka mengusulkan RLAIF dalam "AI Konstitusi" untuk pertama kalinya, dan menemukan bahwa LLM sangat konsisten dengan penilaian manusia, dan bahkan bekerja lebih baik daripada manusia dalam beberapa tugas.
Namun penelitian ini tidak membandingkan umpan balik manusia dan kecerdasan buatan, sehingga belum diperoleh jawaban akhir apakah RLAIF dapat menggantikan RLHF.
Penelitian terbaru Google terutama untuk mengatasi masalah ini.
Para peneliti secara langsung membandingkan RLAIF dan RLHF pada tugas peringkasan model.
Diberikan 1 teks dan 2 jawaban kandidat, gunakan LLM yang sudah jadi untuk memberikan anotasi preferensi.
Kemudian, model penghargaan (RM) dilatih berdasarkan preferensi LLM dan kerugian kontrastif. Terakhir, model kebijakan disempurnakan melalui pembelajaran penguatan dan model penghargaan digunakan untuk memberikan penghargaan.
Lantas, apa perbedaan metode RLAIF yang dikemukakan Google dengan Anthropic?
Google sendiri menjelaskan dalam teksnya,
Google: Latih model hadiah sesuai dengan preferensi anotasi AI, lalu lakukan penyesuaian RL.
AI Konstitusional: Meningkatkan model pembelajaran yang diawasi dengan meminta LLM secara berulang untuk menghasilkan respons yang lebih baik sesuai dengan konstitusi.
Pelabelan diri AI, pengembangan diri
Bagaimana proses metode RLAIF yang dikemukakan Google dalam penelitian terbarunya?
Model bahasa besar untuk anotasi preferensi
Para peneliti menggunakan LLM "off-the-shelf" untuk membubuhi keterangan preferensi antara dua kandidat.
Ini adalah model yang telah dilatih atau disesuaikan untuk penggunaan umum, namun tidak disesuaikan untuk tugas hilir tertentu. Diberikan sepotong teks dan dua kandidat abstrak, LLM diminta menilai abstrak mana yang lebih baik. Struktur masukan LLM adalah sebagai berikut:
1. Kata Pengantar
Instruksi yang memperkenalkan dan menjelaskan tugas yang ada
2. Beberapa contoh contoh (opsional)
Sepotong teks, sepasang abstrak, prinsip dasar ide, dan penilaian preferensi
3.Sampel untuk diberi label
Sepotong teks dan sepasang abstrak untuk diberi anotasi
4. Berakhir
Meminta string akhir LLM (seperti "Ringkasan Pilihan =")
Setelah memberikan masukan ke LLM, peneliti memperoleh log probabilitas menghasilkan token "1" dan "2" dan menghitung softmax untuk mendapatkan distribusi preferensi.
Ada banyak cara untuk mendapatkan anotasi preferensi dari LLM, seperti mendekode respons bentuk bebas dari model dan mengekstraksi preferensi secara heuristik (misalnya output="ringkasan pertama lebih baik"), atau merepresentasikan distribusi preferensi sebagai representasi one-hot ( satu -representasi panas). Namun peneliti tidak mencoba alternatif tersebut karena metode mereka sudah menghasilkan tingkat akurasi yang tinggi.
Para peneliti bereksperimen dengan dua jenis pembukaan: yang pertama, "Base," yang hanya menanyakan "Ringkasan mana yang lebih baik?" dan yang kedua, "OpenAI," yang meniru metode yang digunakan untuk menghasilkan kumpulan data preferensi OpenAI TL;DR. instruksi untuk pemberi tag preferensi manusia dengan informasi terperinci tentang apa yang dimaksud dengan ringkasan yang kuat. Seperti yang ditunjukkan di bawah ini.
Para peneliti juga bereksperimen dengan pembelajaran kontekstual dengan menambahkan sejumlah kecil sampel ke dalam petunjuk, di mana sampel dipilih secara manual untuk mencakup topik yang berbeda. Selesaikan penyimpangan posisi.
Temuan sebelumnya menunjukkan bahwa urutan kandidat yang dipresentasikan ke LLM dapat mempengaruhi penilaian LLM mengenai kandidat mana yang lebih disukai. Para peneliti menemukan bukti bias posisi ini, terutama untuk LLM beranotasi berukuran lebih kecil.
Untuk mengurangi bias posisi dalam anotasi preferensi, kami melakukan dua inferensi pada setiap pasangan kandidat, dengan urutan pengajuan kandidat ke LLM dibalik. Hasil dari kedua inferensi tersebut kemudian dirata-ratakan untuk mendapatkan distribusi preferensi akhir.
Berpikir rantai penalaran
Para peneliti berupaya memperoleh alasan rantai pemikiran (COT) dari pemberi tag AI untuk meningkatkan konsistensi dengan preferensi manusia.
Peneliti mengganti petunjuk akhir standar (misalnya mengganti "Ringkasan Pilihan =" dengan "Pertimbangkan koherensi, keakuratan, cakupan, dan kualitas keseluruhan setiap ringkasan dan jelaskan mana yang lebih baik. Dasar Pemikiran:"), lalu memecahkan kode balasan LLM .
Terakhir, peneliti menggabungkan prompt asli, respons, dan string akhir asli "Ringkasan Pilihan =" dan ikuti prosedur penilaian di Bagian 3.1 untuk mendapatkan distribusi preferensi. Lihat gambar di bawah untuk proses spesifiknya.
Dalam perintah tanpa sampel, LLM tidak memberikan contoh seperti apa seharusnya inferensi itu, sedangkan dalam perintah dengan sedikit sampel, peneliti memberikan contoh inferensi COT untuk diikuti oleh model. Lihat gambar di bawah sebagai contoh.
### Konsistensi Diri
Untuk isyarat rantai pemikiran, para peneliti juga bereksperimen dengan konsistensi diri—sebuah teknik yang meningkatkan penalaran rantai pemikiran dengan mengambil sampel beberapa jalur penalaran dan menggabungkan jawaban akhir yang dihasilkan di akhir setiap jalur.
Gunakan suhu decoding bukan nol untuk mengambil sampel beberapa dasar rantai pemikiran, lalu dapatkan distribusi preferensi LLM dari setiap rantai pemikiran sesuai dengan metode di bagian sebelumnya. Hasilnya kemudian dirata-ratakan untuk mendapatkan distribusi preferensi akhir.
Pembelajaran Penguatan dengan Masukan AI
Setelah LLM memberi anotasi preferensi, model penghargaan (RM) dilatih untuk memprediksi preferensi. Karena metode peneliti menghasilkan label lunak, mereka mengadopsi kerugian cross-entropy dari softmax dari skor imbalan yang dihasilkan oleh RM, bukan kerugian yang disebutkan dalam model imbalan.
Softmax mengubah skor RM yang tidak terbatas menjadi distribusi probabilitas.
Melatih RM pada kumpulan data berlabel AI dapat dilihat sebagai bentuk penyulingan model, terutama karena pemberi tag AI milik peneliti seringkali lebih besar dan lebih kuat daripada RM.
Pendekatan lain adalah dengan melewati RM dan langsung menggunakan umpan balik AI sebagai sinyal hadiah di RL, meskipun pendekatan ini lebih mahal secara komputasi karena penanda AI lebih besar daripada RM.
Dengan RM yang terlatih, para peneliti melakukan pembelajaran penguatan menggunakan versi modifikasi dari algoritma Advantage Actor Critic (A2C) yang disesuaikan dengan bidang pemodelan bahasa.
evaluasi
Para peneliti mengevaluasi hasil mereka berdasarkan tiga metrik – penyelarasan tag AI, akurasi pemasangan, dan tingkat kemenangan.
Penyelarasan anotator AI digunakan untuk mengukur keakuratan preferensi anotasi AI dibandingkan dengan preferensi manusia.
Sebagai contoh, ubah preferensi beranotasi AI lunak menjadi representasi biner. Diberikan 1 jika anotasinya konsisten dengan preferensi target manusia, jika tidak maka diberi 0.
Akurasi berpasangan adalah ukuran keakuratan model penghargaan yang dilatih relatif terhadap serangkaian preferensi manusia yang dipertahankan.
Mengingat konteks bersama dan tanggapan sepasang kandidat, akurasi pemasangan adalah 1 jika RM memberi skor pada kandidat yang disukai lebih tinggi daripada kandidat yang tidak disukai berdasarkan anotasi manusia. Jika tidak, nilainya adalah 0. Angka ini merupakan rata-rata dari beberapa contoh untuk mengukur keakuratan RM secara keseluruhan.
Tingkat kemenangan menilai kualitas dua strategi secara menyeluruh dengan mengukur seberapa sering manusia lebih memilih salah satu strategi dibandingkan yang lain.
Dengan adanya masukan dan dua hasil yang dihasilkan, anotator manusia memilih hasil mana yang lebih disukai. Persentase contoh di mana strategi A lebih baik daripada strategi B disebut “tingkat kemenangan A melawan B.”
Detail eksperimen
Para peneliti menggunakan kumpulan data Reddit TL;DR yang difilter dan dikurasi oleh OpenAI. TL;DR berisi sekitar 3 juta postingan dari Reddit tentang berbagai topik (juga dikenal sebagai "subreddits") serta kutipan postingan yang ditulis oleh penulis asli.
Data tersebut juga disaring oleh OpenAI untuk memastikan kualitas tinggi, termasuk penggunaan daftar putih topik Reddit yang dapat dipahami masyarakat umum.
Selain itu, hanya postingan dengan 24 hingga 48 anotasi dalam abstrak yang disertakan. Kumpulan data yang difilter berisi 123.169 postingan, sekitar 5% di antaranya berfungsi sebagai kumpulan validasi.
Detail lebih lanjut tentang kumpulan data dapat ditemukan di makalah asli. Selain itu, OpenAI mengkurasi kumpulan data preferensi manusia dari kumpulan data TL;DR yang difilter.
Untuk postingan tertentu, dua ringkasan kandidat dihasilkan berdasarkan strategi yang berbeda, dan pemberi tag diminta untuk menilai ringkasan favorit mereka. Total kumpulan data berisi sekitar 92 ribu perbandingan berpasangan.
Anotasi LLM
Untuk mengevaluasi efektivitas teknik anotasi AI (misalnya petunjuk, konsistensi diri), peneliti memilih contoh dari kumpulan data preferensi TL;DR, di mana anotator manusia lebih memilih abstraksi dengan keyakinan lebih tinggi.
Para peneliti mengevaluasi penyelarasan anotator AI pada 15% subset acak dari pemisahan pelatihan kumpulan data untuk memungkinkan iterasi eksperimental yang lebih cepat, menghasilkan 2.851 contoh evaluasi.
Untuk pelatihan model penghargaan, TL;DR pemisahan pelatihan penuh dari kumpulan data preferensi dianotasi oleh LLM dan digunakan untuk pelatihan, terlepas dari skor keyakinannya.
Pelatihan model
Para peneliti melatih model SFT pada kumpulan data TL;DR yang difilter OpenAI menggunakan PaLM 2 Extra-Small (XS) sebagai pos pemeriksaan awal.
Kemudian, para peneliti menginisialisasi RM dari model SFT dan melatihnya pada kumpulan data preferensi manusia TL;DR OpenAI.
Untuk hasil pada Tabel 1 dan 5.1, para peneliti menggunakan PaLM 2L untuk menghasilkan preferensi beranotasi AI, menggunakan petunjuk "OpenAI + COT 0-shot" (, tanpa konsistensi diri, dan kemudian melatih kumpulan data RM pada preferensi penuh.
Untuk pembelajaran penguatan, peneliti menggunakan Advantage Actor Critic (A2C) untuk melatih kebijakan tersebut. Model strategi dan nilai diinisialisasi dari model SFT. Para peneliti menggunakan kumpulan data Reddit TL;DR yang difilter sebagai keadaan awal untuk meluncurkan strategi mereka.
Manusia Penilaian Manusia
Para peneliti mengumpulkan 1.200 penilaian manusia untuk mengevaluasi strategi RLHF dan RLAIF. Untuk setiap tugas pemeringkatan, evaluator menerima sebuah postingan dan 4 ringkasan yang dihasilkan berdasarkan strategi yang berbeda (masing-masing untuk RLAIF, RLHF, SFT, dan referensi manusia) dan diminta untuk mengurutkannya berdasarkan kualitas tanpa ikatan apa pun.
Postingan diambil dari kumpulan data penyempurnaan yang diawasi TL;DR, yang tidak digunakan untuk evaluasi lainnya. Setelah peringkat ini dikumpulkan, tingkat kemenangan dari dua strategi mana pun dapat dihitung.
Tingkat kemenangan 50%, seri
RLAIF vs.RLHF
Di awal artikel, Google telah memperkenalkan kelebihan membandingkan RLAIF dengan RLHF, dan hasilnya menunjukkan bahwa kedua metode tersebut memiliki performa yang serupa.
Secara khusus, evaluator manusia lebih memilih RLAIF dibandingkan dengan SFT dasar sebanyak 71%. RLHF mengungguli SFT sebanyak 73%.
Para peneliti juga membandingkan secara langsung tingkat kemenangan RLAIF dan RLHF dan menemukan bahwa keduanya sama-sama populer—yaitu, keduanya memiliki tingkat kemenangan 50%.
Untuk lebih memahami perbedaan antara kedua strategi ini, Google melakukan perbandingan kualitatif terhadap cuplikan yang mereka hasilkan.
Selain itu, mereka membandingkan ringkasan RLAIF dan RLHF dengan ringkasan referensi yang ditulis manusia. RLAIF menghasilkan ringkasan lebih baik daripada ringkasan referensi sebanyak 79%, dan hasil RLHF mengungguli ringkasan referensi sebanyak 80%.
Terlihat perbedaan tingkat kemenangan antara RLAIF dan RLHF serta ringkasan referensi hanya 1%, dan tidak ada perbedaan yang signifikan.
Perlu dicatat bahwa para peneliti juga menemukan bahwa frekuensi halusinasi dalam strategi RLHF seringkali lebih tinggi dibandingkan dengan RLAIF, seperti yang ditunjukkan dalam teks yang ditandai dengan warna merah pada tabel di atas.
Setelah mengontrol panjang ringkasan, strategi RLAIF dan RLHF masih mengungguli SFT dasar dan mencapai tingkat kemenangan yang serupa.
Hasil ini menunjukkan bahwa RLAIF tidak perlu bergantung pada anotasi manual dan merupakan alternatif yang layak untuk RLHF.
Tip dan trik
Dalam penggunaan teknik petunjuk, tim Google mencoba tiga jenis teknik petunjuk, kekhususan pembukaan, CoT, dan pembelajaran konteks beberapa sampel.
Ditemukan bahwa penanda AI dapat mencapai konsistensi 78% dengan mendorong melalui pembukaan OpenAI yang terperinci dan melakukan penalaran CoT.
Pembelajaran kontekstual tidak meningkatkan akurasi dan bahkan memperburuknya.
### Konsistensi diri
Para peneliti melakukan eksperimen konsistensi diri menggunakan 4 dan 16 sampel, dengan suhu decoding 1.
Mengambil sampel beberapa prinsip rantai pemikiran dengan T = 1, hasilnya kurang konsisten dengan preferensi manusia.
### Ukuran anotator model besar
Studi ini juga menemukan bahwa meningkatkan ukuran parameter anotator model besar dapat menghasilkan anotasi preferensi dengan kualitas lebih tinggi.
Jumlah contoh yang disukai
Bagaimana keakuratan model penghargaan berubah dengan contoh pelatihan?
Para peneliti menemukan bahwa setelah melatih ribuan contoh, performa model penghargaan mendekati performa pelatihan pada kumpulan data lengkap.
Kesimpulannya
Para peneliti menunjukkan bahwa RLAIF dapat menghasilkan perbaikan yang sebanding dengan RLHF tanpa bergantung pada anotator manusia.
Meskipun penelitian ini menyoroti potensi RLAIF, masih terdapat beberapa keterbatasan.
Pertama, penelitian ini hanya mengeksplorasi tugas ringkasan, dan diperlukan penelitian lebih lanjut mengenai generalisasi tugas lainnya.
Kedua, para peneliti tidak memperkirakan apakah inferensi LLM lebih hemat biaya dibandingkan anotasi manual.
Selain itu, ada beberapa pertanyaan menarik yang perlu diselidiki, seperti apakah RLHF yang dikombinasikan dengan RLAIF dapat mengungguli metode tunggal, seberapa efektif penggunaan LLM untuk menetapkan imbalan secara langsung, apakah penyelarasan pelabelan AI yang lebih baik akan menghasilkan kebijakan akhir yang lebih baik, dan apakah kebijakan tersebut dapat ditingkatkan lebih lanjut menggunakan penanda LLM yang ukurannya sama dengan model kebijakan (yaitu, apakah model dapat "meningkatkan dirinya sendiri").
Perbincangan hangat di kalangan netizen
Google menerbitkan dua makalah tentang RL:
RLAIF: Model penghargaan pelatihan yang mirip dengan umpan balik manusia
ReST: Menggunakan Model Generatif untuk Memfasilitasi Pelatihan Mandiri Menggabungkan kedua makalah ini dapat memuaskan algoritma AI yang haus data.
Setengah bulan yang lalu, Google DeepMind baru saja mengusulkan algoritma baru ReST, untuk membuat model bahasa skala besar konsisten dengan preferensi manusia.
Secara khusus, metode pembelajaran penguatan offline digunakan untuk meningkatkan kualitas terjemahan model bahasa besar agar lebih sesuai dengan preferensi manusia.
Seorang peneliti mengatakan model Claude Anthropic tampaknya lebih lemah dibandingkan GPT-4 berdasarkan pengujian kualitatif. Hal ini mungkin disebabkan oleh metode RLHF/RLAIF atau pra-pelatihan. Tidak jelas apakah metode ini dapat digeneralisasikan dengan lebih baik dalam aplikasi dunia nyata, meskipun kinerjanya lebih baik pada tolok ukur akademis.
Saya tidak akan mengatakan bahwa hal ini mengurangi pentingnya anotasi manusia, tetapi satu hal yang pasti, RL dengan umpan balik kecerdasan buatan dapat mengurangi biaya. Anotasi manual masih sangat penting untuk generalisasi, dan metode hibrid RLHF+RLAIF lebih baik daripada metode tunggal mana pun.
Sebagian besar netizen percaya bahwa makalah ini adalah terobosan besar, namun beberapa netizen merasa bahwa makalah tersebut tampaknya tidak berbeda secara mendasar dengan RLAIF dalam Konstitusi Claude yang diusulkan oleh Anthropic beberapa bulan lalu.
Referensi:
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
RLHF tidak lagi membutuhkan manusia. Penelitian tim Google membuktikan bahwa anotasi AI telah mencapai level manusia
Sumber asli: Xinzhiyuan
Apakah layak jika “manusia” di RLHF diganti?
Penelitian terbaru tim Google mengusulkan penggunaan model besar untuk menggantikan manusia dalam anotasi preferensi, yaitu pembelajaran penguatan umpan balik AI (RLAIF).
Ditemukan bahwa RLAIF dapat menghasilkan peningkatan yang sebanding dengan RLHF tanpa bergantung pada anotator manusia, dengan tingkat kemenangan sebesar 50%.
Pada saat yang sama, penelitian Google sekali lagi membuktikan bahwa RLAIF dan RLHF memiliki tingkat kemenangan lebih dari 70% dibandingkan dengan supervisored fine-tuning (SFT).
Namun, hal ini memerlukan banyak upaya, termasuk memaparkan banyak anotator terhadap konten berbahaya yang dihasilkan oleh AI.
Sekarang RLAIF sebanding dengan RLHF, model masa depan tidak memerlukan umpan balik manusia dan juga dapat ditingkatkan melalui self-loop.
RLHF tidak membutuhkan manusia lagi
Saat ini, RLHF telah menjadi metode inti untuk menyempurnakan model besar, termasuk ChatGPT, Bard, dan model lain yang mengadopsi paradigma ini.
Secara khusus, RLHF dibagi menjadi tiga langkah: pra-pelatihan LLM penyesuaian yang diawasi; mengumpulkan data untuk melatih model penghargaan; dan menyempurnakan model dengan RL.
Namun, masalah yang sangat nyata adalah bahwa RLHF memerlukan data berlabel manusia berkualitas tinggi dalam skala besar, dan apakah data tersebut dapat mencapai hasil yang unggul.
Sebelum studi Google ini, peneliti Antropik adalah orang pertama yang mengeksplorasi penggunaan preferensi AI untuk melatih model penghargaan guna penyesuaian RL.
Mereka mengusulkan RLAIF dalam "AI Konstitusi" untuk pertama kalinya, dan menemukan bahwa LLM sangat konsisten dengan penilaian manusia, dan bahkan bekerja lebih baik daripada manusia dalam beberapa tugas.
Penelitian terbaru Google terutama untuk mengatasi masalah ini.
Para peneliti secara langsung membandingkan RLAIF dan RLHF pada tugas peringkasan model.
Diberikan 1 teks dan 2 jawaban kandidat, gunakan LLM yang sudah jadi untuk memberikan anotasi preferensi.
Kemudian, model penghargaan (RM) dilatih berdasarkan preferensi LLM dan kerugian kontrastif. Terakhir, model kebijakan disempurnakan melalui pembelajaran penguatan dan model penghargaan digunakan untuk memberikan penghargaan.
Google: Latih model hadiah sesuai dengan preferensi anotasi AI, lalu lakukan penyesuaian RL.
AI Konstitusional: Meningkatkan model pembelajaran yang diawasi dengan meminta LLM secara berulang untuk menghasilkan respons yang lebih baik sesuai dengan konstitusi.
Pelabelan diri AI, pengembangan diri
Bagaimana proses metode RLAIF yang dikemukakan Google dalam penelitian terbarunya?
Model bahasa besar untuk anotasi preferensi
Para peneliti menggunakan LLM "off-the-shelf" untuk membubuhi keterangan preferensi antara dua kandidat.
Ini adalah model yang telah dilatih atau disesuaikan untuk penggunaan umum, namun tidak disesuaikan untuk tugas hilir tertentu. Diberikan sepotong teks dan dua kandidat abstrak, LLM diminta menilai abstrak mana yang lebih baik. Struktur masukan LLM adalah sebagai berikut:
1. Kata Pengantar
Instruksi yang memperkenalkan dan menjelaskan tugas yang ada
2. Beberapa contoh contoh (opsional)
Sepotong teks, sepasang abstrak, prinsip dasar ide, dan penilaian preferensi
3.Sampel untuk diberi label
Sepotong teks dan sepasang abstrak untuk diberi anotasi
4. Berakhir
Meminta string akhir LLM (seperti "Ringkasan Pilihan =")
Ada banyak cara untuk mendapatkan anotasi preferensi dari LLM, seperti mendekode respons bentuk bebas dari model dan mengekstraksi preferensi secara heuristik (misalnya output="ringkasan pertama lebih baik"), atau merepresentasikan distribusi preferensi sebagai representasi one-hot ( satu -representasi panas). Namun peneliti tidak mencoba alternatif tersebut karena metode mereka sudah menghasilkan tingkat akurasi yang tinggi.
Para peneliti bereksperimen dengan dua jenis pembukaan: yang pertama, "Base," yang hanya menanyakan "Ringkasan mana yang lebih baik?" dan yang kedua, "OpenAI," yang meniru metode yang digunakan untuk menghasilkan kumpulan data preferensi OpenAI TL;DR. instruksi untuk pemberi tag preferensi manusia dengan informasi terperinci tentang apa yang dimaksud dengan ringkasan yang kuat. Seperti yang ditunjukkan di bawah ini.
Temuan sebelumnya menunjukkan bahwa urutan kandidat yang dipresentasikan ke LLM dapat mempengaruhi penilaian LLM mengenai kandidat mana yang lebih disukai. Para peneliti menemukan bukti bias posisi ini, terutama untuk LLM beranotasi berukuran lebih kecil.
Berpikir rantai penalaran
Para peneliti berupaya memperoleh alasan rantai pemikiran (COT) dari pemberi tag AI untuk meningkatkan konsistensi dengan preferensi manusia.
Peneliti mengganti petunjuk akhir standar (misalnya mengganti "Ringkasan Pilihan =" dengan "Pertimbangkan koherensi, keakuratan, cakupan, dan kualitas keseluruhan setiap ringkasan dan jelaskan mana yang lebih baik. Dasar Pemikiran:"), lalu memecahkan kode balasan LLM .
Terakhir, peneliti menggabungkan prompt asli, respons, dan string akhir asli "Ringkasan Pilihan =" dan ikuti prosedur penilaian di Bagian 3.1 untuk mendapatkan distribusi preferensi. Lihat gambar di bawah untuk proses spesifiknya.
Untuk isyarat rantai pemikiran, para peneliti juga bereksperimen dengan konsistensi diri—sebuah teknik yang meningkatkan penalaran rantai pemikiran dengan mengambil sampel beberapa jalur penalaran dan menggabungkan jawaban akhir yang dihasilkan di akhir setiap jalur.
Gunakan suhu decoding bukan nol untuk mengambil sampel beberapa dasar rantai pemikiran, lalu dapatkan distribusi preferensi LLM dari setiap rantai pemikiran sesuai dengan metode di bagian sebelumnya. Hasilnya kemudian dirata-ratakan untuk mendapatkan distribusi preferensi akhir.
Pembelajaran Penguatan dengan Masukan AI
Setelah LLM memberi anotasi preferensi, model penghargaan (RM) dilatih untuk memprediksi preferensi. Karena metode peneliti menghasilkan label lunak, mereka mengadopsi kerugian cross-entropy dari softmax dari skor imbalan yang dihasilkan oleh RM, bukan kerugian yang disebutkan dalam model imbalan.
Softmax mengubah skor RM yang tidak terbatas menjadi distribusi probabilitas.
Melatih RM pada kumpulan data berlabel AI dapat dilihat sebagai bentuk penyulingan model, terutama karena pemberi tag AI milik peneliti seringkali lebih besar dan lebih kuat daripada RM.
Pendekatan lain adalah dengan melewati RM dan langsung menggunakan umpan balik AI sebagai sinyal hadiah di RL, meskipun pendekatan ini lebih mahal secara komputasi karena penanda AI lebih besar daripada RM.
Dengan RM yang terlatih, para peneliti melakukan pembelajaran penguatan menggunakan versi modifikasi dari algoritma Advantage Actor Critic (A2C) yang disesuaikan dengan bidang pemodelan bahasa.
evaluasi
Para peneliti mengevaluasi hasil mereka berdasarkan tiga metrik – penyelarasan tag AI, akurasi pemasangan, dan tingkat kemenangan.
Penyelarasan anotator AI digunakan untuk mengukur keakuratan preferensi anotasi AI dibandingkan dengan preferensi manusia.
Sebagai contoh, ubah preferensi beranotasi AI lunak menjadi representasi biner. Diberikan 1 jika anotasinya konsisten dengan preferensi target manusia, jika tidak maka diberi 0.
Akurasi berpasangan adalah ukuran keakuratan model penghargaan yang dilatih relatif terhadap serangkaian preferensi manusia yang dipertahankan.
Mengingat konteks bersama dan tanggapan sepasang kandidat, akurasi pemasangan adalah 1 jika RM memberi skor pada kandidat yang disukai lebih tinggi daripada kandidat yang tidak disukai berdasarkan anotasi manusia. Jika tidak, nilainya adalah 0. Angka ini merupakan rata-rata dari beberapa contoh untuk mengukur keakuratan RM secara keseluruhan.
Tingkat kemenangan menilai kualitas dua strategi secara menyeluruh dengan mengukur seberapa sering manusia lebih memilih salah satu strategi dibandingkan yang lain.
Dengan adanya masukan dan dua hasil yang dihasilkan, anotator manusia memilih hasil mana yang lebih disukai. Persentase contoh di mana strategi A lebih baik daripada strategi B disebut “tingkat kemenangan A melawan B.”
Detail eksperimen
Para peneliti menggunakan kumpulan data Reddit TL;DR yang difilter dan dikurasi oleh OpenAI. TL;DR berisi sekitar 3 juta postingan dari Reddit tentang berbagai topik (juga dikenal sebagai "subreddits") serta kutipan postingan yang ditulis oleh penulis asli.
Data tersebut juga disaring oleh OpenAI untuk memastikan kualitas tinggi, termasuk penggunaan daftar putih topik Reddit yang dapat dipahami masyarakat umum.
Selain itu, hanya postingan dengan 24 hingga 48 anotasi dalam abstrak yang disertakan. Kumpulan data yang difilter berisi 123.169 postingan, sekitar 5% di antaranya berfungsi sebagai kumpulan validasi.
Detail lebih lanjut tentang kumpulan data dapat ditemukan di makalah asli. Selain itu, OpenAI mengkurasi kumpulan data preferensi manusia dari kumpulan data TL;DR yang difilter.
Untuk postingan tertentu, dua ringkasan kandidat dihasilkan berdasarkan strategi yang berbeda, dan pemberi tag diminta untuk menilai ringkasan favorit mereka. Total kumpulan data berisi sekitar 92 ribu perbandingan berpasangan.
Anotasi LLM
Untuk mengevaluasi efektivitas teknik anotasi AI (misalnya petunjuk, konsistensi diri), peneliti memilih contoh dari kumpulan data preferensi TL;DR, di mana anotator manusia lebih memilih abstraksi dengan keyakinan lebih tinggi.
Para peneliti mengevaluasi penyelarasan anotator AI pada 15% subset acak dari pemisahan pelatihan kumpulan data untuk memungkinkan iterasi eksperimental yang lebih cepat, menghasilkan 2.851 contoh evaluasi.
Untuk pelatihan model penghargaan, TL;DR pemisahan pelatihan penuh dari kumpulan data preferensi dianotasi oleh LLM dan digunakan untuk pelatihan, terlepas dari skor keyakinannya.
Pelatihan model
Para peneliti melatih model SFT pada kumpulan data TL;DR yang difilter OpenAI menggunakan PaLM 2 Extra-Small (XS) sebagai pos pemeriksaan awal.
Kemudian, para peneliti menginisialisasi RM dari model SFT dan melatihnya pada kumpulan data preferensi manusia TL;DR OpenAI.
Untuk hasil pada Tabel 1 dan 5.1, para peneliti menggunakan PaLM 2L untuk menghasilkan preferensi beranotasi AI, menggunakan petunjuk "OpenAI + COT 0-shot" (, tanpa konsistensi diri, dan kemudian melatih kumpulan data RM pada preferensi penuh.
Untuk pembelajaran penguatan, peneliti menggunakan Advantage Actor Critic (A2C) untuk melatih kebijakan tersebut. Model strategi dan nilai diinisialisasi dari model SFT. Para peneliti menggunakan kumpulan data Reddit TL;DR yang difilter sebagai keadaan awal untuk meluncurkan strategi mereka.
Manusia Penilaian Manusia
Para peneliti mengumpulkan 1.200 penilaian manusia untuk mengevaluasi strategi RLHF dan RLAIF. Untuk setiap tugas pemeringkatan, evaluator menerima sebuah postingan dan 4 ringkasan yang dihasilkan berdasarkan strategi yang berbeda (masing-masing untuk RLAIF, RLHF, SFT, dan referensi manusia) dan diminta untuk mengurutkannya berdasarkan kualitas tanpa ikatan apa pun.
Postingan diambil dari kumpulan data penyempurnaan yang diawasi TL;DR, yang tidak digunakan untuk evaluasi lainnya. Setelah peringkat ini dikumpulkan, tingkat kemenangan dari dua strategi mana pun dapat dihitung.
Tingkat kemenangan 50%, seri
RLAIF vs.RLHF
Di awal artikel, Google telah memperkenalkan kelebihan membandingkan RLAIF dengan RLHF, dan hasilnya menunjukkan bahwa kedua metode tersebut memiliki performa yang serupa.
Secara khusus, evaluator manusia lebih memilih RLAIF dibandingkan dengan SFT dasar sebanyak 71%. RLHF mengungguli SFT sebanyak 73%.
Para peneliti juga membandingkan secara langsung tingkat kemenangan RLAIF dan RLHF dan menemukan bahwa keduanya sama-sama populer—yaitu, keduanya memiliki tingkat kemenangan 50%.
Untuk lebih memahami perbedaan antara kedua strategi ini, Google melakukan perbandingan kualitatif terhadap cuplikan yang mereka hasilkan.
Terlihat perbedaan tingkat kemenangan antara RLAIF dan RLHF serta ringkasan referensi hanya 1%, dan tidak ada perbedaan yang signifikan.
Perlu dicatat bahwa para peneliti juga menemukan bahwa frekuensi halusinasi dalam strategi RLHF seringkali lebih tinggi dibandingkan dengan RLAIF, seperti yang ditunjukkan dalam teks yang ditandai dengan warna merah pada tabel di atas.
Setelah mengontrol panjang ringkasan, strategi RLAIF dan RLHF masih mengungguli SFT dasar dan mencapai tingkat kemenangan yang serupa.
Tip dan trik
Dalam penggunaan teknik petunjuk, tim Google mencoba tiga jenis teknik petunjuk, kekhususan pembukaan, CoT, dan pembelajaran konteks beberapa sampel.
Ditemukan bahwa penanda AI dapat mencapai konsistensi 78% dengan mendorong melalui pembukaan OpenAI yang terperinci dan melakukan penalaran CoT.
Pembelajaran kontekstual tidak meningkatkan akurasi dan bahkan memperburuknya.
Para peneliti melakukan eksperimen konsistensi diri menggunakan 4 dan 16 sampel, dengan suhu decoding 1.
Mengambil sampel beberapa prinsip rantai pemikiran dengan T = 1, hasilnya kurang konsisten dengan preferensi manusia.
Studi ini juga menemukan bahwa meningkatkan ukuran parameter anotator model besar dapat menghasilkan anotasi preferensi dengan kualitas lebih tinggi.
Jumlah contoh yang disukai
Bagaimana keakuratan model penghargaan berubah dengan contoh pelatihan?
Para peneliti menemukan bahwa setelah melatih ribuan contoh, performa model penghargaan mendekati performa pelatihan pada kumpulan data lengkap.
Kesimpulannya
Para peneliti menunjukkan bahwa RLAIF dapat menghasilkan perbaikan yang sebanding dengan RLHF tanpa bergantung pada anotator manusia.
Meskipun penelitian ini menyoroti potensi RLAIF, masih terdapat beberapa keterbatasan.
Pertama, penelitian ini hanya mengeksplorasi tugas ringkasan, dan diperlukan penelitian lebih lanjut mengenai generalisasi tugas lainnya.
Kedua, para peneliti tidak memperkirakan apakah inferensi LLM lebih hemat biaya dibandingkan anotasi manual.
Selain itu, ada beberapa pertanyaan menarik yang perlu diselidiki, seperti apakah RLHF yang dikombinasikan dengan RLAIF dapat mengungguli metode tunggal, seberapa efektif penggunaan LLM untuk menetapkan imbalan secara langsung, apakah penyelarasan pelabelan AI yang lebih baik akan menghasilkan kebijakan akhir yang lebih baik, dan apakah kebijakan tersebut dapat ditingkatkan lebih lanjut menggunakan penanda LLM yang ukurannya sama dengan model kebijakan (yaitu, apakah model dapat "meningkatkan dirinya sendiri").
Perbincangan hangat di kalangan netizen
Google menerbitkan dua makalah tentang RL:
RLAIF: Model penghargaan pelatihan yang mirip dengan umpan balik manusia
ReST: Menggunakan Model Generatif untuk Memfasilitasi Pelatihan Mandiri Menggabungkan kedua makalah ini dapat memuaskan algoritma AI yang haus data.
Secara khusus, metode pembelajaran penguatan offline digunakan untuk meningkatkan kualitas terjemahan model bahasa besar agar lebih sesuai dengan preferensi manusia.