Bagaimana cara mengevaluasi apakah model bahasa besar dapat dipercaya? Berikut ringkasan ketujuh dimensi tersebut

Artikel ini mengusulkan 7 dimensi kunci utama untuk mengevaluasi kredibilitas LLM secara komprehensif.

Dalam penerapan sebenarnya, bagaimana "menyelaraskan" model bahasa besar (LLM, Large Language Model), yaitu membuat perilaku model konsisten dengan niat manusia [2,3], telah menjadi tugas utama. Misalnya, OpenAI menghabiskan waktu enam bulan untuk menyelaraskan GPT-4 sebelum dirilis [1] . Namun, tantangan yang dihadapi oleh para praktisi adalah kurangnya panduan yang jelas untuk mengevaluasi apakah keluaran LLM mematuhi norma, nilai, dan peraturan sosial; hal ini menghambat pengulangan dan penerapan LLM.

Untuk mengatasi masalah ini, Liu Yang dan peneliti lain dari tim ByteDance Research memberikan survei komprehensif mengenai dimensi utama yang perlu dipertimbangkan ketika mengevaluasi kredibilitas LLM. Survei ini mencakup 7 kategori utama kredibilitas LLM: Keandalan, Keamanan, Keadilan, Ketahanan terhadap Penyalahgunaan, Penjelasan & Penalaran, Kepatuhan terhadap Norma Sosial, dan Kekokohan.

Setiap kategori utama dipecah lagi menjadi subkategori, sehingga totalnya ada 29 subkategori. Selain itu, peneliti memilih 8 subkategori untuk penelitian evaluasi yang sesuai. Hasil evaluasi menunjukkan bahwa, secara umum, model dengan keselarasan yang lebih tinggi memiliki kinerja yang lebih baik dalam hal kredibilitas secara keseluruhan. Namun efektivitas penyelarasan tampak berbeda pada dimensi yang berbeda. Hal ini menggambarkan perlunya analisis, pengujian, dan peningkatan penyelarasan LLM yang lebih rinci. Artikel ini bertujuan untuk memberikan para praktisi di lapangan wawasan dan panduan berharga dengan merangkum dimensi utama LLM yang dapat dipercaya, yang penting untuk memahami cara menerapkan LLM secara andal dan rasional dalam berbagai aplikasi.

Alamat kertas:

Taksonomi Penyelarasan Model Bahasa Besar

Gambar 1 menunjukkan taksonomi penyelarasan kredibilitas model bahasa besar yang diusulkan dalam makalah ini: terdapat 7 kategori utama, yang masing-masing dibagi lagi menjadi pembahasan yang lebih rinci, dengan total 29 subkategori. Artikel dilanjutkan dengan ikhtisar setiap kategori:

*Gambar 1: Taksonomi penyelarasan kredibilitas model bahasa besar yang diusulkan dalam teks. *

  1. Keandalan => {informasi palsu, ilusi model bahasa, inkonsistensi, kesalahan kalibrasi, sanjungan}

*a.Menghasilkan keluaran yang benar, realistis dan konsisten dengan ketidakpastian yang sesuai.

  1. Keamanan => {kekerasan, ilegalitas, cedera pada anak di bawah umur, konten dewasa, masalah kesehatan mental, pelanggaran privasi}
  • a. Hindari menghasilkan keluaran yang tidak aman dan ilegal, dan hindari mengungkapkan informasi pribadi.
  1. Keadilan => {ketidakadilan, bias stereotip, bias preferensi, perbedaan kinerja}
  • a. Hindari bias dan pastikan bahwa perbedaan kinerja antar kelompok orang tidak signifikan.
  1. Tolak penyalahgunaan => {Propaganda, serangan dunia maya, rekayasa sosial, kebocoran hak cipta}
  • A. Melarang penyalahgunaan oleh penyerang jahat.
  1. Kemampuan menjelaskan dan menalar => {Kemampuan penjelasan tidak mencukupi, kemampuan logika tidak mencukupi, kemampuan sebab akibat tidak mencukupi}

*a.Kemampuan menjelaskan keluaran kepada pengguna dan memberi alasan dengan benar.

  1. Norma sosial => {Bahasa jahat, ketidakpekaan emosional, ketidakpekaan budaya}

*a.Mencerminkan nilai-nilai kemanusiaan yang dianut secara universal.

  1. Kekokohan => {Serangan cepat, perubahan paradigma dan distribusi, efek intervensi, serangan keracunan}
  • A. Ketahanan terhadap serangan musuh dan perubahan distribusi.

Analisis artikel ini didasarkan pada tantangan keamanan dan penerapan yang dapat dipercaya yang muncul di era model besar, dan juga mempertimbangkan pembahasan tentang kecerdasan buatan yang dapat dipercaya dalam literatur yang ada. Pada saat yang sama, definisi dan pembagian kategori utama mengacu pada penerapan model besar di masyarakat, dan mencoba memastikan bahwa setiap dimensi penilaian memiliki tingkat relevansi dan kepentingan tertentu dalam penerapan model besar arus utama. Literatur dan diskusi khusus dalam setiap kategori dan subkategorinya disediakan dalam artikel.

Untuk setiap subkategori, artikel ini melakukan penelitian dan diskusi yang relevan, dan juga menyediakan studi kasus untuk menggambarkan permasalahan model terkait dalam dimensi kepercayaan terkait. Misalnya, contoh berikut menunjukkan beberapa kesalahan yang dibuat oleh ChatGPT pada pertanyaan faktual:

Dengan menggunakan contoh berikut, artikel ini membahas informasi ilegal yang mungkin ada dalam keluaran model besar:

Evaluasi Riset

Artikel ini memilih 8 subkategori dan merancang studi evaluasi yang sesuai. Subkategori target meliputi:

  • Keandalan: Ilusi Model Bahasa
  • Norma keselamatan dan sosial: topik terkait keselamatan (seperti kekerasan, diskriminasi, ujaran kebencian, dll.)
  • Keadilan: Stereotip (Gender).
  • Keandalan: Kesalahan kalibrasi
  • Tolak penyalahgunaan: penyalahgunaan propaganda dan serangan siber
  • Tolak penyalahgunaan: membocorkan hak cipta
  • Interpretabilitas: penalaran kausal
  • Kekokohan: Ketahanan terhadap serangan yang salah mengeja

Artikel tersebut mengambil contoh “keamanan dan norma sosial”, pertama dimulai dari kumpulan data tim merah Anthropic RLHF yang ada [4] Ekstrak beberapa kata kunci terkait keamanan (lihat makalah asli untuk detailnya), lalu gunakan LLM lain untuk menghasilkan kata panduan () untuk instruksi tidak aman sebagai pertanyaan ujian.

Untuk tujuan ini, artikel memilih text-davinci-003 sebagai model karena: (1) Ini adalah model yang selaras, tetapi tidak terlalu selaras dalam dimensi keamanan seperti ChatGPT, sehingga lebih baik dalam menghasilkan balasan yang kontroversial dan menyinggung;(2 ) Model yang benar-benar tidak selaras (seperti davinci) tidak dapat memahami tugas dengan baik dan mengikuti instruksi manusia.

Secara khusus, peneliti menanyakan teks-davinci-003: "Tulis pertanyaan yang melibatkan ." Pilih dari "tidak etis", "berbahaya", "ilegal", atau "hotile". adalah kata kunci yang diekstraksi sebelumnya. Misalnya:

Artikel ini menggunakan pertanyaan yang dihasilkan oleh text-davinci-003 sebagai pertanyaan tes.

Terakhir, artikel ini menggunakan GPT-4 untuk menentukan apakah model pengujian menolak merespons pertanyaan tidak aman, sebagai berikut:

Para peneliti mengevaluasi 6 LLM: davinci, OPT-1.3B, text-davinci-003, flan-t5-xxl, gpt-3.5-turbo (ChatGPT) dan GPT-4. Gambar 2 menunjukkan proporsi setiap LLM dalam set pengujian yang dianggap sebagai jawaban aman oleh GPT-4. Dari kiri ke kanan pada sumbu x, rentang dari tidak selaras sepenuhnya (davinci) hingga salah satu LLM paling selaras sempurna yang tersedia saat ini (GPT-4) ditampilkan.

Trennya seperti yang diharapkan: ketika LLM lebih selaras, LLM cenderung menolak untuk menjawab instruksi yang tidak aman. Gpt-3.5-turbo (ChatGPT) dan GPT-4 mendapatkan rasio keamanan hampir 100%.

*Gambar 2: Hasil penilaian keamanan LLM. Seperti yang diharapkan, ketika LLM lebih selaras, kemungkinan besar LLM akan menolak jawaban atas pertanyaan yang tidak aman. *

Untuk metode evaluasi, detail dan hasil dimensi lainnya, silakan merujuk pada makalah aslinya.

Bantuan Penyelarasan

Data penilaian yang dihasilkan ini juga dapat membantu pengumpulan data yang selaras.

Mengambil keamanan sebagai contoh, untuk menghasilkan data pelatihan yang selaras, balasan yang dianotasi dengan LLM langsung digunakan. Jika GPT-4 menentukan bahwa keluaran model berisi informasi berbahaya, peneliti menganggap keluaran tersebut dipasangkan dengan pertanyaan dan dijadikan sebagai sampel negatif dalam kumpulan data yang selaras. Di sisi lain, jika tidak ada informasi berbahaya yang terdeteksi, peneliti menganggap pasangan keluaran masalah sebagai sampel positif.

Setelah peneliti menyelaraskan data yang dihasilkan, mereka menggunakan GPT-4 untuk membandingkan hasil keluaran sebelum dan sesudah penyelarasan, sehingga memungkinkan mereka menentukan jawaban mana yang lebih baik dalam hal bermanfaat, jujur, dan tidak merugikan.

Tabel 1 menunjukkan pada GPT-2, setelah peneliti menyelesaikan RLHF (Reinforcement Learning from Human Feedback, pembelajaran penguatan berdasarkan umpan balik manusia), proporsi kumpulan data pengujian yang dianggap lebih baik oleh GPT-4. Dibandingkan dengan model aslinya, model yang selaras telah mengalami peningkatan yang signifikan.

*Tabel 1: Setelah menyelaraskan data yang dihasilkan peneliti pada * GPT-2 *, rasio output dianggap lebih baik oleh GPT-4. Dibandingkan dengan model asli (Vanilla), model setelah SFT dan PPO telah mengalami peningkatan yang signifikan. *

Artikel tersebut juga menggunakan data evaluasi yang dihasilkan untuk melakukan Supervised Fine Tuning pada LLaMA-7B, dan menemukan bahwa 78% output setelah fine-tuning dianggap lebih baik dibandingkan sebelum fine-tuning.

Kesimpulannya

Artikel ini memberikan survei kepada praktisi tentang dimensi kredibilitas LLM, dan menganalisis secara komprehensif arah dan isu-isu yang perlu dipertimbangkan dan diperhatikan dalam proses membangun model besar yang dapat dipercaya. Hasil evaluasi artikel menunjukkan bahwa efektivitas penyelarasan tidak konsisten dalam dimensi yang berbeda, sehingga praktisi harus melakukan pengujian yang lebih menyeluruh dan peningkatan penyelarasan LLM. Pada saat yang sama, penelitian dalam artikel ini menunjukkan bahwa data yang dihasilkan oleh evaluasi juga dapat membantu menyelesaikan tugas penyelarasan model besar.

Praktisi sangat membutuhkan pendekatan yang lebih berprinsip untuk menilai dan menerapkan penyelarasan LLM, memastikan bahwa model ini mematuhi nilai-nilai sosial dan pertimbangan etika. Seiring dengan kemajuan bidang ini, mengatasi permasalahan yang belum terselesaikan ini akan menjadi sangat penting untuk membangun LLM yang semakin andal dan akuntabel.

Terima kasih kepada Li Hang atas saran dan bantuannya dalam merevisi artikel ini.

referensi

  • [1] OpenAI. Gpt-4. 2023*

  • [2] Long Ouyang, Jeffrey Wu,* Xu Jiang, Diogo Almeida, Carroll Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, dkk. Melatih model bahasa untuk mengikuti instruksi dengan umpan balik manusia. Kemajuan dalam Neural Pemrosesan Informasi, 35:27730–27744, 2022

  • [3] Zachary Kenton, Tom Everitt, Laura Weidinger, Iason Gabriel, Vladimir Mikulik, dan Geoffrey Irving. Penyelarasan agen bahasa. arXiv pracetak arXiv:2103.14659, 2021.*

  • [4] *

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Bagikan
Komentar
0/400
Tidak ada komentar
  • Sematkan
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)