Bisakah Anda memilah interpretabilitas model yang besar? Ulasannya ada di sini, satu artikel untuk menjawab pertanyaan Anda

Question

![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-78b1269849-dd1a6f-6d2ef1) Sumber gambar: Dihasilkan oleh AI Tanpa BatasModel bahasa skala besar menunjukkan kemampuan penalaran yang mengejutkan dalam pemrosesan bahasa alami, namun mekanisme yang mendasarinya belum jelas. Dengan meluasnya penerapan model bahasa berskala besar, penjelasan mekanisme pengoperasian model sangatlah penting untuk keamanan aplikasi, keterbatasan kinerja, dan dampak sosial yang dapat dikendalikan.Baru-baru ini, banyak lembaga penelitian di Tiongkok dan Amerika Serikat (Institut Teknologi New Jersey, Universitas Johns Hopkins, Universitas Wake Forest, Universitas Georgia, Universitas Shanghai Jiao Tong, Baidu, dll.) bersama-sama merilis ulasan tentang teknologi interpretasi model besar, Teknik interpretasi model fine-tuning tradisional dan model sangat besar berbasis ing ditinjau secara komprehensif, dan kriteria evaluasi serta tantangan penelitian di masa depan dalam interpretasi model dibahas.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-229d52bfe3-dd1a6f-6d2ef1) * Tautan kertas:* Tautan Github:![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-4a108bc518-dd1a6f-6d2ef1) **Apa kesulitan dalam menafsirkan model besar? **Mengapa begitu sulit menafsirkan model berukuran besar? Kinerja luar biasa dari model bahasa besar pada tugas pemrosesan bahasa alami telah menarik perhatian luas dari masyarakat. Pada saat yang sama, bagaimana menjelaskan kinerja menakjubkan model-model besar di berbagai tugas adalah salah satu tantangan mendesak yang dihadapi dunia akademis. Berbeda dari pembelajaran mesin tradisional atau model pembelajaran mendalam, arsitektur model ultra-besar dan materi pembelajaran yang masif memungkinkan model besar memiliki kemampuan penalaran dan generalisasi yang kuat. Beberapa kesulitan utama dalam menyediakan interpretabilitas untuk model bahasa besar (LLM) meliputi:* Kompleksitas model tinggi. Berbeda dari model pembelajaran mendalam atau model pembelajaran mesin statistik tradisional sebelum era LLM, model LLM berskala besar dan berisi miliaran parameter. Proses representasi dan penalaran internalnya sangat kompleks, dan sulit untuk menjelaskan keluaran spesifiknya.* Ketergantungan data yang kuat. LLM mengandalkan korpus teks berskala besar selama proses pelatihan. Bias, kesalahan, dll. dalam data pelatihan ini mungkin memengaruhi model, namun sulit untuk sepenuhnya menilai dampak kualitas data pelatihan pada model.* Sifat kotak hitam. Kami biasanya menganggap LLM sebagai model kotak hitam, bahkan untuk model sumber terbuka, seperti Llama-2. Sulit bagi kita untuk secara eksplisit menilai rantai penalaran internal dan proses pengambilan keputusan. Kita hanya dapat menganalisisnya berdasarkan input dan output, sehingga sulit untuk ditafsirkan.* Ketidakpastian keluaran. Output dari LLM seringkali tidak pasti, dan output yang berbeda dapat dihasilkan untuk input yang sama, yang juga meningkatkan kesulitan interpretasi.* Indikator evaluasi tidak memadai. Indikator evaluasi otomatis sistem dialog yang ada saat ini tidak cukup untuk sepenuhnya mencerminkan kemampuan interpretasi model, dan diperlukan lebih banyak indikator evaluasi yang mempertimbangkan pemahaman manusia.**Paradigma pelatihan untuk model besar**Untuk meringkas interpretasi model besar dengan lebih baik, kami membagi paradigma pelatihan model besar di level BERT dan di atasnya menjadi dua jenis: 1) paradigma penyesuaian tradisional; 2) paradigma berbasis ing.**Paradigma penyempurnaan tradisional**Untuk paradigma penyesuaian tradisional, model bahasa dasar terlebih dahulu dilatih pada pustaka teks tak berlabel yang lebih besar, lalu disempurnakan melalui kumpulan data berlabel dari domain tertentu. Model umum seperti BERT, RoBERTa, ELECTRA, DeBERTa, dll.**paradigma berbasis ing**Paradigma berbasis ing mengimplementasikan pembelajaran zero-shot atau some-shot dengan menggunakan s. Seperti paradigma penyesuaian tradisional, model dasarnya perlu dilatih terlebih dahulu. Namun, penyempurnaan berdasarkan paradigma ing biasanya dilaksanakan dengan penyetelan instruksi dan pembelajaran penguatan dari umpan balik manusia (RLHF). Model umum tersebut termasuk GPT-3.5, GPT 4, Claude, LLaMA-2-Chat, Alpaca, Vicuna, dll. Proses pelatihannya adalah sebagai berikut:![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-643c1f15c1-dd1a6f-6d2ef1) **Penjelasan model berdasarkan paradigma penyempurnaan tradisional**Penjelasan model berdasarkan paradigma fine-tuning tradisional meliputi penjelasan prediksi individu (penjelasan lokal) dan penjelasan komponen tingkat struktural model seperti neuron, lapisan jaringan, dll (penjelasan global).**Penjelasan sebagian**Penjelasan lokal menjelaskan prediksi sampel tunggal. Metode penjelasannya meliputi atribusi fitur, penjelasan berbasis perhatian, penjelasan berbasis contoh, dan penjelasan bahasa alami.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-884d4dcaef-dd1a6f-6d2ef1) 1. Atribusi fitur bertujuan untuk mengukur relevansi setiap fitur masukan (misalnya kata, frasa, rentang teks) terhadap prediksi model. Metode atribusi fitur dapat diklasifikasikan menjadi:* Berdasarkan interpretasi gangguan, amati dampaknya terhadap hasil keluaran dengan memodifikasi fitur masukan tertentu;* Berdasarkan interpretasi gradien, diferensial parsial keluaran terhadap masukan digunakan sebagai indeks kepentingan masukan yang bersangkutan;* Model alternatif, menggunakan model sederhana yang dapat dipahami manusia agar sesuai dengan keluaran individu dari model yang kompleks untuk mendapatkan pentingnya setiap masukan;* Teknik berbasis dekomposisi yang bertujuan untuk menguraikan skor korelasi fitur secara linier.2. Penjelasan berbasis perhatian: Perhatian sering kali digunakan sebagai cara untuk memusatkan perhatian pada bagian masukan yang paling relevan, sehingga perhatian dapat mempelajari informasi relevan yang dapat digunakan untuk menjelaskan prediksi. Penjelasan umum terkait perhatian meliputi:* Teknologi visualisasi perhatian untuk secara intuitif mengamati perubahan skor perhatian pada skala yang berbeda;* Interpretasi berbasis fungsi, seperti turunan parsial dari keluaran versus perhatian. Namun, penggunaan perhatian sebagai perspektif penelitian masih kontroversial di kalangan akademisi.3. Penjelasan berbasis sampel mendeteksi dan menjelaskan model dari sudut pandang kasus individual, yang terbagi menjadi: sampel adversarial dan sampel kontrafaktual.* Sampel adversarial adalah data yang dihasilkan berdasarkan karakteristik model yang sangat sensitif terhadap perubahan kecil. Dalam pemrosesan bahasa alami, biasanya diperoleh dengan memodifikasi teks. Transformasi teks yang sulit dibedakan oleh manusia biasanya menghasilkan prediksi yang berbeda oleh model. model.* Sampel kontrafaktual diperoleh dengan mendeformasi teks seperti negasi, yang biasanya merupakan ujian kemampuan inferensi kausal model.4. Penjelasan bahasa alami menggunakan teks asli dan penjelasan yang diberi label secara manual untuk pelatihan model, sehingga model tersebut dapat menghasilkan proses pengambilan keputusan model penjelasan bahasa alami.**Penjelasan global**Penjelasan global bertujuan untuk memberikan penjelasan tingkat tinggi tentang mekanisme kerja model besar dari level model termasuk neuron, lapisan tersembunyi dan blok yang lebih besar. Ini terutama mengeksplorasi pengetahuan semantik yang dipelajari di berbagai komponen jaringan.* Interpretasi berbasis probe Teknologi interpretasi probe terutama didasarkan pada deteksi pengklasifikasi. Dengan melatih pengklasifikasi dangkal pada model yang telah dilatih sebelumnya atau model yang telah disempurnakan, lalu mengevaluasinya pada kumpulan data yang tidak ada, pengklasifikasi dapat mengidentifikasi fitur bahasa. atau kemampuan penalaran.* Aktivasi neuron Analisis aktivasi neuron tradisional hanya mempertimbangkan bagian dari neuron penting, dan kemudian mempelajari hubungan antara neuron dan fitur semantik. Baru-baru ini, GPT-4 juga telah digunakan untuk menjelaskan neuron. Daripada memilih beberapa neuron untuk dijelaskan, GPT-4 dapat digunakan untuk menjelaskan semua neuron.* Interpretasi berbasis konsep memetakan masukan ke sekumpulan konsep dan kemudian menjelaskan model dengan mengukur pentingnya konsep tersebut terhadap prediksi.**Penjelasan model berdasarkan paradigma**Penjelasan model berdasarkan paradigma ing memerlukan penjelasan terpisah antara model dasar dan model pembantu untuk membedakan kemampuan kedua model dan menelusuri jalur pembelajaran model. Permasalahan yang dieksplorasi terutama meliputi: manfaat memberikan penjelasan untuk model pembelajaran beberapa tahap; memahami asal mula pembelajaran beberapa tahap dan kemampuan rantai berpikir.**Penjelasan model dasar*** Manfaat penjelasan untuk pembelajaran model Jelajahi apakah penjelasan berguna untuk pembelajaran model dalam konteks pembelajaran beberapa tahap.* Pembelajaran situasional mengeksplorasi mekanisme pembelajaran situasional pada model besar, dan membedakan perbedaan pembelajaran situasional pada model besar dan model sedang.* Rangkaian pemikiran Jelajahi alasan mengapa rangkaian pemikiran meningkatkan performa model.**Penjelasan Asisten Model*** Model asisten peran yang menyempurnakan biasanya telah dilatih sebelumnya untuk memperoleh pengetahuan semantik umum, dan kemudian memperoleh pengetahuan domain melalui pembelajaran yang diawasi dan pembelajaran penguatan. Tahap di mana pengetahuan tentang model asisten sebagian besar berasal masih harus dipelajari.* Keakuratan dan kredibilitas prediksi model besar tentang halusinasi dan ketidakpastian masih menjadi isu penting dalam penelitian saat ini. Meskipun model besar memiliki kemampuan inferensi yang kuat, hasilnya sering kali mengandung informasi yang salah dan halusinasi. Ketidakpastian dalam prediksi ini membawa tantangan besar terhadap penerapannya secara luas.**Evaluasi Penjelasan Model**Indikator evaluasi untuk penjelasan model meliputi masuk akal, kesetiaan, stabilitas, ketahanan, dll. Makalah ini terutama berbicara tentang dua dimensi yang sangat diperhatikan: 1) rasionalitas terhadap manusia; 2) kesetiaan terhadap logika internal model.Evaluasi terhadap penjelasan model fine-tuning tradisional terutama berfokus pada penjelasan lokal. Masuk akal sering kali memerlukan evaluasi pengukuran interpretasi model versus interpretasi yang dianotasi manusia terhadap standar yang dirancang. Fidelity lebih memperhatikan kinerja indikator kuantitatif. Karena indikator yang berbeda berfokus pada aspek model atau data yang berbeda, standar terpadu untuk mengukur fidelitas masih kurang. Evaluasi berdasarkan interpretasi model memerlukan penelitian lebih lanjut.**Tantangan Penelitian di Masa Depan****1. Kurangnya penjelasan yang efektif dan benar. **Tantangannya datang dari dua aspek: 1) kurangnya standar untuk merancang penjelasan yang efektif; 2) kurangnya penjelasan yang efektif menyebabkan kurangnya dukungan terhadap evaluasi penjelasan.**2. Asal muasal fenomena tersebut belum diketahui. **Eksplorasi kemampuan munculnya model besar dapat dilakukan dari sudut pandang model dan datanya masing-masing.Dari sudut pandang model, 1) struktur model yang menyebabkan munculnya fenomena; 2) skala minimum model dan kompleksitas yang memiliki kinerja unggul dalam tugas lintas bahasa. Dari perspektif data, 1) bagian data yang menentukan prediksi tertentu; 2) hubungan antara kemampuan muncul dan pelatihan model serta kontaminasi data; 3) dampak kualitas dan kuantitas data pelatihan terhadap masing-masing efek pra- pelatihan dan penyesuaian.**3.Perbedaan antara paradigma Fine-tuning dan paradigma ing. **Perbedaan kinerja antara in-distribusi dan out-of-distribusi berarti cara penalaran yang berbeda. 1) Perbedaan paradigma penalaran ketika data di-distribusikan; 2) Sumber perbedaan kekokohan model ketika data didistribusikan secara berbeda.**4. Masalah pembelajaran pintasan untuk model besar. **Dalam kedua paradigma tersebut, masalah pembelajaran pintas model terdapat dalam aspek yang berbeda. Meskipun model besar memiliki sumber data yang melimpah, masalah pembelajaran pintas relatif dapat diatasi. Menjelaskan mekanisme pembentukan pembelajaran pintas dan mengusulkan solusi masih penting untuk generalisasi model.**5. Redundansi perhatian. **Masalah redundansi modul perhatian banyak terjadi di kedua paradigma.Studi tentang redundansi perhatian dapat memberikan solusi untuk teknologi kompresi model.**6.Keamanan dan etika. **Interpretabilitas model besar sangat penting untuk mengendalikan model dan membatasi dampak negatif model. Seperti bias, ketidakadilan, pencemaran informasi, manipulasi sosial dan permasalahan lainnya. Membangun model AI yang dapat dijelaskan dapat secara efektif menghindari masalah di atas dan membentuk sistem kecerdasan buatan yang etis.