DeepMind: Model besar juga terkena kekurangan utama dan tidak dapat memperbaiki penalaran mereka sendiri, kecuali jawaban yang benar diketahui sebelumnya

2023-10-23 01:58:10

Sumber asli: Shin Ji Yuan

Para peneliti > DeepMind menemukan bahwa LLM memiliki cacat yang melekat – tidak bisa mendapatkan respons yang lebih baik dengan mengoreksi diri selama penalaran kecuali label kebenaran telah ditetapkan sebelumnya dalam dataset. Marcus dengan senang hati meneruskan kertas itu lagi.

Sumber gambar: Dihasilkan oleh Unbounded AI

Kelemahan utama lain dari model bahasa besar diekspos oleh DeepMind!

LLM tidak dapat memperbaiki kesalahan dalam alasannya sendiri.

Koreksi diri, teknik untuk memungkinkan model mengoreksi jawaban mereka sendiri, dapat secara signifikan meningkatkan kualitas output model dalam banyak jenis tugas.

Namun baru-baru ini, para peneliti di Google DeepMind dan UIUC menemukan bahwa "mekanisme koreksi diri" LLM tiba-tiba tidak berguna untuk tugas-tugas penalaran.

Selain itu, LLM tidak hanya tidak dapat mengoreksi sendiri jawaban atas tugas penalaran, tetapi sering mengoreksi diri, kualitas jawaban juga akan menurun secara signifikan.

Marcus juga me-retweet makalah tersebut, berharap dapat menarik lebih banyak perhatian peneliti pada cacat model bahasa besar ini.

Teknik "koreksi diri" didasarkan pada ide sederhana yang memungkinkan LLM untuk memperbaiki dan meningkatkan konten yang dihasilkan sesuai dengan kriteria tertentu. Metode ini dapat secara signifikan meningkatkan kualitas output model dalam tugas-tugas seperti masalah matematika.

Tetapi para peneliti menemukan bahwa dalam tugas penalaran, umpan balik setelah koreksi diri terkadang sangat baik, terkadang efeknya sangat buruk, dan bahkan kinerjanya menurun.

Para peneliti juga mempelajari literatur yang percaya bahwa "koreksi diri" dapat meningkatkan output penalaran, dan setelah pemeriksaan lebih dekat, menemukan bahwa peningkatan "koreksi diri" berasal dari pengenalan informasi eksternal untuk memandu model untuk mengoreksi diri. Dan ketika informasi eksternal tidak diperkenalkan, perbaikan ini hilang.

Secara khusus, koreksi diri bekerja secara efektif ketika model memiliki akses ke label kebenaran dasar yang terkandung dalam himpunan data tolok ukur.

Ini karena algoritma dapat menentukan dengan tepat kapan harus menghentikan proses inferensi dan menghindari mengubah jawaban ketika sudah benar.

Para peneliti percaya bahwa label nyata cenderung digunakan dalam penelitian sebelumnya untuk mencegah model mengubah jawaban yang benar menjadi jawaban yang salah. Tetapi bagaimana mencegah situasi "koreksi yang benar" ini sebenarnya adalah kunci untuk memastikan keberhasilan koreksi diri.

Karena ketika peneliti menghapus label sebenarnya dari proses koreksi diri, kinerja model menurun secara signifikan.

Sebagai upaya untuk meningkatkan pendekatan koreksi diri LLM untuk tugas-tugas penalaran, para peneliti juga mengeksplorasi potensi "debat multi-agen" sebagai sarana untuk meningkatkan penalaran. Namun, hasil mereka menunjukkan bahwa metode ini bekerja tidak lebih baik daripada konsistensi diri ketika mempertimbangkan jumlah tanggapan yang sama.

Para peneliti selanjutnya mengusulkan konsep "pre-prompt" dan "post-prompt".

Mereka melihat koreksi diri sebagai bentuk post-hoc prompt, di mana prompt korektif dimasukkan setelah respons LLM.

Analisis para peneliti menunjukkan bahwa peningkatan koreksi diri dalam beberapa tugas mungkin berasal dari permintaan umpan balik yang dirancang dengan baik yang menutupi permintaan awal yang kasar.

Dalam hal ini, mengintegrasikan umpan balik yang lebih baik ke dalam instruksi awal atau merancang permintaan awal yang lebih baik dapat menghasilkan hasil yang lebih baik dan mengurangi biaya inferensi.

Berdasarkan temuan para peneliti, para peneliti menyelidiki nuansa kemampuan LLM untuk mengoreksi diri, mendesak komunitas riset untuk mendekati penelitian koreksi diri dengan ketelitian yang lebih besar.

Dapatkah model bahasa besar mengoreksi sendiri penalaran mereka? **

Para peneliti mencoba mengambil metode koreksi diri yang ada, menggunakan pengaturannya (menggunakan label untuk memandu proses koreksi diri) untuk menguji efektivitasnya dalam meningkatkan kinerja pada tugas penalaran LLM.

Pengaturan Eksperimen

** Kata-kata cepat **

Para peneliti menggunakan strategi isyarat tiga langkah untuk mengoreksi diri:

meminta model untuk generasi awal (ini juga merupakan hasil dari permintaan standar);
meminta model untuk meninjau generasi sebelumnya dan menghasilkan umpan balik;
Jawab pertanyaan asli lagi melalui model prompt umpan balik.

Pola

Tes utama para peneliti dilakukan pada GPT-3.5-Turbo.

Para peneliti juga menguji GPT-4, diakses pada 29 Agustus 2023, dengan tujuan menguji kemampuan koreksi diri dari iterasi model OpenAI terbaru dan paling kuat.

Untuk GPT-3.5, para peneliti menggunakan set lengkap evaluasi yang disebutkan sebelumnya. Untuk GPT-4, untuk mengurangi biaya, para peneliti secara acak mengambil sampel 200 pertanyaan untuk setiap dataset (100 pertanyaan untuk HotpotQA) untuk pengujian.

Hasil dan Refleksi

Sementara para peneliti tidak menggunakan sumber daya atau alat eksternal dalam eksperimen mereka, para peneliti mengikuti pekerjaan sebelumnya, menggunakan label kebenaran untuk menentukan kapan harus menghentikan siklus koreksi diri.

Tetapi di dunia nyata, terutama ketika peneliti berniat untuk memecahkan masalah matematika dengan LLM, sebagian besar waktu jawaban yang benar tidak diketahui.

Oleh karena itu, peningkatan kinerja perlu diperhatikan dengan lebih seksama.

Untuk mengkonfirmasi ide ini, para peneliti merancang baseline berdasarkan tebakan acak. Dalam baseline ini, peneliti terus menggunakan label kebenaran untuk menentukan kapan harus berhenti; Namun, tindakan korektif tidak diambil oleh LLM, tetapi didasarkan pada tebakan acak dari opsi yang tersisa.

CommonSenseQA adalah kumpulan data pertanyaan pilihan ganda yang menyediakan lima opsi kandidat untuk setiap pertanyaan.

Jika presisi pembangkitan putaran kth (pembangkitan awal adalah putaran 0) dinyatakan sebagai x, presisi yang diharapkan dari bangunan berikutnya menjadi x + (1 − x)/(5 − k).

Hasil baseline acak ini disajikan pada Tabel 2 di atas.

Setelah 2 putaran, kinerjanya sebanding atau bahkan lebih baik daripada kalibrasi sendiri, dan setelah 4 putaran, akurasinya mencapai 100%.

Namun, jelas bahwa baseline acak seperti itu tidak dapat dianggap sebagai metode koreksi yang efektif. Namun, hasil yang diperoleh dengan menggunakan label dapat bertindak sebagai oracle, menunjukkan bahwa ada verifikator sempurna yang dapat menilai kebenaran jawaban.

Dalam tugas-tugas seperti pembuatan kode, ini layak karena peneliti dapat memanfaatkan pelaksana dan tes unit untuk menentukan apakah kode yang dihasilkan berjalan dengan sukses (Chen et al., 2023b).

Namun, untuk tugas penalaran, seperti memecahkan masalah matematika, pengaturan ini tampaknya berlawanan dengan intuisi. Jika para peneliti sudah memiliki kebenaran, tampaknya tidak ada alasan untuk menggunakan LLM untuk memecahkan masalah.

** Koreksi diri intrinsik **

Untuk GSM8K, garis dasar acak yang serupa mungkin tidak ada, tetapi alasannya tetap sama.

Selain itu, peneliti dapat merancang baseline, seperti menghasilkan angka acak satu per satu. Setelah beberapa putaran, mungkin mendapatkan jawaban yang benar, tetapi peningkatan seperti itu jelas tidak masuk akal. Alasan yang lebih cepat: Mengapa peneliti melakukan ini jika mereka sudah tahu jawabannya?

Pengaturan eksperimental didefinisikan sebelumnya. Untuk mencapai hal ini, para peneliti hanya menghapus label penggunaan untuk menentukan kapan harus berhenti dan menilai kinerja melalui dua putaran koreksi diri.

Tabel 3 di atas menunjukkan akurasi dan jumlah panggilan model. Para peneliti mengamati bahwa setelah koreksi diri, kinerja model menurun di semua tolok ukur.

Mengapa kinerja menurun?

Gambar 1 di atas merangkum hasil perubahan jawaban setelah dua putaran koreksi diri menggunakan GPT-3.5, dan dua contoh ditunjukkan pada Gambar 2 di bawah ini.

Untuk GSM8K, model mempertahankan jawaban awalnya dengan probabilitas 74,7%. Dalam contoh yang tersisa, model lebih cenderung memodifikasi jawaban yang benar untuk jawaban yang salah daripada memodifikasi jawaban yang salah untuk jawaban yang benar.

Untuk CommonSenseQA, GPT-3.5 lebih cenderung mengubah jawabannya. Alasan utama untuk ini adalah bahwa opsi jawaban yang salah di CommonSenseQA sering tampak agak terkait dengan pertanyaan, dan menggunakan petunjuk koreksi diri dapat membiaskan model yang mendukung memilih opsi lain, menghasilkan rasio "kesalahan ⇒ yang benar" yang tinggi.

Biarkan para peneliti melihat lagi hasil yang ditunjukkan pada Tabel 1 di atas. Hasil ini menggunakan label kebenaran untuk mencegah model mengubah jawaban yang benar menjadi jawaban yang salah.

Namun, bagaimana mencegah "kesalahan koreksi" ini sebenarnya adalah kunci untuk memastikan keberhasilan koreksi diri.

Penjelasan intuitif adalah bahwa jika model cocok dengan prompt awal yang dirancang dengan baik, maka diberikan prompt dan algoritma decoding spesifik, respons awal seharusnya sudah optimal.

Memperkenalkan umpan balik dapat dilihat sebagai menambahkan petunjuk tambahan yang mungkin bias model untuk menghasilkan tanggapan yang sesuai dengan kombinasi input tersebut.

Dalam pengaturan koreksi diri intrinsik, dalam tugas inferensi, prompt tambahan ini mungkin tidak memberikan keuntungan tambahan untuk menjawab pertanyaan.

Bahkan, bahkan mungkin menyimpang model dari menghasilkan respons terbaik terhadap prompt awal, yang mengakibatkan kinerja menurun.

Orang mungkin bertanya-tanya, apakah isyarat koreksi diri yang diuji oleh para peneliti tidak ideal?

Bisakah tips lain meningkatkan kinerja? Jawabannya adalah: sangat mungkin bagi para peneliti untuk menemukan petunjuk yang meningkatkan kinerja model pada tolok ukur tertentu. Namun, ini tidak lagi konsisten dengan pengaturan koreksi diri intrinsik yang dibahas dalam artikel ini, mirip dengan diskusi tentang pengaturan kurang sampel yang sebenarnya.

Pencarian ini pada dasarnya memanfaatkan umpan balik dari manusia atau contoh pelatihan. Selain itu, strategi yang sama dapat diterapkan secara efektif untuk mengoptimalkan petunjuk awal, berpotensi mencapai kinerja yang lebih baik tanpa perlu panggilan model tambahan untuk mengoreksi diri.

Dalam Lampiran B, para peneliti menguji tips yang berbeda tetapi menemukan bahwa kinerja masih belum membaik.

Selain itu, para peneliti bukan yang pertama mengamati bahwa koreksi diri tidak selalu meningkatkan kemampuan penalaran LLM. Singkatnya, fokus para peneliti bukan pada menjawab pertanyaan seperti, "Apakah ada isyarat koreksi diri yang dapat meningkatkan kinerja tolok ukur tertentu?" dan sebagainya. Pertanyaan semacam itu mungkin tidak terlalu berarti.

Sebaliknya, para peneliti bertujuan untuk memecahkan pertanyaan yang lebih mendasar — "Dapatkah model bahasa besar benar-benar memperbaiki penalaran mereka sendiri berdasarkan kemampuan bawaan mereka sendiri?"

Koreksi diri sebagai renungan**

Dalam konten sebelumnya, para peneliti mengamati bahwa LLM menghadapi tantangan dalam mengoreksi sendiri alasannya.

Namun, seperti yang ditunjukkan oleh penelitian sebelumnya, koreksi diri dalam beberapa kasus telah menghasilkan hasil yang mengesankan.

Oleh karena itu, sangat penting untuk mengidentifikasi perbedaan dan menentukan akar penyebab.

Untuk mengatasi masalah ini, penting untuk memahami sifat dasar koreksi diri. Dalam bentuknya, koreksi diri dapat dilihat sebagai renungan.

Ini berbeda dari prompt standar (disebut pre-prompts di sini) karena prompt dibuat di atas jawaban LLM.

Para peneliti menyebut proses peningkatan isyarat tersebut sebagai rekayasa cepat pasca-acara.

Oleh karena itu, koreksi diri meningkatkan respons model ketika koreksi diri dapat memberikan panduan atau umpan balik berharga yang tidak dapat diberikan oleh petunjuk sebelumnya.

Misalnya, ketika tujuannya adalah untuk membuat respons lebih aman, mungkin sulit untuk memandu model untuk menghasilkan respons yang sepenuhnya bebas risiko pada upaya pertama hanya dengan menggunakan petunjuk pra-hoc. Dalam hal ini, koreksi diri dapat digunakan sebagai sarana untuk meningkatkan keamanan respons melalui pemeriksaan postmortem berbutir halus.

Namun, ini mungkin tidak berlaku untuk tugas inferensi.

Permintaan masukan, seperti "Tinjau jawaban Anda sebelumnya dan temukan masalah dengan jawaban Anda." Itu tidak selalu memberikan manfaat nyata untuk penalaran.

Selain itu, bahkan jika peningkatan kinerja yang signifikan setelah koreksi diri diamati, pertimbangan yang cermat dari desain yang cepat diperlukan.

Misalnya, jika respons perlu memenuhi kriteria yang dapat dengan mudah ditentukan dalam instruksi awal (misalnya, output harus berisi kata-kata tertentu, kode yang dihasilkan harus efisien, sentimen harus sangat negatif), daripada memberikan persyaratan ini sebagai umpan balik dalam post-mortem prompt, strategi alternatif yang lebih hemat biaya adalah menanamkan persyaratan ini secara langsung (eksplisit) ke dalam pra-prompt.

Hasil pada Tabel 5 di atas menunjukkan bahwa isyarat yang dirancang dengan hati-hati oleh para peneliti "isyarat standar (dari peneliti)" lebih unggul daripada hasil penelitian sebelumnya yang dikoreksi sendiri.

Selain itu, kinerja bahkan menurun ketika peneliti menggunakan tips mereka untuk meningkatkan output peneliti.

Sekali lagi, tujuan para peneliti di sini bukan untuk memperdebatkan apakah ada petunjuk post-hoc yang dapat mengalahkan petunjuk yang ditulis peneliti sesuka hati. Tujuan utama para peneliti adalah untuk mendorong pengawasan yang lebih ketat terhadap eksperimen kalibrasi diri.

Tidak masuk akal untuk menggunakan petunjuk postmortem yang dirancang dengan baik untuk memandu model untuk "mengoreksi diri" tanggapan yang dihasilkan melalui pra-prompt yang buruk.

Untuk membuat perbandingan yang adil, upaya yang sama harus dimasukkan ke dalam petunjuk sebelum dan sesudah acara.

Sumber daya:

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

Hadiah
suka
Komentar
Bagikan

Komentar

0/400

Tidak ada komentar

Topik
1/3
1CandyDrop Airdrop Event 6.0
55k Popularitas
2White House Crypto Report
53k Popularitas
3Join Alpha RION Airdrop to Earn $40
38k Popularitas
4Fed Holds Rates Decision
9k Popularitas
5July Spark Program TOP 10 Creators Announced
3k Popularitas

Sematkan

peta situs

DeepMind: Model besar juga terkena kekurangan utama dan tidak dapat memperbaiki penalaran mereka sendiri, kecuali jawaban yang benar diketahui sebelumnya

Pengaturan Eksperimen

**Mengapa kinerja menurun? **

Mengapa kinerja menurun?