GPT-4 tidak tahu bahwa itu salah! Kelemahan baru LLM terungkap, dan tingkat keberhasilan koreksi diri hanya 1%, dan LeCun Marcus berseru bahwa semakin dia mengoreksi semakin salah

2023-10-22 05:30:11

GPT-4 sama sekali tidak tahu bahwa itu membuat kesalahan? Penelitian terbaru telah menemukan bahwa LLM dalam tugas penalaran, setelah koreksi diri, tidak dapat menyelamatkan penurunan kinerja, memimpin bos AI LeCun Marcus untuk menonton.

Sumber asli: Shin Ji Yuan

Sumber gambar: Dihasilkan oleh Unbounded AI

Model besar itu terkena kekurangan besar, yang menarik perhatian LeCun dan Marcus pada saat bersamaan!

Dalam percobaan inferensi, model yang mengklaim meningkatkan akurasi mengoreksi diri, "meningkatkan" tingkat akurasi dari 16% menjadi 1%!

Sederhananya, LLM tidak dapat meningkatkan output dalam bentuk koreksi diri dalam bentuk tugas inferensi, kecuali LLM sudah mengetahui jawaban yang benar dalam proses koreksi diri.

Dua makalah yang diterbitkan oleh para peneliti membantah metode "koreksi diri" yang diusulkan oleh banyak penelitian sebelumnya - memungkinkan model besar untuk mengoreksi sendiri hasil output mereka dapat meningkatkan kualitas output model.

Alamat kertas:

Profesor Subbarao Kambhampati, rekan penulis makalah ini, telah berkomitmen untuk penelitian kemampuan penalaran AI, dan menerbitkan sebuah makalah pada bulan September, bahkan sepenuhnya menyangkal kemampuan penalaran dan perencanaan GPT-4.

Alamat kertas:

Selain profesor ini, para peneliti baru-baru ini di DeepMind dan UIUC University juga mempertanyakan kemampuan LLM untuk "mengoreksi diri" dalam tugas-tugas penalaran.

Makalah ini bahkan meminta semua sarjana yang melakukan penelitian yang relevan untuk menganggap serius penelitian Anda, dan tidak memberi tahu model besar jawaban yang benar dan kemudian membiarkannya melakukan apa yang disebut "koreksi diri".

Karena jika model tidak mengetahui jawaban yang benar, kualitas output akan memburuk setelah model "mengoreksi diri".

Selanjutnya, mari kita lihat dua makalah terbaru ini.

GPT-4 "mengoreksi diri", outputnya lebih buruk

Makalah pertama berfokus pada GPT-4, meminta GPT-4 untuk memberikan solusi untuk masalah bayangan grafis, dan kemudian memiliki GPT-4 "mengoreksi diri" solusinya sendiri.

Pada saat yang sama, penulis memperkenalkan sistem evaluasi eksternal untuk mengevaluasi output langsung GPT-4 dan output setelah siklus "koreksi diri".

Hasil eksperimen menunjukkan bahwa GPT-4 kurang dari 20% akurat dalam menebak warna, yang tampaknya tidak mengejutkan.

Namun yang mengejutkan, akurasi dalam mode "koreksi diri" turun secara signifikan (bilah kedua di bawah) – benar-benar bertentangan dengan semua niat koreksi diri!

Menurut penulis, situasi yang tampaknya berlawanan dengan intuisi ini dapat dijelaskan dengan ini: GPT-4 juga melakukan pekerjaan yang buruk untuk memverifikasi jawaban yang benar!

Karena bahkan ketika GPT-4 secara tidak sengaja menebak warna yang benar, "koreksi diri" -nya akan membuatnya berpikir bahwa jawaban yang benar bermasalah, dan kemudian mengganti jawaban yang benar.

Penelitian lebih lanjut juga menemukan bahwa GPT-4 memang akan meningkatkan solusinya jika validator eksternal memberikan jawaban yang benar untuk warna yang ditebaknya.

Dalam hal ini, prompt yang dihasilkan oleh "koreksi diri" memang dapat meningkatkan kualitas output (bar 3-5 dari gambar di atas)

Singkatnya, untuk tugas "masalah pewarnaan", "koreksi diri" independen GPT-4 akan mengganggu kinerja output, karena GPT-4 tidak dapat memverifikasi bahwa jawabannya benar.

Namun, jika proses verifikasi eksternal yang benar disediakan, "koreksi diri" yang dihasilkan oleh GPT-4 memang dapat meningkatkan kinerja.

Makalah lain melihat kemampuan model bahasa besar untuk "mengoreksi diri" dari perspektif tugas perencanaan, dan hasilnya mirip dengan makalah sebelumnya.

Selain itu, para peneliti menemukan bahwa apa yang benar-benar meningkatkan akurasi output bukanlah "koreksi diri" dari LLM, tetapi umpan balik dari validator independen eksternal.

Dalam analisis akhir, LLM tidak memiliki cara untuk melakukan verifikasi independen, dan harus bergantung pada "jawaban yang benar" yang diberikan oleh validator eksternal agar dapat secara efektif "mengoreksi diri".

"Pertanyaan Mewarnai" berkinerja buruk dan LLM tidak dapat memverifikasi jawaban yang benar secara independen

Kerangka Desain Penelitian

"Masalah mewarnai" adalah masalah penalaran yang sangat klasik, meskipun tidak sulit, jawabannya cukup beragam, dan kebenaran jawabannya mudah diverifikasi.

Hasil keragaman menyulitkan untuk mencakup seluruh data pelatihan LLM, dan kemungkinan kontaminasi data pelatihan LLM dihindari sebisa mungkin.

Alasan-alasan ini membuat "masalah pewarnaan" sangat cocok untuk mempelajari kemampuan penalaran LLM, dan juga nyaman untuk mempelajari kemampuan LLM untuk "mengoreksi diri" dalam penalaran.

Para peneliti membangun dataset mereka sendiri, menggunakan GrinPy2 untuk menangani manipulasi grafik umum. Setiap grafik dibangun menggunakan metode Erdos-Rényi (̋p = 0,4).

Setelah jawaban yang benar ditemukan, itu dikompilasi ke dalam format DIMACS standar dengan komentar yang berisi nomor kromatik yang telah dihitung sebelumnya.

Untuk percobaan berikutnya, para peneliti menghasilkan 100 contoh, masing-masing dengan rata-rata 24 tepi, didistribusikan pada berbagai node dari 10 hingga 17 — distribusi yang telah ditunjukkan oleh pengalaman sebagai rentang variabel yang cukup.

Diagram yang digunakan oleh para peneliti ditunjukkan pada Gambar 1 di bawah ini, yang mencakup jawaban pertama LLM, prompt belakang respons, dan skema warna akhir yang benar.

### Arsitektur untuk Dukungan Iteratif

Generator Prompt:

Generator prompt ini mengambil instance DIMACS, menerjemahkan setiap tepi menjadi kalimat, dan kemudian membungkus keseluruhan dalam satu set instruksi umum untuk membangun prompt bahasa alami.

Para peneliti sengaja mempersempit perbedaan antara contoh yang berbeda meminta untuk mengurangi informasi spesifik masalah yang peneliti bocorkan ke LLM. Contoh berbagai jenis prompt dapat ditemukan di lampiran.

Model Bahasa Besar:

GPT-4 dipanggil melalui OpenAI API, yang saat ini merupakan model paling canggih.

Peneliti memberikan peran sistem: "Anda adalah pemecah kepuasan kendala yang memecahkan berbagai CSP (masalah kepuasan kendala)".

Generasi Belakang

Dalam mode otentikasi, LLM menerima jenis prompt yang berbeda.

Selain instruksi standar, itu hanya berisi deskripsi diagram dan skema pewarnaan yang direkomendasikan. Tugasnya adalah memverifikasi kebenaran, optimalitas, dan bahwa setiap simpul telah dicat warna.

Jika balasan yang dihasilkan memiliki serangkaian tepi yang bertentangan, skema pewarnaannya salah.

Untuk membandingkan setiap titik, para peneliti juga membangun validator yang mencantumkan setiap tepi yang kontradiktif.

Karena tanggapan LLM juga dalam bentuk bahasa alami, para peneliti pertama-tama menerjemahkannya ke dalam format yang mudah dianalisis. Untuk membuat proses ini lebih konsisten, para peneliti merancang petunjuk awal untuk menggambarkan format output yang tepat yang perlu diikuti model. Respons tersebut kemudian dievaluasi kebenarannya.

Untuk menilai hasil validasi LLM, peneliti memeriksa seberapa baik kinerjanya dalam mengidentifikasi kesalahan dalam skema bayangan yang diusulkan.

Secara intuitif, ini harus mudah diidentifikasi: jika dua simpul yang membentuk tepi berbagi warna, segera kembali ke tepi itu. Dari sudut pandang algoritmik, cukup untuk mendeteksi semua tepi dan membandingkan warna setiap simpul dengan warna titik yang terhubung.

Verifikasi

Untuk mendapatkan pemahaman yang lebih dalam tentang kemampuan verifikasi LLM, para peneliti mempelajari kinerja mereka dalam mengidentifikasi kesalahan dalam skema pewarnaan yang diusulkan.

Secara intuitif, kesalahan ini harus mudah diidentifikasi: jika dua simpul yang membentuk tepi berbagi warna, tepi segera dikembalikan. Dari sudut pandang algoritmik, semua yang perlu dilakukan adalah mengulangi semua tepi dan membandingkan warna setiap simpul dengan warna simpul yang sesuai.

Para peneliti menggunakan proses analisis yang sama, tetapi membangun domain baru yang oleh para peneliti disebut warna _verification. LLM dipandu untuk memeriksa kebenaran naungan, optimalitas, dan apakah setiap simpul telah diberi warna.

Jika bayangan salah, diinstruksikan untuk membuat daftar kesalahan dalam bayangan, yaitu, jika dua node yang terhubung berbagi warna, tepi itu dikembalikan untuk mewakili kesalahan. Tidak ada punggung yang diberikan.

Para peneliti menggunakan contoh grafik yang sama seperti sebelumnya, tetapi menghasilkan empat skema bayangan untuk menguji model:

Benar: Skema bayangan optimal bebas kesalahan yang dihasilkan oleh algoritma rakus acak berulang (menggunakan jumlah warna yang telah dihitung sebelumnya untuk memastikan optimalitas).

Ablasi: Mengubah warna node acak dari serangkaian skema bayangan sebelumnya ke tetangganya.

Tidak optimal: Pada set yang benar, bagian warna dipilih secara acak dan diwarnai ulang menjadi rona baru.

Acak: Warna yang sepenuhnya ditetapkan secara acak, jumlah warna yang berbeda sama dengan jumlah warna gambar.

LLM: Skema pewarnaan yang dipilih secara acak dari output yang dihasilkan oleh LLM dari percobaan sebelumnya.

Kesimpulan

LLM diminta, jawaban dievaluasi, dan contoh berikutnya dipindahkan tanpa punggung, menghasilkan skor dasar 16%.

Ketika para peneliti menjalankan instance yang sama, tetapi kali ini mengembalikan prompt menggunakan umpan balik yang dihasilkan oleh model bahasa yang sama yang bertindak sebagai validator, kinerja turun drastis - hanya satu dari 100 instance yang mendapat jawaban yang benar.

Hasil prompt pengembalian dengan validator yang memenuhi syarat secara eksternal mungkin tampak lebih efektif pada awalnya.

Jumlah contoh tanggapan yang benar mendekati 40 persen, tetapi jika itu berarti GPT-4 mendengarkan, meningkatkan, dan penalaran berdasarkan umpan balik, maka para peneliti mengharapkan hasil yang lebih baik dari permintaan pengembalian yang lebih akurat.

Namun, dalam domain ini, fraksi mentah (lihat Gambar 2 di atas) tidak membuktikan hal ini.

Kemampuan Verifikasi LLM

Para peneliti menguji kemampuan GPT-4 untuk memverifikasi skema bayangan grafik pada contoh yang sama, menghasilkan lima jenis skema bayangan yang berbeda untuk setiap contoh.

Hasil yang jelas persis sama dengan hasil koreksi diri LLM di atas: model ini hampir enggan untuk menandai jawaban apa pun sebagai benar. Dari 100 skema naungan optimal, ia setuju bahwa hanya 2 di antaranya yang benar.

Dari seluruh koleksi 500 skema pewarnaan, 118 di antaranya benar, hanya mengklaim bahwa 30 di antaranya benar. Dari 30 ini, hanya 5 yang benar.

Secara keseluruhan, pola ini tetap sama. Dalam kurang dari 10% kasus, LLM memberikan respons "benar", "tidak optimal", atau "tugas yang hilang". Dalam kasus ini, perilaku muncul agak acak.

Dalam sekitar seperempat dari contoh, ia merespons dengan validasi "ini tidak benar" sementara interpretasi sesuai dengan kenyataan, dan hanya melakukan ini dengan menunjukkan tidak lebih dari satu sisi, meminimalkan kemungkinan salah menyatakan sesuatu.

Hasilnya ditunjukkan pada Tabel 2 di atas. Perhatikan bahwa ketika tingkat kesalahan domain meningkat, rasio halusinasi menurun. Artinya, ketika ada lebih banyak tepi yang salah, model lebih cenderung menunjukkan di mana ada yang salah.

LLM kritik diri, kinerja tidak meningkat tetapi menurun

Dalam makalah yang diajukan pada tanggal 12, penulis juga sampai pada kesimpulan yang sama seperti di atas.

Apakah itu perencanaan, aritmatika sederhana atau logika, GPT-4, model besar mutakhir saat ini, tidak sepenuhnya kompeten.

Banyak peneliti telah mengeksplorasi dan memperbaikinya, termasuk memungkinkan LLM untuk belajar iterasi diri, validasi diri dan strategi lain untuk meningkatkan kinerja.

Akibatnya, orang-orang di industri optimis bahwa model besar masih bisa diselamatkan!

Namun, kompleksitas tugas inferensi dalam pengertian klasik tidak ada hubungannya dengan model besar, karena LLM adalah model yang menggunakan perkiraan pengambilan daripada penalaran yang tepat.

Dalam sebuah makalah yang dipresentasikan oleh arXiv pada tanggal 12, para peneliti secara sistematis mengevaluasi dan menganalisis kemampuan LLM untuk mengkritik diri sendiri dalam merencanakan tugas dan optimasi berulang.

Dalam penelitian ini, penulis mengusulkan sistem perencanaan yang mencakup generator LLM dan validator LLM.

Diantaranya, generator GPT-4 bertanggung jawab untuk menghasilkan rencana kandidat, dan validator GPT-4 bertanggung jawab untuk memverifikasi kebenaran rencana dan memberikan umpan balik.

Para peneliti kemudian melakukan eksperimen di bidang perencanaan Blocksworld dan melakukan evaluasi empiris terhadap:

Dampak kritik diri pada kinerja generasi yang direncanakan dari seluruh sistem LLM + LLM
kinerja validator LLM relatif terhadap verifikasi kebenaran dasar;
Ketika mengkritik generasi LLM, tingkat umpan balik yang sama mempengaruhi kinerja sistem secara keseluruhan.

Hasil penelitian menunjukkan bahwa kritik diri mengurangi kinerja generasi perencanaan LLM dibandingkan dengan menggunakan validator eksternal yang andal.

Degradasi kinerja dapat secara langsung dikaitkan dengan hasil buruk dari validator LLM, yang menghasilkan sejumlah besar positif palsu, yang secara serius dapat merusak keandalan sistem.

Akurasi klasifikasi biner validator LLM hanya 61%, dan ada sejumlah besar positif palsu (menilai skema yang salah sebagai benar).

Selain itu, menurut perbandingan tingkat detail umpan balik, ditemukan bahwa itu memiliki sedikit dampak pada kinerja generasi perencanaan.

Secara keseluruhan, penyelidikan sistematis dari penelitian ini memberikan bukti awal yang mempertanyakan efektivitas LLM sebagai validator tugas perencanaan dalam kerangka kerja iteratif dan kritis diri.

Tentang Penulis

Subbarao Kambhampati

Subbarao Kambhampati adalah profesor ilmu komputer di Arizona State University. Kambhampati meneliti isu-isu mendasar dalam perencanaan dan pengambilan keputusan, terutama didorong oleh tantangan sistem kecerdasan buatan untuk persepsi manusia.

Sumber daya:

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

2 Suka

Hadiah
2
Komentar
Bagikan

Komentar

0/400

Tidak ada komentar

Topik
1/3
1CandyDrop Airdrop Event 6.0
93k Popularitas
2White House Crypto Report
81k Popularitas
3Join Alpha RION Airdrop to Earn $40
65k Popularitas
4Fed Holds Rates Decision
11k Popularitas
5July Spark Program TOP 10 Creators Announced
4k Popularitas

Sematkan

peta situs