Keakuratan informasi teks panjang melebihi ChatGPT, dan Meta mengusulkan metode baru untuk mengurangi ilusi model besar

Sumber: Qubit

Ada solusi baru untuk masalah halusinasi model besar!

Meta AI Labs mengusulkan solusi “memecah belah dan menaklukkan”.

Dengan solusi ini, keakuratan keluaran informasi oleh Llama-65B menjadi dua kali lipat, bahkan melampaui ChatGPT.

Yang disebut ilusi model besar adalah menampilkan beberapa konten yang tampaknya masuk akal namun sepenuhnya salah.

“Chain of Verification” (CoVe) yang diusulkan Meta kali ini merupakan metode rantai yang mirip dengan “Chain of Thought” (CoT).

Bedanya, rantai pemikiran “langkah demi langkah” lebih fokus pada penalaran logis, sedangkan rantai verifikasi lebih fokus pada informasi faktual**.

Setelah membacanya, beberapa netizen menemukan bahwa rantai verifikasi ini sangat mirip dengan metode ilmiah saat menulis kode menggunakan ChatGPT:

Jadi apa sebenarnya metode "rantai verifikasi" dan apa itu "verifikasi"?

Bongkar jawabannya, bagi dan taklukkan

Ide inti dari rantai verifikasi adalah untuk memecah sebagian besar konten untuk diverifikasi menjadi masalah-masalah kecil. Proses spesifiknya adalah sebagai berikut:

Pertama, model menghasilkan respons seperti biasa berdasarkan pertanyaan yang diajukan pengguna.

Kemudian, berdasarkan konten balasan yang dihasilkan, serangkaian pertanyaan verifikasi dibuat untuk setiap informasi.

Model kemudian dibiarkan menjawab sendiri pertanyaan-pertanyaan tersebut, dan jawaban awal disesuaikan berdasarkan hasil untuk sampai pada hasil akhir.

Sebagai contoh sederhana, misalkan Anda ingin menanyakan model tersebut apa penyebab utama Perang AS-Meksiko pada abad ke-19.

Model menjawab kapan peristiwa itu terjadi dan apa yang terjadi sebelumnya.

Lalu, untuk rangkaian kejadian ini, tanyakan satu per satu kapan kejadiannya.

Hasilnya, model menemukan bahwa waktu salah satu item yang disebutkan terlalu berjauhan, dan menyesuaikannya untuk memberikan jawaban akhir.

Diantaranya, pembuatan dan verifikasi pertanyaan adalah bagian yang paling penting.Dalam hal ini, peneliti telah mengusulkan empat metode khusus:

*Bersama, yaitu menulis instruksi untuk menghasilkan pertanyaan dan jawaban ke dalam kata cepat yang sama

  • 2-Langkah, yaitu membiarkan model menghasilkan pertanyaan terlebih dahulu, kemudian membuka percakapan baru (satu kali) untuk menjawab pertanyaan yang diajukan
  • Difaktorkan, berdasarkan 2 Langkah, membuka dialog baru untuk setiap pertanyaan yang diajukan.
  • Faktor+Revisi, menambahkan pengujian konsistensi berdasarkan Faktor, memungkinkan model untuk fokus pada konten yang tidak konsisten

Keempat mode ini semakin disempurnakan, dan akurasinya semakin tinggi.

###### Mulai dari merah, keempat warna tersebut mewakili no CoVe, Joint, Factored dan Factor+Revise secara berurutan

Jadi mengapa pemisahan pertanyaan dapat meningkatkan akurasi model?

Pertama-tama, karena soal yang dibongkar lebih mudah daripada tugas keseluruhan, soal esai menjadi tanya jawab atau bahkan soal pilihan ganda dan penilaian.Soalnya lebih sederhana dan tingkat akurasinya ditingkatkan.

Selain itu, memecah masalah memungkinkan model untuk benar-benar memikirkan kembali masalahnya daripada mengulangi jawaban yang salah berulang kali.

Lantas, apa pengaruh metode rantai verifikasi?

Akurasi informasi melebihi ChatGPT

Untuk mengeksplorasi masalah ini, peneliti menggunakan Llama untuk melakukan tes dengan total tiga tugas tes.

Yang pertama adalah pencacahan informasi, seperti mencantumkan selebriti yang lahir di tempat tertentu dan bergerak di industri tertentu.

Dalam tugas ini, para peneliti menguji total dua kumpulan data - Wikidata yang lebih sederhana dan daftar Kategori Wiki yang lebih sulit (disarikan dari Wikipedia).

Ditemukan bahwa dengan dukungan rantai verifikasi dua langkah Llama dengan parameter 65B, akurasi pertanyaan sederhana meningkat dari 0,17 menjadi 0,36, akurasi lebih dari dua kali lipat, dan akurasi pertanyaan kompleks juga hampir dua kali lipat.

Berikutnya adalah pertanyaan "Pertanyaan dan Jawaban Domain Tertutup". Para peneliti mengekstraksi beberapa informasi terputus-putus dari kumpulan data MultiSpanQA dan mengajukan pertanyaan.

Misalnya “Siapa yang mendirikan penerbit pertama di dunia pada tahun berapa” (jawabannya Johannes Gutenberg, 1450).

Hasilnya, Cove juga memberikan peningkatan akurasi sebesar 20% pada Llama.

Tugas ketiga adalah "Pembuatan biografi teks panjang" Pertanyaannya adalah "Beri tahu saya biografi (nama orang)", yang dievaluasi menggunakan kumpulan data FactScore.

Hasilnya, dalam mode Factor+Reviese, tingkat akurasi tidak hanya jauh lebih tinggi dibandingkan mode rantai non-verifikasi, namun juga melampaui ChatGPT.

Teman-teman yang tertarik dengan penelitian ini dapat mempelajari lebih detail di makalah.

Alamat kertas:

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Bagikan
Komentar
0/400
Tidak ada komentar
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)