Karena munculnya Transformer, kemampuan model bahasa besar seperti ChatGPT untuk memproses tugas bahasa alami telah sangat meningkat. Namun, konten yang dihasilkan mengandung banyak informasi yang salah atau ketinggalan zaman, dan tidak ada sistem evaluasi faktual untuk memverifikasi keaslian konten.
Untuk mengevaluasi secara komprehensif kemampuan beradaptasi model bahasa besar terhadap perubahan di dunia dan keaslian konten, tim peneliti Google AI menerbitkan sebuah makalah berjudul "Meningkatkan akurasi model bahasa besar melalui pengetahuan mesin pencari". Metode FRESH diusulkan untuk meningkatkan akurasi model bahasa besar seperti ChatGPT dan Bard dengan memperoleh informasi real-time dari mesin pencari.
Para peneliti membangun set tolok ukur tanya-jawab baru FRESHQA, yang berisi 600 pertanyaan nyata dari berbagai jenis, dan frekuensi jawaban dibagi menjadi empat kategori: "tidak pernah berubah", "perubahan lambat", "perubahan sering" dan "premis salah" **.
Pada saat yang sama, dua metode penilaian, mode ketat, yang mengharuskan semua informasi dalam jawaban harus akurat dan terkini, dan mode santai, juga dirancang, yang hanya mengevaluasi kebenaran jawaban utama.
Hasil eksperimen menunjukkan bahwa FRESH secara signifikan meningkatkan akurasi model bahasa besar pada FRESHQA. Misalnya, GPT-4 47% lebih akurat daripada GPT-4 asli dengan bantuan mode ketat FRESH.
Selain itu, metode penggabungan mesin pencari ini lebih fleksibel daripada memperluas parameter model secara langsung, dan dapat memberikan sumber pengetahuan eksternal yang dinamis untuk model yang ada. Hasil eksperimen juga menunjukkan bahwa FRESH dapat secara signifikan meningkatkan akurasi model bahasa besar pada masalah yang membutuhkan pengetahuan real-time.
Alamat kertas:
Alamat Open Source: Model Bahasa Besar S / FreshQA (dalam pipa, akan segera open source)
Dari isi makalah Google, metode FRESH terutama terdiri dari 5 modul.
Bangun set benchmark FRESHQA
Untuk menilai secara komprehensif kemampuan beradaptasi model bahasa besar terhadap dunia yang terus berubah, para peneliti pertama-tama membangun set tolok ukur FRESHQA, yang berisi 600 pertanyaan domain terbuka nyata, yang dapat dibagi menjadi empat kategori sesuai dengan frekuensi perubahan jawaban: "tidak pernah berubah", "perubahan lambat", "perubahan sering" dan "premis salah".
Jangan pernah berubah: Jawaban atas pertanyaan yang pada dasarnya tidak akan berubah.
Perubahan lambat: Jawaban atas pertanyaan berubah setiap beberapa tahun.
Perubahan yang sering: Jawaban atas pertanyaan yang dapat berubah setiap tahun atau kurang.
Premis salah: Masalah yang berisi premis yang salah.
Pertanyaan-pertanyaan tersebut mencakup berbagai topik dan memiliki tingkat kesulitan yang berbeda. Fitur utama FRESHQA adalah jawabannya dapat berubah seiring waktu, sehingga model harus peka terhadap perubahan di dunia.
Evaluasi Mode Ketat vs. Mode Santai
Para peneliti mengusulkan dua mode evaluasi: mode ketat, yang mengharuskan semua informasi dalam jawaban harus akurat dan terkini, dan mode santai, yang hanya mengevaluasi kebenaran jawaban utama.
Ini memberikan cara yang lebih komprehensif dan bernuansa untuk mengukur sifat faktual model bahasa.
Mengevaluasi model bahasa besar yang berbeda berdasarkan FRESHQA
Pada FRESHQA, para peneliti membandingkan model bahasa besar yang mencakup parameter yang berbeda, termasuk GPT-3, GPT-4, ChatGPT, dan lainnya. Penilaian dilakukan dalam mode ketat (diperlukan bebas kesalahan) dan mode permisif (hanya jawaban utama yang dievaluasi).
Ditemukan bahwa semua model berkinerja buruk pada masalah yang membutuhkan pengetahuan waktu nyata, terutama masalah dengan perubahan yang sering terjadi dan premis yang salah. Ini menunjukkan bahwa model bahasa besar saat ini memiliki keterbatasan dalam kemampuan adaptasinya terhadap dunia yang terus berubah.
Mengambil informasi yang relevan dari mesin pencari
Untuk meningkatkan sifat faktual dari model bahasa besar, ide inti dari FRESH adalah untuk mengambil informasi real-time tentang masalah dari mesin pencari.
Secara khusus, diberi pertanyaan, FRESH akan menanyakan mesin pencari Google sebagai kata kunci untuk mendapatkan beberapa jenis hasil pencarian termasuk kotak jawaban, hasil halaman web, "pengguna lain juga bertanya", dll.
Ambil informasi melalui integrasi pelatihan yang jarang
FRESH menggunakan pembelajaran beberapa tembakan untuk mengintegrasikan bukti yang diambil ke dalam prompt input model bahasa besar dalam format terpadu, dan memberikan beberapa demonstrasi tentang bagaimana mensintesis bukti untuk sampai pada jawaban yang benar.
Ini dapat mengajarkan model bahasa besar untuk memahami tugas dan mengintegrasikan informasi dari berbagai sumber untuk menghasilkan jawaban terkini dan akurat.
Google mengatakan bahwa FRESH sangat penting untuk meningkatkan kemampuan beradaptasi dinamis model bahasa besar, yang juga merupakan arah penting untuk penelitian teknologi masa depan model bahasa besar.
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
Teknologi terbaru Google: melalui mesin pencari, sangat meningkatkan akurasi model seperti ChatGPT
Sumber asli: AIGC Open Community
Karena munculnya Transformer, kemampuan model bahasa besar seperti ChatGPT untuk memproses tugas bahasa alami telah sangat meningkat. Namun, konten yang dihasilkan mengandung banyak informasi yang salah atau ketinggalan zaman, dan tidak ada sistem evaluasi faktual untuk memverifikasi keaslian konten.
Untuk mengevaluasi secara komprehensif kemampuan beradaptasi model bahasa besar terhadap perubahan di dunia dan keaslian konten, tim peneliti Google AI menerbitkan sebuah makalah berjudul "Meningkatkan akurasi model bahasa besar melalui pengetahuan mesin pencari". Metode FRESH diusulkan untuk meningkatkan akurasi model bahasa besar seperti ChatGPT dan Bard dengan memperoleh informasi real-time dari mesin pencari.
Para peneliti membangun set tolok ukur tanya-jawab baru FRESHQA, yang berisi 600 pertanyaan nyata dari berbagai jenis, dan frekuensi jawaban dibagi menjadi empat kategori: "tidak pernah berubah", "perubahan lambat", "perubahan sering" dan "premis salah" **.
Pada saat yang sama, dua metode penilaian, mode ketat, yang mengharuskan semua informasi dalam jawaban harus akurat dan terkini, dan mode santai, juga dirancang, yang hanya mengevaluasi kebenaran jawaban utama.
Hasil eksperimen menunjukkan bahwa FRESH secara signifikan meningkatkan akurasi model bahasa besar pada FRESHQA. Misalnya, GPT-4 47% lebih akurat daripada GPT-4 asli dengan bantuan mode ketat FRESH.
Selain itu, metode penggabungan mesin pencari ini lebih fleksibel daripada memperluas parameter model secara langsung, dan dapat memberikan sumber pengetahuan eksternal yang dinamis untuk model yang ada. Hasil eksperimen juga menunjukkan bahwa FRESH dapat secara signifikan meningkatkan akurasi model bahasa besar pada masalah yang membutuhkan pengetahuan real-time.
Alamat kertas:
Alamat Open Source: Model Bahasa Besar S / FreshQA (dalam pipa, akan segera open source)
Bangun set benchmark FRESHQA
Untuk menilai secara komprehensif kemampuan beradaptasi model bahasa besar terhadap dunia yang terus berubah, para peneliti pertama-tama membangun set tolok ukur FRESHQA, yang berisi 600 pertanyaan domain terbuka nyata, yang dapat dibagi menjadi empat kategori sesuai dengan frekuensi perubahan jawaban: "tidak pernah berubah", "perubahan lambat", "perubahan sering" dan "premis salah".
Jangan pernah berubah: Jawaban atas pertanyaan yang pada dasarnya tidak akan berubah.
Perubahan lambat: Jawaban atas pertanyaan berubah setiap beberapa tahun.
Perubahan yang sering: Jawaban atas pertanyaan yang dapat berubah setiap tahun atau kurang.
Premis salah: Masalah yang berisi premis yang salah.
Evaluasi Mode Ketat vs. Mode Santai
Para peneliti mengusulkan dua mode evaluasi: mode ketat, yang mengharuskan semua informasi dalam jawaban harus akurat dan terkini, dan mode santai, yang hanya mengevaluasi kebenaran jawaban utama.
Ini memberikan cara yang lebih komprehensif dan bernuansa untuk mengukur sifat faktual model bahasa.
Mengevaluasi model bahasa besar yang berbeda berdasarkan FRESHQA
Pada FRESHQA, para peneliti membandingkan model bahasa besar yang mencakup parameter yang berbeda, termasuk GPT-3, GPT-4, ChatGPT, dan lainnya. Penilaian dilakukan dalam mode ketat (diperlukan bebas kesalahan) dan mode permisif (hanya jawaban utama yang dievaluasi).
Mengambil informasi yang relevan dari mesin pencari
Untuk meningkatkan sifat faktual dari model bahasa besar, ide inti dari FRESH adalah untuk mengambil informasi real-time tentang masalah dari mesin pencari.
Ambil informasi melalui integrasi pelatihan yang jarang
FRESH menggunakan pembelajaran beberapa tembakan untuk mengintegrasikan bukti yang diambil ke dalam prompt input model bahasa besar dalam format terpadu, dan memberikan beberapa demonstrasi tentang bagaimana mensintesis bukti untuk sampai pada jawaban yang benar.
Ini dapat mengajarkan model bahasa besar untuk memahami tugas dan mengintegrasikan informasi dari berbagai sumber untuk menghasilkan jawaban terkini dan akurat.