Teknologi terbaru Google: melalui mesin pencari, sangat meningkatkan akurasi model seperti ChatGPT

巴比特_ · 2023-10-14T08:20:49+00:00

Sumber asli: AIGC Open Community![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-5df14fcd2e-dd1a6f-69ad2a) Sumber gambar: Dihasilkan oleh Unbounded AIKarena munculnya Transformer, kemampuan model bahasa besar seperti ChatGPT untuk memproses tugas bahasa alami telah sangat meningkat. Namun, konten yang dihasilkan mengandung banyak informasi yang salah atau ketinggalan zaman, dan tidak ada sistem evaluasi faktual untuk memverifikasi keaslian konten.Untuk mengevaluasi secara komprehensif kemampuan beradaptasi model bahasa besar terhadap perubahan di dunia dan keaslian konten, tim peneliti Google AI menerbitkan sebuah makalah berjudul "Meningkatkan akurasi model bahasa besar melalui pengetahuan mesin pencari". Metode FRESH diusulkan untuk meningkatkan akurasi model bahasa besar seperti ChatGPT dan Bard dengan memperoleh informasi real-time dari mesin pencari.Para peneliti membangun set tolok ukur tanya-jawab baru FRESHQA, yang berisi 600 pertanyaan nyata dari berbagai jenis, dan frekuensi jawaban dibagi menjadi empat kategori: "tidak pernah berubah", "perubahan lambat", "perubahan sering" dan "premis salah" **.Pada saat yang sama, dua metode penilaian, mode ketat, yang mengharuskan semua informasi dalam jawaban harus akurat dan terkini, dan mode santai, juga dirancang, yang hanya mengevaluasi kebenaran jawaban utama.Hasil eksperimen menunjukkan bahwa FRESH secara signifikan meningkatkan akurasi model bahasa besar pada FRESHQA. **Misalnya, GPT-4 47% lebih akurat daripada GPT-4 asli dengan bantuan mode ketat FRESH**.Selain itu, metode penggabungan mesin pencari ini lebih fleksibel daripada memperluas parameter model secara langsung, dan dapat memberikan sumber pengetahuan eksternal yang dinamis untuk model yang ada. Hasil eksperimen juga menunjukkan bahwa FRESH dapat secara signifikan meningkatkan akurasi model bahasa besar pada masalah yang membutuhkan pengetahuan real-time.Alamat kertas:Alamat Open Source: Model Bahasa Besar S / FreshQA (dalam pipa, akan segera open source)![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-5b9455dd07-dd1a6f-69ad2a) Dari isi makalah Google, metode FRESH terutama terdiri dari 5 modul. ## **Bangun set benchmark FRESHQA** Untuk menilai secara komprehensif kemampuan beradaptasi model bahasa besar terhadap dunia yang terus berubah, para peneliti pertama-tama membangun set tolok ukur FRESHQA, yang berisi 600 pertanyaan domain terbuka nyata, yang dapat dibagi menjadi empat kategori sesuai dengan frekuensi perubahan jawaban: "tidak pernah berubah", "perubahan lambat", "perubahan sering" dan "premis salah".1) Jangan pernah berubah: Jawaban atas pertanyaan yang pada dasarnya tidak akan berubah.2) Perubahan lambat: Jawaban atas pertanyaan berubah setiap beberapa tahun.3) Perubahan yang sering: Jawaban atas pertanyaan yang dapat berubah setiap tahun atau kurang.4) Premis salah: Masalah yang berisi premis yang salah.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-3b6633aa55-dd1a6f-69ad2a) Pertanyaan-pertanyaan tersebut mencakup berbagai topik dan memiliki tingkat kesulitan yang berbeda. Fitur utama FRESHQA adalah jawabannya dapat berubah seiring waktu, sehingga model harus peka terhadap perubahan di dunia. ## **Evaluasi Mode Ketat vs. Mode Santai** Para peneliti mengusulkan dua mode evaluasi: mode ketat, yang mengharuskan semua informasi dalam jawaban harus akurat dan terkini, dan mode santai, yang hanya mengevaluasi kebenaran jawaban utama.Ini memberikan cara yang lebih komprehensif dan bernuansa untuk mengukur sifat faktual model bahasa.Mengevaluasi model bahasa besar yang berbeda berdasarkan FRESHQAPada FRESHQA, para peneliti membandingkan model bahasa besar yang mencakup parameter yang berbeda, termasuk GPT-3, GPT-4, ChatGPT, dan lainnya. Penilaian dilakukan dalam mode ketat (diperlukan bebas kesalahan) dan mode permisif (hanya jawaban utama yang dievaluasi).![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-2a291d2cf9-dd1a6f-69ad2a) Ditemukan bahwa semua model berkinerja buruk pada masalah yang membutuhkan pengetahuan waktu nyata, terutama masalah dengan perubahan yang sering terjadi dan premis yang salah. Ini menunjukkan bahwa model bahasa besar saat ini memiliki keterbatasan dalam kemampuan adaptasinya terhadap dunia yang terus berubah. ## **Mengambil informasi yang relevan dari mesin pencari** Untuk meningkatkan sifat faktual dari model bahasa besar, ide inti dari FRESH adalah untuk mengambil informasi real-time tentang masalah dari mesin pencari.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-25f047bd37-dd1a6f-69ad2a) Secara khusus, diberi pertanyaan, FRESH akan menanyakan mesin pencari Google sebagai kata kunci untuk mendapatkan beberapa jenis hasil pencarian termasuk kotak jawaban, hasil halaman web, "pengguna lain juga bertanya", dll. ## **Ambil informasi melalui integrasi pelatihan yang jarang** FRESH menggunakan pembelajaran beberapa tembakan untuk mengintegrasikan bukti yang diambil ke dalam prompt input model bahasa besar dalam format terpadu, dan memberikan beberapa demonstrasi tentang bagaimana mensintesis bukti untuk sampai pada jawaban yang benar.Ini dapat mengajarkan model bahasa besar untuk memahami tugas dan mengintegrasikan informasi dari berbagai sumber untuk menghasilkan jawaban terkini dan akurat.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-6d4c929373-dd1a6f-69ad2a) Google mengatakan bahwa FRESH sangat penting untuk meningkatkan kemampuan beradaptasi dinamis model bahasa besar, yang juga merupakan arah penting untuk penelitian teknologi masa depan model bahasa besar.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-e6a6640558-dd1a6f-69ad2a)

巴比特_

2023-10-14 08:20:49

Sumber asli: AIGC Open Community

Sumber gambar: Dihasilkan oleh Unbounded AI

Karena munculnya Transformer, kemampuan model bahasa besar seperti ChatGPT untuk memproses tugas bahasa alami telah sangat meningkat. Namun, konten yang dihasilkan mengandung banyak informasi yang salah atau ketinggalan zaman, dan tidak ada sistem evaluasi faktual untuk memverifikasi keaslian konten.

Untuk mengevaluasi secara komprehensif kemampuan beradaptasi model bahasa besar terhadap perubahan di dunia dan keaslian konten, tim peneliti Google AI menerbitkan sebuah makalah berjudul "Meningkatkan akurasi model bahasa besar melalui pengetahuan mesin pencari". Metode FRESH diusulkan untuk meningkatkan akurasi model bahasa besar seperti ChatGPT dan Bard dengan memperoleh informasi real-time dari mesin pencari.

Para peneliti membangun set tolok ukur tanya-jawab baru FRESHQA, yang berisi 600 pertanyaan nyata dari berbagai jenis, dan frekuensi jawaban dibagi menjadi empat kategori: "tidak pernah berubah", "perubahan lambat", "perubahan sering" dan "premis salah" **.

Pada saat yang sama, dua metode penilaian, mode ketat, yang mengharuskan semua informasi dalam jawaban harus akurat dan terkini, dan mode santai, juga dirancang, yang hanya mengevaluasi kebenaran jawaban utama.

Hasil eksperimen menunjukkan bahwa FRESH secara signifikan meningkatkan akurasi model bahasa besar pada FRESHQA. Misalnya, GPT-4 47% lebih akurat daripada GPT-4 asli dengan bantuan mode ketat FRESH.

Selain itu, metode penggabungan mesin pencari ini lebih fleksibel daripada memperluas parameter model secara langsung, dan dapat memberikan sumber pengetahuan eksternal yang dinamis untuk model yang ada. Hasil eksperimen juga menunjukkan bahwa FRESH dapat secara signifikan meningkatkan akurasi model bahasa besar pada masalah yang membutuhkan pengetahuan real-time.

Alamat kertas:

Alamat Open Source: Model Bahasa Besar S / FreshQA (dalam pipa, akan segera open source)

Dari isi makalah Google, metode FRESH terutama terdiri dari 5 modul.

Bangun set benchmark FRESHQA

Untuk menilai secara komprehensif kemampuan beradaptasi model bahasa besar terhadap dunia yang terus berubah, para peneliti pertama-tama membangun set tolok ukur FRESHQA, yang berisi 600 pertanyaan domain terbuka nyata, yang dapat dibagi menjadi empat kategori sesuai dengan frekuensi perubahan jawaban: "tidak pernah berubah", "perubahan lambat", "perubahan sering" dan "premis salah".

Jangan pernah berubah: Jawaban atas pertanyaan yang pada dasarnya tidak akan berubah.
Perubahan lambat: Jawaban atas pertanyaan berubah setiap beberapa tahun.
Perubahan yang sering: Jawaban atas pertanyaan yang dapat berubah setiap tahun atau kurang.
Premis salah: Masalah yang berisi premis yang salah.

Pertanyaan-pertanyaan tersebut mencakup berbagai topik dan memiliki tingkat kesulitan yang berbeda. Fitur utama FRESHQA adalah jawabannya dapat berubah seiring waktu, sehingga model harus peka terhadap perubahan di dunia.

Evaluasi Mode Ketat vs. Mode Santai

Para peneliti mengusulkan dua mode evaluasi: mode ketat, yang mengharuskan semua informasi dalam jawaban harus akurat dan terkini, dan mode santai, yang hanya mengevaluasi kebenaran jawaban utama.

Ini memberikan cara yang lebih komprehensif dan bernuansa untuk mengukur sifat faktual model bahasa.

Mengevaluasi model bahasa besar yang berbeda berdasarkan FRESHQA

Pada FRESHQA, para peneliti membandingkan model bahasa besar yang mencakup parameter yang berbeda, termasuk GPT-3, GPT-4, ChatGPT, dan lainnya. Penilaian dilakukan dalam mode ketat (diperlukan bebas kesalahan) dan mode permisif (hanya jawaban utama yang dievaluasi).

Ditemukan bahwa semua model berkinerja buruk pada masalah yang membutuhkan pengetahuan waktu nyata, terutama masalah dengan perubahan yang sering terjadi dan premis yang salah. Ini menunjukkan bahwa model bahasa besar saat ini memiliki keterbatasan dalam kemampuan adaptasinya terhadap dunia yang terus berubah.

Mengambil informasi yang relevan dari mesin pencari

Untuk meningkatkan sifat faktual dari model bahasa besar, ide inti dari FRESH adalah untuk mengambil informasi real-time tentang masalah dari mesin pencari.

Secara khusus, diberi pertanyaan, FRESH akan menanyakan mesin pencari Google sebagai kata kunci untuk mendapatkan beberapa jenis hasil pencarian termasuk kotak jawaban, hasil halaman web, "pengguna lain juga bertanya", dll.

Ambil informasi melalui integrasi pelatihan yang jarang

FRESH menggunakan pembelajaran beberapa tembakan untuk mengintegrasikan bukti yang diambil ke dalam prompt input model bahasa besar dalam format terpadu, dan memberikan beberapa demonstrasi tentang bagaimana mensintesis bukti untuk sampai pada jawaban yang benar.

Ini dapat mengajarkan model bahasa besar untuk memahami tugas dan mengintegrasikan informasi dari berbagai sumber untuk menghasilkan jawaban terkini dan akurat.

Google mengatakan bahwa FRESH sangat penting untuk meningkatkan kemampuan beradaptasi dinamis model bahasa besar, yang juga merupakan arah penting untuk penelitian teknologi masa depan model bahasa besar.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

1 Suka

Hadiah
1
Komentar
Bagikan

Komentar

0/400

Tidak ada komentar

Topik
1/3
1CandyDrop Airdrop Event 6.0
15555 Popularitas
2White House Crypto Report
32504 Popularitas
3Join Alpha RION Airdrop to Earn $40
7953 Popularitas
4Fed Holds Rates Decision
7025 Popularitas
5July Spark Program TOP 10 Creators Announced
1021 Popularitas

Sematkan

peta situs