DeepMind memungkinkan model besar untuk mempelajari induksi dan deduksi, dan akurasi GPT-4 meningkat sebesar 13,7%

巴比特_ · 2023-10-14T06:07:02+00:00

![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-ffd367b189-dd1a6f-69ad2a) Sumber gambar: Dihasilkan oleh Unbounded AISaat ini, model bahasa besar (LLM) menunjukkan kemampuan yang mengesankan pada tugas inferensi, terutama ketika diberi contoh dan langkah perantara. Namun, metode sering mengandalkan pengetahuan diam-diam di LLM, dan LLM memberikan jawaban yang salah ketika pengetahuan diam-diam salah atau tidak konsisten dengan tugas.Sekarang, para peneliti dari Google, Mila Institute, dan lembaga penelitian lainnya telah bersama-sama mengeksplorasi cara baru untuk membiarkan LLM mempelajari aturan inferensi dan mengusulkan kerangka kerja baru yang disebut Hypotheses-to-Theories (HtT). Pendekatan baru ini tidak hanya meningkatkan penalaran multi-langkah, tetapi juga memiliki keunggulan interpretabilitas, transferabilitas, dan sebagainya.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-9d63fa595d-dd1a6f-69ad2a) Alamat kertas:Eksperimen pada masalah penalaran numerik dan relasional menunjukkan bahwa HtT meningkatkan metode yang ada dengan akurasi 11-27% lebih tinggi. Aturan yang dipelajari juga dapat ditransfer ke model yang berbeda atau bentuk yang berbeda dari masalah yang sama. ## **Pengantar metode** Singkatnya, kerangka kerja HtT terdiri dari dua fase – fase induktif dan fase deduktif, mirip dengan pelatihan dan pengujian dalam pembelajaran mesin tradisional.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-3607e1160d-dd1a6f-69ad2a) Pada fase induksi, LLM pertama kali diminta untuk menghasilkan dan memvalidasi aturan untuk satu set contoh pelatihan. Studi ini menggunakan CoT untuk mendeklarasikan aturan dan mendapatkan jawaban, menilai frekuensi dan akurasi aturan, dan mengumpulkan aturan yang sering muncul dan mengarah pada jawaban yang benar untuk membentuk basis aturan.Dengan basis aturan yang baik, langkah selanjutnya adalah mempelajari bagaimana menerapkan aturan-aturan ini untuk menyelesaikan masalah. Untuk tujuan ini, dalam fase deduktif, penelitian menambahkan basis aturan dan meminta LLM untuk mengambil aturan dari basis aturan untuk deduksi, mengubah inferensi implisit menjadi inferensi eksplisit.Namun, penelitian ini menemukan bahwa bahkan LLM yang sangat kuat, seperti GPT-4, berjuang untuk mengambil aturan yang tepat di setiap langkah. Untuk tujuan ini, penelitian ini mengembangkan trik penandaan XML untuk meningkatkan kemampuan pengambilan konteks LLM.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-4a898320f9-dd1a6f-69ad2a) **Hasil Eksperimental**Untuk mengevaluasi HtT, penelitian ini dibandingkan dengan dua masalah inferensi multi-langkah. Hasil eksperimen menunjukkan bahwa HtT meningkatkan metode sampel kurang. Para penulis juga melakukan studi ablasi ekstensif untuk memberikan pemahaman yang lebih komprehensif tentang HtT.Mereka mengevaluasi pendekatan baru untuk masalah penalaran numerik dan relasional. Dalam penalaran numerik, mereka mengamati peningkatan akurasi 21,0% dengan GPT-4. Dalam inferensi relasional, GPT-4 meningkatkan akurasi sebesar 13,7%, sementara GPT-3,5 lebih diuntungkan, menggandakan kinerja. Keuntungan kinerja terutama berasal dari pengurangan ilusi keteraturan.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-71e15afe44-dd1a6f-69ad2a) Secara khusus, Tabel 1 di bawah ini menunjukkan hasil pada dataset aritmatika basis-16, basis-11, dan basis-9. Dari semua sistem dasar, 0-shot CoT melakukan yang terburuk di kedua LLM.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-19e04741d8-dd1a6f-69ad2a) TABEL 2 MENYAJIKAN HASIL MEMBANDINGKAN METODE YANG BERBEDA PADA CLUTRR. Dapat diamati bahwa 0-shot CoT memiliki kinerja terburuk di GPT3.5 dan GPT4. Untuk metode petunjuk beberapa tembakan, kinerja CoT dan LtM serupa. Dalam hal akurasi rata-rata, HtT secara konsisten mengungguli metode isyarat dari kedua model sebesar 11,1-27,2%. Perlu dicatat bahwa GPT3.5 tidak buruk dalam mengambil aturan CLUTRR dan mendapat manfaat lebih dari HtT daripada GPT4, mungkin karena ada lebih sedikit aturan dalam CLUTRR daripada dalam aritmatika.Perlu disebutkan bahwa dengan menggunakan aturan GPT4, kinerja CoT pada GPT3.5 meningkat sebesar 27,2%, yang lebih dari dua kali kinerja CoT dan mendekati kinerja CoT pada GPT4. Oleh karena itu, penulis percaya bahwa HtT dapat berfungsi sebagai bentuk baru distilasi pengetahuan dari LLM yang kuat ke LLM yang lemah.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-1b148a426b-dd1a6f-69ad2a) Tabel 3 menunjukkan bahwa HtT secara signifikan meningkatkan kinerja GPT-4 (versi teks). Untuk GPT3.5, peningkatan ini tidak signifikan, karena sering menghasilkan kesalahan selain ilusi aturan saat memproses input teks.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-34c583517d-dd1a6f-69ad2a) ![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-7cb28b6cd4-dd1a6f-69ad2a)

巴比特_

2023-10-14 06:07:02

Sumber gambar: Dihasilkan oleh Unbounded AI

Saat ini, model bahasa besar (LLM) menunjukkan kemampuan yang mengesankan pada tugas inferensi, terutama ketika diberi contoh dan langkah perantara. Namun, metode sering mengandalkan pengetahuan diam-diam di LLM, dan LLM memberikan jawaban yang salah ketika pengetahuan diam-diam salah atau tidak konsisten dengan tugas.

Sekarang, para peneliti dari Google, Mila Institute, dan lembaga penelitian lainnya telah bersama-sama mengeksplorasi cara baru untuk membiarkan LLM mempelajari aturan inferensi dan mengusulkan kerangka kerja baru yang disebut Hypotheses-to-Theories (HtT). Pendekatan baru ini tidak hanya meningkatkan penalaran multi-langkah, tetapi juga memiliki keunggulan interpretabilitas, transferabilitas, dan sebagainya.

Alamat kertas:

Eksperimen pada masalah penalaran numerik dan relasional menunjukkan bahwa HtT meningkatkan metode yang ada dengan akurasi 11-27% lebih tinggi. Aturan yang dipelajari juga dapat ditransfer ke model yang berbeda atau bentuk yang berbeda dari masalah yang sama.

Pengantar metode

Singkatnya, kerangka kerja HtT terdiri dari dua fase – fase induktif dan fase deduktif, mirip dengan pelatihan dan pengujian dalam pembelajaran mesin tradisional.

Pada fase induksi, LLM pertama kali diminta untuk menghasilkan dan memvalidasi aturan untuk satu set contoh pelatihan. Studi ini menggunakan CoT untuk mendeklarasikan aturan dan mendapatkan jawaban, menilai frekuensi dan akurasi aturan, dan mengumpulkan aturan yang sering muncul dan mengarah pada jawaban yang benar untuk membentuk basis aturan.

Dengan basis aturan yang baik, langkah selanjutnya adalah mempelajari bagaimana menerapkan aturan-aturan ini untuk menyelesaikan masalah. Untuk tujuan ini, dalam fase deduktif, penelitian menambahkan basis aturan dan meminta LLM untuk mengambil aturan dari basis aturan untuk deduksi, mengubah inferensi implisit menjadi inferensi eksplisit.

Namun, penelitian ini menemukan bahwa bahkan LLM yang sangat kuat, seperti GPT-4, berjuang untuk mengambil aturan yang tepat di setiap langkah. Untuk tujuan ini, penelitian ini mengembangkan trik penandaan XML untuk meningkatkan kemampuan pengambilan konteks LLM.

Hasil Eksperimental

Untuk mengevaluasi HtT, penelitian ini dibandingkan dengan dua masalah inferensi multi-langkah. Hasil eksperimen menunjukkan bahwa HtT meningkatkan metode sampel kurang. Para penulis juga melakukan studi ablasi ekstensif untuk memberikan pemahaman yang lebih komprehensif tentang HtT.

Mereka mengevaluasi pendekatan baru untuk masalah penalaran numerik dan relasional. Dalam penalaran numerik, mereka mengamati peningkatan akurasi 21,0% dengan GPT-4. Dalam inferensi relasional, GPT-4 meningkatkan akurasi sebesar 13,7%, sementara GPT-3,5 lebih diuntungkan, menggandakan kinerja. Keuntungan kinerja terutama berasal dari pengurangan ilusi keteraturan.

Secara khusus, Tabel 1 di bawah ini menunjukkan hasil pada dataset aritmatika basis-16, basis-11, dan basis-9. Dari semua sistem dasar, 0-shot CoT melakukan yang terburuk di kedua LLM.

TABEL 2 MENYAJIKAN HASIL MEMBANDINGKAN METODE YANG BERBEDA PADA CLUTRR. Dapat diamati bahwa 0-shot CoT memiliki kinerja terburuk di GPT3.5 dan GPT4. Untuk metode petunjuk beberapa tembakan, kinerja CoT dan LtM serupa. Dalam hal akurasi rata-rata, HtT secara konsisten mengungguli metode isyarat dari kedua model sebesar 11,1-27,2%. Perlu dicatat bahwa GPT3.5 tidak buruk dalam mengambil aturan CLUTRR dan mendapat manfaat lebih dari HtT daripada GPT4, mungkin karena ada lebih sedikit aturan dalam CLUTRR daripada dalam aritmatika.

Perlu disebutkan bahwa dengan menggunakan aturan GPT4, kinerja CoT pada GPT3.5 meningkat sebesar 27,2%, yang lebih dari dua kali kinerja CoT dan mendekati kinerja CoT pada GPT4. Oleh karena itu, penulis percaya bahwa HtT dapat berfungsi sebagai bentuk baru distilasi pengetahuan dari LLM yang kuat ke LLM yang lemah.

Tabel 3 menunjukkan bahwa HtT secara signifikan meningkatkan kinerja GPT-4 (versi teks). Untuk GPT3.5, peningkatan ini tidak signifikan, karena sering menghasilkan kesalahan selain ilusi aturan saat memproses input teks.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

1 Suka

Hadiah
1
Komentar
Bagikan

Komentar

0/400

Tidak ada komentar

Topik
1/3
1CandyDrop Airdrop Event 6.0
17k Popularitas
2White House Crypto Report
34k Popularitas
3Join Alpha RION Airdrop to Earn $40
9k Popularitas
4Fed Holds Rates Decision
8k Popularitas
5July Spark Program TOP 10 Creators Announced
2k Popularitas

Sematkan

peta situs