Penemuan mengejutkan: Model berukuran besar memiliki kelemahan serius dalam deduksi pengetahuan.
Penerapan pengetahuan yang fleksibel adalah kunci kebijaksanaan. Otak manusia dapat memproses pengetahuan dengan cepat, seperti dengan cepat menjawab “Berapa banyak kata yang ada dalam “Silent Night Thoughts””. Jadi, bisakah operasi serupa dilakukan pada model besar? Diketahui bahwa model besar pertama-tama dapat menulis "Silent Night Thoughts" secara diam-diam melalui Chain of Thought (CoT), dan kemudian menjawab pertanyaan berdasarkan konten tertulis, namun hal ini akan membuat teks yang dihasilkan menjadi panjang. Sebaliknya, manusia dapat menyelesaikan deduksi pengetahuan sederhana di otaknya tanpa menuliskan langkah-langkah perantaranya. Jadi, bisakah model bahasa yang sangat besar menghasilkan jawaban langsung di otak buatannya tanpa harus menuliskan poin pengetahuannya terlebih dahulu?
**Jawabannya ternyata tidak! Gambar 1/2/3 menunjukkan banyak contoh tandingan di GPT4. Bahkan klasifikasi paling dasar (seperti menentukan paritas ulang tahun seorang selebriti) dan perbandingan (seperti membandingkan ulang tahun dua presiden) perlu melalui Rantai Pemikiran. Lebih buruknya lagi, model besar hampir tidak mampu mengekstraksi pengetahuan dari set pelatihan secara terbalik. **
Gambar 1: GPT4 melakukan kesalahan dalam klasifikasi/perbandingan pengetahuan, namun jawaban yang benar dapat diperoleh melalui rantai pemikiran
Gambar 2: Contoh kesalahan penelusuran balik pengetahuan GPT4
*Gambar 3: Meskipun GPT4 dapat menjawab dengan benar "Kapan ulang tahun seseorang" dan "Apakah suatu bilangan genap?", namun jika keduanya digabungkan, angka yang benar hanya 50% tanpa Chain of Thought (CoT). Jika membandingkan hari ulang tahun para selebritis dari tahun 1900 hingga 1910, pertunjukannya juga hampir seperti tebakan buta. *
Penelitian terbaru “Fisika Model Bahasa Bagian 3.2: Manipulasi Pengetahuan” oleh Zhu Zeyuan (MetaAI) dan Li Yuanzhi (MBZUAI) berfokus pada permasalahan di atas.
Alamat kertas:
Izinkan saya mengajukan pertanyaan terlebih dahulu. Untuk soal seperti Gambar 1/2/3, apakah karena GPT4 tidak mengingat ulang tahun seseorang dengan cukup akurat (rasio kompresi tidak cukup, dan kerugian pelatihan tidak cukup rendah), atau apakah karena gagal memperdalam pemahamannya tentang paritas melalui penyesuaian? Apakah mungkin untuk menyempurnakan GPT4 sehingga dapat menggabungkan pengetahuan yang ada dalam model untuk menghasilkan pengetahuan baru seperti "paritas ulang tahun", sehingga langsung menjawab pertanyaan terkait tanpa bergantung pada CoT? Karena kami tidak mengetahui kumpulan data pelatihan GPT4, kami tidak dapat menyempurnakannya. Oleh karena itu, penulis mengusulkan untuk menggunakan set pelatihan yang dapat dikontrol untuk mempelajari lebih lanjut kemampuan "deduksi pengetahuan" model bahasa.
Gambar 4: Untuk model terlatih seperti GPT4, karena sifat data Internet yang tidak dapat dikontrol, sulit untuk menentukan apakah situasi B/C/D terjadi
Dalam "Fisika Model Bahasa Bagian 3.1: Penyimpanan dan Pengambilan Pengetahuan", penulis membuat kumpulan data yang berisi 100 ribu biografi. Setiap biografi memuat nama orang tersebut dan enam atribut: tanggal lahir, tempat lahir, jurusan universitas, nama universitas, tempat kerja, dan unit kerja. Misalnya:
「Anya Briar Forger berasal dari Princeton, NJ. Dia mendedikasikan studinya untuk Komunikasi. Dia memperoleh pengalaman kerja di Menlo Park, CA. Dia mengembangkan karirnya di Meta Platforms. Dia datang ke dunia ini pada tanggal 2 Oktober 1996. Dia mengikuti kursus lanjutan di MIT.」
Penulis memastikan keragaman entri biografi untuk membantu model mengakses pengetahuan dengan lebih baik. Setelah pra-pelatihan, model dapat menjawab pertanyaan ekstraksi pengetahuan seperti "Kapan ulang tahun Anya" secara akurat melalui penyesuaian (tingkat akurasi mendekati 100%)
Selanjutnya penulis terus menyempurnakan, mencoba membuat model pembelajaran masalah deduksi pengetahuan, seperti klasifikasi/perbandingan/penjumlahan dan pengurangan pengetahuan. Artikel tersebut menemukan bahwa model bahasa alami memiliki kemampuan yang sangat terbatas dalam deduksi pengetahuan, dan sulit untuk menghasilkan pengetahuan baru melalui penyesuaian, meskipun hanya transformasi/kombinasi sederhana dari pengetahuan yang sudah dikuasai oleh model. **
Gambar 5: Jika CoT tidak digunakan selama penyesuaian, mengizinkan model untuk mengklasifikasikan/membandingkan/mengurangi pengetahuan akan memerlukan sampel dalam jumlah besar atau keakuratannya akan sangat rendah - 100 jurusan digunakan dalam eksperimen
Seperti yang ditunjukkan pada Gambar 5, penulis menemukan bahwa meskipun model dapat secara akurat menjawab ulang tahun semua orang setelah pra-pelatihan (tingkat akurasi mendekati 100%), model tersebut perlu disesuaikan untuk menjawab "Apakah bulan lahir xxx bilangan genap?" dan mencapai tingkat akurasi 75% - jangan lupa bahwa tebakan buta memiliki tingkat akurasi 50% - memerlukan setidaknya 10.000 sampel penyesuaian. Sebagai perbandingan, jika model dapat menyelesaikan kombinasi pengetahuan "ulang tahun" dan "paritas" dengan benar, maka menurut teori pembelajaran mesin tradisional, model hanya perlu belajar mengklasifikasikan 12 bulan, dan biasanya sekitar 100 sampel sudah cukup!
Demikian pula, setelah pra-pelatihan, model dapat menjawab jurusan masing-masing orang secara akurat (total 100 jurusan berbeda), namun meskipun 50.000 sampel penyesuaian digunakan untuk membandingkan "Mana yang lebih baik, jurusan Anya atau jurusan Sabrina", keakuratannya angkanya hanya 53,9%, hampir merupakan tebakan buta.
Namun, jika kita menggunakan penyempurnaan CoT agar model dapat mempelajari kalimat seperti "Bulan lahir Anya adalah Oktober, jadi bilangan genap", keakuratan model dalam menilai paritas bulan lahir pada set pengujian akan meningkat pesat. (lihat kolom "uji penggunaan" pada Gambar 5 CoT).
Penulis juga mencoba menggabungkan respons CoT dan non-CoT dalam penyempurnaan data pelatihan, dan menemukan bahwa akurasi model tanpa menggunakan CoT pada set pengujian masih sangat rendah (lihat kolom "pengujian tanpa CoT" pada Gambar 5). Hal ini menunjukkan bahwa meskipun cukup banyak data penyesuaian CoT yang ditambahkan, model masih tidak dapat belajar untuk "berpikir di dalam kepala" dan langsung melaporkan jawabannya.
Hasil ini menunjukkan bahwa sangat sulit bagi model bahasa untuk melakukan operasi pengetahuan sederhana! Model harus menuliskan poin-poin pengetahuannya terlebih dahulu dan kemudian melakukan perhitungan. Model tersebut tidak dapat langsung dioperasikan di otak seperti manusia. Bahkan setelah penyesuaian yang memadai, model tersebut tidak akan membantu. **
Tantangan pencarian pengetahuan terbalik
Artikel tersebut juga menemukan bahwa model bahasa alami tidak dapat mencari pengetahuan yang dipelajari secara terbalik. Walaupun dapat menjawab semua informasi tentang seseorang, namun tidak dapat menentukan nama orang tersebut berdasarkan informasi tersebut.
Terkait dengan klasifikasi/perbandingan pengetahuan, penulis melakukan eksperimen pada GPT3.5/4 dan menemukan bahwa kinerjanya buruk dalam ekstraksi pengetahuan terbalik (lihat Gambar 6). Namun, karena kami tidak dapat menentukan set pelatihan GPT3.5/4, hal ini tidak membuktikan bahwa semua model bahasa memiliki masalah ini.
*Gambar 6: Perbandingan pencarian pengetahuan maju/mundur GPT3.5/4. Pekerjaan "pembalikan kutukan" (arxiv 2309.12288) yang kami laporkan beberapa hari yang lalu juga mengamati hal ini pada model besar yang ada. *
Penulis menggunakan kumpulan data biografi yang disebutkan di atas untuk melakukan eksperimen terkontrol yang lebih mendalam pada kemampuan pencarian pengetahuan terbalik model tersebut. Karena nama semua biografi ada di awal paragraf, maka penulis merancang 10 masalah ekstraksi informasi terbalik, seperti:
"Tolong beritahu saya nama orang yang lahir pada tanggal 2 Oktober 1996 di Princeton, NJ?"
"Tolong beritahu saya nama orang yang belajar Komunikasi di MIT, lahir pada tanggal 2 Oktober 1996 di Princeton, NJ, dan bekerja di Meta Platforms di Menlo Park, CA?"
Gambar 7: Eksperimen terkontrol pada kumpulan data biografi selebriti
Penulis memverifikasi bahwa meskipun model mencapai kompresi pengetahuan lossless dan peningkatan pengetahuan yang memadai, dan dapat mengekstraksi pengetahuan ini hampir 100% dengan benar, setelah penyesuaian, model masih tidak dapat melakukan pencarian pengetahuan secara terbalik, dan akurasinya hampir nol ( lihat Gambar 7) . Namun, begitu pengetahuan terbalik muncul langsung di set pra-pelatihan, keakuratan pencarian terbalik segera meningkat.
Ringkasnya, hanya ketika pengetahuan invers dimasukkan secara langsung ke dalam data pra-pelatihan, model dapat menjawab pertanyaan invers melalui penyesuaian - namun hal ini sebenarnya curang, karena jika pengetahuan tersebut telah dibalik, maka bukan lagi "Pengetahuan Terbalik". Mencari". Jika set pra-pelatihan hanya berisi pengetahuan maju, model tidak dapat menguasai kemampuan menjawab pertanyaan secara terbalik melalui penyesuaian. Oleh karena itu, penggunaan model bahasa untuk pengindeksan pengetahuan (database pengetahuan) saat ini tampaknya mustahil. **
Selain itu, beberapa orang mungkin berpikir bahwa kegagalan "pencarian pengetahuan terbalik" yang disebutkan di atas mungkin disebabkan oleh sifat satu arah dari model bahasa autoregresif seperti GPT. Namun faktanya, model bahasa dua arah seperti BERT berkinerja lebih buruk dalam ekstraksi pengetahuan, dan bahkan gagal dalam ekstraksi maju. Pembaca yang tertarik dapat merujuk ke makalah ini untuk mengetahui detailnya.
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
Model bahasa mempunyai kelemahan besar, dan deduksi pengetahuan ternyata menjadi masalah yang sudah berlangsung lama
Penerapan pengetahuan yang fleksibel adalah kunci kebijaksanaan. Otak manusia dapat memproses pengetahuan dengan cepat, seperti dengan cepat menjawab “Berapa banyak kata yang ada dalam “Silent Night Thoughts””. Jadi, bisakah operasi serupa dilakukan pada model besar? Diketahui bahwa model besar pertama-tama dapat menulis "Silent Night Thoughts" secara diam-diam melalui Chain of Thought (CoT), dan kemudian menjawab pertanyaan berdasarkan konten tertulis, namun hal ini akan membuat teks yang dihasilkan menjadi panjang. Sebaliknya, manusia dapat menyelesaikan deduksi pengetahuan sederhana di otaknya tanpa menuliskan langkah-langkah perantaranya. Jadi, bisakah model bahasa yang sangat besar menghasilkan jawaban langsung di otak buatannya tanpa harus menuliskan poin pengetahuannya terlebih dahulu?
**Jawabannya ternyata tidak! Gambar 1/2/3 menunjukkan banyak contoh tandingan di GPT4. Bahkan klasifikasi paling dasar (seperti menentukan paritas ulang tahun seorang selebriti) dan perbandingan (seperti membandingkan ulang tahun dua presiden) perlu melalui Rantai Pemikiran. Lebih buruknya lagi, model besar hampir tidak mampu mengekstraksi pengetahuan dari set pelatihan secara terbalik. **
Penelitian terbaru “Fisika Model Bahasa Bagian 3.2: Manipulasi Pengetahuan” oleh Zhu Zeyuan (MetaAI) dan Li Yuanzhi (MBZUAI) berfokus pada permasalahan di atas.
Izinkan saya mengajukan pertanyaan terlebih dahulu. Untuk soal seperti Gambar 1/2/3, apakah karena GPT4 tidak mengingat ulang tahun seseorang dengan cukup akurat (rasio kompresi tidak cukup, dan kerugian pelatihan tidak cukup rendah), atau apakah karena gagal memperdalam pemahamannya tentang paritas melalui penyesuaian? Apakah mungkin untuk menyempurnakan GPT4 sehingga dapat menggabungkan pengetahuan yang ada dalam model untuk menghasilkan pengetahuan baru seperti "paritas ulang tahun", sehingga langsung menjawab pertanyaan terkait tanpa bergantung pada CoT? Karena kami tidak mengetahui kumpulan data pelatihan GPT4, kami tidak dapat menyempurnakannya. Oleh karena itu, penulis mengusulkan untuk menggunakan set pelatihan yang dapat dikontrol untuk mempelajari lebih lanjut kemampuan "deduksi pengetahuan" model bahasa.
Dalam "Fisika Model Bahasa Bagian 3.1: Penyimpanan dan Pengambilan Pengetahuan", penulis membuat kumpulan data yang berisi 100 ribu biografi. Setiap biografi memuat nama orang tersebut dan enam atribut: tanggal lahir, tempat lahir, jurusan universitas, nama universitas, tempat kerja, dan unit kerja. Misalnya:
「Anya Briar Forger berasal dari Princeton, NJ. Dia mendedikasikan studinya untuk Komunikasi. Dia memperoleh pengalaman kerja di Menlo Park, CA. Dia mengembangkan karirnya di Meta Platforms. Dia datang ke dunia ini pada tanggal 2 Oktober 1996. Dia mengikuti kursus lanjutan di MIT.」
Penulis memastikan keragaman entri biografi untuk membantu model mengakses pengetahuan dengan lebih baik. Setelah pra-pelatihan, model dapat menjawab pertanyaan ekstraksi pengetahuan seperti "Kapan ulang tahun Anya" secara akurat melalui penyesuaian (tingkat akurasi mendekati 100%)
Selanjutnya penulis terus menyempurnakan, mencoba membuat model pembelajaran masalah deduksi pengetahuan, seperti klasifikasi/perbandingan/penjumlahan dan pengurangan pengetahuan. Artikel tersebut menemukan bahwa model bahasa alami memiliki kemampuan yang sangat terbatas dalam deduksi pengetahuan, dan sulit untuk menghasilkan pengetahuan baru melalui penyesuaian, meskipun hanya transformasi/kombinasi sederhana dari pengetahuan yang sudah dikuasai oleh model. **
Seperti yang ditunjukkan pada Gambar 5, penulis menemukan bahwa meskipun model dapat secara akurat menjawab ulang tahun semua orang setelah pra-pelatihan (tingkat akurasi mendekati 100%), model tersebut perlu disesuaikan untuk menjawab "Apakah bulan lahir xxx bilangan genap?" dan mencapai tingkat akurasi 75% - jangan lupa bahwa tebakan buta memiliki tingkat akurasi 50% - memerlukan setidaknya 10.000 sampel penyesuaian. Sebagai perbandingan, jika model dapat menyelesaikan kombinasi pengetahuan "ulang tahun" dan "paritas" dengan benar, maka menurut teori pembelajaran mesin tradisional, model hanya perlu belajar mengklasifikasikan 12 bulan, dan biasanya sekitar 100 sampel sudah cukup!
Demikian pula, setelah pra-pelatihan, model dapat menjawab jurusan masing-masing orang secara akurat (total 100 jurusan berbeda), namun meskipun 50.000 sampel penyesuaian digunakan untuk membandingkan "Mana yang lebih baik, jurusan Anya atau jurusan Sabrina", keakuratannya angkanya hanya 53,9%, hampir merupakan tebakan buta.
Namun, jika kita menggunakan penyempurnaan CoT agar model dapat mempelajari kalimat seperti "Bulan lahir Anya adalah Oktober, jadi bilangan genap", keakuratan model dalam menilai paritas bulan lahir pada set pengujian akan meningkat pesat. (lihat kolom "uji penggunaan" pada Gambar 5 CoT).
Penulis juga mencoba menggabungkan respons CoT dan non-CoT dalam penyempurnaan data pelatihan, dan menemukan bahwa akurasi model tanpa menggunakan CoT pada set pengujian masih sangat rendah (lihat kolom "pengujian tanpa CoT" pada Gambar 5). Hal ini menunjukkan bahwa meskipun cukup banyak data penyesuaian CoT yang ditambahkan, model masih tidak dapat belajar untuk "berpikir di dalam kepala" dan langsung melaporkan jawabannya.
Hasil ini menunjukkan bahwa sangat sulit bagi model bahasa untuk melakukan operasi pengetahuan sederhana! Model harus menuliskan poin-poin pengetahuannya terlebih dahulu dan kemudian melakukan perhitungan. Model tersebut tidak dapat langsung dioperasikan di otak seperti manusia. Bahkan setelah penyesuaian yang memadai, model tersebut tidak akan membantu. **
Tantangan pencarian pengetahuan terbalik
Artikel tersebut juga menemukan bahwa model bahasa alami tidak dapat mencari pengetahuan yang dipelajari secara terbalik. Walaupun dapat menjawab semua informasi tentang seseorang, namun tidak dapat menentukan nama orang tersebut berdasarkan informasi tersebut.
Terkait dengan klasifikasi/perbandingan pengetahuan, penulis melakukan eksperimen pada GPT3.5/4 dan menemukan bahwa kinerjanya buruk dalam ekstraksi pengetahuan terbalik (lihat Gambar 6). Namun, karena kami tidak dapat menentukan set pelatihan GPT3.5/4, hal ini tidak membuktikan bahwa semua model bahasa memiliki masalah ini.
Penulis menggunakan kumpulan data biografi yang disebutkan di atas untuk melakukan eksperimen terkontrol yang lebih mendalam pada kemampuan pencarian pengetahuan terbalik model tersebut. Karena nama semua biografi ada di awal paragraf, maka penulis merancang 10 masalah ekstraksi informasi terbalik, seperti:
"Tolong beritahu saya nama orang yang lahir pada tanggal 2 Oktober 1996 di Princeton, NJ?"
"Tolong beritahu saya nama orang yang belajar Komunikasi di MIT, lahir pada tanggal 2 Oktober 1996 di Princeton, NJ, dan bekerja di Meta Platforms di Menlo Park, CA?"
Penulis memverifikasi bahwa meskipun model mencapai kompresi pengetahuan lossless dan peningkatan pengetahuan yang memadai, dan dapat mengekstraksi pengetahuan ini hampir 100% dengan benar, setelah penyesuaian, model masih tidak dapat melakukan pencarian pengetahuan secara terbalik, dan akurasinya hampir nol ( lihat Gambar 7) . Namun, begitu pengetahuan terbalik muncul langsung di set pra-pelatihan, keakuratan pencarian terbalik segera meningkat.
Ringkasnya, hanya ketika pengetahuan invers dimasukkan secara langsung ke dalam data pra-pelatihan, model dapat menjawab pertanyaan invers melalui penyesuaian - namun hal ini sebenarnya curang, karena jika pengetahuan tersebut telah dibalik, maka bukan lagi "Pengetahuan Terbalik". Mencari". Jika set pra-pelatihan hanya berisi pengetahuan maju, model tidak dapat menguasai kemampuan menjawab pertanyaan secara terbalik melalui penyesuaian. Oleh karena itu, penggunaan model bahasa untuk pengindeksan pengetahuan (database pengetahuan) saat ini tampaknya mustahil. **
Selain itu, beberapa orang mungkin berpikir bahwa kegagalan "pencarian pengetahuan terbalik" yang disebutkan di atas mungkin disebabkan oleh sifat satu arah dari model bahasa autoregresif seperti GPT. Namun faktanya, model bahasa dua arah seperti BERT berkinerja lebih buruk dalam ekstraksi pengetahuan, dan bahkan gagal dalam ekstraksi maju. Pembaca yang tertarik dapat merujuk ke makalah ini untuk mengetahui detailnya.