Ketika ukuran model bertambah, orang mulai mengeksplorasi bagaimana model besar dapat menguasai sejumlah besar pengetahuan. Salah satu pendapat menyatakan bahwa hal ini disebabkan oleh "kompresi lossless", yaitu model menjalani pelatihan ekstensif dan mengingat lebih banyak konten untuk meningkatkan akurasi prediksi. Namun bisakah "kompresi lossless" benar-benar memungkinkan model besar memahami pengetahuan ini? Penelitian terbaru "Fisika Model Bahasa Bagian 3.1: Penyimpanan dan Pengambilan Pengetahuan" oleh Zhu Zeyuan (MetaAI) dan Li Yuanzhi (MBZUAI) mengeksplorasi masalah ini secara mendalam.
Alamat kertas:
Mengenai manusia, ada pepatah yang mengatakan "bacalah buku seratus kali, maka maknanya akan muncul dengan sendirinya". Walaupun kalimat ini tidak berlaku untuk semua ilmu, namun untuk ilmu sederhana, selama kita dapat mengingat kitab-kitab yang bersangkutan, kita dapat dengan mudah menjawab pertanyaan-pertanyaan terkait. Misalnya, selama kita mengingat puisi kuno "Pikiran Malam Hening", kita dapat dengan mudah menjawab "Apa perbandingan cahaya bulan dengan puisi itu?"; selama kita mengingat paragraf tentang "Chu Shi Biao/Latar Belakang Kreatif" di Baidu Encyclopedia, kita dapat dengan mudah menjawab "Chu Shi Biao" Kapan penciptaannya?". Jadi, bisakah model yang lebih besar melakukan hal yang sama?
Gambar 1: Beberapa contoh ekstraksi pengetahuan dengan GPT-4 (gambar kiri adalah ChatGPT, gambar kanan adalah API)
Meskipun GPT-4 dapat memahami dan mengulang paragraf terkait pertanyaan, mengapa GPT-4 tidak dapat menjawab pertanyaan sederhana seperti manusia? Apakah karena modelnya tidak cukup besar, memorinya tidak mencukupi, atau penyesuaian setelah pelatihan tidak cukup? juga tidak! Artikel tersebut menunjukkan bahwa meskipun model bahasa alami cukup besar, dilatih cukup lama, dan cukup disesuaikan, model tersebut mungkin masih tidak dapat menjawab pertanyaan yang menurut manusia sederhana. Alasan yang mendasari hal ini berkaitan dengan cara pengetahuan disajikan dalam data pra-pelatihan. Pengetahuan yang sama perlu muncul beberapa kali dalam kumpulan data pra-pelatihan dan memiliki "keanekaragaman" yang cukup agar lebih mudah diekstraksi setelah penyesuaian.
Untuk mengonfirmasi hal ini, kedua penulis membuat kumpulan data yang berisi 100 ribu biografi.Setiap karakter memiliki entri biografi yang berisi nama orang tersebut dan enam atribut tetap: tanggal lahir, tempat lahir, jurusan universitas, nama universitas, dan lokasi kerja.,majikan. Mereka merancang dua kumpulan data, BioS dan BioR. Setiap kalimat BioS dipilih dari 50 templat tetap, dan BioR ditulis ulang dengan LLaMA-30B, yang lebih realistis dan beragam. Hasil dari kedua kumpulan data tersebut konsisten. Dengan mengambil BioS sebagai contoh, contoh entri ditunjukkan di bawah ini:
Anya Briar Forger lahir pada tanggal 2 Oktober 1996. Dia menghabiskan tahun-tahun awalnya di Princeton, NJ. Dia menerima bimbingan dan bimbingan dari anggota fakultas di MIT. Dia menyelesaikan pendidikannya dengan fokus pada Komunikasi. Dia memiliki peran profesional di Meta Platforms. Dia bekerja di Menlo Park, CA.
Gambar 2
Bahkan jika model bahasa alami telah dilatih sebelumnya (dilatih sebelumnya) pada 100 ribu otobiografi pribadi, model tersebut tidak akan mampu menjawab pertanyaan "Sekolah mana yang Anya masuki untuk sarjana" secara akurat melalui penyesuaian QA (penyempurnaan). Seperti yang ditunjukkan pada Gambar 2, meskipun 50 ribu orang digunakan sebagai data pelatihan penyempurnaan QA dan berbagai metode penyempurnaan dicoba, termasuk LoRA, akurasi model pada 50 ribu orang sisanya hanya 10%. Meskipun model 682M (7000 kali lebih besar dari jumlah orang) digunakan dan dilatih sebanyak 1350 kali, dan penulis bahkan menambahkan data pra-pelatihan NLP standar seperti WikiBook, tingkat akurasinya tidak meningkat. Dapat dilihat bahwa "dengan kekuatan besar, keajaiban" tidak terjadi.
Oleh karena itu, model besar tidak serta merta menangkap atau mengekstrak pengetahuan tentang "kompresi lossless". Lalu bagaimana GPT-4 menguasai ilmu? Untuk mempelajari masalah ini, kedua penulis membuat perubahan pada set pra-pelatihan - penulis menyebutnya peningkatan pengetahuan:
Keberagaman - multiM: Buat entri biografi M untuk setiap orang, menggunakan bahasa narasi yang berbeda tetapi tetap mempertahankan informasi yang sama (ada total 100 metode narasi untuk setiap kalimat, dan setiap kalimat dari setiap biografi memilih satu dari mereka)
Susunan acak - permute : Menyusun kalimat biografi secara acak
Nama lengkap - nama lengkap: Ganti semua kata ganti, nama keluarga, dan nama depan di biografi dengan nama lengkap
Para penulis menyebut kumpulan data asli bioS tunggal dan bereksperimen dengan 15 kombinasi peningkatan pengetahuan. Misalnya, bioS multi5+permute berarti setiap orang memiliki 5 biografi, dan urutan kata terganggu. Berikut adalah contoh bioS multi5+permute:
Anya Briar Forger berasal dari Princeton, NJ. Dia mendedikasikan studinya untuk Komunikasi. Dia memperoleh pengalaman kerja di Menlo Park, CA. Dia mengembangkan karirnya di Meta Platforms. Dia datang ke dunia ini pada tanggal 2 Oktober 1996. Dia mengikuti kursus lanjutan di MIT.
Baik untuk manusia maupun model besar, ingatlah bahwa bioS single dan bioS multi5+permute hampir sama sulitnya (keduanya memiliki jumlah informasi yang sama, dan setiap kalimat dipilih dari 50 templat). Jadi, jika pra-pelatihan dilakukan pada kumpulan data baru yang meningkatkan pengetahuan ini dan kemudian QA disesuaikan, apakah akan ada kinerja baru?
gambar 3
Gambar 3 menunjukkan bahwa tingkat akurasi QA model pra-pelatihan tunggal bioS hanya sebesar 9,7%, sedangkan tingkat akurasi model pra-pelatihan bioS multi5+permute mencapai 96,6%. Peningkatan signifikan ini tidak ada hubungannya dengan penyempurnaan model, ukuran, atau waktu pelatihan, namun dengan cara pengetahuan disajikan dalam pra-pelatihan, yaitu bagaimana pengetahuan "dibacakan" oleh model besar.
Studi ini juga menemukan bahwa dengan membagi biografi menjadi selebriti dan kelompok minoritas, selama biografi selebriti memiliki peningkatan pengetahuan, meskipun kelompok minoritas tidak, keakuratan model ekstraksi pengetahuan untuk kelompok minoritas akan sangat meningkat - tentu saja , yang terbaik Efeknya masih membutuhkan peningkatan pengetahuan semua data.
Gambar 4: Hanya dengan meningkatkan keragaman data pelatihan untuk selebriti, keakuratan ekstraksi pengetahuan untuk kelompok minoritas meningkat
Jadi mengapa kemampuan menjawab pertanyaan model sangat bervariasi setelah membacakan data yang berbeda? Mengapa pembacaan berulang-ulang biografi selebriti dapat meningkatkan kemampuan ekstraksi pengetahuan kelompok minoritas? Alasannya adalah model tersebut mengadopsi metode memori yang berbeda.
Penulis mengeksplorasi secara mendalam prinsip pengetahuan memori model melalui dua penyelidikan linier. Mari kita lihat salah satu metode yang disebut P-probing.
Dalam P-probe, kami memasukkan entri biografi ke dalam model terlatih dan melatih pengklasifikasi linier untuk memprediksi enam atribut target (seperti universitas, jurusan, dll.). Kami ingin melihat apakah model dapat mengekstrak informasi ini lebih awal daripada atributnya. Jika pengklasifikasi menunjukkan akurasi tinggi untuk "unit kerja" tepat setelah nama orang tersebut, berarti model tersebut langsung mengetahui "perusahaan Anya adalah Meta". Jika akurasi tinggi hanya dicapai di akhir biografi, mungkin model tersebut menggunakan metode memori yang cacat, seperti "ulang tahun seseorang 2 Oktober 1996, universitasnya MIT, jadi majikannya Meta".
Desain percobaan untuk probe P adalah sebagai berikut. Temukan posisi di setiap biografi di mana 6 atribut pertama kali muncul, lalu latih pengklasifikasi linier untuk memprediksi setiap atribut target pada posisi tepat sebelum posisi tersebut. Ini menghasilkan 36 tugas klasifikasi.
*Gambar 5: Hasil uji probe P menunjukkan bahwa peningkatan pengetahuan pada kumpulan data pra-pelatihan menyebabkan pengetahuan disimpan di lokasi sebelumnya, bahkan ada yang disimpan langsung pada nama orang. Apakah model dapat menjawab pertanyaan melalui penyesuaian terkait dengan apakah informasi tersebut disimpan langsung pada nama orang tersebut selama pra-pelatihan (bandingkan Gambar 3 dan Gambar 5). *
Hasil uji P-probe menunjukkan bahwa model bahasa alami dapat mengingat informasi melalui nama orang untuk mencapai kompresi selama pra-pelatihan, dan juga dapat menggunakan informasi lain (seperti "Unit kerja seseorang yang belajar di MIT dan yang ulang tahunnya tanggal 2 Oktober 1996 adalah...")memori. Meskipun metode memori kedua "tidak wajar" bagi manusia, rasio kompresi kedua metode tersebut sama untuk modelnya. Jika model menggunakan metode kedua untuk mengingat informasi, model tidak akan mampu menjawab pertanyaan melalui penyesuaian setelah pelatihan. Melalui peningkatan pengetahuan, model yang telah dilatih sebelumnya secara bertahap akan cenderung belajar menggunakan metode memori pertama.
Ada yang mungkin berpendapat bahwa kegagalan "ekstraksi pengetahuan" di atas mungkin disebabkan oleh sifat satu arah dari model bahasa autoregresif seperti GPT. Faktanya, model bahasa dua arah seperti BERT bahkan lebih buruk dalam ekstraksi pengetahuan, mereka hanya dapat menyimpan pengetahuan multi-frasa seperti "Meta Platform" tetapi tidak dapat mengekstraknya. Pembaca yang tertarik dapat merujuk ke Bab 6 makalah ini.
Secara umum, apakah model bahasa dapat menjawab pertanyaan "ekstraksi pengetahuan" tidak hanya bergantung pada "kompresi lossless", tetapi juga pada "cara mengompresi model". Makalah ini menekankan bahwa penting untuk meningkatkan pengetahuan tentang data penting namun langka selama proses pra-pelatihan (seperti menggunakan ChatGPT untuk beberapa penulisan ulang). Tanpa langkah ini, tidak peduli seberapa keras Anda berupaya menyempurnakannya, meskipun model yang telah dilatih sebelumnya telah mengompresi data pelatihan secara lossless, model tersebut mungkin masih tidak dapat mengekstrak pengetahuan tersebut!
Kesimpulan
Bagaimana memahami cara kerja model bahasa alami? Sebagian besar peneliti berspekulasi tentang kemampuannya dengan menggunakan model seperti GPT-4. Namun, penulis rangkaian makalah "Fisika Model Bahasa" mengusulkan metode yang lebih tepat untuk mengeksplorasi mekanisme internal Transformer dan menjelaskan kemampuannya untuk menangani tugas-tugas AI melalui data pelatihan yang dirancang dengan cermat dan eksperimen terkontrol.
Dalam "Bagian 3.1: Penyimpanan dan Ekstraksi Pengetahuan", penulis secara akurat menguji respons model terhadap data yang berbeda dan menemukan hubungan yang akurat antara pengetahuan dan kemampuan pembelajaran model serta data pelatihan.
Mereka juga merilis "Bagian 3.2: Pengoperasian Pengetahuan" untuk mempelajari lebih lanjut bagaimana model mengoperasikan pengetahuan dalam situasi tertentu. Misalnya, jika model besar mengingat "Pikiran Malam Senyap", dapatkah ia menyimpulkan dengan baik bahwa kalimat terakhir "Pikiran Malam Tenang" adalah "Tundukkan kepala dan rindu kampung halaman"? Kami akan segera memberikan laporan tindak lanjut kepada Anda.
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
Membaca tidak berarti memahami, menganalisis secara mendalam penyimpanan dan ekstraksi pengetahuan di balik model besar
Sumber: Jantung Mesin
Ketika ukuran model bertambah, orang mulai mengeksplorasi bagaimana model besar dapat menguasai sejumlah besar pengetahuan. Salah satu pendapat menyatakan bahwa hal ini disebabkan oleh "kompresi lossless", yaitu model menjalani pelatihan ekstensif dan mengingat lebih banyak konten untuk meningkatkan akurasi prediksi. Namun bisakah "kompresi lossless" benar-benar memungkinkan model besar memahami pengetahuan ini? Penelitian terbaru "Fisika Model Bahasa Bagian 3.1: Penyimpanan dan Pengambilan Pengetahuan" oleh Zhu Zeyuan (MetaAI) dan Li Yuanzhi (MBZUAI) mengeksplorasi masalah ini secara mendalam.
Mengenai manusia, ada pepatah yang mengatakan "bacalah buku seratus kali, maka maknanya akan muncul dengan sendirinya". Walaupun kalimat ini tidak berlaku untuk semua ilmu, namun untuk ilmu sederhana, selama kita dapat mengingat kitab-kitab yang bersangkutan, kita dapat dengan mudah menjawab pertanyaan-pertanyaan terkait. Misalnya, selama kita mengingat puisi kuno "Pikiran Malam Hening", kita dapat dengan mudah menjawab "Apa perbandingan cahaya bulan dengan puisi itu?"; selama kita mengingat paragraf tentang "Chu Shi Biao/Latar Belakang Kreatif" di Baidu Encyclopedia, kita dapat dengan mudah menjawab "Chu Shi Biao" Kapan penciptaannya?". Jadi, bisakah model yang lebih besar melakukan hal yang sama?
Meskipun GPT-4 dapat memahami dan mengulang paragraf terkait pertanyaan, mengapa GPT-4 tidak dapat menjawab pertanyaan sederhana seperti manusia? Apakah karena modelnya tidak cukup besar, memorinya tidak mencukupi, atau penyesuaian setelah pelatihan tidak cukup? juga tidak! Artikel tersebut menunjukkan bahwa meskipun model bahasa alami cukup besar, dilatih cukup lama, dan cukup disesuaikan, model tersebut mungkin masih tidak dapat menjawab pertanyaan yang menurut manusia sederhana. Alasan yang mendasari hal ini berkaitan dengan cara pengetahuan disajikan dalam data pra-pelatihan. Pengetahuan yang sama perlu muncul beberapa kali dalam kumpulan data pra-pelatihan dan memiliki "keanekaragaman" yang cukup agar lebih mudah diekstraksi setelah penyesuaian.
Untuk mengonfirmasi hal ini, kedua penulis membuat kumpulan data yang berisi 100 ribu biografi.Setiap karakter memiliki entri biografi yang berisi nama orang tersebut dan enam atribut tetap: tanggal lahir, tempat lahir, jurusan universitas, nama universitas, dan lokasi kerja.,majikan. Mereka merancang dua kumpulan data, BioS dan BioR. Setiap kalimat BioS dipilih dari 50 templat tetap, dan BioR ditulis ulang dengan LLaMA-30B, yang lebih realistis dan beragam. Hasil dari kedua kumpulan data tersebut konsisten. Dengan mengambil BioS sebagai contoh, contoh entri ditunjukkan di bawah ini:
Bahkan jika model bahasa alami telah dilatih sebelumnya (dilatih sebelumnya) pada 100 ribu otobiografi pribadi, model tersebut tidak akan mampu menjawab pertanyaan "Sekolah mana yang Anya masuki untuk sarjana" secara akurat melalui penyesuaian QA (penyempurnaan). Seperti yang ditunjukkan pada Gambar 2, meskipun 50 ribu orang digunakan sebagai data pelatihan penyempurnaan QA dan berbagai metode penyempurnaan dicoba, termasuk LoRA, akurasi model pada 50 ribu orang sisanya hanya 10%. Meskipun model 682M (7000 kali lebih besar dari jumlah orang) digunakan dan dilatih sebanyak 1350 kali, dan penulis bahkan menambahkan data pra-pelatihan NLP standar seperti WikiBook, tingkat akurasinya tidak meningkat. Dapat dilihat bahwa "dengan kekuatan besar, keajaiban" tidak terjadi.
Oleh karena itu, model besar tidak serta merta menangkap atau mengekstrak pengetahuan tentang "kompresi lossless". Lalu bagaimana GPT-4 menguasai ilmu? Untuk mempelajari masalah ini, kedua penulis membuat perubahan pada set pra-pelatihan - penulis menyebutnya peningkatan pengetahuan:
Keberagaman - multiM: Buat entri biografi M untuk setiap orang, menggunakan bahasa narasi yang berbeda tetapi tetap mempertahankan informasi yang sama (ada total 100 metode narasi untuk setiap kalimat, dan setiap kalimat dari setiap biografi memilih satu dari mereka)
Susunan acak - permute : Menyusun kalimat biografi secara acak
Nama lengkap - nama lengkap: Ganti semua kata ganti, nama keluarga, dan nama depan di biografi dengan nama lengkap
Para penulis menyebut kumpulan data asli bioS tunggal dan bereksperimen dengan 15 kombinasi peningkatan pengetahuan. Misalnya, bioS multi5+permute berarti setiap orang memiliki 5 biografi, dan urutan kata terganggu. Berikut adalah contoh bioS multi5+permute:
Baik untuk manusia maupun model besar, ingatlah bahwa bioS single dan bioS multi5+permute hampir sama sulitnya (keduanya memiliki jumlah informasi yang sama, dan setiap kalimat dipilih dari 50 templat). Jadi, jika pra-pelatihan dilakukan pada kumpulan data baru yang meningkatkan pengetahuan ini dan kemudian QA disesuaikan, apakah akan ada kinerja baru?
Gambar 3 menunjukkan bahwa tingkat akurasi QA model pra-pelatihan tunggal bioS hanya sebesar 9,7%, sedangkan tingkat akurasi model pra-pelatihan bioS multi5+permute mencapai 96,6%. Peningkatan signifikan ini tidak ada hubungannya dengan penyempurnaan model, ukuran, atau waktu pelatihan, namun dengan cara pengetahuan disajikan dalam pra-pelatihan, yaitu bagaimana pengetahuan "dibacakan" oleh model besar.
Studi ini juga menemukan bahwa dengan membagi biografi menjadi selebriti dan kelompok minoritas, selama biografi selebriti memiliki peningkatan pengetahuan, meskipun kelompok minoritas tidak, keakuratan model ekstraksi pengetahuan untuk kelompok minoritas akan sangat meningkat - tentu saja , yang terbaik Efeknya masih membutuhkan peningkatan pengetahuan semua data.
Jadi mengapa kemampuan menjawab pertanyaan model sangat bervariasi setelah membacakan data yang berbeda? Mengapa pembacaan berulang-ulang biografi selebriti dapat meningkatkan kemampuan ekstraksi pengetahuan kelompok minoritas? Alasannya adalah model tersebut mengadopsi metode memori yang berbeda.
Penulis mengeksplorasi secara mendalam prinsip pengetahuan memori model melalui dua penyelidikan linier. Mari kita lihat salah satu metode yang disebut P-probing.
Dalam P-probe, kami memasukkan entri biografi ke dalam model terlatih dan melatih pengklasifikasi linier untuk memprediksi enam atribut target (seperti universitas, jurusan, dll.). Kami ingin melihat apakah model dapat mengekstrak informasi ini lebih awal daripada atributnya. Jika pengklasifikasi menunjukkan akurasi tinggi untuk "unit kerja" tepat setelah nama orang tersebut, berarti model tersebut langsung mengetahui "perusahaan Anya adalah Meta". Jika akurasi tinggi hanya dicapai di akhir biografi, mungkin model tersebut menggunakan metode memori yang cacat, seperti "ulang tahun seseorang 2 Oktober 1996, universitasnya MIT, jadi majikannya Meta".
Desain percobaan untuk probe P adalah sebagai berikut. Temukan posisi di setiap biografi di mana 6 atribut pertama kali muncul, lalu latih pengklasifikasi linier untuk memprediksi setiap atribut target pada posisi tepat sebelum posisi tersebut. Ini menghasilkan 36 tugas klasifikasi.
Hasil uji P-probe menunjukkan bahwa model bahasa alami dapat mengingat informasi melalui nama orang untuk mencapai kompresi selama pra-pelatihan, dan juga dapat menggunakan informasi lain (seperti "Unit kerja seseorang yang belajar di MIT dan yang ulang tahunnya tanggal 2 Oktober 1996 adalah...")memori. Meskipun metode memori kedua "tidak wajar" bagi manusia, rasio kompresi kedua metode tersebut sama untuk modelnya. Jika model menggunakan metode kedua untuk mengingat informasi, model tidak akan mampu menjawab pertanyaan melalui penyesuaian setelah pelatihan. Melalui peningkatan pengetahuan, model yang telah dilatih sebelumnya secara bertahap akan cenderung belajar menggunakan metode memori pertama.
Ada yang mungkin berpendapat bahwa kegagalan "ekstraksi pengetahuan" di atas mungkin disebabkan oleh sifat satu arah dari model bahasa autoregresif seperti GPT. Faktanya, model bahasa dua arah seperti BERT bahkan lebih buruk dalam ekstraksi pengetahuan, mereka hanya dapat menyimpan pengetahuan multi-frasa seperti "Meta Platform" tetapi tidak dapat mengekstraknya. Pembaca yang tertarik dapat merujuk ke Bab 6 makalah ini.
Secara umum, apakah model bahasa dapat menjawab pertanyaan "ekstraksi pengetahuan" tidak hanya bergantung pada "kompresi lossless", tetapi juga pada "cara mengompresi model". Makalah ini menekankan bahwa penting untuk meningkatkan pengetahuan tentang data penting namun langka selama proses pra-pelatihan (seperti menggunakan ChatGPT untuk beberapa penulisan ulang). Tanpa langkah ini, tidak peduli seberapa keras Anda berupaya menyempurnakannya, meskipun model yang telah dilatih sebelumnya telah mengompresi data pelatihan secara lossless, model tersebut mungkin masih tidak dapat mengekstrak pengetahuan tersebut!
Kesimpulan
Bagaimana memahami cara kerja model bahasa alami? Sebagian besar peneliti berspekulasi tentang kemampuannya dengan menggunakan model seperti GPT-4. Namun, penulis rangkaian makalah "Fisika Model Bahasa" mengusulkan metode yang lebih tepat untuk mengeksplorasi mekanisme internal Transformer dan menjelaskan kemampuannya untuk menangani tugas-tugas AI melalui data pelatihan yang dirancang dengan cermat dan eksperimen terkontrol.
Dalam "Bagian 3.1: Penyimpanan dan Ekstraksi Pengetahuan", penulis secara akurat menguji respons model terhadap data yang berbeda dan menemukan hubungan yang akurat antara pengetahuan dan kemampuan pembelajaran model serta data pelatihan.
Mereka juga merilis "Bagian 3.2: Pengoperasian Pengetahuan" untuk mempelajari lebih lanjut bagaimana model mengoperasikan pengetahuan dalam situasi tertentu. Misalnya, jika model besar mengingat "Pikiran Malam Senyap", dapatkah ia menyimpulkan dengan baik bahwa kalimat terakhir "Pikiran Malam Tenang" adalah "Tundukkan kepala dan rindu kampung halaman"? Kami akan segera memberikan laporan tindak lanjut kepada Anda.