Bagaimana model kecil dapat dibandingkan dengan model besar, Institut Teknologi Beijing merilis MindLLM model besar Mingde, dan model kecil memiliki potensi besar

2023-10-28 04:48:20

Sumber asli: Heart of the Machine

Sumber gambar: Dihasilkan oleh Unbounded AI

Model bahasa besar (LLM) telah menunjukkan kinerja yang sangat baik dalam berbagai tugas bahasa alami, tetapi masih ada banyak masalah praktis dalam penerapan model bahasa besar di bidang profesional karena tingginya biaya pelatihan dan menyimpulkan model parameter besar. Oleh karena itu, tim memulai dengan model ringan untuk memaksimalkan keunggulan data dan model, berdasarkan domain spesifik yang melayani dengan lebih baik, dan mengurangi biaya pelatihan dan inferensi tugas hilir.

Pada tanggal 24 Oktober, tim pemrosesan bahasa alami dari Beijing Institute of Technology merilis serangkaian model bahasa besar ringan bilingual (Min ** g D ** e LLM) - MindLLM, yang secara komprehensif memperkenalkan pengalaman yang terakumulasi dalam proses pengembangan model skala besar, yang mencakup setiap langkah terperinci dari konstruksi data, arsitektur model, evaluasi dan proses aplikasi. MindLLM dilatih dari bawah ke atas dan hadir dalam versi 1.3B dan 3B, secara konsisten mencocokkan atau mengungguli kinerja model besar open-source lainnya di beberapa tolok ukur publik. MindLLM juga meningkatkan kemampuannya dengan memperkenalkan kerangka penyetelan instruksi inovatif yang dirancang khusus untuk model yang lebih kecil. Selain itu, untuk aplikasi di vertikal tertentu seperti hukum dan keuangan, MindLLM juga memiliki kemampuan beradaptasi domain yang sangat baik.

*Alamat:

Sorotan MindLLM

Kami berbagi pengalaman kami dalam pemrosesan data, termasuk mempertahankan teks web berkualitas tinggi dan persentase tinggi, melestarikan data jangka panjang seperti buku dan percakapan, data matematika downsampling, dan data kode upsampling. Kami merekomendasikan untuk mengacak data secara merata untuk pembelajaran kompetensi dan memotong beberapa sampel untuk skenario pembelajaran kecil.
Hasil evaluasi kami mengungguli beberapa model besar, dan model MindLLM mengungguli model besar seperti MPT-7B dan GPT-J-6B pada evaluasi MMLU dan AGI tanpa instruksi fine-tuning dan alignment. Di Cina, MindLLM menunjukkan kinerja yang sebanding dengan model parametrik yang lebih besar pada C- dan CMMLU. Secara khusus, MindLLM-3B mengungguli model yang lebih besar seperti MOSS-Base-16B dan MPT-7B dalam kemampuan matematika, dan mengungguli Baichuan2-7B dan MOSS-Base-16B dalam bilingualisme. Selain itu, MindLLM-1.3B secara matematis lebih baik daripada GPT-Neo-1.3B dengan ukuran yang sama.
Kami membandingkan dua strategi pelatihan yang berbeda dalam pembelajaran bilingual dan melihat pengaruh apakah data didistribusikan secara merata selama periode pra-pelatihan atau tidak. Kami menyimpulkan bahwa untuk model ringan (≤7B) dengan skala kapasitas terbatas, tidak optimal untuk mencapai kemampuan kompleks seperti matematika, penalaran, atau penyelarasan bilingual melalui strategi pra-terlatih dan kemudian transfer-terlatih karena sulit untuk mengintegrasikan pengetahuan baru dan yang sudah ada. Sebaliknya, strategi yang lebih efektif adalah memulai dari awal dan mengintegrasikan beberapa tipe data dalam kombinasi dengan kebutuhan tugas hilir untuk memastikan bahwa kemampuan yang diperlukan diperoleh secara konsisten dan efisien.
Kami telah menemukan bahwa memanfaatkan data yang disesuaikan untuk kemampuan khusus selama penyetelan instruksi dapat secara signifikan meningkatkan kemampuan spesifik model ringan, seperti penalaran komprehensif atau pengetahuan subjek.
Kami memperkenalkan pendekatan untuk membangun set instruksi menggunakan strategi penyaringan massa berbasis entropi dan menunjukkan efektivitasnya dalam memfilter data penyetelan instruksi berkualitas tinggi untuk model ringan. Kami menunjukkan bahwa dalam konteks model yang ringan, performa model dapat dioptimalkan secara lebih efektif dengan meningkatkan kualitas data penyetelan instruksi, bukan hanya meningkatkan jumlah data.
Model kami telah menunjukkan kinerja yang sangat baik di bidang-bidang tertentu, khususnya di bidang-bidang seperti hukum dan keuangan. Kami menemukan bahwa perbedaan dalam ukuran parameter model tidak menghasilkan perbedaan yang signifikan dalam domain tertentu, dan bahwa model yang lebih kecil dapat mengungguli model yang lebih besar. Model kami mengungguli semua model dengan ukuran parameter dari 1,3B hingga 3B dalam domain tertentu, sambil tetap kompetitif dengan model dengan ukuran parameter mulai dari 6B hingga 13B, dan kemampuan model untuk mengklasifikasikan dalam domain tertentu ditingkatkan secara signifikan di bawah pendekatan COT.

TERKAIT DATA

Pengolahan Data

Kami menggunakan data pelatihan dalam bahasa Inggris dan Mandarin. Data bahasa Inggris berasal dari dataset Pile dan diproses lebih lanjut. Data Tiongkok mencakup data pelatihan dari sumber terbuka seperti Wudao dan CBooks, serta data yang kami rayapi dari Internet. Untuk memastikan kualitas data, kami menggunakan metode penanganan data yang ketat, terutama untuk data yang di-crawl dari web.

Pendekatan kami terhadap pemrosesan data meliputi:

Pembersihan Format: Kami menggunakan pengurai halaman web untuk mengekstrak dan membersihkan konten teks dari halaman web sumber. Fase ini termasuk menghapus HTML, CSS, logo JS, dan emoji yang tidak berguna untuk memastikan aliran teks. Selain itu, kami menangani masalah pemformatan yang tidak konsisten. Kami juga melestarikan karakter Cina Tradisional Cina sehingga model kami dapat mempelajari sastra kuno atau puisi.
Pemfilteran data berkualitas rendah: Kami mengevaluasi kualitas data berdasarkan rasio teks terhadap konten di halaman web. Secara khusus, kami mengecualikan halaman dengan kepadatan teks kurang dari 75% atau kurang dari 100 karakter Tionghoa. Ambang batas ini ditentukan melalui pengujian awal sampel halaman web.
Deduplikasi data: Mengingat bahwa data WuDao juga berasal dari halaman web, beberapa situs web dapat mempublikasikan informasi yang sama berulang kali. Oleh karena itu, kami menggunakan algoritme hashing yang sensitif secara lokal untuk menghapus konten duplikat sambil mempertahankan keragaman data pelatihan kami.
Pemfilteran informasi sensitif: Mengingat bahwa halaman web sering berisi konten sensitif, kami menggunakan heuristik dan leksikon sensitif untuk mendeteksi dan memfilter konten ini untuk membangun model bahasa yang positif. Untuk melindungi privasi, kami menggunakan ekspresi reguler untuk mengidentifikasi informasi pribadi, seperti nomor ID, nomor telepon, dan alamat email, dan menggantinya dengan tag khusus.
Pemfilteran data informasi rendah: Data informasi rendah, seperti iklan, sering muncul sebagai konten duplikat. Oleh karena itu, kami mengidentifikasi jenis konten ini dengan menganalisis frekuensi frasa dalam konten teks halaman web. Kami percaya bahwa pengulangan frasa yang sering dari situs web yang sama dapat merusak pembelajaran model. Akibatnya, filter kami terutama berfokus pada frasa berulang yang berkelanjutan dalam iklan atau situs web yang tidak diautentikasi.

Pada akhirnya, kami memperoleh data berikut:

Hukum Penskalaan

Untuk memastikan kinerja optimal dalam menghadapi peningkatan biaya pelatihan untuk pembelajaran mendalam dan model bahasa besar, kami melakukan studi tentang hubungan antara volume data dan kapasitas model, yang dikenal sebagai Hukum Penskalaan. Sebelum kita mulai melatih model bahasa besar dengan miliaran parameter, pertama-tama kita melatih model yang lebih kecil untuk menetapkan pola penskalaan untuk melatih model yang lebih besar. Ukuran model kami berkisar dari 10 juta hingga 500 juta parameter, dan setiap model dilatih pada himpunan data yang berisi hingga 10 miliar token. Pelatihan ini menggunakan pengaturan hyperparameter yang konsisten, serta himpunan data yang sama seperti yang disebutkan sebelumnya. Dengan menganalisis kehilangan akhir dari berbagai model, kami dapat membuat pemetaan dari pelatihan FLOP (operasi titik ambang) ke Loss. Seperti yang ditunjukkan pada gambar di bawah ini, jumlah data pelatihan yang jenuh oleh model dengan ukuran berbeda berbeda, dan seiring bertambahnya ukuran model, data pelatihan yang diperlukan juga meningkat. Untuk memenuhi persyaratan data yang akurat dari model target, kami menggunakan rumus power-law agar sesuai dengan hukum ekspansi model, dan memprediksi jumlah data pelatihan dan nilai kerugian model parameter 3B, dan membandingkannya dengan hasil aktual (bintang pada gambar).

Pergaulan Bebas Data &; Kursus Data

Dampak data pada model terutama mencakup dua aspek: (1) rasio pencampuran, yang melibatkan bagaimana data dari berbagai sumber digabungkan untuk membangun kumpulan data dengan ukuran tertentu dengan anggaran pelatihan terbatas; dan (2) kursus data, yang berhubungan dengan pengaturan data dari berbagai sumber untuk melatih keterampilan khusus model.

Kami menurunkan skala setiap sumber data untuk melatih model dengan parameter 15M. Seperti yang ditunjukkan pada gambar di bawah ini, berbagai jenis data memiliki efek yang berbeda pada efisiensi pembelajaran dan hasil akhir dari model. Misalnya, masalah matematika memiliki kehilangan data akhir yang lebih rendah dan lebih cepat dipelajari, menunjukkan bahwa ia memiliki pola yang lebih jelas dan mudah dipelajari. Sebaliknya, data dari buku informatif atau beragam teks web membutuhkan waktu lebih lama untuk beradaptasi. Beberapa area data serupa mungkin lebih dekat dalam hal kerugian, seperti data terkait teknologi dan ensiklopedia.

Untuk mengeksplorasi lebih lanjut kinerja model generalisasi dari satu data ke data lain, kami menggunakan model ini dilatih pada data tunggal untuk menguji pada data lain, dan hasilnya ditunjukkan pada gambar berikut:

Kumpulan data yang berbeda menunjukkan tingkat kemampuan generalisasi yang berbeda, misalnya, model yang dilatih pada teks web, ensiklopedia, dan data Tanya Jawab menunjukkan kemampuan generalisasi yang kuat pada berbagai sumber data, menunjukkan bahwa konten mereka berisi beragam informasi di berbagai bidang. Sebaliknya, model yang dilatih pada data makalah akademis dan data kode unggul dalam kemampuan matematika tetapi lemah dalam generalisasi, kemungkinan karena spesifisitas domain dan informasi format yang unik.

Selain itu, kami membuat beberapa penyesuaian penskalaan data untuk menyeimbangkan performa model di berbagai keterampilan dan tipe data. Berdasarkan eksperimen kami, kami menyelesaikan beberapa prinsip untuk rasio pencampuran data:

Mempertahankan proporsi teks web berkualitas tinggi dan data ensiklopedia karena keanekaragamannya.
Mengurangi proporsi data matematika untuk menghindari overfitting.
Meningkatkan matematika dengan kode dan data akademik sambil mengurangi format melalui beragam sampling dan pemrosesan terkait.
Simpan beberapa percakapan dan data buku untuk membantu Anda mempelajari dependensi jangka panjang.

Selain rasio campuran, kursus data (urutan di mana data dilatih) juga mempengaruhi kemampuan model untuk belajar. Eksperimen telah menunjukkan bahwa data dari sumber yang berbeda akan menyebabkan model mempelajari keterampilan yang berbeda, dan bahwa mengadopsi urutan pembelajaran tertentu dapat membantu model mempelajari keterampilan baru karena korelasi antara keterampilan. Eksperimen kami berfokus pada dampak data campuran yang tidak seragam dan pembelajaran transfer bahasa pada kemampuan model. Eksperimen kami menunjukkan bahwa data campuran non-homogen mengarah pada pelatihan model yang berkelanjutan pada jenis data yang sama, yang lebih dekat dengan konteks pembelajaran dalam konteks, dan karenanya berkinerja lebih baik pada pembelajaran beberapa kesempatan. Namun, karena ketidakmerataan pembelajaran, mungkin ada fenomena lupa yang nyata pada tahap selanjutnya. Selain itu, pembelajaran transfer bahasa membantu model untuk memperoleh kemampuan bilingual, dan kinerja keseluruhan dapat ditingkatkan melalui penyelarasan bahasa, tetapi kami percaya bahwa pelatihan dengan data bahasa campuran lebih kondusif untuk alokasi dan perolehan kemampuan model.

Arsitektur Model MindLLMs

MindLLM-1.3B menggunakan arsitektur model yang sama dengan GPTNeo-1.3B, sementara MindLLM-3B menambahkan beberapa perbaikan di atasnya. Berdasarkan stabilitas pelatihan dan kemampuan model, kami menggunakan Rotated Position Coding (RoPE) DeepNorm, RMS Norm, FlashAttention-2, GeGLU, dan operator pengoptimalan lainnya.

Kami menambahkan kosakata bahasa Mandarin berdasarkan GPTNeo-1.3B dan menggunakan strategi pembelajaran transfer untuk melatih kemampuan bilingual MindLLM-1.3B. Untuk MindLLM-3B, kami menggunakan BPE dari SentencePiece untuk mengesahkan data, dan Tokenizer kami memiliki ukuran kosakata akhir 125.700. Melalui dua cara pelatihan bilingual yang berbeda, kami telah merangkum beberapa metode pra-pelatihan yang umum dan praktis.

Pra-Pelatihan

Detail pra-pelatihan

Kami menggunakan dua strategi berbeda untuk melatih model bilingual MindLLM de novo. Untuk MindLLM-3B, kami melatih 800,00 langkah langsung pada data bilingual campuran dalam bahasa Cina dan Inggris sambil belajar kemahiran bahasa Cina dan Inggris; Untuk MindLLM-1.3B, pertama-tama kami melatih 101.100 langkah pada himpunan data bahasa Inggris dan kemudian melatih 105.900 langkah menggunakan data campuran bahasa Cina dan Inggris. Detail pra-pelatihan adalah sebagai berikut:

### Penilaian Tahap Pra-Pelatihan

Model yang lebih kecil dapat mengalahkan model yang lebih besar

Untuk mengevaluasi kemampuan bahasa Cina dan Inggris model, kami menggunakan MMLU (5-shot) dan AGI (4-shot) untuk mengevaluasi kemampuan bahasa Inggris model, dan C-(5-shot) dan CMMLU (4-shot) untuk mengevaluasi kemampuan bahasa Mandarin model. AGI menggunakan bagian pilihan ganda dari bagian bahasa Inggris. Hasil penilaian adalah sebagai berikut:

Dalam hal kinerja bahasa Inggris, MindLLM mengungguli GPT-J-6B, MPT-7B, MOSS-Base-16B dan model lain yang lebih besar rata-rata, dan mendekati Falcon-7B, yang memiliki ukuran model yang lebih besar dan lebih banyak data yang telah dilatih sebelumnya. Dalam hal kemampuan Cina, MindLLM tampil setara dengan LLM open-source. Perlu dicatat bahwa MindLLM masih dilatih untuk peningkatan.

Selain itu, kami menemukan bahwa MindLLM-1.3B, yang dilatih pada data Cina dan Inggris, mengungguli GPT-Neo-1.3B pada MMLU, menunjukkan bahwa ini mungkin merupakan keuntungan dari pembelajaran bilingual, karena ada kesamaan antara bahasa yang berbeda dalam hal kemampuan. Eksperimen dan analisis terperinci dapat ditemukan di Bagian 4.4 makalah ini.

Model yang lebih kecil memiliki potensi besar dalam hal kemampuan khusus

Untuk model ringan, ketika diterapkan pada tugas hilir, hanya keberadaan kemampuan yang relevan yang cukup. Oleh karena itu, di bagian ini, kami ingin mengeksplorasi kinerja dan faktor-faktor yang mempengaruhi MindLLM dan LLM ringan lainnya dalam kemampuan spesifik (≤7B).

Kami mengevaluasi kinerja model yang berbeda terutama dari tiga perspektif: kemampuan matematika, kemampuan penalaran, dan kemampuan penyelarasan bilingual, karena ketiga kemampuan ini kompleks dan relatif penting untuk penerapan model bilingual.

(1) Matematika**

Kami menggunakan dataset Aritmatika (5-shot) untuk mengevaluasi kemampuan aritmatika model, dan GSM8K (4-shot) dan MATH (4-shot) untuk mengevaluasi kemampuan matematika umum model. Hasil penilaian adalah sebagai berikut:

我们发现，MindLLM-3B在数学能力上的平均分数达到了16.01，超过了MOSS-Base-16B(15.71)和MPT-7B(13.42)，GPT-J-6B(13.15)。此外MindLLM-1.3B的数学平均水平也超过了相同大小的GPT-Neo-1.3B。以上结果表明，轻量级模型在数学上有着巨大的潜力，较小的模型也可以在具体领域表现出超越或者与更大模型相当的水平。进一步，我们可以看到数学能力较为出色的(均分≥15) , kecuali MindLLM-3B, semua model sekitar 7B. Hal ini menunjukkan bahwa akuisisi penuh kemampuan kompleks seperti kemampuan matematika dapat dibatasi oleh ukuran model, dan spekulasi ini dapat lebih lanjut tercermin dalam evaluasi bilingualisme model dan kemampuan penalaran.

(2) Penalaran

Kami menggunakan HellaSwag dan WinoGrande untuk mengevaluasi kemampuan penalaran bahasa model (5-shot), LogiQA untuk mengevaluasi kemampuan penalaran logis model (5-shot), PubMedQA, PIQA, dan MathQA untuk mengevaluasi kemampuan penalaran pengetahuan model (5-shot), dan BBH untuk mengevaluasi kemampuan penalaran komprehensif model (3-shot). Hasil penilaian khusus adalah sebagai berikut:

Pertama, di bawah kondisi kapasitas model yang terbatas, perolehan kemampuan yang dibawa oleh bilingualisme mungkin perlu diimbangi dengan konsumsi kapasitas model oleh pembelajaran bahasa. Pembelajaran bahasa dapat menempati bagian dari kapasitas model, sehingga memungkinkan untuk memperoleh kemampuan kompleks seperti kemampuan penalaran. Misalnya, MindLLM-1.3B lebih baik daripada GPT-Neo-1.3B dalam hal indikator evaluasi MMLU bahasa Inggris, tetapi lebih lemah daripada yang terakhir dalam hal kemampuan penalaran rata-rata (35,61 vs 38,95). Keterampilan penalaran Blooms tidak terlalu baik, tetapi bilingualisme dalam penilaian tindak lanjut sangat baik, yang juga mengkonfirmasi poin di atas sampai batas tertentu. Misalnya, kinerja inferensi Open-LLaMA-3B sebanding dengan model yang lebih besar, dan data pra-latihnya adalah 1TBB, yang melebihi data pra-terlatih yang digunakan oleh model lain dengan ukuran yang sama. Akibatnya, model yang lebih kecil masih memiliki potensi untuk mencapai kinerja yang sebanding dalam hal kekuatan inferensi sebagai model yang lebih besar. Selain itu, kami menemukan bahwa tingkat inferensi MOSS tampaknya tidak berkinerja lebih baik daripada perolehan dari pembelajaran data kode sebelumnya (MOSS terus berlatih di CodeGen), tetapi pekerjaan terkait menunjukkan bahwa kode tersebut memang bermanfaat bagi peningkatan kemampuan inferensi model, jadi bagaimana dan kapan data kode ditambahkan ke pelatihan untuk meningkatkan kemampuan inferensi model patut didiskusikan lebih lanjut.

(3) Bilingualisme

Kami menggunakan bagian zh-en dari Flores-101 (8-shot) untuk menilai keselarasan model bilingual atau multibahasa dalam bahasa Cina dan Inggris. Kami menyertakan Chinese-LLaMA-2-7B, model untuk adaptasi domain Tionghoa berdasarkan LLaMA-2-7B. Hasilnya adalah sebagai berikut:

Kami menemukan bahwa model tersebut berkinerja buruk dalam terjemahan Bahasa Inggris ke Bahasa Cina Tradisional, terutama karena data pra-terlatih menyumbang sebagian kecil dari bahasa Cina Tradisional. Selain itu, hanya Blooms dan MindLLM-3B yang unggul dalam penyelarasan bahasa dua arah Cina-ke-Inggris dan Inggris-ke-Cina, diikuti oleh LLaMA-2-7B dan MOSS-Base-16B. LLaMA-7B dan Open-LLaMA-7B hanya dapat diselaraskan dalam bahasa Cina ke Inggris. Dikombinasikan dengan data pra-pelatihan model, dapat dilihat bahwa data pra-pelatihan Blooms dan MindLLM-3B memiliki proporsi bahasa Mandarin dan Inggris yang seimbang, sedangkan proporsi data bahasa Mandarin di LLaMA-2-7B jauh lebih rendah daripada bahasa Inggris, dan proporsi bahasa Mandarin dalam data pra-pelatihan LLaMA-7B dan Open-LLaMA-7B bahkan lebih sedikit.

Oleh karena itu, kami memiliki dua kesimpulan, satu adalah bahwa model dapat mempelajari representasi bahasa melalui sejumlah besar pelatihan pada satu bahasa, dan pada saat yang sama dapat dipahami dan selaras searah dengan mencampur sejumlah kecil bahasa lain, seperti kinerja LLaMA-7B dan Open-LLaMA-7B. Yang kedua adalah bahwa jika penyelarasan bilingual atau multibahasa yang lebih baik diperlukan, proporsi data bilingual atau multibahasa yang seimbang, seperti Blooms dan MindLLM-3B, diperlukan pada awal pra-pelatihan. Selanjutnya, kami menemukan bahwa MOSS-Base-16B dan Chinese-LLaMA-2-7B memiliki proporsi data Cina dan Inggris yang masuk akal, dan single masih tidak menunjukkan keselarasan dua arah, dan hipotesis kami adalah bahwa sulit untuk menambahkan kemampuan penyelarasan bilingual selama pelatihan migrasi, karena model saat ini sudah memiliki banyak pengetahuan, yang akan menghasilkan kontradiksi dalam kasus kapasitas kecil. Ini juga menjelaskan fakta bahwa MindLLM-1.3B, yang memiliki kapasitas lebih kecil dan sejumlah kecil data pada tahap awal pelatihan monolingual, belum memperoleh kemampuan penyelarasan bilingual. Baichuan 2-7B, di sisi lain, sangat bagus dalam aspek lain, dan dapat menempati kapasitas besar dan tidak dapat mempelajari penyelarasan dua arah yang baik.

(4) Ringkasan

Dengan mengevaluasi hasil fase pra-pelatihan, kami memiliki dua kesimpulan berikut:

Model ringan memiliki potensi besar untuk melampaui atau mencapai tingkat model yang lebih besar dalam domain atau kemampuan tertentu.
Untuk model dengan kapasitas terbatas (≤7B), kami dapat mengalokasikan proporsi data secara wajar dalam data pra-pelatihan sesuai dengan persyaratan kemampuan khusus dari tugas hilir, yang kondusif bagi model untuk mempelajari dan memperoleh kemampuan target dari awal, dan untuk mengintegrasikan dan mempromosikan pengetahuan dan kemampuan yang berbeda.

Selain itu, makalah ini juga membandingkan efek mempertahankan distribusi data yang seragam pada kinerja pra-pelatihan model, dan hasil eksperimen menunjukkan bahwa metode konstruksi data dari pembelajaran kursus serupa dapat melakukan hal yang sama dengan model yang dilatih pada tahap awal dan metode konstruksi data yang dicampur secara merata, tetapi pada akhirnya dapat menyebabkan bencana lupa dan penurunan kinerja yang tiba-tiba, sementara kinerja yang terakhir lebih konsisten dan stabil, dan pengetahuan tentang data pra-pelatihan yang diperoleh lebih komprehensif, yang juga mendukung kesimpulan kedua di atas. Selain itu, kami menemukan bahwa cara di mana data dibangun dalam kursus yang sama dapat menghasilkan lebih banyak distribusi data yang kondusif untuk meningkatkan kemampuan belajar kontekstual model. Rincian dapat ditemukan di bagian 4.5 dari makalah.

Instruksi Fine-tuning

Kami ingin mengeksplorasi bagaimana instruksi fine-tuning dapat bekerja pada model ringan dengan berbagai jenis dataset. Tabel berikut adalah himpunan data penyetelan instruksi yang kami gunakan, termasuk himpunan data MingLi Tionghoa yang direkonstruksi, himpunan data publik Tulu (Inggris), dan himpunan data dwibahasa Tionghoa-Inggris MOSS.

** Untuk MindLLM, kualitas data untuk instruksi fine-tuning lebih penting daripada kuantitas data. **

Kinerja model MindLLM-1.3B dan MindLLM-3B pada C- setelah instruksi fine-tuning di bawah data yang berbeda adalah sebagai berikut. Menurut hasil eksperimen, kinerja model yang dilatih dengan 50.000 dataset fine-tuning instruksi yang dipilih dengan cermat lebih tinggi daripada dataset fine-tuning instruksi dengan keragaman tinggi dan volume data besar. Demikian pula, model menunjukkan kinerja yang sama pada indikator MMLU bahasa Inggris (lihat Tabel 14 untuk detailnya). Oleh karena itu, untuk model yang ringan, sangat penting untuk menentukan dan memfilter set data fine-tuning instruksi berkualitas tinggi.

** Fine-tuning strategi penyaringan data berdasarkan entropi data **

Bagaimana Anda mendefinisikan data fine-tuning instruksi berkualitas tinggi? Beberapa sarjana telah mengusulkan bahwa keragaman data fine-tuning instruksi dapat mewakili kualitas data dataset fine-tuning instruksi. Namun, menurut percobaan kami, entropi data dan panjang data instruksi fine-tuning akan lebih mempengaruhi kinerja model ringan. Kami mendefinisikan hilangnya entropi silang dari setiap bagian data pada model pra-terlatih sebagai entropi data data, dan mengelompokkan data sesuai dengan entropi data oleh algoritma K-Means untuk mendapatkan cluster data yang berbeda. Hasil MindLLM setelah menyempurnakan instruksi dari setiap cluster data dan kemudian C- ditunjukkan pada tabel berikut (lihat Tabel 19 untuk rincian hasil MMLU):

Menurut hasil dalam tabel, kinerja MindLLM-1.3B dan MindLLM-3B pada cluster data yang berbeda berbeda secara signifikan. Selanjutnya, kami menganalisis hubungan antara entropi data dan akurasi model pada C- dan MMLU dan pemasangan fungsi, seperti yang ditunjukkan pada gambar:

Titik pentagram merah pada gambar adalah entropi dari model pra-terlatih. Menurut analisis, ketika entropi data 1-1,5 lebih tinggi dari entropi model pra-terlatih, model memiliki kinerja terbaik setelah menyempurnakan instruksi data dalam interval ini. Oleh karena itu, kami mendefinisikan data berkualitas tinggi dengan entropi data dan mengusulkan metode untuk menyaring data berkualitas tinggi.

MindLLM dapat menyempurnakan dataset melalui instruksi yang ditentukan untuk mendapatkan kemampuan tertentu

Untuk mengeksplorasi apakah MindLLM dapat secara efektif meningkatkan kemampuan spesifiknya melalui penyempurnaan instruksi, kami menggunakan bagian data ujian dari kumpulan data 10.000 volume untuk menyempurnakan model, untuk meningkatkan kemampuan pengetahuan subjek model. Kami melakukan evaluasi terhadap C-, dan hasilnya adalah sebagai berikut:

Dapat dilihat bahwa setelah instruksi fine-tuning, model ini telah sangat meningkatkan kemampuan pengetahuan subjeknya, dan kinerja 1.3B MindLLM bahkan melebihi model yang lebih besar seperti ChatGLM-6B dan Chinese-Alpaca-33B. Oleh karena itu, kami percaya bahwa MindLLM dapat meningkatkan kemampuan spesifiknya setelah instruksi penyempurnaan, dan karena karakteristiknya yang ringan, ini lebih cocok untuk penyebaran dalam tugas vertikal hilir.

Aplikasi Lapangan

Untuk menunjukkan efek penerapan model kecil di bidang tertentu, kami menggunakan dua set data publik di bidang keuangan dan hukum untuk memverifikasinya. Dari hasil, dapat diamati bahwa ukuran parameter model memiliki dampak tertentu pada kinerja domain, tetapi kinerjanya tidak jelas. Kinerja MindLLM mengungguli model lain dengan ukuran yang sebanding dalam aplikasi lapangan dan sebanding dengan model yang lebih besar. Lebih lanjut membuktikan bahwa model kecil memiliki potensi besar di bidang aplikasi.

Sektor Keuangan

Di bidang ini, tugas klasifikasi persepsi emosi dilakukan pada data keuangan. Pertama, kami merayapi data dari 13 Mei 2011 hingga 31 Agustus 2023 dari Oriental Fortune dan menandai data berdasarkan fluktuasi harga saham berikut. Selanjutnya, data dibagi menjadi set pelatihan dan tes berdasarkan tanggal. Mempertimbangkan ketidakseimbangan kategori, kami mengambil sampel data dan akhirnya menggunakan 320.000 lembar data sebagai set pelatihan dan 20.000 lembar data sebagai set tes.

Kami menggunakan dua metode pelatihan yang berbeda untuk membandingkan performa model yang berbeda. Pertama, hanya simple supervised fine-tuning (SFT) yang digunakan untuk mengklasifikasikan teks. Kedua, data proses inferensi disaring dari ChatGPT dan ditambahkan ke pelatihan sebagai data tambahan, menggunakan metode pelatihan COT (Chain-Of-Thought).

Hasil eksperimen menunjukkan bahwa efek dari semua model dasar dan model MindLLM dapat ditingkatkan ke berbagai tingkat dengan melengkapi informasi tambahan. Dapat diamati lebih lanjut bahwa kinerja MindLLM-1.3B dan 3B meningkat masing-masing sebesar 27.81% dan 26.28% dibandingkan dengan kinerja pelatihan SFT oleh pelatihan COT, dan MindLLM lebih meningkat secara signifikan daripada model lain kecuali Baichuan-7B. Selain itu, MindLLM-1.3B dan 3B mencapai kinerja terbaik pada skala yang sama dan mengungguli ChatGLM2-6B dan Open-LLaMA-7B.

BIDANG HUKUM

Kami mengumpulkan beberapa data hukum yang tersedia untuk umum dan menggabungkannya dengan beberapa data arahan umum untuk Directive Fine-Tuning (SFT) MindLLM. Untuk mengeksplorasi bagaimana panjang token data mempengaruhi kinerja model pada domain tertentu, kami menggunakan data dengan panjang data yang berbeda untuk melatih MindLLM secara terpisah. Pertama-tama kami menyaring semua data dengan panjang kurang dari 450, dan kemudian menggunakan tokenizer MindLLM-1.3B dan MindLLM-3B untuk memfilter data masing-masing antara 200-300 dan 300-450. Tabel berikut mencantumkan statistik dan model pelatihan terkait:

Untuk menghindari kesalahan yang disebabkan oleh bias dan kurangnya keahlian dalam evaluasi manusia, kami menggunakan ChatGPT sebagai evaluator dengan cara berikut. Kumpulan data beberapa putaran percakapan konsultasi hukum yang dihasilkan oleh ChatGPT, 100 di antaranya diekstraksi sebagai data evaluasi kami. Kami menggunakan ChatGPT untuk mengevaluasi tanggapan model terhadap nasihat hukum, membiarkan ChatGPT memberi peringkat tanggapan model, lalu menghitung skor Elo berdasarkan hasil peringkat. Akhirnya, salah satu model terbaik dipilih untuk membandingkan MindLLM-Law dengan model open source lainnya.

Untuk Bloom, model GPT-Neo dan Open-LLaMA disempurnakan menggunakan dataset yang sama dengan MindLLM-Law, dan hasil perbandingannya adalah sebagai berikut:

Hasilnya menunjukkan bahwa MindLLM-Law belum melampaui model dengan parameter 13B dan ChatGLM2-6B, terutama karena kurangnya data dalam fase pra-pelatihan hukum untuk membawa keuntungan yang lebih besar. Namun, MindLLM memiliki keunggulan keseluruhan yang jelas dibandingkan Baichuan2-7B-Chat, Open-LLaMA-7B yang disetel dengan baik, dan model lain dengan ukuran yang sama.

Ringkasan

Artikel ini memperkenalkan keluarga model MindLLM, yang saat ini mencakup dua model bahasa besar yang ringan. Kami membahas proses pelatihan mereka secara rinci, termasuk pemrosesan data, pra-pelatihan, penyempurnaan, dan aplikasi domain, dan berbagi pengalaman berharga dan aplikasi teknis yang terakumulasi di bidang ini. Meskipun ukuran parameternya relatif kecil, MindLLM telah berkinerja baik dalam beberapa tes kinerja, bahkan mengungguli beberapa model yang lebih besar dalam beberapa hal. MindLLM menunjukkan kinerja yang unggul dibandingkan model ringan lainnya dalam hal adaptasi domain. Pada saat yang sama, mereka dapat mencapai hasil yang sebanding dengan kecepatan pelatihan yang lebih cepat dan sumber daya pelatihan yang lebih sedikit daripada model yang lebih besar. Berdasarkan analisis di atas, kami percaya bahwa model kecil masih memiliki potensi besar. Kami akan lebih meningkatkan kualitas data, mengoptimalkan proses pelatihan model, dan skala model untuk meningkatkan kinerja MindLLM secara multi-dimensi. Di masa depan, kami berencana untuk bereksperimen dalam lebih banyak tugas hilir dan domain tertentu untuk mencapai aplikasi spesifik yang lebih mendalam dari model besar yang ringan.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

2 Suka

Hadiah
2
Komentar
Bagikan

Komentar

0/400

Tidak ada komentar

Topik
1/3
1Show My Alpha Points
12k Popularitas
2Crypto Market Rebound
165k Popularitas
3SEC Crypto Project
20k Popularitas
4CandyDrop Airdrop Event 6.0
99k Popularitas
5White House Crypto Report
82k Popularitas

Sematkan

peta situs