1 perintah + 5 dolar + 20 menit, Anda dapat melatih model profesional kecil, _2Model untuk belajar

2023-08-31 06:31:53

Peneliti CMU dan Tsinghua bersama-sama merilis kerangka kerja 2Model, yang dapat dengan cepat melatih model profesional kecil berdasarkan informasi yang diberikan pengguna. Hanya dengan berinvestasi $5 untuk pengumpulan data dan 20 menit waktu pelatihan, Anda bisa mendapatkan model kecil yang berperforma 20% lebih baik daripada rata-rata ChatGPT, sekaligus mengurangi ukuran parameter model sebanyak 700 kali lipat.

Sumber gambar: Dihasilkan oleh AI Tanpa Batas

Model bahasa skala besar (LLM) memungkinkan pengguna membangun sistem pemrosesan bahasa alami yang kuat dengan bantuan petunjuk dan pembelajaran kontekstual. Namun, dari perspektif lain, kinerja LLM pada tugas pemrosesan bahasa alami tertentu mengalami regresi tertentu: penerapan model ini memerlukan sumber daya komputasi dalam jumlah besar, dan interaksi dengan model melalui API dapat menyebabkan potensi masalah privasi.

Untuk mengatasi masalah tersebut, peneliti dari Carnegie Mellon University (CMU) dan Tsinghua University bersama-sama meluncurkan kerangka 2Model. Tujuan dari kerangka kerja ini adalah untuk menggabungkan metode pembuatan dan pengambilan data berbasis LLM untuk mengatasi tantangan di atas. Dengan menggunakan kerangka 2Model, pengguna dapat secara otomatis mengumpulkan data dan secara efisien melatih model kecil yang terspesialisasi untuk tugas tertentu hanya dengan memberikan petunjuk yang sama seperti LLM.

Para peneliti melakukan percobaan pada tiga subtugas pemrosesan bahasa alami. Dengan menggunakan sejumlah kecil contoh perintah sebagai masukan, hanya menghabiskan $5 untuk mengumpulkan data dan pelatihan selama 20 menit, model yang dihasilkan oleh kerangka kerja 2Model menunjukkan peningkatan kinerja sebesar 20% dibandingkan dengan model LLM gpt-3.5-turbo yang canggih. Pada saat yang sama, ukuran model dikurangi hingga 700 kali lipat. Para peneliti selanjutnya memverifikasi dampak data ini terhadap kinerja model dalam skenario nyata, sehingga memungkinkan pengembang model memperkirakan keandalan model sebelum penerapan. Kerangka kerja ini sudah tersedia sebagai open source:

* Alamat repositori GitHub dari kerangka kerja:

Tautan video demonstrasi kerangka kerja:
Tautan ke makalah terkait kerangka kerja:

latar belakang

Membangun sistem dari awal untuk tugas NLP tertentu biasanya cukup rumit. Pembangun sistem perlu mendefinisikan dengan jelas ruang lingkup tugas, memperoleh kumpulan data spesifik, memilih arsitektur model yang sesuai, melatih dan mengevaluasi model, dan kemudian menerapkannya untuk aplikasi praktis.

Model bahasa skala besar (LLM) seperti GPT-3 memberikan solusi yang lebih sederhana untuk proses ini. Pengguna hanya perlu memberikan petunjuk tugas (instruksi) dan beberapa contoh (contoh), dan LLM dapat menghasilkan keluaran teks yang sesuai. Namun, menghasilkan teks dari petunjuk memerlukan komputasi yang intensif, dan penggunaan petunjuk kurang stabil dibandingkan model yang dilatih secara khusus. Selain itu, kegunaan LLM dibatasi oleh biaya, kecepatan, dan privasi.

Untuk mengatasi permasalahan tersebut, peneliti mengembangkan framework 2Model. Kerangka kerja ini menggabungkan pembuatan data berbasis LLM dengan teknik pengambilan untuk mengatasi keterbatasan yang disebutkan di atas. Sistem pertama-tama mengekstrak informasi penting darinya, kemudian menghasilkan dan mengambil data pelatihan, dan akhirnya menghasilkan model khusus yang siap untuk diterapkan.

Kerangka kerja 2Model mengotomatiskan langkah-langkah inti berikut:

Pengambilan kumpulan data dan model: Kumpulkan kumpulan data yang relevan dan model terlatih.
Pembuatan Kumpulan Data: Memanfaatkan LLM untuk membuat kumpulan data berlabel semu.
Penyempurnaan model: Menyempurnakan model dengan menggabungkan data yang diambil dan data yang dihasilkan.
Pengujian model: Menguji model pada kumpulan data pengujian dan kumpulan data nyata yang disediakan oleh pengguna.

Setelah evaluasi empiris pada beberapa tugas berbeda, biaya 2Model berkurang secara signifikan, dan ukuran model juga berkurang secara signifikan, namun kinerjanya melebihi gpt-3.5-turbo. Kerangka kerja 2Model dapat digunakan tidak hanya sebagai alat untuk membangun sistem pemrosesan bahasa alami secara efisien, tetapi juga sebagai platform untuk mengeksplorasi teknik pelatihan ansambel model.

Kerangka

Fitur inti kerangka 2Model adalah otomatisasi tingkat tinggi. Prosesnya mencakup berbagai tautan seperti pengumpulan data, pelatihan model, evaluasi, dan penerapan, seperti yang ditunjukkan pada gambar di atas. Diantaranya, sistem pengumpulan data otomatis memainkan peran kunci, yang memperoleh data yang berkaitan erat dengan kebutuhan pengguna melalui pengambilan dataset dan pembuatan data berbasis LLM. Selanjutnya, sistem mengambil model yang telah dilatih sebelumnya dan menyempurnakannya pada kumpulan data yang diperoleh. Terakhir, sistem mengevaluasi model yang dilatih pada set pengujian dan membuat antarmuka pengguna web (UI) untuk berinteraksi dengan model.

Fitur utama kerangka 2Model meliputi:

Pengemudi: Ide inti 2Model adalah menggunakannya sebagai driver, pengguna dapat langsung mendeskripsikan tugas yang diperlukan tanpa masuk ke detail implementasi spesifik pembelajaran mesin.
Pengumpulan data otomatis: Kerangka kerja ini menggunakan teknologi pengambilan dan pembuatan kumpulan data untuk mendapatkan data yang sangat sesuai dengan tugas pengguna, sehingga menetapkan kumpulan data yang diperlukan untuk pelatihan.
Model yang telah dilatih sebelumnya: Kerangka kerja ini menggunakan model yang telah dilatih sebelumnya dan menyempurnakannya, sehingga menghemat banyak biaya dan waktu pelatihan.
Evaluasi efek: 2Model mendukung pengujian dan evaluasi model pada kumpulan data aktual, memungkinkan prediksi awal dan evaluasi kinerja sebelum menerapkan model, sehingga meningkatkan keandalan model.

Karakteristik ini menjadikan kerangka 2Model alat yang ampuh untuk menyelesaikan proses konstruksi sistem pemrosesan bahasa alami secara efisien dan menyediakan fungsi tingkat lanjut, seperti pengumpulan data otomatis, evaluasi model, dan pembuatan antarmuka pengguna.

Eksperimen dan Hasil

Dalam hal desain eksperimental, peneliti memilih tiga tugas berbeda untuk mengevaluasi kinerja sistem 2Model:

QA Pembacaan Mesin: Gunakan SQuAD sebagai kumpulan data evaluasi aktual.
Konversi NL-ke-Kode Jepang (NL-ke-Kode Jepang): Gunakan MCoNaLa sebagai kumpulan data evaluasi aktual.
Normalisasi Ekspresi Temporal: Gunakan kumpulan data Temporal sebagai kumpulan data evaluasi aktual.

Selain itu, peneliti juga memilih GPT-3.5-turbo sebagai model benchmark untuk perbandingan. Hasil percobaan menghasilkan kesimpulan sebagai berikut:

Dalam semua tugas kecuali tugas pembuatan kode, model yang dihasilkan oleh sistem 2Model secara signifikan lebih baik dibandingkan model dasar GPT-3.5-turbo, meskipun skala parameter model yang dihasilkan jauh lebih kecil dibandingkan dengan GPT-3.5-turbo.
Dengan menggabungkan kumpulan data yang diambil dengan kumpulan data yang dihasilkan untuk pelatihan, efek yang sebanding dengan pelatihan dapat dicapai secara langsung dengan kumpulan data sebenarnya. Hal ini memverifikasi bahwa kerangka 2Model dapat sangat mengurangi biaya anotasi manual.
Kumpulan data pengujian yang dihasilkan oleh generator data dapat secara efektif membedakan performa berbagai model pada kumpulan data sebenarnya. Hal ini menunjukkan bahwa data yang dihasilkan berkualitas tinggi dan memiliki pengaruh yang cukup dalam hal pelatihan model.
Pada tugas konversi bahasa Jepang ke kode, kinerja sistem 2Model lebih buruk daripada GPT-3.5-turbo.

Hal ini mungkin disebabkan oleh rendahnya kualitas kumpulan data yang dihasilkan, kurangnya model terlatih yang tepat, dll.

Secara keseluruhan, sistem 2Model berhasil menghasilkan model kecil berkualitas tinggi pada banyak tugas, sehingga sangat mengurangi kebutuhan anotasi data secara manual. Namun, perbaikan lebih lanjut masih diperlukan pada beberapa tugas.

Ringkasan

Kerangka kerja 2Model yang diperkenalkan oleh tim peneliti memungkinkan konstruksi otomatis model tugas spesifik hanya melalui isyarat bahasa alami. Inovasi ini secara signifikan menurunkan ambang batas untuk membangun model pemrosesan bahasa alami yang disesuaikan dan semakin memperluas jangkauan penerapan teknologi NLP.

Hasil eksperimen verifikasi menunjukkan bahwa model yang dihasilkan oleh framework 2Model secara signifikan lebih kecil dibandingkan model bahasa besar, dan performanya mengungguli model seperti GPT-3.5-turbo dalam beberapa tugas. Pada saat yang sama, kumpulan data evaluasi yang dihasilkan oleh kerangka kerja ini juga telah terbukti efektif dalam mengevaluasi kinerja berbagai model pada kumpulan data nyata. Hal ini memberikan nilai signifikan dalam memandu penerapan akhir model.

Kerangka kerja 2Model menyediakan pendekatan berbiaya rendah dan mudah digunakan bagi industri dan berbagai pengguna untuk mendapatkan model NLP yang memenuhi kebutuhan spesifik. Hal ini sangat penting untuk mempromosikan penerapan teknologi NLP secara luas. Pekerjaan di masa depan akan terus fokus pada optimalisasi lebih lanjut kinerja kerangka kerja tersebut.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

Hadiah
suka
Komentar
Bagikan

Komentar

0/400

Tidak ada komentar

Topik
ETH Breaks $3600
38147 Popularitas
Gate Derivatives Volume Hits New High
18876 Popularitas
CPI Data Incoming
61488 Popularitas
4Join Gate VIP to Win MacBook
30310 Popularitas
5MicroStrategy Buys More Bitcoin
3277 Popularitas
6BTC Hits New High
96943 Popularitas
7My Gate Moments
28283 Popularitas
8VIP Exclusive Airdrop Carnival
26811 Popularitas
9Fed June Meeting Minutes
6500 Popularitas
10Trump Tariff Hikes
17611 Popularitas

Sematkan

peta situs