Pelatihan setengah hari dengan anggaran 1.000 yuan, efeknya sebanding dengan model besar mainstream, open source, dan LLaMA-2 China yang tersedia secara komersial

2023-09-25 05:56:51

Sumber gambar: Dihasilkan oleh AI Tanpa Batas

Dibandingkan dengan LLaMA-1, LLaMA-2 memperkenalkan lebih banyak korpus berkualitas tinggi, mencapai peningkatan kinerja yang signifikan, dan sepenuhnya diizinkan untuk penggunaan komersial, yang selanjutnya merangsang kemakmuran komunitas sumber terbuka dan memperluas imajinasi penerapan model skala besar. Namun, biaya pra-pelatihan model besar dari awal cukup tinggi, dan secara bercanda disebut "$50 juta untuk memasuki permainan", yang membuat banyak perusahaan dan pengembang patah semangat. Jadi bagaimana Anda membuat model besar Anda sendiri dengan biaya lebih rendah?

Sebagai pemimpin dalam mengurangi biaya dan meningkatkan efisiensi untuk model besar, tim Colossal-AI memanfaatkan sepenuhnya kemampuan dasar LLaMA-2 dan mengadopsi metode pelatihan yang efisien, hanya menggunakan sekitar 8,5 miliar data token, 15 jam, dan ribuan yuan dalam biaya pelatihan.**Berhasil membangun LLaMA-2 China dengan kinerja luar biasa, yang memiliki kinerja luar biasa dalam berbagai daftar evaluasi.

Dibandingkan dengan LLaMA-2 asli, atas dasar keberhasilan meningkatkan kemampuan bahasa Mandarin, ia semakin meningkatkan kemampuan bahasa Inggrisnya, dan kinerjanya sebanding dengan model SOTA terlatih berskala sama di komunitas sumber terbuka. Mengikuti prinsip open source yang konsisten dari tim Colossal-AI, ** seluruh proses pelatihan, kode, dan bobot sepenuhnya open source, tanpa batasan komersial, ** dan kerangka sistem evaluasi lengkap Colossal disediakan untuk mencapai biaya rendah reproduktifitas. Solusi terkait juga dapat ditransfer ke bidang vertikal mana pun dan dapat digunakan untuk membangun model terlatih berbiaya rendah dari awal.

Kode dan bobot sumber terbuka:

Pertunjukan

*Catatan: Berdasarkan skor Colossal, skor dalam tanda kurung berasal dari skor daftar resmi model terkait, dan skor C berasal dari Papan Peringkat situs resmi. *

Dalam daftar evaluasi umum berbahasa Mandarin dan Inggris, kita dapat melihat bahwa dalam daftar MMLU Inggris, basis Colossal-LLaMA-2-7B telah mengatasi masalah kelupaan yang parah dengan dukungan pra-pelatihan tambahan berbiaya rendah. 44,47 -> 53,06), kinerjanya sangat baik di antara semua model skala 7B.

Dalam daftar Tiongkok, CMMLU, AGI, GAOKAO dan C- sebagian besar dibandingkan, dan efeknya jauh melebihi model lokalisasi Tiongkok lainnya berdasarkan LLaMA-2. Bahkan dibandingkan dengan model terkenal lainnya yang menggunakan korpus Tiongkok dan mungkin memerlukan biaya puluhan juta dolar untuk pra-pelatihan dari awal, Colossal-LLaMA-2 masih berkinerja baik pada skala yang sama. Apalagi dibandingkan dengan LLaMA-2 asli, telah terjadi lompatan kualitatif dalam kemampuan bahasa Mandarin (CMMLU: 32.97 -> 49.89).

Namun, melalui penyempurnaan melalui SFT, LoRA, dan metode lainnya, pengetahuan dan kemampuan yang dapat disuntikkan secara efektif ke dalam model dasar sangat terbatas, dan tidak dapat memenuhi kebutuhan membangun pengetahuan domain atau aplikasi model vertikal berkualitas tinggi.

Untuk mengevaluasi performa model dengan lebih baik, tim Colossal-AI tidak hanya mengandalkan indikator kuantitatif, namun juga mengevaluasi berbagai aspek model secara manual. Berikut beberapa contohnya:

Dilihat dari rekor Kerugian seluruh pelatihan, sambil memanfaatkan kemampuan sistem Colossal-AI untuk mengurangi biaya dan meningkatkan efisiensi, konvergensi model juga dijamin sepenuhnya, dengan hanya sekitar 8,5 B token (8,5 miliar token) dan daya komputasi. biaya beberapa ribu yuan Biarkan model mencapai efek yang menakjubkan. Namun, model besar di pasar sering kali menggunakan triliunan token untuk pelatihan guna memastikan hasil yang efektif, dan hal ini sangat mahal.

Jadi bagaimana tim Colossal-AI mengurangi biaya pelatihan dan mencapai hasil seperti itu?

Perluasan kosakata dan inisialisasi model

Daftar kosakata asli LLaMA-2 tidak dioptimalkan secara khusus untuk bahasa Mandarin dan berisi kata-kata bahasa Mandarin yang terbatas, sehingga pemahaman tentang korpus bahasa Mandarin tidak memadai. Oleh karena itu, kosakata LLaMA-2 pertama kali diperluas.

Tim Colossal-AI menemukan:

Perluasan kosakata tidak hanya dapat secara efektif meningkatkan efisiensi pengkodean urutan string, tetapi juga membuat urutan pengkodean berisi informasi yang lebih efektif, yang akan lebih membantu dalam pengkodean dan pemahaman tingkat bab.
Namun, karena sedikitnya jumlah data pra-pelatihan tambahan, memperluas lebih banyak kata akan menyebabkan beberapa kata atau kombinasi tidak memiliki arti praktis, sehingga sulit untuk mempelajari sepenuhnya kumpulan data pra-pelatihan tambahan, sehingga memengaruhi efek akhir.
Kosakata yang terlalu banyak akan menyebabkan peningkatan parameter terkait penyematan, sehingga memengaruhi efisiensi pelatihan.

Oleh karena itu, setelah melakukan percobaan berulang kali dan mempertimbangkan kualitas serta efisiensi pelatihan, tim Colossal-AI akhirnya memutuskan untuk memperluas kosakata dari LLaMA-2 yang semula 32.000 menjadi 69.104.

Dengan perluasan kosakata, langkah selanjutnya adalah menginisialisasi penanaman kosakata baru berdasarkan LLaMA-2 asli. Untuk memigrasikan kemampuan asli LLaMA-2 dengan lebih baik dan mencapai migrasi cepat dari kemampuan LLaMA-2 asli ke LLaMA-2 Tiongkok, tim Colossal-AI menggunakan bobot LLaMA-2 asli untuk membuat rata-rata penyematan baru. inisialisasi. Hal ini tidak hanya memastikan bahwa kemampuan bahasa Inggris dari model yang baru diinisialisasi tidak terpengaruh pada keadaan awal, tetapi juga memungkinkan kemampuan bahasa Inggris untuk ditransfer ke bahasa Mandarin semulus mungkin.

Konstruksi Data

Untuk mengurangi biaya pelatihan secara lebih besar, data berkualitas tinggi memainkan peran penting, terutama untuk pra-pelatihan tambahan, yang memiliki persyaratan sangat tinggi terhadap kualitas dan distribusi data. Untuk menyaring data berkualitas tinggi dengan lebih baik, tim Colossal-AI telah membangun sistem dan perangkat pembersihan data lengkap untuk menyaring data berkualitas lebih tinggi untuk pra-pelatihan tambahan.

Gambar berikut menunjukkan proses lengkap tata kelola data tim Colossal-AI:

Selain pemfilteran heuristik umum dan deduplikasi data, ia juga melakukan penilaian, klasifikasi, dan pemfilteran pada data utama. Data yang tepat memainkan peran penting dalam menstimulasi kemampuan bahasa Mandarin LLaMA-2 sekaligus mengatasi bencana lupa dalam bahasa Inggris.

Terakhir, untuk meningkatkan efisiensi pelatihan, untuk data subjek yang sama, tim Colossal-AI mengurutkan panjang data dan menyambungkannya sesuai dengan panjang maksimum 4096.

Strategi Pelatihan

Pelatihan multi-tahap

Dalam hal pelatihan, mengingat karakteristik pra-pelatihan tambahan, tim Colossal-AI merancang rencana pra-pelatihan tambahan multi-tahap dan hierarkis, yang membagi proses pelatihan menjadi tiga tahap:

* Tahap pra-pelatihan skala besar: Tujuannya adalah untuk melatih model melalui sejumlah besar korpus sehingga model dapat menghasilkan teks yang relatif lancar. Tahap ini diselesaikan oleh LLaMA-2. Setelah tahap ini, model telah menguasai banyak pengetahuan bahasa Inggris dan dapat memberikan hasil yang lancar berdasarkan Prediksi Token Berikutnya.

Tahap injeksi pengetahuan bahasa Mandarin: Tahap ini mengandalkan pengetahuan bahasa Mandarin berkualitas tinggi, di satu sisi meningkatkan penguasaan model atas pengetahuan bahasa Mandarin, dan di sisi lain, meningkatkan pemahaman model terhadap kata-kata dalam kosakata bahasa Mandarin yang baru ditambahkan.
Tahap pemutaran pengetahuan yang relevan: Tahap ini didedikasikan untuk meningkatkan pemahaman model dan kemampuan generalisasi pengetahuan serta mengurangi masalah bencana lupa.

Berbagai tahapan tersebut saling melengkapi dan pada akhirnya memastikan bahwa kemampuan model dalam bahasa Mandarin dan Inggris berjalan seiring.

Pelatihan ember

Pra-pelatihan tambahan sangat sensitif terhadap distribusi data, dan keseimbangan sangatlah penting. Oleh karena itu, untuk memastikan distribusi data yang seimbang, tim Colossal-AI merancang strategi pengelompokan data untuk membagi jenis data yang sama ke dalam 10 wadah berbeda. Selama proses pelatihan, setiap keranjang data secara merata berisi bin dari setiap jenis data, sehingga memastikan bahwa setiap jenis data dapat dimanfaatkan secara merata oleh model.

Sistem Evaluasi

Untuk mengevaluasi kinerja model dengan lebih baik, tim Colossal-AI telah membangun sistem evaluasi lengkap - Colossal, dengan harapan dapat mengevaluasi model bahasa besar melalui berbagai dimensi. Kode kerangka proses sepenuhnya open source, yang tidak hanya mendukung reproduksi hasil, tetapi juga mendukung pengguna untuk menyesuaikan kumpulan data dan metode evaluasi sesuai dengan skenario aplikasi yang berbeda. Fitur kerangka penilaian dirangkum sebagai berikut:

Meliputi kumpulan data umum seperti MMLU, CMMLU, dll. untuk menilai kemampuan cadangan pengetahuan model bahasa besar. Untuk bentuk soal pilihan tunggal, selain metode perhitungan umum untuk membandingkan probabilitas ABCD, ditambahkan metode perhitungan yang lebih komprehensif, seperti pencocokan absolut, kebingungan pilihan tunggal, dll, agar dapat mengukur penguasaan model secara lebih komprehensif. pengetahuan. .
Mendukung penilaian pilihan ganda dan penilaian teks panjang.
Mendukung metode evaluasi untuk berbagai skenario aplikasi, seperti dialog multi-putaran, permainan peran, ekstraksi informasi, pembuatan konten, dll. Pengguna dapat secara selektif mengevaluasi kemampuan berbagai aspek model sesuai dengan kebutuhan mereka, dan mendukung perluasan metode penyesuaian dan evaluasi.

Membangun jembatan untuk migrasi dari model besar umum ke model besar vertikal

Dilihat dari pengalaman tim Colossal-AI, pembuatan model versi Tiongkok berdasarkan LLaMA-2 pada dasarnya dapat dibagi menjadi beberapa proses berikut:

Jadi bisakah solusi ini digunakan kembali?

Jawabannya adalah ya, dan ini sangat berarti dalam skenario implementasi bisnis.

Dengan gelombang kecerdasan buatan yang dipicu oleh ChatGPT, raksasa Internet besar, perusahaan AI, perusahaan rintisan, universitas, dan lembaga penelitian di seluruh dunia berlomba untuk mengembangkan model-model besar secara umum. Namun, dibalik kemampuan umum model besar secara umum seringkali terdapat kurangnya pengetahuan di bidang tertentu, sehingga dalam implementasi sebenarnya masalah ilusi model besar menjadi sangat serius. Meskipun penyempurnaan bisnis dapat mencapai keuntungan tertentu, kurangnya model vertikal yang besar menyebabkan hambatan kinerja dalam implementasi aplikasi. Jika model vertikal besar dapat dibangun dengan cepat dan berbiaya rendah, dan kemudian bisnis dapat disesuaikan berdasarkan model vertikal besar, kita pasti akan dapat mengambil langkah maju dalam implementasi bisnis dan meraih peluang serta keuntungan.

Dengan menerapkan proses di atas untuk mentransfer pengetahuan di bidang apa pun, Anda dapat membangun proses ringan untuk membangun model dasar vertikal besar di bidang apa pun dengan biaya rendah: **

Untuk pra-pelatihan dan membangun model besar dasar dari awal, kami juga dapat memanfaatkan pengalaman di atas dan kemampuan pengurangan biaya dan peningkatan efisiensi Colossal-AI untuk menyelesaikannya secara efisien dan dengan biaya terendah.

Optimasi Sistem

Keunggulan kinerja dan biaya luar biasa yang disebutkan di atas dari Colossal-LLaMA-2 dibangun di atas sistem pengembangan model besar AI berbiaya rendah Colossal-AI.

Colossal-AI didasarkan pada PyTorch, yang dapat mengurangi biaya pengembangan dan penerapan pelatihan/penyempurnaan/inferensi model besar AI, meningkatkan kinerja tugas model, dan mengurangi kebutuhan GPU melalui paralelisme multidimensi yang efisien, memori heterogen, dll. Hanya dalam waktu setahun, ia telah menerima lebih dari 30.000 Bintang GitHub di komunitas sumber terbuka GitHub, menduduki peringkat pertama di dunia dalam alat pengembangan model besar dan segmentasi komunitas, dan telah dikembangkan bersama dengan banyak produsen terkenal termasuk produsen terkemuka dunia. 500 perusahaan/ Optimalkan 100 miliar/10 miliar parameter untuk melakukan pra-pelatihan model besar atau membuat model vertikal.

Platform Cloud AI Kolosal

Untuk lebih meningkatkan efisiensi pengembangan dan penerapan model besar AI, Colossal-AI telah ditingkatkan lebih lanjut ke platform cloud Colossal-AI, yang memungkinkan pengguna untuk melatih, menyempurnakan, dan menerapkan model besar di cloud dengan biaya rendah. kode/tanpa kode dengan biaya rendah, dengan cepat mengintegrasikan berbagai model diintegrasikan ke dalam aplikasi yang dipersonalisasi.

Saat ini, model dan solusi utama seperti Difusi stabil dan LLaMA-2 telah diatur sebelumnya pada platform cloud Colossal-AI. Pengguna hanya perlu mengunggah data mereka sendiri untuk menyempurnakannya. Pada saat yang sama, mereka juga dapat menerapkan denda mereka. Model yang disetel sebagai API dengan harga terjangkau memungkinkan Anda menggunakan A10, A800, H800, dan sumber daya GPU lainnya tanpa harus memelihara cluster komputasi Anda sendiri dan berbagai infrastruktur. Lebih banyak skenario aplikasi, bidang berbeda, versi model berbeda, penerapan platform privatisasi perusahaan, dll. terus diulang.

Platform cloud AI kolosal: platform.luchentech.com
Dokumentasi platform cloud Colossal-AI:
Alamat sumber terbuka Colossal-AI:

Tautan referensi:

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

1 Suka

Hadiah
1
Komentar
Bagikan

Komentar

0/400

Tidak ada komentar

Topik
1/3
1Simple Earn Annual Rate 24.4%
37k Popularitas
2Gate Launchpad List IKA
38k Popularitas
3ETH Trading Volume Surges
40k Popularitas
4Gate ETH 10th Anniversary Celebration
22k Popularitas
5Trump’s AI Strategy
18k Popularitas

Sematkan

peta situs