Perusahaan pengembangan model besar AI, MosaicML baru-baru ini merilis model bahasa besar sumber terbuka MPT-30B baru yang tersedia secara komersial, dengan 30 miliar parameter, yang secara signifikan lebih kuat daripada model bahasa MPT-7B generasi sebelumnya (7 miliar parameter), dan kinerjanya adalah lebih baik dari GPT-3.
Sumber gambar: Dihasilkan oleh AI Tak Terbatas
Selain itu, mereka merilis dua model yang disetel dengan baik: MPT-30B-Instruct dan MPT-30B-Chat, yang dibangun di atas MPT-30B dan masing-masing bagus dalam pelacakan instruksi satu putaran dan dialog multi-putaran.
Fitur model MPT-30B:
Jendela konteks token 8k selama pelatihan
Dukungan untuk konteks yang lebih panjang melalui ALiBi
Mencapai kinerja inferensi + pelatihan yang efisien melalui FlashAttention
Seri MPT-30B juga memiliki kemampuan pengkodean yang kuat karena campuran data yang telah dilatih sebelumnya.
Model ini telah diperluas ke jendela konteks token 8k di NVIDIA H100, menjadikannya LLM pertama yang dilatih di H100.
MPT-30B lebih kuat dari GPT-3?
MPT-30B adalah model basis open source berlisensi Apache 2.0 komersial yang lebih kuat dari GPT-3 asli dan bersaing dengan model open source lainnya seperti LLaMa-30B dan Falcon-40B.
(Atas) Akurasi zero-shot MPT-30B versus GPT-3 pada sembilan tugas pembelajaran kontekstual (ICL). MPT-30B mengungguli GPT-3 pada enam dari sembilan metrik.
MosaicML melatih MPT-30B selama 2 bulan, menggunakan klaster GPU Nvidia H100 untuk pelatihan.
Seperti yang ditunjukkan pada gambar di bawah ini, data pelatihan MPT-30B:
MPT-30B dilatih sebelumnya dengan pencampuran data, dan token data prapelatihan 1T dikumpulkan dari 10 kumpulan teks sumber terbuka yang berbeda, dan teks disegmentasi menggunakan tokenizer EleutherAI GPT-NeoX-20B, dan diambil sampelnya sesuai dengan rasio di atas .
Perbandingan MPT-7B dan MPT-30B
Biaya Pelatihan MPT-30B
Naveen Rao, CEO dan salah satu pendiri MosaicML, mengatakan bahwa biaya pelatihan MPT-30B adalah 700.000 dolar AS (sekitar 5,0244 juta yuan), yang jauh lebih rendah daripada puluhan juta dolar yang dibutuhkan untuk produk serupa seperti GPT- 3. .
Berapa banyak waktu dan uang yang diperlukan untuk melatih model MPT-30B khusus? Mari kita mulai dengan model dasarnya.
Gambar di atas menunjukkan waktu dan biaya prapelatihan MPT-30B dari awal menggunakan GPU A100 atau H100. Dengan infrastruktur MosaicML, Anda dapat melatih MPT-30B kustom Anda sendiri dari awal dengan token 1T dalam 2 minggu.
Bagaimana jika Anda tidak ingin berlatih dari awal, tetapi menyempurnakan model yang sudah ada?
Gambar di bawah merinci waktu dan biaya fine-tuning MPT-30B untuk setiap token 1B. Dengan infrastruktur MosaicML, Anda dapat sepenuhnya menyempurnakan model MPT-30B Anda tanpa mengkhawatirkan batasan memori sistem, dan hanya dengan beberapa ratus dolar!
MosaicML mengatakan bahwa memperluas model menjadi 30 miliar parameter hanyalah langkah pertama, dan kemudian mereka akan meluncurkan model yang lebih besar dan berkualitas lebih tinggi dengan tujuan mengurangi biaya.
Referensi:
Lihat Asli
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Open source dan tersedia secara komersial, biaya 30 miliar parameter model besar MPT-30B hanya sebagian kecil dari GPT-3
Perusahaan pengembangan model besar AI, MosaicML baru-baru ini merilis model bahasa besar sumber terbuka MPT-30B baru yang tersedia secara komersial, dengan 30 miliar parameter, yang secara signifikan lebih kuat daripada model bahasa MPT-7B generasi sebelumnya (7 miliar parameter), dan kinerjanya adalah lebih baik dari GPT-3.
Selain itu, mereka merilis dua model yang disetel dengan baik: MPT-30B-Instruct dan MPT-30B-Chat, yang dibangun di atas MPT-30B dan masing-masing bagus dalam pelacakan instruksi satu putaran dan dialog multi-putaran.
Fitur model MPT-30B:
Model ini telah diperluas ke jendela konteks token 8k di NVIDIA H100, menjadikannya LLM pertama yang dilatih di H100.
MPT-30B lebih kuat dari GPT-3?
MPT-30B adalah model basis open source berlisensi Apache 2.0 komersial yang lebih kuat dari GPT-3 asli dan bersaing dengan model open source lainnya seperti LLaMa-30B dan Falcon-40B.
MosaicML melatih MPT-30B selama 2 bulan, menggunakan klaster GPU Nvidia H100 untuk pelatihan.
Seperti yang ditunjukkan pada gambar di bawah ini, data pelatihan MPT-30B:
Biaya Pelatihan MPT-30B
Naveen Rao, CEO dan salah satu pendiri MosaicML, mengatakan bahwa biaya pelatihan MPT-30B adalah 700.000 dolar AS (sekitar 5,0244 juta yuan), yang jauh lebih rendah daripada puluhan juta dolar yang dibutuhkan untuk produk serupa seperti GPT- 3. .
Berapa banyak waktu dan uang yang diperlukan untuk melatih model MPT-30B khusus? Mari kita mulai dengan model dasarnya.
Bagaimana jika Anda tidak ingin berlatih dari awal, tetapi menyempurnakan model yang sudah ada?
Gambar di bawah merinci waktu dan biaya fine-tuning MPT-30B untuk setiap token 1B. Dengan infrastruktur MosaicML, Anda dapat sepenuhnya menyempurnakan model MPT-30B Anda tanpa mengkhawatirkan batasan memori sistem, dan hanya dengan beberapa ratus dolar!
Referensi: