Itu bisa dijalankan di ponsel, dengan 1 triliun data pelatihan! StableLM-3B-4E1T ada di sini

**Sumber: **Komunitas Terbuka AIGC

Pada tanggal 2 Oktober, Waktu Bagian Timur, platform sumber terbuka terkenal Stability.ai mengumumkan di situs resminya peluncuran model bahasa besar sumber terbuka StableLM-3B-4E1T. (Alamat sumber terbuka:

Dilaporkan bahwa Stable LM 3B adalah model bahasa besar dasar yang terutama digunakan untuk perangkat seluler seperti ponsel dan notebook, yang sangat mengurangi kebutuhan sumber daya komputasi sekaligus memastikan kinerja.

LM 3B stabil mendukung fungsi seperti pembuatan teks/kode, peringkasan ringkasan, penyesuaian data, penalaran akal sehat, dan penyelesaian masalah matematika. Panjang konteks global adalah 4096. (disebut sebagai "LM 3B Stabil")

Dengan popularitas ChatGPT, terjadi "ledakan pengembangan model besar" yang pesat di seluruh dunia. Namun, sebagian besar model memerlukan sumber daya komputasi dalam jumlah besar untuk dilatih dan disempurnakan terlebih dahulu, dan model tersebut juga memiliki persyaratan tinggi untuk lingkungan pengoperasian aplikasi AI generatif yang dikembangkan. Qualcomm bahkan telah merilis chip AI generatif khusus untuk perangkat seluler guna mengatasi masalah daya komputasi.

Stability.ai berharap dengan open source Stable LM 3B untuk membantu pengembang yang tidak memiliki sumber daya komputasi besar untuk menciptakan produk AI generatif kecil dan kompak yang dapat berjalan dengan aman dan stabil di perangkat seluler.

Kumpulan data pelatihan LM 3B yang stabil

Meskipun model ini hanya memiliki 3 miliar parameter, model ini menggunakan kumpulan data pelatihan yang sangat besar yang terdiri dari 1 triliun token termasuk teks, kode, Wikipedia, ArXiv, buku, C4, dan data lainnya.

Kumpulan data ini disaring dan dicampur dari beberapa kumpulan data open source berskala besar, termasuk Falcon RefinedWeb, RedPajama-Data, The Pile, dan StarCoder.

Hal ini memungkinkan LM 3B Stabil melampaui model berukuran sama dengan sumber daya lebih sedikit, dan bahkan lebih kuat dibandingkan beberapa model besar dengan 7 miliar atau 10 miliar parameter.

Proses pelatihan LM 3B yang stabil

LM 3B stabil dimulai dengan pelatihan presisi bfloat16 sebesar 972k, dan panjang konteks global adalah 4096, bukan peningkatan multi-tahap dari 2048 ke 4096 seperti StableLM-Alpha v2.

Stability.ai menggunakan AdamW untuk pengoptimalan kinerja dan menggunakan pemanasan linier untuk 4.800 langkah pertama, diikuti dengan jadwal peluruhan kosinus untuk mengurangi kecepatan pembelajaran hingga 4% dari puncak.

Ketidakstabilan awal disebabkan oleh lamanya tinggal di wilayah dengan tingkat pembelajaran yang tinggi. Karena modelnya relatif kecil, dropout tidak digunakan.

Selama proses pelatihan, Stability.ai mengevaluasi tolok ukur bahasa alami dan mengamati peningkatan yang stabil dari pelatihan di akhir jadwal peluruhan kecepatan pembelajaran. Karena alasan ini, pengembang memutuskan untuk mengurangi kecepatan pemelajaran menjadi 0 secara linier, serupa dengan apa yang dilakukan Zhai dkk, dengan harapan mencapai kinerja yang lebih baik.

Selain itu, fase awal pra-pelatihan bergantung pada API flash-attention dan dukungan siap pakai untuk penyembunyian kausal segitiga. Hal ini memaksa model untuk memperlakukan dokumen berbeda dalam urutan yang dikemas dengan cara yang sama.

Selama fase pendinginan, Stability.ai menyetel ulang ID posisi dan masker perhatian pada penanda EOD untuk semua rangkaian yang dikemas setelah secara empiris mengamati peningkatan kualitas sampel (yaitu: pengurangan duplikasi) dalam eksperimen bersamaan.

Dalam hal perangkat keras, StableLM-3B dilatih pada cluster komputasi Stability AI. Cluster ini berisi 256 kartu grafis NVIDIA A100 40GB. Pelatihan dimulai pada tanggal 23 Agustus 2023 dan memerlukan waktu kurang lebih 30 hari untuk menyelesaikannya.

Dalam hal pengujian kinerja, StableLM-3B diuji dalam kerangka evaluasi pemanfaatan lm-uation-zero-sampel. Hasilnya menunjukkan bahwa performanya tidak kalah dengan model dengan 7 miliar parameter, bahkan lebih kuat dari beberapa model dengan 10 miliar parameter.

Materi artikel ini berasal dari situs resmi Stability.ai, jika ada pelanggaran silahkan hubungi kami untuk menghapusnya.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Bagikan
Komentar
0/400
Tidak ada komentar
  • Sematkan
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)