手機就能運行，1兆訓練資料！ StableLM-3B-4E1T來啦

2023-10-03 09:58:18

**來源：**AIGC開放社區

美東時間10月2日，著名開源平台Stability.ai在官網宣布，推出開源大語言模型StableLM-3B-4E1T。（開源位址：

據悉，Stable LM 3B是一款主要針對手機、筆電等行動裝置的基礎大語言模型，在保證效能的前提下，大幅降低了算力資源的要求。

Stable LM 3B支援產生文字/程式碼、總結摘要、資料微調、常識推理、解答數學題等功能，全域上下文長度為4096。（簡稱“Stable LM 3B”）

隨著ChatGPT的火爆出圈，全球掀起了轟轟烈烈的「大模型開發熱潮」。但多數模型皆需要耗費大量算力資源才能預訓練、微調，同時對開發的生成式AI應用的運作環境也有很高的要求。高通更是發布了專門針對行動端的生成式AI晶片，以解決算力問題。

Stability.ai希望透過開源Stable LM 3B，幫助那些沒有龐大算力資源的開發者，也能打造小巧精悍的生成式AI產品，可以安全、穩定地在行動端運作。

Stable LM 3B訓練資料集

雖然模型只有30億參數，卻使用了一個包含文字、程式碼、維基百科、ArXiv、圖書、C4等多種資料的1兆tokens龐大的訓練資料集。

此資料集由多個開源的大規模資料集經過篩選混合而成，包括Falcon RefinedWeb、RedPajama-Data、The Pile以及StarCoder等。

這使得Stable LM 3B以更少的資源，但效能卻超越同等規模模型，甚至比一些70億、100億參數的大模型更強。

Stable LM 3B以bfloat16精度訓練972k起步，全域上下文長度為4096，而不是像StableLM-Alpha v2 那樣從2048 到4096 進行多階段提升。

Stability.ai使用了AdamW進行效能最佳化，並在前4800步驟使用線性預熱，然後採用餘弦衰減計畫將學習率降至峰值的4%。

早期的不穩定性歸因於在高學習率區域的長期停留。由於模型相對較小，沒有採用dropout。

在訓練過程中，Stability.ai評估自然語言基準，並在學習率衰減計畫的尾聲階段，觀察到訓練帶來的穩定提升。基於這個原因，開發人員決定將學習率線性降低至0，類似Zhai等人的做法，以期獲得更好的效能。

此外，在預訓練的初始階段依賴flash-attention API及其開箱即用的三角因果屏蔽支援。這迫使模型以類似的方式處理打包序列中的不同文件。

在冷卻階段，Stability.ai在並發實驗中憑經驗觀察到樣本品質提高（即：減少重複）後，為所有打包序列重置EOD 標記處的位置ID和注意力掩碼。

硬體方面，StableLM-3B是在Stability AI的算力集群上訓練的。此叢集包含256個NVIDIA A100 40GB顯示卡。訓練開始於2023年8月23日，大約消耗了30天完成。

效能測試方面，StableLM-3B在零樣本的lm-uation-harness評估框架中，進行了效能測試。結果顯示，性能完全不輸70億參數的模型，甚至比一些100億參數的更強。

本文素材來源Stability.ai官網，如有侵權請聯絡刪除

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

留言

0/400

暫無留言