手機就能運行,1兆訓練資料! StableLM-3B-4E1T來啦

**來源:**AIGC開放社區

美東時間10月2日,著名開源平台Stability.ai在官網宣布,推出開源大語言模型StableLM-3B-4E1T。 (開源位址:

據悉,Stable LM 3B是一款主要針對手機、筆電等行動裝置的基礎大語言模型,在保證效能的前提下,大幅降低了算力資源的要求。

Stable LM 3B支援產生文字/程式碼、總結摘要、資料微調、常識推理、解答數學題等功能,全域上下文長度為4096。 (簡稱“Stable LM 3B”)

隨著ChatGPT的火爆出圈,全球掀起了轟轟烈烈的「大模型開發熱潮」。但多數模型皆需要耗費大量算力資源才能預訓練、微調,同時對開發的生成式AI應用的運作環境也有很高的要求。高通更是發布了專門針對行動端的生成式AI晶片,以解決算力問題。

Stability.ai希望透過開源Stable LM 3B,幫助那些沒有龐大算力資源的開發者,也能打造小巧精悍的生成式AI產品,可以安全、穩定地在行動端運作。

Stable LM 3B訓練資料集

雖然模型只有30億參數,卻使用了一個包含文字、程式碼、維基百科、ArXiv、圖書、C4等多種資料的1兆tokens龐大的訓練資料集。

此資料集由多個開源的大規模資料集經過篩選混合而成,包括Falcon RefinedWeb、RedPajama-Data、The Pile以及StarCoder等。

這使得Stable LM 3B以更少的資源,但效能卻超越同等規模模型,甚至比一些70億、100億參數的大模型更強。

Stable LM 3B訓練流程

Stable LM 3B以bfloat16精度訓練972k起步,全域上下文長度為4096,而不是像StableLM-Alpha v2 那樣從2048 到4096 進行多階段提升。

Stability.ai使用了AdamW進行效能最佳化,並在前4800步驟使用線性預熱,然後採用餘弦衰減計畫將學習率降至峰值的4%。

早期的不穩定性歸因於在高學習率區域的長期停留。由於模型相對較小,沒有採用dropout。

在訓練過程中,Stability.ai評估自然語言基準,並在學習率衰減計畫的尾聲階段,觀察到訓練帶來的穩定提升。基於這個原因,開發人員決定將學習率線性降低至0,類似Zhai等人的做法,以期獲得更好的效能。

此外,在預訓練的初始階段依賴flash-attention API及其開箱即用的三角因果屏蔽支援。這迫使模型以類似的方式處理打包序列中的不同文件。

在冷卻階段,Stability.ai在並發實驗中憑經驗觀察到樣本品質提高(即:減少重複)後,為所有打包序列重置EOD 標記處的位置ID和注意力掩碼。

硬體方面,StableLM-3B是在Stability AI的算力集群上訓練的。此叢集包含256個NVIDIA A100 40GB顯示卡。訓練開始於2023年8月23日,大約消耗了30天完成。

效能測試方面,StableLM-3B在零樣本的lm-uation-harness評估框架中,進行了效能測試。結果顯示,性能完全不輸70億參數的模型,甚至比一些100億參數的更強。

本文素材來源Stability.ai官網,如有侵權請聯絡刪除

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 留言
  • 分享
留言
0/400
暫無留言
交易,隨時隨地
qrCode
掃碼下載 Gate APP
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)