📢 Gate廣場 #MBG任务挑战# 發帖贏大獎活動火熱開啓!
想要瓜分1,000枚MBG?現在就來參與,展示你的洞察與實操,成爲MBG推廣達人!
💰️ 本期將評選出20位優質發帖用戶,每人可輕鬆獲得50枚MBG!
如何參與:
1️⃣ 調研MBG項目
對MBG的基本面、社區治理、發展目標、代幣經濟模型等方面進行研究,分享你對項目的深度研究。
2️⃣ 參與並分享真實體驗
參與MBG相關活動(包括CandyDrop、Launchpool或現貨交易),並曬出你的參與截圖、收益圖或實用教程。可以是收益展示、簡明易懂的新手攻略、小竅門,也可以是現貨行情點位分析,內容詳實優先。
3️⃣ 鼓勵帶新互動
如果你的帖子吸引到他人參與活動,或者有好友評論“已參與/已交易”,將大幅提升你的獲獎概率!
MBG熱門活動(帖文需附下列活動連結):
Gate第287期Launchpool:MBG — 質押ETH、MBG即可免費瓜分112,500 MBG,每小時領取獎勵!參與攻略見公告:https://www.gate.com/announcements/article/46230
Gate CandyDrop第55期:CandyDrop x MBG — 通過首次交易、交易MBG、邀請好友註冊交易即可分187,500 MBG!參與攻略見公告:https://www.gate.com/announcements
手機就能運行,1兆訓練資料! StableLM-3B-4E1T來啦
**來源:**AIGC開放社區
美東時間10月2日,著名開源平台Stability.ai在官網宣布,推出開源大語言模型StableLM-3B-4E1T。 (開源位址:
據悉,Stable LM 3B是一款主要針對手機、筆電等行動裝置的基礎大語言模型,在保證效能的前提下,大幅降低了算力資源的要求。
Stable LM 3B支援產生文字/程式碼、總結摘要、資料微調、常識推理、解答數學題等功能,全域上下文長度為4096。 (簡稱“Stable LM 3B”)
Stability.ai希望透過開源Stable LM 3B,幫助那些沒有龐大算力資源的開發者,也能打造小巧精悍的生成式AI產品,可以安全、穩定地在行動端運作。
Stable LM 3B訓練資料集
雖然模型只有30億參數,卻使用了一個包含文字、程式碼、維基百科、ArXiv、圖書、C4等多種資料的1兆tokens龐大的訓練資料集。
此資料集由多個開源的大規模資料集經過篩選混合而成,包括Falcon RefinedWeb、RedPajama-Data、The Pile以及StarCoder等。
這使得Stable LM 3B以更少的資源,但效能卻超越同等規模模型,甚至比一些70億、100億參數的大模型更強。
Stable LM 3B訓練流程
Stable LM 3B以bfloat16精度訓練972k起步,全域上下文長度為4096,而不是像StableLM-Alpha v2 那樣從2048 到4096 進行多階段提升。
Stability.ai使用了AdamW進行效能最佳化,並在前4800步驟使用線性預熱,然後採用餘弦衰減計畫將學習率降至峰值的4%。
早期的不穩定性歸因於在高學習率區域的長期停留。由於模型相對較小,沒有採用dropout。
此外,在預訓練的初始階段依賴flash-attention API及其開箱即用的三角因果屏蔽支援。這迫使模型以類似的方式處理打包序列中的不同文件。
在冷卻階段,Stability.ai在並發實驗中憑經驗觀察到樣本品質提高(即:減少重複)後,為所有打包序列重置EOD 標記處的位置ID和注意力掩碼。
效能測試方面,StableLM-3B在零樣本的lm-uation-harness評估框架中,進行了效能測試。結果顯示,性能完全不輸70億參數的模型,甚至比一些100億參數的更強。