📢 Gate廣場 #MBG任务挑战# 發帖贏大獎活動火熱開啓!
想要瓜分1,000枚MBG?現在就來參與,展示你的洞察與實操,成爲MBG推廣達人!
💰️ 本期將評選出20位優質發帖用戶,每人可輕鬆獲得50枚MBG!
如何參與:
1️⃣ 調研MBG項目
對MBG的基本面、社區治理、發展目標、代幣經濟模型等方面進行研究,分享你對項目的深度研究。
2️⃣ 參與並分享真實體驗
參與MBG相關活動(包括CandyDrop、Launchpool或現貨交易),並曬出你的參與截圖、收益圖或實用教程。可以是收益展示、簡明易懂的新手攻略、小竅門,也可以是現貨行情點位分析,內容詳實優先。
3️⃣ 鼓勵帶新互動
如果你的帖子吸引到他人參與活動,或者有好友評論“已參與/已交易”,將大幅提升你的獲獎概率!
MBG熱門活動(帖文需附下列活動連結):
Gate第287期Launchpool:MBG — 質押ETH、MBG即可免費瓜分112,500 MBG,每小時領取獎勵!參與攻略見公告:https://www.gate.com/announcements/article/46230
Gate CandyDrop第55期:CandyDrop x MBG — 通過首次交易、交易MBG、邀請好友註冊交易即可分187,500 MBG!參與攻略見公告:https://www.gate.com/announcements
千元預算半天訓練,效果媲美主流大模型,開源可商用中文LLaMA-2
LLaMA-2 相较于 LLaMA-1,引入了更多且高质量的语料,实现了显著的性能提升,全面允许商用,进一步激发了开源社区的繁荣,拓展了大型模型的应用想象空间。然而,从头预训练大模型的成本相当高,被戏称 「5000 万美元才能入局」,这使得许多企业和开发者望而却步。那么,如何以更低的成本构建自己的大型模型呢?
作為大模型降本增效的領導者,Colossal-AI 團隊充分利用LLaMA-2 的基礎能力,採用高效的訓練方法,僅使用約**8.5B token 資料、15 小時、數千元的訓練成本, **成功建構了性能卓越的中文LLaMA-2,在多個評測榜單性能優越。
相較於原始LLaMA-2,在成功提升中文能力的基礎上,進一步提升其英文能力,性能可與開源社區同規模預訓練SOTA 模型媲美。秉承Colossal-AI 團隊一貫的開源原則,完全開源全套訓練流程、程式碼及權重,無商用限制,並提供了一個完整的評估體系框架Colossal,以實現低成本的可複現性。相關方案也可遷移應用到任意垂類領域和從頭預訓練大模型的低成本建構。
開源程式碼與權重:
在常見的中、英文評測榜單,可以看到,在英文MMLU 榜單中,Colossal-LLaMA-2-7B-base 在低成本增量預訓練的加持下,克服了災難性遺忘的問題,能力逐步提升(44.47 -> 53.06),在所有7B 規模的模型中,表現優異。
在中文榜單中,主要對比了CMMLU, AGI, GAOKAO 與C-,效果遠超基於LLaMA-2 的其他中文漢化模型。即使與其他採用中文語料,可能花費上千萬元成本,從頭預訓練的各大知名模型相比,Colossal-LLaMA-2 在同規模下仍表現搶眼。尤其是與原始LLaMA-2 相比,在中文能力上有了質的飛躍(CMMLU: 32.97 -> 49.89)。
而**透過SFT、LoRA 等方式微調,能有效注入基座模型的知識與能力十分有限,**不能較好的滿足高品質領域知識或垂類模型應用的建構的需求。
為了更好的評估模型的性能,Colossal-AI 團隊不僅依賴量化的指標,還對於模型的不同方面進行了人工的評估,以下是一些例子:
詞表擴充與模型初始化
LLaMA-2 原始詞表並未針對中文做特定優化,所包含的中文詞有限,導致在中文語料上理解力不足。因此,首先對LLaMA-2 進行了詞表的擴充。
Colossal-AI 團隊發現:
因此,經過反覆實驗,同時考慮了訓練的品質與訓練的效率,Colossal-AI 團隊最終確定將單字表從LLaMA-2 原有的32000 擴充至69104。
有了擴充好的詞表,下一步就是基於原有的LLaMA-2 初始化新詞表的embedding。為了更好的遷移LLaMA-2 原有的能力,實現從原有LLaMA-2 到中文LLaMA-2 能力的快速遷移,Colossal-AI 團隊利用原有的LLaMA-2 的權重,對新的embedding 進行均值初始化。既保證了新初始化的模型在初始狀態下,英文能力不受影響,又可以盡可能的無縫遷移英文能力到中文上。
資料建構
為了更大程度的降低訓練的成本,高品質的資料在其中起著關鍵作用,尤其是對於增量預訓練,對於資料的質量,分佈都有極高的要求。為了更好的篩選高品質的數據,Colossal-AI 團隊建立了完整的數據清洗系統與工具包,以便篩選更高品質的數據用於增量預訓練。
以下圖片展示了Colossal-AI 團隊資料治理的完整流程:
最後,為了提高訓練的效率,對於相同主題的數據,Colossal-AI 團隊對數據的長度進行了排序,並根據4096 的最大長度進行拼接。
訓練策略
多階段訓練
在訓練方面,針對增量預訓練的特點,Colossal-AI 團隊設計了多階段,層次化的增量預訓練方案,將訓練的流程劃分為三個階段:
多階段相輔相成,最終保證模型在中英文的能力上並行不悖。
分桶訓練
增量預訓練對於資料的分佈極為敏感,均衡性就特別重要。因此,為了確保資料的均衡分佈,Colossal-AI 團隊設計了資料分桶的策略,將相同類型的資料分成10 個不同的bins。在訓練的過程中,每個資料桶中均勻的包含每種類型資料的一個bin,從而確保了每種資料可以均勻的被模型所利用。
評估體系
為了更好的評估模型的性能,Colossal-AI 團隊建立了完整的評估系統- Colossal,希望透過多維度對大語言模型進行評估。流程框架程式碼完全開源,不僅支援結果復現,也支援使用者根據自己不同的應用場景自訂資料集與評估方式。評估框架特徵總結如下:
建構通用大模型到垂類大模型遷移的橋樑
由Colossal-AI 團隊的經驗來看,基於LLaMA-2 建構中文版模型,可基本分為以下流程:
答案是肯定的,並且在業務落地的場景中是非常有意義的。
隨著ChatGPT 掀起的人工智慧浪潮,全球各大網路巨頭、AI 公司、創企、大學和研究機構等,紛紛在通用大模型的賽道上策馬狂奔。然而,通用大模型通用能力的背後往往是針對特定領域內知識的不足,因此,在實際落地上,大模型幻覺的問題就變的尤為嚴重。針對業務微調固然可以有一定的收穫,但垂類大模型的缺失導致應用落地存在效能瓶頸。如果可以快速低成本建構一個垂類大模型,再基於垂類大模型進行業務微調,一定能在業務落地上更進一步,占得先機與優勢。
將上述流程應用在任意領域進行知識遷移,即可低成本建構任意領域垂類基座大模型的輕量化流程:
系統優化
上述Colossal-LLaMA-2 的亮眼表現和成本優勢,建構在低成本AI 大模型開發系統Colossal-AI 之上。
Colossal-AI 基於PyTorch,可透過高效多維並行、異質記憶體等,降低AI 大模型訓練/ 微調/ 推理的開發與應用成本,提升模型任務表現,降低GPU 需求等。僅一年多時間便已在GitHub 開源社區收穫GitHub Star 3 萬多顆,在大模型開發工具與社區細分賽道排名世界第一,已與世界500 強在內的多家知名廠商聯合開發/優化千億/ 百億參數預訓練大模型或打造垂類模型。
Colossal-AI 雲端平台
為了進一步提高AI 大模型開發和部署效率,Colossal-AI 已進一步升級為Colossal-AI 雲端平台,以低程式碼/ 無程式碼的方式供用戶在雲端低成本進行大模型訓練、微調和部署,快速將各種模型連結到個人化的應用。
參考連結: