千元預算半天訓練，效果媲美主流大模型，開源可商用中文LLaMA-2

巴比特_ · 2023-09-25T05:56:51+00:00

![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-1a596cd3b1-dd1a6f-6d2ef1) 圖片來源：由無界AI 生成LLaMA-2 相较于 LLaMA-1，引入了更多且高质量的语料，实现了显著的性能提升，全面允许商用，进一步激发了开源社区的繁荣，拓展了大型模型的应用想象空间。然而，从头预训练大模型的成本相当高，被戏称 **「5000 万美元才能入局」**，这使得许多企业和开发者望而却步。那么，如何以更低的成本构建自己的大型模型呢？作為大模型降本增效的領導者，Colossal-AI 團隊充分利用LLaMA-2 的基礎能力，採用高效的訓練方法，僅使用約**8.5B token 資料、15 小時、數千元的訓練成本， **成功建構了性能卓越的中文LLaMA-2，在多個評測榜單性能優越。相較於原始LLaMA-2，在成功提升中文能力的基礎上，進一步提升其英文能力，性能可與開源社區同規模預訓練SOTA 模型媲美。秉承Colossal-AI 團隊一貫的開源原則，**完全開源全套訓練流程、程式碼及權重，無商用限制，**並提供了一個完整的評估體系框架Colossal，以實現低成本的可複現性。相關方案也**可遷移應用到任意垂類領域**和從頭預訓練大模型的低成本建構。開源程式碼與權重：![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-9c111599e6-dd1a6f-6d2ef1) **性能表現**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-fbc4a8135d-dd1a6f-6d2ef1) *註：基於Colossal 評分，括號中分數來自對應模型官方發布的榜單分數，C- 分數來自官網Leaderboard。 *在常見的中、英文評測榜單，可以看到，在英文MMLU 榜單中，Colossal-LLaMA-2-7B-base 在低成本增量預訓練的加持下，克服了災難性遺忘的問題，能力逐步提升（44.47 -> 53.06），在所有7B 規模的模型中，表現優異。在中文榜單中，主要對比了CMMLU, AGI, GAOKAO 與C-，效果遠超基於LLaMA-2 的其他中文漢化模型。即使與其他採用中文語料，可能花費上千萬元成本，從頭預訓練的各大知名模型相比，Colossal-LLaMA-2 在同規模下仍表現搶眼。尤其是與原始LLaMA-2 相比，在中文能力上有了質的飛躍(CMMLU: 32.97 -> 49.89)。而**透過SFT、LoRA 等方式微調，能有效注入基座模型的知識與能力十分有限，**不能較好的滿足高品質領域知識或垂類模型應用的建構的需求。為了更好的評估模型的性能，Colossal-AI 團隊不僅依賴量化的指標，還對於模型的不同方面進行了人工的評估，以下是一些例子：![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-1238c87db5-dd1a6f-6d2ef1) ![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-0c9b018426-dd1a6f-6d2ef1) 從整個訓練的Loss 記錄來看，在利用Colossal-AI 系統降本增效能力的同時，模型收斂性也得到充分保證，僅透過約8.5 B tokens（85 億tokens），數千元算力成本，讓模型達到如此驚豔的效果。而市面上的大模型動輒使用數萬億token 進行訓練才有效果保證，成本高。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-ee8ce7ba00-dd1a6f-6d2ef1) 那麼Colossal-AI 團隊是如何把訓練成本降低，並達到如此的效果的呢？## **詞表擴充與模型初始化**LLaMA-2 原始詞表並未針對中文做特定優化，所包含的中文詞有限，導致在中文語料上理解力不足。因此，首先對LLaMA-2 進行了詞表的擴充。Colossal-AI 團隊發現：* 詞表的擴充不僅可以有效提升字串序列編碼的效率，並且使得編碼序列包含更多的有效訊息，進而在篇章層級編碼和理解上，有更大的幫助。* 然而，由於增量預訓練資料量較少，擴充較多的單字反而會導致某些單字或組合無實際意義，在增量預訓練資料集上難以充分學習，影響最終效果。* 過大的詞表會導致embedding 相關參數增加，進而影響訓練效率。因此，經過反覆實驗，同時考慮了訓練的品質與訓練的效率，Colossal-AI 團隊最終確定將單字表從LLaMA-2 原有的32000 擴充至69104。有了擴充好的詞表，下一步就是基於原有的LLaMA-2 初始化新詞表的embedding。為了更好的遷移LLaMA-2 原有的能力，實現從原有LLaMA-2 到中文LLaMA-2 能力的快速遷移，Colossal-AI 團隊利用原有的LLaMA-2 的權重，對新的embedding 進行均值初始化。既保證了新初始化的模型在初始狀態下，英文能力不受影響，又可以盡可能的無縫遷移英文能力到中文上。## **資料建構**為了更大程度的降低訓練的成本，高品質的資料在其中起著關鍵作用，尤其是對於增量預訓練，對於資料的質量，分佈都有極高的要求。為了更好的篩選高品質的數據，Colossal-AI 團隊建立了完整的數據清洗系統與工具包，以便篩選更高品質的數據用於增量預訓練。以下圖片展示了Colossal-AI 團隊資料治理的完整流程：![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-84c95dce41-dd1a6f-6d2ef1) 除了常見的對資料進行啟發式的篩選和去重，也對重點資料進行了評分和分類篩選。合適的數據對於激發LLaMA-2 的中文能力，同時克服英文的災難性遺忘問題，有著至關重要的作用。最後，為了提高訓練的效率，對於相同主題的數據，Colossal-AI 團隊對數據的長度進行了排序，並根據4096 的最大長度進行拼接。## **訓練策略****多階段訓練**在訓練方面，針對增量預訓練的特點，Colossal-AI 團隊設計了多階段，層次化的增量預訓練方案，將訓練的流程劃分為三個階段:![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-6e555b1ecb-dd1a6f-6d2ef1) * 大規模預訓練階段：目標是透過大量語料訓練，使得模型可以產出相對較為流暢的文字。此階段由LLaMA-2 完成，經過此階段，模型已掌握大量英文知識，並可根據Next Token Prediction 輸出流暢的結果。* 中文知識注入階段：此階段依賴高品質的中文知識，一方面增強了模型對於中文知識的掌握程度，另一方面提升了模型對於新增中文詞表中單字的理解。* 相關知識回放階段：此階段致力於增強模型對於知識的理解與泛化能力，緩解災難性遺忘問題。多階段相輔相成，最終保證模型在中英文的能力上並行不悖。**分桶訓練**增量預訓練對於資料的分佈極為敏感，均衡性就特別重要。因此，為了確保資料的均衡分佈，Colossal-AI 團隊設計了資料分桶的策略，將相同類型的資料分成10 個不同的bins。在訓練的過程中，每個資料桶中均勻的包含每種類型資料的一個bin，從而確保了每種資料可以均勻的被模型所利用。**評估體系**為了更好的評估模型的性能，Colossal-AI 團隊建立了完整的評估系統- Colossal，希望透過多維度對大語言模型進行評估。流程框架程式碼完全開源，不僅支援結果復現，也支援使用者根據自己不同的應用場景自訂資料集與評估方式。評估框架特徵總結如下：* 涵蓋針對大語言模型知識儲備能力評估的常見資料集如MMLU，CMMLU 等。針對於單選題這樣的形式，除了常見的比較ABCD 機率高低的計算方式，增加更為全面的計算方式，如絕對匹配，單選困惑度等，以求更加全面的衡量模型對於知識的掌握程度。* 支援多選題的評估和長文本評估。* 支援針對不同應用情境的評估方式，如多輪對話，角色扮演，資訊抽取，內容生成等。使用者可根據自己的需求，有選擇性的評估模型不同面向的能力，並支援自訂與評估方式的擴展。**建構通用大模型到垂類大模型遷移的橋樑**由Colossal-AI 團隊的經驗來看，基於LLaMA-2 建構中文版模型，可基本分為以下流程：![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-053f5f44a5-dd1a6f-6d2ef1) 那麼這套方案是否可以重複使用呢？答案是肯定的，並且在業務落地的場景中是非常有意義的。隨著ChatGPT 掀起的人工智慧浪潮，全球各大網路巨頭、AI 公司、創企、大學和研究機構等，紛紛在通用大模型的賽道上策馬狂奔。然而，通用大模型通用能力的背後往往是針對特定領域內知識的不足，因此，在實際落地上，大模型幻覺的問題就變的尤為嚴重。針對業務微調固然可以有一定的收穫，但垂類大模型的缺失導致應用落地存在效能瓶頸。如果可以快速低成本建構一個垂類大模型，再基於垂類大模型進行業務微調，一定能在業務落地上更進一步，占得先機與優勢。將上述流程應用在任意領域進行知識遷移，即可**低成本建構任意領域垂類基座大模型的輕量化流程：**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-c6f8e730f7-dd1a6f-6d2ef1) 對於從頭預訓練建立基礎大模型，也可參考上述經驗與Colossal-AI 降本增效能力，以最低成本高效完成。**系統優化**上述Colossal-LLaMA-2 的亮眼表現和成本優勢，建構在低成本AI 大模型開發系統Colossal-AI 之上。Colossal-AI 基於PyTorch，可透過高效多維並行、異質記憶體等，降低AI 大模型訓練/ 微調/ 推理的開發與應用成本，提升模型任務表現，降低GPU 需求等。僅一年多時間便已在GitHub 開源社區收穫GitHub Star 3 萬多顆，在大模型開發工具與社區細分賽道排名世界第一，已與世界500 強在內的多家知名廠商聯合開發/優化千億/ 百億參數預訓練大模型或打造垂類模型。**Colossal-AI 雲端平台**為了進一步提高AI 大模型開發和部署效率，Colossal-AI 已進一步升級為Colossal-AI 雲端平台，以低程式碼/ 無程式碼的方式供用戶在雲端低成本進行大模型訓練、微調和部署，快速將各種模型連結到個人化的應用。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-d23b126621-dd1a6f-6d2ef1) 目前Colossal-AI 雲端平台上已經預置了Stable diffusion, LLaMA-2 等主流模型及解決方案，用戶只需上傳自己的數據即可進行微調，同時也可以把自己微調之後的模型部署成為API，以實惠的價格使用A10, A800, H800 等GPU 資源，無需自行維護算力集群以及各類基礎設施。更多應用場景、不同領域、不同版本的模型、企業私有化平台部署等正不斷迭代。* Colossal-AI 雲端平台：platform.luchentech.com* Colossal-AI 雲端平台文件：* Colossal-AI 開源位址：*參考連結：*

巴比特_

2023-09-25 05:56:51

圖片來源：由無界AI 生成

LLaMA-2 相较于 LLaMA-1，引入了更多且高质量的语料，实现了显著的性能提升，全面允许商用，进一步激发了开源社区的繁荣，拓展了大型模型的应用想象空间。然而，从头预训练大模型的成本相当高，被戏称 「5000 万美元才能入局」，这使得许多企业和开发者望而却步。那么，如何以更低的成本构建自己的大型模型呢？

作為大模型降本增效的領導者，Colossal-AI 團隊充分利用LLaMA-2 的基礎能力，採用高效的訓練方法，僅使用約**8.5B token 資料、15 小時、數千元的訓練成本， **成功建構了性能卓越的中文LLaMA-2，在多個評測榜單性能優越。

相較於原始LLaMA-2，在成功提升中文能力的基礎上，進一步提升其英文能力，性能可與開源社區同規模預訓練SOTA 模型媲美。秉承Colossal-AI 團隊一貫的開源原則，完全開源全套訓練流程、程式碼及權重，無商用限制，並提供了一個完整的評估體系框架Colossal，以實現低成本的可複現性。相關方案也可遷移應用到任意垂類領域和從頭預訓練大模型的低成本建構。

開源程式碼與權重：

性能表現

*註：基於Colossal 評分，括號中分數來自對應模型官方發布的榜單分數，C- 分數來自官網Leaderboard。 *

在常見的中、英文評測榜單，可以看到，在英文MMLU 榜單中，Colossal-LLaMA-2-7B-base 在低成本增量預訓練的加持下，克服了災難性遺忘的問題，能力逐步提升（44.47 -> 53.06），在所有7B 規模的模型中，表現優異。

在中文榜單中，主要對比了CMMLU, AGI, GAOKAO 與C-，效果遠超基於LLaMA-2 的其他中文漢化模型。即使與其他採用中文語料，可能花費上千萬元成本，從頭預訓練的各大知名模型相比，Colossal-LLaMA-2 在同規模下仍表現搶眼。尤其是與原始LLaMA-2 相比，在中文能力上有了質的飛躍(CMMLU: 32.97 -> 49.89)。

而**透過SFT、LoRA 等方式微調，能有效注入基座模型的知識與能力十分有限，**不能較好的滿足高品質領域知識或垂類模型應用的建構的需求。

為了更好的評估模型的性能，Colossal-AI 團隊不僅依賴量化的指標，還對於模型的不同方面進行了人工的評估，以下是一些例子：

從整個訓練的Loss 記錄來看，在利用Colossal-AI 系統降本增效能力的同時，模型收斂性也得到充分保證，僅透過約8.5 B tokens（85 億tokens），數千元算力成本，讓模型達到如此驚豔的效果。而市面上的大模型動輒使用數萬億token 進行訓練才有效果保證，成本高。

那麼Colossal-AI 團隊是如何把訓練成本降低，並達到如此的效果的呢？

詞表擴充與模型初始化

LLaMA-2 原始詞表並未針對中文做特定優化，所包含的中文詞有限，導致在中文語料上理解力不足。因此，首先對LLaMA-2 進行了詞表的擴充。

Colossal-AI 團隊發現：

詞表的擴充不僅可以有效提升字串序列編碼的效率，並且使得編碼序列包含更多的有效訊息，進而在篇章層級編碼和理解上，有更大的幫助。
然而，由於增量預訓練資料量較少，擴充較多的單字反而會導致某些單字或組合無實際意義，在增量預訓練資料集上難以充分學習，影響最終效果。
過大的詞表會導致embedding 相關參數增加，進而影響訓練效率。

因此，經過反覆實驗，同時考慮了訓練的品質與訓練的效率，Colossal-AI 團隊最終確定將單字表從LLaMA-2 原有的32000 擴充至69104。

有了擴充好的詞表，下一步就是基於原有的LLaMA-2 初始化新詞表的embedding。為了更好的遷移LLaMA-2 原有的能力，實現從原有LLaMA-2 到中文LLaMA-2 能力的快速遷移，Colossal-AI 團隊利用原有的LLaMA-2 的權重，對新的embedding 進行均值初始化。既保證了新初始化的模型在初始狀態下，英文能力不受影響，又可以盡可能的無縫遷移英文能力到中文上。

資料建構

為了更大程度的降低訓練的成本，高品質的資料在其中起著關鍵作用，尤其是對於增量預訓練，對於資料的質量，分佈都有極高的要求。為了更好的篩選高品質的數據，Colossal-AI 團隊建立了完整的數據清洗系統與工具包，以便篩選更高品質的數據用於增量預訓練。

以下圖片展示了Colossal-AI 團隊資料治理的完整流程：

除了常見的對資料進行啟發式的篩選和去重，也對重點資料進行了評分和分類篩選。合適的數據對於激發LLaMA-2 的中文能力，同時克服英文的災難性遺忘問題，有著至關重要的作用。

最後，為了提高訓練的效率，對於相同主題的數據，Colossal-AI 團隊對數據的長度進行了排序，並根據4096 的最大長度進行拼接。

訓練策略

多階段訓練

在訓練方面，針對增量預訓練的特點，Colossal-AI 團隊設計了多階段，層次化的增量預訓練方案，將訓練的流程劃分為三個階段:

* 大規模預訓練階段：目標是透過大量語料訓練，使得模型可以產出相對較為流暢的文字。此階段由LLaMA-2 完成，經過此階段，模型已掌握大量英文知識，並可根據Next Token Prediction 輸出流暢的結果。

中文知識注入階段：此階段依賴高品質的中文知識，一方面增強了模型對於中文知識的掌握程度，另一方面提升了模型對於新增中文詞表中單字的理解。
相關知識回放階段：此階段致力於增強模型對於知識的理解與泛化能力，緩解災難性遺忘問題。

多階段相輔相成，最終保證模型在中英文的能力上並行不悖。

分桶訓練

增量預訓練對於資料的分佈極為敏感，均衡性就特別重要。因此，為了確保資料的均衡分佈，Colossal-AI 團隊設計了資料分桶的策略，將相同類型的資料分成10 個不同的bins。在訓練的過程中，每個資料桶中均勻的包含每種類型資料的一個bin，從而確保了每種資料可以均勻的被模型所利用。

評估體系

為了更好的評估模型的性能，Colossal-AI 團隊建立了完整的評估系統- Colossal，希望透過多維度對大語言模型進行評估。流程框架程式碼完全開源，不僅支援結果復現，也支援使用者根據自己不同的應用場景自訂資料集與評估方式。評估框架特徵總結如下：

涵蓋針對大語言模型知識儲備能力評估的常見資料集如MMLU，CMMLU 等。針對於單選題這樣的形式，除了常見的比較ABCD 機率高低的計算方式，增加更為全面的計算方式，如絕對匹配，單選困惑度等，以求更加全面的衡量模型對於知識的掌握程度。
支援多選題的評估和長文本評估。
支援針對不同應用情境的評估方式，如多輪對話，角色扮演，資訊抽取，內容生成等。使用者可根據自己的需求，有選擇性的評估模型不同面向的能力，並支援自訂與評估方式的擴展。

建構通用大模型到垂類大模型遷移的橋樑

由Colossal-AI 團隊的經驗來看，基於LLaMA-2 建構中文版模型，可基本分為以下流程：

那麼這套方案是否可以重複使用呢？

答案是肯定的，並且在業務落地的場景中是非常有意義的。

隨著ChatGPT 掀起的人工智慧浪潮，全球各大網路巨頭、AI 公司、創企、大學和研究機構等，紛紛在通用大模型的賽道上策馬狂奔。然而，通用大模型通用能力的背後往往是針對特定領域內知識的不足，因此，在實際落地上，大模型幻覺的問題就變的尤為嚴重。針對業務微調固然可以有一定的收穫，但垂類大模型的缺失導致應用落地存在效能瓶頸。如果可以快速低成本建構一個垂類大模型，再基於垂類大模型進行業務微調，一定能在業務落地上更進一步，占得先機與優勢。

將上述流程應用在任意領域進行知識遷移，即可低成本建構任意領域垂類基座大模型的輕量化流程：

對於從頭預訓練建立基礎大模型，也可參考上述經驗與Colossal-AI 降本增效能力，以最低成本高效完成。

系統優化

上述Colossal-LLaMA-2 的亮眼表現和成本優勢，建構在低成本AI 大模型開發系統Colossal-AI 之上。

Colossal-AI 基於PyTorch，可透過高效多維並行、異質記憶體等，降低AI 大模型訓練/ 微調/ 推理的開發與應用成本，提升模型任務表現，降低GPU 需求等。僅一年多時間便已在GitHub 開源社區收穫GitHub Star 3 萬多顆，在大模型開發工具與社區細分賽道排名世界第一，已與世界500 強在內的多家知名廠商聯合開發/優化千億/ 百億參數預訓練大模型或打造垂類模型。

Colossal-AI 雲端平台

為了進一步提高AI 大模型開發和部署效率，Colossal-AI 已進一步升級為Colossal-AI 雲端平台，以低程式碼/ 無程式碼的方式供用戶在雲端低成本進行大模型訓練、微調和部署，快速將各種模型連結到個人化的應用。

目前Colossal-AI 雲端平台上已經預置了Stable diffusion, LLaMA-2 等主流模型及解決方案，用戶只需上傳自己的數據即可進行微調，同時也可以把自己微調之後的模型部署成為API，以實惠的價格使用A10, A800, H800 等GPU 資源，無需自行維護算力集群以及各類基礎設施。更多應用場景、不同領域、不同版本的模型、企業私有化平台部署等正不斷迭代。

Colossal-AI 雲端平台：platform.luchentech.com
Colossal-AI 雲端平台文件：
Colossal-AI 開源位址：

參考連結：

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。