開源且可商用，300 億參數的MPT-30B 大模型的成本僅為GPT-3 的零頭

2023-06-26 08:21:55

AI 大模型開發公司MosaicML 近日發布了新的可商用的開源大語言模型MPT-30B，擁有300 億參數，其功能明顯比前一代MPT-7B 語言模型（70 億參數）更強大，並且性能優於GPT-3。

圖片來源：由無界AI生成

此外，他們還發布了兩個經過微調的模型：MPT-30B-Instruct 和MPT-30B-Chat，它們構建在MPT-30B 之上，分別擅長單輪指令跟踪和多輪對話。

MPT-30B 模型具有的特點：

該模型已擴展到NVIDIA H100 上的8k token 上下文窗口，使其成為第一個在H100 上訓練的LLM。

MPT-30B 強於GPT-3?

MPT-30B 是商業Apache 2.0 許可的開源基礎模型，強於原始的GPT-3，並且與LLaMa-30B 和Falcon-40B 等其他開源模型具有競爭力。

（上圖）MPT-30B 與GPT-3 在九項上下文學習(ICL) 任務上的零樣本準確度。 MPT-30B 在九個指標中的六個指標上優於GPT-3。

MosaicML 用2 個月的時間訓練了MPT-30B，使用英偉達的H100 GPU 集群進行訓練。

如下圖，MPT-30B 的訓練數據：

MPT-30B 通過數據混合進行預訓練，從10 個不同的開源文本語料庫中收集了1T 個預訓練數據token，並使用EleutherAI GPT-NeoX-20B 分詞器對文本進行分詞，並根據上述比率進行採樣。

MPT-7B 與MPT-30B 的對比

MosaicML 公司的首席執行官兼聯合創始人Naveen Rao 表示，MPT-30B 的訓練成本為70 萬美元（約502.44 萬元人民幣），遠低於GPT-3 等同類產品所需的數千萬美元訓練成本。

訓練定制的MPT-30B 模型需要多少時間和金錢？讓我們從基本模型開始。

上圖顯示了使用A100 或H100 GPU 從頭開始預訓練MPT-30B 的時間和成本。借助MosaicML 基礎設施，您可以在2 週內使用1T token 從頭開始訓練您自己的自定義MPT-30B。

如果您不想從頭訓練，只想微調現有模型呢？

下圖詳細列出了每個1B token 微調MPT-30B 的時間和成本。借助MosaicML 基礎設施，您可以對MPT-30B 模型進行全面微調，而無需擔心系統內存限制，而且只需幾百美元！

MosaicML 公司表示，將模型擴展到300 億參數只是第一步，接下來他們將以降低成本為前提，推出體積更大、質量更高的模型。

參考資料：

查看原文

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

留言

0/400

暫無留言