大模型訓練有多卷? 揭開大模型算力之謎

文章來源:鈦媒體

作者|秦聰慧

編輯|蓋虹達

搶算力的前提,是算力正在成為一種新的商業模式。 大模型「煉丹」的熱潮會過去,算力服務商要做的是未雨綢繆,及時轉向。

圖片來源:由無界 AI生成

使用全球40年的天氣數據,用200張GPU卡進行預訓練,2個月左右的時間,訓練出了參數量達億級的盤古氣象大模型。

這是清華大學畢業3年的畢愷峰訓練大模型的故事。

不過,從成本上看,按照正常情況下,一張GPU 7.8元/小時計算,畢愷峰盤古氣象大模型的訓練成本可能超出200萬。 這還是氣象領域的垂直大模型,如果訓練的是通用大模型,成本可能要翻百倍。

有數據統計,中國當下10億參數規模的大模型已經超百個。 然而行業蜂擁而上的大模型「煉丹」卻面臨著高端GPU一卡難求的無解題。 算力成本高企,缺算力、缺資金也成為了擺在行業面前最直觀的問題。

**高端GPU,有多缺? **

“缺,當然缺,但是我們能有什麼辦法。” 某大廠高管被問及是否缺算力問題時脫口而出。

這似乎已經成了行業公認的一道無解題,頂峰時期一張英偉達A100的價格已經被炒到了二三十萬人民幣,單台A100伺服器的月租價格也飆到了5萬-7萬/月。 但是即便如此,高昂的價格依然可能拿不到晶元,一些算力供應商也遇到過供應商跳票等之前很難遇到的奇葩經歷。

一位雲計算行業高管周立軍也談及類似的感受:「算力短缺的情況確實存在。 我們有很多客戶都想要高端GPU資源,但能提供的也暫時無法完全滿足廣泛的市場需求。 ”

某雲服務商搭載A100的高性能計算集群售罄介面

事實證明,高端GPU的短缺短期內在全行業都無解。 大模型爆發,市場對算力的需求快速增長,但供給量增速遠遠沒有跟上。 雖然算力供給長遠來看一定會從賣方市場進入買方市場,但這個時間究竟要多久,也是個未知。

各家都在盤算著自己手裡有多少「貨」(英偉達GPU),甚至用這個來判斷市場份額。 比如手裡如果接近1萬張卡, 市場總共是10萬張卡,那份額就是10%。 “到年底保有量大概到4萬, 如果市場是20萬的, 那可能佔20%的市場。” 知情人士舉例表示。

一邊是買不到卡,一邊是大模型訓練門檻並沒有業界烘托的那麼容易“入門”。 上述提到,畢愷峰盤古氣象大模型的訓練成本可能超出200萬。 但需要注意的是,畢愷峰盤古氣象大模型是在盤古通用大模型的基礎上訓練出得垂直大模型,它的參數為億級。 如果要訓練一款十億規模參數或者更大規模的通用大模型,那麼成本可能要十倍、百倍往上加。

“目前投資規模最大的是在訓練,沒有幾十億的資本投入,很難下場去持續做大模型。” 騰訊集團副總裁、雲與智慧產業事業群COO、騰訊雲總裁邱躍鵬透露。

“跑得要快,至少在錢燒完之前能有成果拿到下一輪'融資'。” 一位創業者描述當下大模型“戰況”,“ 這條路是條 絕路。 如果你沒有百億千億 資金在後邊撐著, 很難走得通。 ”

這一局面下,業內的共同觀點是,隨著大模型市場的角逐廝殺,市場也會從狂熱到理性,企業也會隨著預期的變化來控制成本、調整策略。

無解下的積極應對

沒條件,創造條件也要上——這似乎是大模型參與者中的多數心態。 而如何創造條件,應對真實存在的問題,各家也是方法頗多。

由於高端GPU晶元短缺,且中國市場能用的GPU不是最新代次,性能通常更低一些,所以企業需要更長的時間來訓練大模型。 這些公司也在尋找一些創新性的辦法來彌補算力短板。

其中一種方法是,使用更高質量的數據去做訓練,從而提升訓練效率。

近期,信通院牽頭發佈了《行業大模型標準體系及能力架構研究報告》,其中就提到了大模型數據層的評估。 報告建議,在數據品質方面,由於其對模型的效果影響會很大,推薦引入人工的標註和確認,至少從原始數據中挑選一定比例進行標註,從而構建並嚴重高質量的數據集。

除了通過高質量數據減少大模型成本,對於業界來說,提升基礎架構能力,實現千卡以上穩定運行兩周不掉卡,是技術難點也是構建可靠基礎架構、優化大模型訓練的方法之一。

“作為雲服務商,我們會幫助客戶建立起穩定可靠的基礎架構。 因為GPU伺服器卡的穩定性會差一些,任何故障都會讓訓練中斷,導致整體的訓練時長增加。 高性能計算集群,可以給到客戶更穩定的服務,也能相對減少訓練時長、解決一些算力問題。 “周立軍說。

同時,算力卡資源調度也考驗服務商的技術能力。 火山引擎華東互聯網解決方案負責人徐巍告訴鈦媒體,擁有算力卡資源只是一方面,如何將卡資源調度起來,真正投入使用,是更具考驗的核心能力、工程能力。 “把一個卡拆成很多小卡,盡量能做到分散式的精細化的調度,可以更近一步降低算力成本。” 徐巍說道。

網路也影響大模型訓練速度和效率。 大模型訓練動輒千卡,連接幾百台GPU伺服器所要求的網路速度極高,如果網路有點擁塞,訓練速度就會很慢,效率很受影響。 “只要一台伺服器過熱宕機,整個集群都可能要停下來,訓練任務要重啟。 這對雲服務運維能力與排查問題能力的要求非常高。 “邱躍鵬說。

也有廠商另闢蹊徑,從雲計算架構過渡到超算架構也成為減少成本的一種方法,即在都能滿足使用者需求的情況、非高通量計算的任務及並行任務場景下,超算雲大概是雲超算一半左右的價格,然後再通過性能優化資源利用率可以從30%提高到60%。

另外,也有廠商選擇使用國產平臺做大模型的訓練和推理以替代一卡難求的英偉達。 “我們跟華為聯合發佈了訊飛星火一體機,能夠在國產平臺上自己做訓練做推理,這是非常了不起的。 我特別高興地告訴大家,華為的GPU能力現在已經跟英偉達一樣,任正非高度重視,華為的三位董事到科大訊飛專班工作,現在已經把它做到了能對標英偉達的A100。 “科大訊飛創始人、董事長劉慶峰曾表示。

上述方法,每一種都是一個相對大的工程,所以,一般企業是很難通過自建的數據中心來滿足,很多演算法團隊都選擇最專業的算力廠商來支援。 這其中並行存儲也是很大的一種成本,以及技術能力,對應的故障率的保障等等也屬於硬體成本的一部分。 當然甚至要考慮,IDC可用區電的成本,軟體、平臺、人員成本等運營成本等等。

千卡級別的GPU集群才會有規模化效應,選擇算力服務商,等於說邊際成本為零。

中國工程院院士,中國科學院計算技術研究所研究員孫凝暉也曾在演講中提出,AIGC 帶來 人工智慧產業的爆發,而智慧技術的規模化應用具有典型長尾問題,即具備強 AI 能力的強勢部門 (網安、九院九所和氣象局等)、科研院校與大中企業只佔據算力需求主體的大約 20%,另外 80% 則均為中小微企業,這類主體受限於公司規模與預算,往往難以接入算力資源、 或受限於算力的高昂價格,從而難以在AI時代浪潮中獲得發展紅利。

因此,要實現智慧技術的規模化應用,讓人 工智慧產業既“叫好”也“叫座”,需要大量便宜、易用的智慧算力,讓中小微企業也能方便、 便宜地使用算力。

而無論是大模型對算力的急切的需求,還是算力在應用過程中需要解決的各種難題,這其中都需要注意的一個新變化是,算力已經在市場需求和技術反覆運算的過程中,成為了一種新的服務模式。

探索算力服務新模式

我們在搶的大模型算力是什麼算力? 解答這個問題,需要先從算力服務說起。

從種類來講,算力分為通用算力、智慧算力和超算算力,而這些算力成為一種服務,是市場與技術雙重驅動的結果。

《2023算力服務白皮書》(以下簡稱“白皮書”)對算力服務的定義是,算力服務以多樣性算力為基礎,以算力網络為連結,以供給有效的算力為目標的算力產業新領域。

算力服務的本質,是通過全新計算技術實現異構算力統一輸出,並與雲、大數據、AI等技術交叉融合。 算力服務中不僅只有算力,它是算力、存儲、網路等資源的統一封裝,以服務形式(如API)完成算力交付。

瞭解這一點就會發現,在搶英偉達晶元的,其實是很大一部分是算力服務提供者,即算力生產者。 真正在前端調用算力API的行業消費者,只需要提出對應的算力需求。

據鈦媒體App瞭解,從軟體方角度,所有的軟體交互產生的大模型使用分為三種,第一種大模型API調用,每家都有報價,按價結算; 第二個是自有小模型,自己購買算力,甚至是自己部署; 第三種,大模型廠商和雲廠商合作,也就是專署雲,按月支付。 “一般就是這三種,金山辦公當前主要採用API調用,內部小模型自己做了算力調度平臺。” 金山辦公副總裁姚冬對鈦媒體App說。

算力產業鏈結構圖,來源:中國信通院

也就是說,在算力結構產業鏈中,上游企業主要完成實現對通用算力、智算算力、超算算力、存儲和網路等算力服務的支撐資源的供給。 例如在大模型算力爭奪戰中,英偉達就屬於上游算力基礎資源供應方向行業供應晶元,而這其中浪潮資訊等伺服器廠商股票應聲上漲也是受到了市場需求的影響。

中游企業則以雲服務商、新型算力服務提供者為主,他們的角色主要通過對算力的編排、算力調度、算力交易技術實現算力生產,並通過API等方式完成算力供給。 上述提到的算力服務商、騰訊雲、火山引擎都處於這一環節。 而算力服務中游企業的服務化能力越強,對應用方的門檻越低,越有助於算力的普惠、泛在化發展。

下游企業,則是依靠算力服務提供的計算能力進行增值服務生成製造的產業鏈角色,如行業使用者等。 這部分使用者只需要提出需求,算力生產者則根據需求去配置對應的算力完成使用者下達的「算力任務」。

這相比原來自己購買伺服器搭建大模型算力環境,都更有成本和技術優勢。 畢愷峰訓練盤古氣象大模型,應該是直接調用了盤古大模型的底層即華為雲的高性能計算服務,那麼其他大模型企業的使用算力或者說為算力付費的過程會有什麼不一樣嗎?

算力商業模式反覆運算

ChatGLM是最早一批推出的通用大模型,以智譜AI的ChatGLM算力使用為例,據已經公開披露的消息,智譜AI使用了國內多家主流AI算力服務商。 “理論上應該所有的都有用了。” 知情人士表示,這其中可能還包括了國內主流的算力服務商/雲服務商。

按量計費和包年包月計費是當前算力服務的主流模式,使用需求大致有兩種,一種是選擇對應的算力服務實例,在某雲服務商的官網介面,可提供搭載英偉達A800、A100、V100三種主流顯卡的高性能GPU伺服器。

某算力服務商提供的高性能計算GPU顯卡類型

另一種是選擇對應的MaaS服務平臺,在MaaS平臺中對大模型進行行業性的精調。 以騰訊雲TI-ONE平臺按量計費刊例價為例,8C40G V100*1的配置,20.32元/小時,可用於自動學習-視覺、任務式建模、Notebook、可視化建模。

當前行業也在推進算力服務的「算網一體化融合」,通過對計算任務、算網資源狀態等資訊的綜合判斷,形成可支援跨架構、跨地域、跨服務商調度的算網編排方案,並完成相關資源部署。 例如,只要存一筆錢,存到算力網路里來,算力網路中的分區可以隨意調用。 根據應用特點,選擇最適合的分區、最快的分區、 最具性價比的分區,然後根據時長計費,從預存的資金中把費用扣除。

雲服務商也是如此,算力服務作為雲服務一項獨特的産品,使他們迅速參與到算力產業鏈中來。

工業和資訊化部數據顯示,2022年中國算力總規模達到180EFLOPS,位列全球第二。 截至2022年,中國算力產業規模已經達到1.8萬億。 大模型算力很大程度上加速了算力產業的發展。

一種說法是,當下的算力服務,實際上是一種新型的“賣電”模式。 只不過根據分工的不同,一部分算力服務商可能需要幫助使用者做更多系統性能調試、軟體安裝、大規模作業運行值守和運行特徵分析,即一部分的最後一公里運維工作。

隨著大模型高性能計算需求的常態化,脫胎於雲服務的算力服務,儼然快速進入大眾視野,形成了獨特的產業鏈和商業模式。 只不過在算力產業因大模型而爆發的伊始,高端GPU短缺、算力成本高企、搶“芯”形成了屬於這個時代的獨特風景。

“ 現階段卷的是供應鏈中誰能拿到卡,英偉達是目前整個行業的王者,所有的市場都被它控制,這是現狀。” 知情人士評論。 目前境況彷彿是,在供不應求的情況下,誰能拿到卡,誰就可以去交付業務。

但並不是所有人都在搶“卡”,因為短缺是暫時的,問題總會解決。 “做長期研究的人其實不搶, 正常等著就行了,因為他不會死。 現在正兒八經搶卡的只有一批創業公司,他們要保證自己可以活到明年。 “上述人士稱。

在諸多不確定性中,算力成為一種服務是確定性趨勢,算力服務商要做的是隨時準備,在大模型回歸理性、市場風向快速轉變的時候,能未雨綢繆。

*注:應受訪物件要求,周立軍為化名。

**(本文首發鈦媒體APP) **

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 留言
  • 分享
留言
0/400
暫無留言
交易,隨時隨地
qrCode
掃碼下載 Gate APP
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)