算力狂歡,誰是“中國版”英偉達?

**來源:**芯潮IC

文: 王藝可十巷

編輯:蘇揚敘白

*“芯事重重”騰訊科技半導體產業研究策劃,本期芯潮IC聯合騰訊科技,聚焦大模型爆火的背後,全球芯片算力市場的新格局的形成,頭部企業的佈局以及國產廠商的追逐。 *

ChatGPT意外掀起的一波AI革命,再次帶火了AI芯片市場。

“A800 和H800 這類芯片,從原來的12萬人民幣左右,變成了現在25萬甚至30萬,甚至有高達50萬一片。”這是發生在國內芯片分銷圈的真實一幕,除了價格不斷暴漲,國內大廠想大批量拿芯片,還要得和黃仁勳“有直接關係”。

正所謂“無芯片,不AI”,隨著大模型的算力需求飆升,身為AI技術地基的芯片迎來了重要商機。 OpenAI曾預計,人工智能科學研究要想取得突破,所需要消耗的計算資源每3到4個月就要翻一倍,資金也需要通過指數級增長獲得匹配,這也被稱為人工智能領域的“摩爾定律”。

英偉達CFO克雷斯表示,目前AI 算力市場的需求已經超出了公司對未來數個季度的預期,訂單已經多到做不過來。

生成式AI這波浪潮,讓英偉達賺了個盆滿缽滿。在上市14年之後,英偉達成功躋身萬億美元市值俱樂部,而實現這一目標,矽谷巨頭們諸如蘋果用了37年、微軟用了33年、亞馬遜用了21年,特斯拉跑得最快,只用了11年。

這也刺激著中國芯片企業躍躍欲試,諸如海光信息、寒武紀、龍芯中科、壁仞科技、天數智芯等國產芯片企業,都怀揣一顆“中國版”英偉達的雄心,嘗試憑自研為國產大模型賦能。一些大廠也開始用自研AI芯片支持模型的部分訓練或推理任務,如百度崑崙芯片、阿里含光800......

面對AI算力帶來的萬億市場,國內企業能不能吃到這波紅利呢?國產芯片廠商該如何越過英偉達“高山”?這是任何一家公司都無法逃避的問題。

01、AI狂潮締造了一個萬億市值的英偉達

愛穿皮衣的男人最先吃到了AI紅利。

2022年底,ChatGPT問世後,迅速在全世界引起了AI 狂潮。在這其中,一直押注AI未來的英偉達,成為了ChatGPT浪潮中受益最多的公司之一。在今年的英偉達GTC大會上,英偉達創始人CEO黃仁勳披露了全新的人工智能及芯片技術,並稱人工智能的“iPhone時刻”已經到來。

在發布會上,黃仁勳表示,類似ChatGPT的大型語言模型的部署是一個重要的全新推理工作負載,為了支持大型語言模型推理,英偉達發布了一系列圍繞AI 領域的產品和服務,其中,採用全新架構和更先進製程的H100 芯片最為引人注目。

圖源:NVIDIA官網

這款GPU是基於NVIDIA Hopper 架構的H100 ,配有一個Transformer 引擎,旨在處理驅動類似ChatGPT的預訓練模型。與用於GPT-3 處理的HGX A100 相比,配備四對H100 與雙GPU NVLink 的標準服務器的訓練速度可提10 倍。

“H100可以將大語言模型的處理成本降低一個數量級。”黃仁勳曾表示。基於H100芯片,英偉達還構建了最新的DGX超級計算機,搭載8個H100 GPU,使它們連接成為一個巨大的GPU,為AI基礎設施的構建提供“藍圖”,目前全新的DGX超級計算機已經全面投產。

在這之後,英偉達旗下A100、H100、A800 和H800 等高性能GPU 芯片應聲漲價,尤其旗艦級芯片H100,4 月中旬在海外電商平台就已炒到超4 萬美元,甚至有賣家標價6.5 萬美元。

同時,英偉達的中國特供版A800 和H800芯片也遭到了哄搶。 “國內大模型企業基本上很難拿得到這些芯片。整個市場需大於求,缺貨非常厲害。”電子元器件採購供應商「廣鑫世紀」創始人張覺對芯潮IC坦言:“今年,這類GPU芯片從原來的12萬人民幣左右,變成了現在是25萬甚至30萬,甚至有高達50萬一片。”。

毫無疑問,英偉達在高性能GPU方面的技術領先地位,旗下A100和H100兩款AI芯片是ChatGPT這樣的大語言模型的核心動力。

一些雲計算專業人士認為,1萬顆英偉達A100芯片是一個好的AI模型的算力門檻。而微軟為OpenAI構建的用於訓練其模型的AI超級計算機就配備了1萬顆英偉達的GPU芯片。無獨有偶,國內各互聯網大公司也紛紛向英偉達下大單,據晚點LatePost報導,字節今年向英偉達訂購了超過10 億美元的GPU,另一家不便透露姓名的大公司,其訂單也至少超過10 億元人民幣。

更誇張的是,這些公司最終能否搶到卡,更多是看商業關係,尤其以往是不是英偉達大客戶的企業。 “你是和中國英偉達談,還是去美國找老黃(黃仁勳)直接談,都有差別。”

由此,英偉達的財務數據再度攀上新高。 5月25日,英偉達發布一季度財報,AI芯片所在數據中心業務的營收創歷史新高,保持10%以上同比增速。

黃仁勳透露,現在整個數據中心產品系列都在生產中,都正在大幅增加供應,以滿足激增的需求。

一系列好消息,直接帶動英偉達股價節節走高。 5月30日晚,美股開盤,英偉達市值直接突破1萬億美元。而7月19日,英偉達總市值更是在一夜間飆升了1750億美元,再次引發投資熱潮。

根據companiesmarketcap網站顯示,英偉達總市值排名全球第6,也是目前市值最高的芯片公司,接近於兩個台積電(5336億美元),今年以來英偉達股價漲幅約180%。不得不承認,這波AI狂潮讓黃仁勳的英偉達盆滿缽滿。

02、英偉達不可能獨享算力狂潮

“英偉達不會永遠在大規模訓練和推理芯片市場佔據壟斷地位。”

這是特斯拉CEO埃隆·馬斯克對社交問答網站和在線知識市場Quora的首席執行官Adam D'Angelo一條推文的回應,後者寫道:“人工智能熱潮被低估的一個原因是GPU/TPU短缺,這種短缺導致了產品推出和模型培訓的各種限制,但這些都不明顯。相反,我們看到的是英偉達的股價飆升。一旦供給滿足需求,事情就會加速發展。”

顯然,矽谷鋼鐵俠對此並不認同,他還評論稱:“許多其他的神經網絡加速器芯片也在開發中,英偉達不會永遠壟斷大規模訓練和推理。”

一場風暴即將來襲。

以大模型為核心的AI狂潮,能帶動多大的算力市場?東吳證券認為,AI模型算力需求持續擴張,打開高性能計算芯片的市場需求,預計2025年我國AI芯片市場規模將達到1780億元,2019-2025複合年均增長率可達42.9%。從市場規模來看,AI芯片上處於起步階段,但增長潛力巨大。

而AI芯片是一個廣義概念,泛指專門用於處理人工智能應用中的計算任務的模塊,是誕生於人工智能應用快速發展時代的處理計算任務硬件,凡是面向人工智能應用的芯片均被稱為AI芯片。主要的技術路線有三種:通用型(GPU)、半定制型(FPGA)、定制型(ASIC)。

從大模型的訓練、場景化的微調以及推理應用場景來看,以CPU+AI芯片提供的異構算力,並行計算能力優越、具有高互聯帶寬,可以支持AI計算效力實現最大化,成為智能計算的主流解決方案。

從市場份額來看,據艾瑞諮詢測算,到2027年,中國的AI芯片市場規模預計將達到2164億元。隨著AI模型的優化落地,AI推理芯片的佔比將日益提升。 2022年,中國AI訓練芯片以及AI推理芯片的佔比分別為47.2%和52.8%。

目前,在AI芯片领域有三类玩家:一种是以英伟达、AMD为代表的老牌芯片巨头,产品性能突出;其二是以Google、百度、华为为代表的云计算巨头,这些企业纷纷布局通用大模型,并自己开发了AI芯片、深度学习平台等支持大模型发展。譬如,华为的鲲鹏昇腾、CANN及Mindspore,百度的昆仑芯等。最后还有一些小而美的AI芯片独角兽,如寒武纪、壁仞科技、天数智芯等。

雖然國產大模型爆發,可能引發算力缺口,但國內芯片廠商吃上國產替代這波紅利只是時間問題。作為AI訓練芯片研發商,“AI芯片第一股”寒武紀再次得到市場關注,股價不斷拉升,最新市值突破900億。

在雲端產品線,寒武紀已經推出了四代芯片產品:2018年的思元100、2019年的思元270、2020年的思元290(車載)、以及2021年發布的思元370系列,用以支撐在雲計算和數據中心場景下複雜度和數據吞吐量高速增長的人工智能處理任務。此外,寒武紀還有一款在研產品思元590,尚未發布。此外,2022年底,思元370系列與AIGC產品百度飛槳完成II級兼容性測試。

但國內大模型公司是否採用了寒武紀芯片,尚未得到準確消息。 “在高端AI芯片領域,國產廠商處於剛剛起步的階段,很多東西需要時間和金錢驗證。”某資深芯片工程師袒露。哪怕是華為、百度、海光信息等企業的芯片也與英偉達產品有著明顯差距。

曾有人坦言,英偉達與其他芯片廠商的差距,是院士與高中生的差別。就如同黃仁勳所言,英偉達“一直在奔跑”,想要超越巨人的其它芯片廠商只能奮力狂奔。

03、AI大模型背後的“權力遊戲”

除了英偉達之外,另一個GPU巨頭AMD,最近也有了行動。

近日,AMD發布最新加速卡,就在AMD推出最新加速卡Instinct MI300X的發布會現場,PPT上專門打出一行字——大語言模型專用,這被業界視為直接向英偉達宣戰!

據悉,MI300X的高帶寬內存(HBM)密度,最高可達英偉達H100的2.4倍,高帶寬內存帶寬最高可達H100的1.6倍,顯然MI300X能運行比H100更大的AI模型。

MI300X所在的MI300系列,是AMD為AI和HPC打造的一系列最新APU加速卡。其中,MI300A是“基礎款”,MI300X則是硬件性能更高的“大模型優化款”。

目前來看,MI300A已經出樣,估計不久就能買上;大模型專用卡MI300X、以及集成8個MI300X的AMD Instinct計算平台,預計今年第三季度出樣,第四季度就能推出。

這幾年來,相比英偉達一直在AI領域的大動作,AMD的行動顯得有點遲緩。正如DeepBrain AI的CEO Eric Jang所言,感覺AMD這幾年讓他很失望,5年來沒什麼變化。尤其是在AIGC的爆發過程中,如果AMD不努力跟上,差距只會越拉越大。

而隨著AMD此次MI300系列產品的推出,終於能看到AMD和英偉達正面打擂台了。

但遺憾的是,市場對AMD的新卡好像不太買賬。

就在這次AMD發布會期間,其股價不升反降。相比之下,英偉達股價還上漲了一波。市場情緒也不難理解,因為在高科技領域,尤其是新興市場,一步快步步快、強者恆強正在成為商業市場的普遍邏輯。

但其實細究原因也能發現,英偉達壟斷人工智能訓練芯片市場的主要原因是其自研的CUDA生態。所以AMD MI300想要替代英偉達,首先需要兼容英偉達的CUDA生態,AMD為此推出ROCm生態圈,並實現通過HIP完全兼容CUDA,藉此來減少用戶已知成本。

對此,知名投資博主慕容衣認為,走兼容英偉達CUDA 的路線的難點在於其更新迭代速度永遠跟不上CUDA ,並且很難做到完全兼容,即一方面迭代永遠慢一步。英偉達GPU 在微架構和指令集上迭代很快,在上層軟件堆棧上很多地方也要做相應的功能更新,但是AMD 不可能知道英偉達的產品路線圖,軟件更新永遠會慢英偉達一步(例如AMD 有可能剛宣布支持了CUDA11, 但是英偉達已經推出CUDA12了);另一方面,難以完全兼容反而會增加開發者的工作量,像CUDA 這樣的大型軟件本身架構很複雜,AMD 需要投入大量人力物力用幾年甚至十幾年才能追趕上,因為難免存在功能差異,如果兼容做不好反而會影響性能。所以,這些也是大家目前不太買賬的關鍵原因。

據Khaveen Investments測算,英偉達數據中心GPU 2022年市佔率高達88%,AMD和英特爾瓜分剩下的部分。

自從去年OpenAI發布ChatGPT以來,新一輪科技革命持續發酵。可以說,很多年都沒有哪一項科技進步如ChatGPT這般吸引全球的目光。

國內外各個科技公司、科研機構、高等院校都在跟進,不到半年時間,就跑出了非常多的大模型應用的創業公司,融資規模也屢創新高。

據知乎博主wgang梳理,包括百度、科大訊飛、第四範式、清華、復旦在內的國內各個大廠、創業公司、科研院校都相繼發布了大模型產品:

圖源:知乎wgwang

能看到,不僅是在通用領域,在具體的行業場景,尤其是一些專業性強、知識密度高的領域,科技公司們也在紛紛發布垂直領域的大模型。譬如美股上市公司百家云(RTC)結合對企業服務需求的洞察,近日發布了AIGC產品「市場易」,這也是首款適用於企業市場部內容生產場景的GPT大模型引擎。

有業內人士笑稱:“國產大模型已形成群模亂舞、百模大戰的局面,預計到年底會有超過100個的大模型。”

然而,大模型的發展需要算法、算力、數據三大重要因素的支撐,算力是大模型訓練的重要能量引擎,也是目前國內發展大模型產業的一大壁壘。

芯片能力直接影響著高算力訓練效果和速度。上文提到,儘管國產大模型產品頻出,但從其背後支持的芯片來看,所有這些平台使用的要么是英偉達A100、H100 GPU,要么是去年禁令後英偉達專門推出的減配版A800、H800,這兩款處理器帶寬分別是原版的約3/4和約一半,避開了高性能GPU 的限制標準。

今年3 月,騰訊率先宣布已用上H800,在騰訊雲發布的新版高性能計算服務中已使用了H800,並稱這是國內首發。

阿里雲也在今年5 月對內提出把“智算戰役” 作為今年的頭號戰役,GPU數量成為其戰役的重要指標。

此外,商湯也宣稱,其“AI 大裝置” 計算集群中已總共部署了近3萬塊GPU,其中有1萬塊是英偉達A100。字節和美團則直接從公司其他業務團隊那裡勻出GPU供大模型訓練使用。甚至有廠家自2022年下半年起就持續在市場中尋覓能拆出A100的各類整機產品,目的僅是獲得GPU芯片。 “機子太多,存放的地方都不夠用。”

據了解,國內頭部科技企業在AI和雲計算方面投入較大,過去A100的積累都達到上萬塊。

與此同時,中國科技大廠還在進行新一輪的採購競爭。

據某雲服務商透露,字節、阿里等大公司主要是和英偉達原廠直接談採購,代理商和二手市場難以滿足其龐大需求。

正如上文提到的,字節跳動今年已向英偉達訂購了超過10億美元的GPU產品,僅字節一家公司今年的採購量就已經接近英偉達去年在中國銷售的商用GPU總銷售額。報導稱,還有另一家大公司的訂單也至少超過10 億元。

可見,中國大科技公司對於採購GPU非常急迫。

不止國內企業,國外大客戶對英偉達的A100/H100芯片需求同樣非常強烈。據數據統計,最早開始測試類ChatGPT產品的百度,2020年以來的年資本開支在8-20億美元之間,阿里在60-80億美元之間。同期,亞馬遜、Meta、Google、微軟這四家自建數據中心的美國科技公司的年資本開支最少均超過150億美元。

目前英偉達訂單能見度已至2024年,高端芯片非常緊缺。以現在的排產進度,就連A800/H800都要到今年底或明年才能交貨。短期內,從其受追捧程度來看,唯一影響英偉達高端GPU銷量的或許只有台積電的產能。

04、“瘋搶”英偉達背後,國產芯片軟硬皆不足?

從大模型產品芯片供應情況來看,在AI大模型訓練上,現在A100、H100及其特供中國的減配版A800、H800找不到替代品。

那麼,為什麼在這一輪GPT熱潮中,英偉達率先跑出來並表現出色?

華映資本管理合夥人章高男錶示,一方面是因為英偉達佈局最早,其微內核結構也是一代一代去演進和改進的。現在無論是從並發能力、總線速度,還是微內核對矩陣變換的成熟支持,其能力已經非常高效,包括它同時提供非常完善的CUDA計算平台,事實上已經成為深度學習算法實現的潛在行業標準,整個產業鏈的配套也非常完整,綜合競爭壁壘和護城河深度極高。

總結來看,英偉達GPU目前的不可替代性,源自大模型的訓練機制,其核心步驟是預訓練(pre-training)和微調(fine-tuning),前者是打基礎,相當於接受通識教育至大學畢業;後者則是針對具體場景和任務做優化,以提升工作表現。

那麼,國產GPU芯片是否可以支撐大模型的算力需求呢?

在實際應用中,大模型對於算力的需求分為兩個階段,一是訓練出ChatGPT大模型的過程;二是將這個模型商業化的推理過程。即AI 訓練是做出模型,AI 推理是使用模型,訓練對芯片性能要求更高。

基於此,國產AI芯片公司持續湧現,陸續發布產品推向市場。燧原科技、壁仞科技、天數智芯、寒武紀等公司都推出了自己的雲端GPU產品,且理論性能指標不弱。海光信息的DCU芯片“深算一號”軟硬件生態相對完整,且能夠兼容CUDA架構。而騰訊、百度、阿里等互聯網大廠也通過投資、孵化等方式在AI芯片領域大力佈局。

其中,大模型訓練需要處理高顆粒度的信息,對雲端訓練芯片的芯片處理信息的精細度和算力速度要求更高,現階段國產GPU大多還不具備支撐大模型訓練所需的能力,更適合做對信息顆粒度要求沒有那麼高的雲端推理工作。

國內部分相關企業AI產品與應用芯潮IC據公開資料整理

今年3月,百度李彥宏曾公開表示,崑崙芯片現在很適合做大模型的推理,將來會適合做訓練。

天數智芯副總裁鄒翾也向芯潮IC表示,國產芯片距離英偉達最新產品仍存在一定差距,不過在推理運算方面國產芯片可以做到不輸主流產品的性能實力,而隨著人工智能的應用普及,推理芯片的市場需求將加速增長,隨著需求的擴大,國產芯片也將擁有更大的市場。

另有不願意透露姓名的業內人士表示“國內通用GPU產品的確在滿足大模型訓練上與國際旗艦產品存在差距,但並非不可彌補,只是此前行業在產品定義裡未朝著大模型方向做設計。”

目前,行業從業者在做相關的探索和努力,如思考能否通過Chiplet、先進封裝的方式來提高芯片算力。目前國產GPU公司都在朝著大模型領域去做芯片開發和佈局。

而從資本角度來看,華映資本管理合夥人章高男向芯潮IC表示,華映很早就高度關注算力基礎設施,無論是GPU、DPU還是更前沿的光電混合計算,量子計算,都有針對性研究和佈局。整體上則側重於通用算力基礎設施,譬如FPGA、邊緣計算等。相比之下,目前很多圍繞深度學習、特殊算法、局部算力優化等的算力芯片並不是其考慮的重點。

實際上,除了硬件性能差距外,軟件生態也是國產AI芯片廠商的短板。

芯片需要適配硬件系統、工具鏈、編譯器等多個層級,需要很強的適配性,否則會出現這款芯片在某個場景能跑出90%的算力,在另一場景只能跑出80%效能的情景。

上文提到,英偉達在這方面優勢明顯。早在2006年,英偉達就推出了計算平台CUDA,這是一個並行計算軟件引擎,CUDA框架裡集成了很多調用GPU算力所需的代碼,工程師可以直接使用這些代碼,無須一一編寫。開發者可使用CUDA更高效地進行AI訓練和推理,更好的發揮GPU算力。時至今日,CUDA已成為AI基礎設施,主流的AI框架、庫、工具都以CUDA為基礎進行開發。

如果沒有這套編碼語言,軟件工程師發揮硬件價值的難度會變得極大。

英偉達之外的GPU和AI芯片如要接入CUDA,需要自己提供適配軟件。據業內人士透露,曾接觸過一家非英偉達GPU廠商,儘管其芯片和服務報價比英偉達更低,也承諾提供更及時的服務,但使用其GPU的整體訓練和開發成本會高於英偉達,還得承擔結果和開發時間的不確定性。

雖然英偉達GPU價格貴,但實際用起來反而是最便宜的。這對有意抓住大模型機會的企業來說,錢往往不是問題,時間才是更寶貴的資源,大家都必須盡快獲得足夠多的先進算力來確保先發優勢。

因此,對於國產芯片供應商來講,哪怕能通過堆芯片的方式能堆出一個算力相當的產品,但軟件適配與兼容讓客戶接受更難。此外,從服務器運營的角度,它的主板開銷、電費、運營費,以及需要考慮的功耗、散熱等問題,都會大大增加數據中心的運營成本。

因為算力資源常需要以池化的形式呈現,數據中心通常更願意採用同一種芯片,或者同一家公司的芯片來降低算力池化難度。

算力的釋放需要復雜的軟硬件配合,才能將芯片的理論算力變為有效算力。對客戶而言,把國產AI芯片用起來並不容易,更換雲端AI芯片要承擔一定的遷移成本和風險,除非新產品存在性能優勢,或者能在某個維度上提供其他人解決不了的問題,否則客戶更換的意願很低。

作為當前唯一可以實際處理ChatGPT的GPU供應商,英偉達是當之無愧的“AI算力王者”。 6年前,黃仁勳親自向OpenAI交付了第一台搭載A100芯片的超級計算機,幫助後者創造ChatGPT,並成為AI時代的引領者。

不過,去年美國實施出口管制以來,英偉達已經被禁止向中國出口兩款最先進的GPU芯片H100和A100。這對於下游應用企業來說,無疑是受到打擊的。

從安全性以及自主可控的角度來說,這也為國內芯片企業提供了新的機遇窗口。儘管國產芯片在性能和軟件生態上比不過英偉達、AMD等行業巨頭,但在復雜的國際貿易關係及地緣政治因素等驅動下,“國產替代”成為國內半導體行業發展的主旋律。

05、結語

算力的每一次提升,都會掀起技術與產業變革的浪潮:CPU帶領人類進入PC時代,移動芯片掀起移動互聯網浪潮,而AI芯片打破了AI產業此前長達數十年的算力瓶頸。

如今,“人工智能的iPhone時刻”已經來臨,走向下一個時代的路,或許已經擺在我們眼前。

儘管這些數據中心的AI芯片、軟件系統等領域仍是國外廠商的天下,但如今,“算力國產化”的市場大門或許正在打開。

查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 讚賞
  • 留言
  • 分享
留言
0/400
暫無留言
交易,隨時隨地
qrCode
掃碼下載 Gate APP
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)