大模型市場,不止帶火HBM

原文來源:半導體產業縱橫

圖片來源:由無界AI‌ 生成

近日,HBM成為芯片行業的火熱話題。據TrendForce預測,2023年高帶寬內存(HBM)比特量預計將達到2.9億GB,同比增長約60%,2024年預計將進一步增長30%。 2008年被AMD提出的HBM內存概念,在2013年被SK海力士通過TSV技術得以實現,問世10年後HBM似乎真的來到了大規模商業化的時代。

HBM的概念的起飛與AIGC的火爆有直接關係。 AI服務器對帶寬提出了更高的要求,與DDR SDRAM 相比,HBM 具有更高的帶寬和更低的能耗。超高的帶寬讓HBM成為了高性能GPU的核心組件,HBM基本是AI服務器的標配。目前,HBM成本在AI服務器成本中佔比排名第三,約佔9%,單機平均售價高達18,000美元。

自從去年ChatGPT出現以來,大模型市場就開始了高速增長,國內市場方面,百度、阿里、科大訊飛、商湯、華為等科技巨頭接連宣布將訓練自己的AI大模型。 TrendForce預測,2025年將有5個相當於ChatGPT的大型AIGC、25個Midjourney的中型AIGC產品、80個小型AIGC產品,即使是全球所需的最小計算能力資源也可能需要145,600 至233,700 個英偉達A100 GPU。這些都是HBM的潛在增長空間。

2023年開年以來,三星、SK海力士HBM訂單就快速增加,HBM的價格也水漲船高,近期HBM3規格DRAM價格上漲了5倍。三星已收到AMD與英偉達的訂單,以增加HBM供應。 SK海力士已著手擴建HBM產線,目標將HBM產能翻倍。韓媒報導,三星計劃投資約7.6億美元擴產HBM,目標明年底之前將HBM產能提高一倍,公司已下達主要設備訂單。

HBM在AIGC中的優勢

直接地說,HBM將會讓服務器的計算能力得到提升。由於短時間內處理大量數據,AI服務器對帶寬提出了更高的要求。 HBM的作用類似於數據的“中轉站”,就是將使用的每一幀、每一幅圖像等圖像數據保存到幀緩存區中,等待GPU調用。與傳統內存技術相比,HBM具有更高帶寬、更多I/O數量、更低功耗、更小尺寸,能夠讓AI服務器在數據處理量和傳輸速率有大幅提升。

來源:rambus

可以看到HBM在帶寬方面有著“碾壓”級的優勢。如果HBM2E 在1024 位寬接口上以3.6Gbps 的速度運行,那麼就可以得到每秒3.7Tb 的帶寬,這是LPDDR5 或DDR4 帶寬的18 倍以上。

除了帶寬優勢,HBM可以節省面積,進而在系統中安裝更多GPU。 HBM 內存由與GPU 位於同一物理封裝上的內存堆棧組成。

這樣的架構意味著與傳統的GDDR5/6 內存設計相比,可節省大量功耗和麵積,從而允許系統中安裝更多GPU。隨著HPC、AI 和數據分析數據集的規模不斷增長,計算問題變得越來越複雜,GPU 內存容量和帶寬也越來越大是一種必需品。 H100 SXM5 GPU 通過支持80 GB(五個堆棧)快速HBM3 內存,提供超過3 TB/秒的內存帶寬,是A100 內存帶寬的2 倍。

過去對於HBM來說,價格是一個限制因素。但現在大模型市場上正處於百家爭鳴時期,對於佈局大模型的巨頭們來說時間就是金錢,因此“貴有貴的道理”的HBM成為了大模型巨頭的新寵。隨著高端GPU需求的逐步提升,HBM開始成為AI服務器的標配。

目前英偉達的A100及H100,各搭載達80GB的HBM2e及HBM3,在其最新整合CPU及GPU的Grace Hopper芯片中,單顆芯片HBM搭載容量再提升20%,達96GB。

AMD的MI300也搭配HBM3,其中,MI300A容量與前一代相同為128GB,更高端MI300X則達192GB,提升了50%。

預期Google將於2023年下半年積極擴大與Broadcom合作開發AISC AI加速芯片TPU也計劃搭載HBM存儲器,以擴建AI基礎設施。

存儲廠商加速佈局

這樣的“錢景”讓存儲巨頭們加速對HBM內存的佈局。目前,全球前三大存儲芯片製造商正將更多產能轉移至生產HBM,但由於調整產能需要時間,很難迅速增加HBM產量,預計未來兩年HBM供應仍將緊張。

HBM的市場主要還是被三大DRAM巨頭把握。不過不同於DRAM市場被三星領先,SK海力士在HBM市場上發展的更好。如開頭所說,SK海力士開發了第一個HBM產品。 2023年4月,SK 海力士宣布開發出首個24GB HBM3 DRAM產品,該產品用TSV技術將12個比現有芯片薄40%的單品DRAM芯片垂直堆疊,實現了與16GB產品相同的高度。同時,SK海力士計劃在2023年下半年準備具備8Gbps數據傳輸性能的HBM3E樣品,並將於2024年投入量產。

國內半導體公司對HBM的佈局大多圍繞著封裝及接口領域。

國芯科技目前正在研究規劃合封多HBM內存的2.5D的芯片封裝技術,積極推進Chiplet技術的研發和應用。 通富微電公司2.5D/3D生產線建成後,將實現國內在HBM高性能封裝技術領域的突破。 佰維存儲已推出高性能內存芯片和內存模組,將保持對HBM技術的持續關注。 瀾起科技PCIe 5.0/CXL 2.0 Retimer芯片實現量產,該芯片是瀾起科技PCIe 4.0 Retimer產品的關鍵升級,可為業界提供穩定可靠的高帶寬、低延遲PCIe 5.0/ CXL 2.0互連解決方案。

HBM雖好但仍需冷靜,HBM現在依舊處於相對早期的階段,其未來還有很長的一段路要走。而可預見的是,隨著越來越多的廠商在AI和機器學習等領域不斷發力,內存產品設計的複雜性正在快速上升,並對帶寬提出了更高的要求,不斷上升的寬帶需求將持續驅動HBM發展。

HBM火熱反映了AIGC的帶動能力。那麼除了HBM和GPU,是否還有別的產品在這波新風潮中能夠順勢發展?

談談其他被帶火的芯片

FPGA的優勢開始顯現

FPGA(Field Programmable Gate Array,現場可編程門陣列)是一種集成電路,具有可編程的邏輯元件、存儲器和互連資源。不同於ASIC(專用集成電路),FPGA具備靈活性、可定制性、並行處理能力、易於升級等優勢。

通過編程,用戶可以隨時改變FPGA的應用場景,FPGA可以模擬CPU、GPU等硬件的各種並行運算。因此,在業內也被稱為“萬能芯片”。

FPGA對底層模型頻繁變化的人工智能推理需求很有意義。 FPGA 的可編程性超過了FPGA 使用的典型經濟性。需要明確的是,FPGA 不會成為使用數千個GPU 的大規模人工智能係統的有力競爭對手,但隨著人工智能進一步滲透到電子領域,FPGA 的應用範圍將會擴大。

FPGA相比GPU的優勢在於更低的功耗和時延。 GPU無法很好地利用片上內存,需要頻繁讀取片外的DRAM,因此功耗非常高。 FPGA可以靈活運用片上存儲,因此功耗遠低於GPU。

6月27日,AMD宣布推出AMD Versal Premium VP1902自適應片上系統(SoC),是基於FPGA的自適應SoC。這是一款仿真級、基於小芯片的設備,能夠簡化日益複雜的半導體設計的驗證。據悉,AMD VP1902將成為全球最大的FPGA,對比上一代產品(Xilinx VU19P),新的VP1902增加了Versal功能,並採用了小芯片設計,使FPGA的關鍵性能增加了一倍以上。

東興證券研報認為,FPGA憑藉其架構帶來的時延和功耗優勢,在AI推理中具有非常大的優勢。浙商證券此前研報亦指出,除了GPU以外,CPU+FPGA的方案也能夠滿足AI龐大的算力需求。

不同於HBM被海外公司壟斷,國內公司FPGA芯片已經有所積累。

安路科技主營業務為FPGA芯片和專用EDA軟件的研發、設計和銷售,產品已廣泛應用於工業控制、網絡通信、消費電子等領域。紫光國微子公司紫光同創是專業的FPGA公司,設計和銷售通用FPGA芯片。紫光國微曾在業績說明會上表示,公司的FPGA芯片可以用於AI領域。東土科技主要開展FPGA芯片的產業化工作,公司參股公司中科億海微團隊自主開發了支撐其FPGA產品應用開發的EDA軟件。

國產替代新思路:存算一體+Chiplet

能否利用我們現在可用的工藝和技術來開發在性能上可以跟英偉達對標的AI 芯片呢?一些“新思路”出現了,例如存算一體+Chiplet。

存算分離會導致算力瓶頸。 AI技術的快速發展,使得算力需求呈爆炸式增長。在後摩爾時代,存儲帶寬制約了計算系統的有效帶寬,系統算力增長步履維艱。例如,8塊1080TI 從頭訓練BERT模型需99天。存算一體架構沒有深度多層級存儲的概念,所有的計算都放在存儲器內實現,從而消除了因為存算異構帶來的存儲牆及相應的額外開銷;存儲牆的消除可大量減少數據搬運,不但提升了數據傳輸和處理速度,而且能效比得以數倍提升。

一方面,存算一體架構與傳統架構處理器處理同等算力所需的功耗會降低;另一方面,存算一體的數據狀態都是編譯器可以感知的,因此編譯效率很高,可以繞開傳統架構的編譯牆。

美國亞利桑那州立大學的學者於2021 年發布了一種基於Chiplet 的IMC 架構基準測試仿真器SIAM, 用於評估這種新型架構在AI 大模型訓練上的潛力。 SIAM 集成了器件、電路、架構、片上網絡(NoC)、封裝網絡(NoP) 和DRAM 訪問模型,以實現一種端到端的高性能計算系統。 SIAM 在支持深度神經網絡(DNN) 方面具有可擴展性,可針對各種網絡結構和配置進行定制。其研究團隊通過使用CIFAR-10、CIFAR-100 和ImageNet 數據集對不同的先進DNN 進行基準測試來展示SIAM 的靈活性、可擴展性和仿真速度。據稱,相對於英偉達V100 和T4 GPU, 通過SIAM 獲得的chiplet +IMC 架構顯示ResNet-50 在ImageNet 數據集上的能效分別提高了130 和72。

這意味著,存算一體AI 芯片有希望藉助Chiplet技術和2.5D / 3D 堆疊封裝技術實現異構集成,從而形成大型計算系統。存算一體+ Chiplet 組合似乎是一種可行的實現方式,據稱億鑄科技正在這條路上探索,其第一代存算一體AI 大算力商用芯片可實現單卡算力500T 以上,功耗在75W 以內。也許這將開啟AI 算力第二增長曲線的序幕。

結語

世界人工智能大會上,AMD CEO蘇姿豐表示,未來十年一定會出現一個大型計算超級週期,因此,目前正是一個成為技術供應商的好時機,同時也是與一些將會利用這些技術開發不同應用的客戶合作的好時機。

沒有人想要一個只有一個主導者的行業。大模型市場能否讓芯片行業擁有新的市場格局,能否讓新玩家出現?

“大模型市場對芯片行業帶來了新的市場格局和機會。通過推動AI芯片的發展、促進云計算和數據中心市場的增長以及引發競爭格局變化,大模型的興起為芯片行業帶來了新的發展方向。

需要注意的是,芯片行業是一個高度競爭和技術密集的行業。進入該行業需要龐大的資金和技術資源,以滿足複雜的製造和研發要求。儘管大模型市場為新玩家提供了機會,但他們需要克服技術、資金和市場等方面的挑戰,才能在競爭激烈的芯片行業中獲得成功。 ”Chatgpt如是回應。

查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 讚賞
  • 留言
  • 分享
留言
0/400
暫無留言
交易,隨時隨地
qrCode
掃碼下載 Gate APP
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)