用差異化打破英偉達“壟斷”,d-Matrix將AI推理算力成本降低30倍

原文來源:阿爾法公社

圖片來源:由無界 AI 生成

在AIGC大爆發的背後,是海量AI訓練和AI推理的算力需求。 英偉達是目前最大的AI算力提供者,它第二季度的盈利水準(同比增長854%)傳遞了一個信號—行業對於AI算力的需求還遠未被滿足。

英偉達在AI算力的壟斷之勢(市場份額超80%),讓很多使用AI算力的公司擔憂,微軟、亞馬遜和OpenAI都在積極造芯,OpenAI還和Cerebras ,Atomic Semi等AI晶元創業公司傳出了收購緋聞。

運行AI應用的AI推理算力需求在未來將會大大超過訓練大模型的算力需求,而且推理算力的要求與訓練並不相同,現有的GPU去做推理,在成本上沒有優勢,這就需要專有的AI推理晶元。

近日,一家專注做AI推理晶元的創業公司d-Matrix獲得了1.1億美元B輪融資,由淡馬錫領投,包含此前融資輪次的投資者有Playground Global、M12(微軟風險投資基金)、Industry Ventures、Ericsson Ventures、Samsung Ventures、SK Hynix等,產業投資佔了相當重要的部分。 d-Matrix的首席執行官Sid Sheth表示:“他們是懂得如何建立半導體業務的資本,是可以與我們長期合作的資本。 ”

d-Matrix的新融資將用來打造其數位記憶體計算 (DIMC) Chiplet推理計算卡Corsair。 這種卡據稱推理速度是英偉達H100 GPU的9倍,如果是計算卡集群,與英偉達的類似解決方案相比,功率效率提高20倍,延遲降低20倍,成本降低高達30倍。

兩位晶元資深人士瞄準AIGC時代的AI推理算力需求

AI系統在訓練AI模型與使用它進行預測和推理時使用不同類型的計算。 AI推理需要的算力更少,但是當運行一個大型AI服務時,長期看需要比訓練更多的算力。

使用現有的AI硬體很難低成本地部署一個專門用於AI推理的數據中心。 有消息稱,微軟的GitHub Copilot服務,平均每個月在每個使用者身上要倒貼20美元,據SemiAnalysis首席分析師Dylan Patel統計,OpenAI運行ChatGPT的單日投入成本可能高達70萬美元。 這些成本,都是運行AI服務時無法縮減的AI推理成本。

AI行業要更健康的發展,更低推理成本,更低能耗成本的AI推理晶元是剛需。

兩位晶元行業的資深人士Sid Sheth和Sudeep Bhoja於2019年創立了d-Matrix,他們此前曾在Marvell和Broadcom(博通)共事。 2019年,Transformer架構的AI模型剛剛興起,他們看到了這個模型架構的巨大潛力和機會,決定專門為這些大語言模型設計其AI硬體。

d-Matrix的首席執行官兼聯合創始人Sid Sheth表示:“我們在2019年做了一個賭注,決定專注做Transformer模型的加速平臺,並且專注於推理,到2022年底,生成式AI爆發時,d-Matrix成為少數幾家擁有生成式AI推理計算平臺的公司之一。 我們在三年的時間里逐漸成長並抓住了這個機會。 我們所有的硬體和軟體都是為了加速Transformer模型和生成式AI構建的。 ”

Sid Sheth繼續介紹了d-Matrix在市場定位上的獨特性:“生成式AI將永遠改變人們和公司創造、工作和與技術互動的範式。

但是當前運行AI推理的總體擁有成本 (TCO) 正在迅速上升,d-Matrix團隊正在通過為大語言模型專門打造的計算解決方案,改變部署AI推理的成本經濟學,而這輪融資進一步證實了我們在該行業中的地位。 ”

微軟M12的投資人Michael Stewart認為:「當大語言模型推理的TCO成為企業在其服務和應用中使用先進AI的關鍵限制因素時,我們正式進入生產階段。 d-Matrix一直在遵循一個計劃,該計劃將為使用基於記憶體為中心方法的靈活、彈性的Chiplet架構的各種潛在模型服務場景提供行業領先的 TCO。 ”

將AI推理的成本降低30倍

使用CPU和GPU進行AI的訓練和推理,並不是效率最高的方式。 對於AI推理運算,數據移動是最大的瓶頸。 具體來說,將數據來回傳輸到隨機存取記憶體會導致顯著的延遲,這又會導致更高的能耗和成本,並拖慢整個AI系統的速度。

解決這個問題,可以有三種方式。

第一種是通過採樣和流水線減少處理的數據量來加速深度學習,但它也限制了準確性和精確性。

第二種是在傳統的處理器附近設置專用AI引擎的處理器,Apple、英偉達、Intel和AMD都採用這種方式,但這些解決方案仍然使用傳統的馮·諾依曼處理器架構、要集成SRAM和外部DRAM記憶體,他們都需要將數據移入和移出記憶體,仍然造成高能耗和低效率。

第三種是將計算移動到RAM(記憶體)附近,也就是d-Matrix採用的方法。 這種叫數位記憶體計算(DIMC)的引擎架構降低了延遲,減少了能源消耗。 它也非常適合AI推理,因為推理會涉及一個相對靜態(但大型)的權重數據集,這個數據集被反覆訪問,DIMC消除了大部分能量轉移費用和數據移動的延遲。

d-Matrix使用多個Chiplet來構建更大、模組化且可擴展的積體電路。 這使它能夠構建可擴展的平臺,用於企業級AI推理任務,説明AI企業提高性能和效率。

Jayhawk II Chiplet

2021年,d-Matrix推出了Nighthawk Chiplet,之後,他們推出了Jayhawk Chiplet平臺,這是行業首款基於Open Domain-Specific Architecture(ODSA)Bunch of Wires(BoW)的Chiplet平臺,旨在提供高能效的基於有機基板的晶元間連接。

而首批採用d-Matrix的DIMC架構的產品將基於最近宣佈的Jayhawk II處理器,這是一個包含約165億晶體管的Chiplet。

每個Jayhawk II Chiplet都包含一個RISC-V核心來管理它,32個Apollo核心(每個核心有八個並行操作的DIMC單元)、帶有150TB/s带寬的256 MB SRAM。 核心使用帶有84TB/s頻寬的特殊網路晶元進行連接。

Corsair計算卡

d-Matrix還推出了Corsair計算卡,類似英偉達的H100,每塊Corsair計算卡擁有8個Jayhawk II Chiplet,每個Jayhawk II提供2Tb/s(250GB/s)的晶片到晶片帶寬,單塊Corsair計算卡就擁有8Tb/s(1TB/s)的聚合晶片到晶元帶寬。

d-Matrix的架構和軟體的可擴充性使其能夠將整合的SRAM記憶體聚合成一個提供非常高頻寬的統一記憶體池。 例如,帶有16張Corsair卡的伺服器有32 GB的SRAM和2TB的LPDDR5,這足以運行200億到300億參數的Transformer模型。

d-Matrix聲稱,與基於GPU的解決方案相比,搭載Corsair計算卡的伺服器使生成式AI的推理總體擁有成本降低了10倍到30倍,但是這一套硬體將在2024年才能正式投入使用。

d-Matrix Aviator軟體堆棧

英偉達在AI算力的強大不僅在於GPU,也在於它的CUDA軟體堆疊以及為特定工作負載和用例優化的眾多庫,從而形成了完整生態。

d-Matrix也用Aviator軟體堆疊與硬體一起為客戶提供完整體驗,它包含了一系列用於生產中部署模型的軟體,例如ML工具鏈、用於工作負載分配的系統軟體、用於生產部署的推理伺服器軟體等。 而且其大部分軟體堆疊都利用了廣泛採用的開源軟體。

瞄準相對較小的模型

d-Matrix的首席執行官Sid Sheth指出,除了定位在AI推理外,它們還進一步專注在數十億到數百億的中小大模型,而不是通用的千億以上大模型。

半導體和AI研究機構Cambrian AI的創始人兼首席分析師Karl Freund也同意這種觀點,他表示:「大多數企業不會部署千億或萬億參數大模型。 但他們會使用公司的自有數據來微調模型,他們實際部署的模型規模會小得多。 對於這種大小的模型,英偉達H100在AI推理方面不一定是最經濟的選擇,目前H100的售價高達40000美元。 ”

他也指出,d-Matrix面臨一個機會視窗,在英偉達等巨頭轉向這個市場前,他有一段相對空白的時間來展現其價值。

目前,d-Matrix預計今年的收入將不超過1000萬美元,主要來自購買晶元進行評估的客戶。 創始人Sheth表示,d-Matrix預計在兩年內的年收入將超過7000萬至7500萬美元,並實現盈虧平衡。 而d-Matrix面臨的市場空間是巨大的,Cambrian AI預計到2030年,AI推理晶元的算力功耗比達到每瓦超過1000 TOPS都是可能的。

自主性和成本是AI晶元的生存土壤

d-Matrix等AI晶元創業公司的生存土壤,一方面來自於AI廠商的自主可控需求,無論是微軟,Meta,亞馬遜這樣的巨頭,OpenAI,Anthropic這樣的超級獨角獸,還是Cohere等領先的創業公司,他們都不希望自己的AI算力與單一公司綁定。

另一方面就是AI服務的運行成本問題,對於大模型公司,從長期看,運行AI服務的算力成本會高於訓練模型的算力成本,而且在現階段,AI企業的單個使用者的運行成本是虧損狀態,總體擁有成本 (TCO) 也高企。 對於資金充裕的巨頭,這種虧損狀態尚可承擔,但是對於創業公司來說,則是巨大負擔,會拖慢他們的業務進一步擴大的速度。

第三方、低成本的AI推理算力,無論對於巨頭,還是對於創業公司,都極為需要。

目前的階段,AI晶元領域的創業公司面臨什麼風險? 其一當然是英偉達巨頭的“壟斷”,以及微軟、Meta、谷歌、OpenAI這些最大的AI公司自研晶元,再就是與晶元配套的軟體生態問題。

而這些問題,d-Matrix都在解決當中。 它瞄準了商用中小規模AI模型的市場,也與開源社區合作,打造軟體生態,這都能讓它在巨頭競爭時擁有差異化競爭優勢。

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 留言
  • 分享
留言
0/400
暫無留言
交易,隨時隨地
qrCode
掃碼下載 Gate APP
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)