英偉達：帝國裂縫一條條

巴比特_

2023-10-27 01:44:38

原文來源：解碼Decode

圖片來源：由無界AI生成

外界常有這樣一種錯覺，因為英特爾CPU賣的好就將其歸於一家成功的硬體公司，而事實上，英特爾統治桌面處理器的功臣是誕生於1978年的X86架構。

同樣的錯覺在英偉達身上也有。

英偉達之所以能夠壟斷人工智慧訓練晶元市場，CUDA架構絕對是幕後功臣之一。

這個誕生於2006年的架構，已經涉及計算機計算的各個領域，幾乎被塑造成了英偉達的形狀。航空航太、生物科學研究、機械和流體類比及能源探索等領域的研究，80%在CUDA的基礎上進行。

而在最火爆的AI領域，幾乎所有的大廠都在準備Plan B：谷歌、亞馬遜、華為、微軟、OpenAI、百度...... 誰也不想讓自己的未來攥在別人手中。

創業服務諮詢機構 Dealroom.co 公佈過一組數據，在這波生成式AI的熱浪中，美國獲得了全球投融資的89%，而在AI晶元的投融資中，中國AI晶元投融資世界第一，超過美國兩倍。

也就是說，儘管中美企業在大模型的發展方式和階段都存在諸多差異，但在掌控算力這件事，大家卻顯得格外一致。

為什麼CUDA有這種魔力？

2003年，英偉達為了與推出4核CPU的英特爾競爭，開始著手發展統一計算設備架構技術，也就是CUDA。

CUDA的初衷是為GPU增加一個易用的程式設計介面，讓開發者無需學習複雜的著色語言或者圖形處理原語。英偉達最初的想法是為遊戲開發者提供一個圖形計算領域的應用，也就是黃仁勳口中的“make graphics programmable”。

不過CUDA推出后一直找不到關鍵應用，也缺少重要客戶支援。而且英偉達還要花費大筆金錢來開發應用、維持服務並推廣與行銷，到2008年遭遇金融風暴，顯卡銷售不好的英偉達營收大跌，股價一度跌到只剩1.5美元，比AMD最慘的時候還要慘。

直到2012年，Hinton的兩個學生用英偉達的GPU參加了一個叫做ImageNet的圖像識別速度比賽。他們使用GTX580顯卡，利用CUDA技術進行訓練，結果算出的速度超過第二名數十倍，精確度也比第二名高10%以上。

讓業內震驚的不只是ImageNet模型本身。這個需要1400萬張圖片、總計262千萬億次浮點運算訓練的神經網路，一個星期的訓練過程中僅用了四顆GTX 580。作為參考，谷歌貓用了1000萬張圖片、16000顆CPU和1000台計算機。

這次比賽不僅是AI的一次歷史轉折，也為英偉達打開了突破口。英偉達開始與業界合作推動AI生態，推廣開源AI框架，並與Google、Facebook等公司合作推動TensorFlow等AI技術發展。

這等於完成了黃仁勳口中的第二步，“open up GPU for programmability for all kinds of things”。

當GPU的算力價值被發現后，大廠也猛然醒悟，英偉達此前數年反覆運算和鋪墊的CUDA，已然成為AI繞不開的一堵高牆。

為了籌建CUDA生態，英偉達為開發者提供了豐富的庫和工具，如cuDNN、cuBLAS和TensorRT等，方便開發者進行深度學習、線性代數和推理加速等任務。此外，英偉達還提供包括CUDA編譯器和優化器在內的完整開發工具鏈，使開發者能夠更方便地進行GPU程式設計和性能優化。

與此同時英偉達也與許多流行的深度學習框架（如TensorFlow、PyTorch和MXNet）緊密合作，為CUDA提供了在深度學習任務中的顯著優勢。

這種「扶上馬，送一程」的奉獻精神，使英偉達僅用了兩年半時間，就將CUDA生態的開發者數量翻了一倍。

這還不夠，過去十餘年裡英偉達將CUDA的教學課程推廣到超過350所大學，平臺內有專業的開發者和領域專家，他們通過分享經驗和解答疑難問題，為CUDA的應用提供了豐富的支援。

更關鍵的是，英偉達深知硬體作為護城河的缺陷在於沒有使用者粘性，於是將硬體與軟體捆綁，GPU渲染要用CUDA、AI降噪要用OptiX、自動駕駛計算需要CUDA......

儘管英偉達目前憑藉GPU+NVlink+CUDA壟斷了AI算力90%的市場，但帝國的裂縫已經不止一條了。

一條條裂縫

AI廠商苦CUDA久矣，並不是危言聳聽。

CUDA的神奇之處就在於它處在軟硬結合的關鍵位置，對軟體來說它是整個生態的基石，競爭對手難以繞過CUDA去相容英偉達的生態; 對硬體來說，CUDA的設計基本就是英偉達硬體形態的軟體抽象，基本每個核心概念都和GPU的硬體概念相對應。

那麼對於競爭對手來說，就只剩兩個選擇：

1 繞開CUDA，重建一套軟體生態，這就要直面英偉達使用者粘性的巨大挑戰;

2 兼容CUDA，但也要面臨兩個問題，一是如果你的硬體路線和英偉達不一致，那麼就有可能實現的低效且難受，二是CUDA會跟隨英偉達硬體特性演進，相容這也只能選擇跟隨。

但為了擺脫英偉達的鉗制，兩種選擇都有人嘗試。

2016年，AMD推出的基於開源專案的GPU生態系統ROCm，提供HIP工具完全相容CUDA，就是一種跟隨路線。

但因為工具鏈庫資源匱乏、開發和反覆運算相容性代價較大等掣肘，使ROCm生態難以壯大。在Github上，貢獻CUDA軟體包倉庫的開發者超過32600位，而ROCm只有不到600個。

走相容英偉達CUDA路線的難點在於，其更新反覆運算速度永遠跟不上CUDA並且很難做到完全相容：

1 反覆運算永遠慢一步：英偉達GPU在微架構和指令集上反覆運算很快，上層軟體堆疊的很多地方也要做相應的功能更新。但AMD不可能知道英偉達的產品路線圖，軟體更新永遠會慢英偉達一步。例如AMD有可能剛宣布支援了CUDA11，但是英偉達已經推出CUDA12了。

2 難以完全相容反而會增加開發者的工作量：像CUDA這樣的大型軟體本身架構很複雜，AMD需要投入大量人力物力用幾年甚至十幾年才能追趕上。因為難免存在功能差異，如果相容做不好反而會影響性能（雖然99%相似了，但是解決剩下來的1%不同之處可能會消耗開發者99%的時間）。

也有公司選擇繞開CUDA，比如2022年1月成立的Modular。

Modular的思路是盡可能降低門檻，但更像是一種奇襲。它提出“用於提高人工智慧模型性能”的AI引擎，通過“模組化”方式解決“當前AI應用棧常與特定硬體和軟體耦合”的問題。

為了配合這個AI引擎，Modular還開發了開源程式設計語言Mojo。你可以把它想像成一個“專為AI而生”的程式設計語言，Modular用它開發各種工具整合到前面提到的AI引擎裡，同時又可以無縫銜接上Python，降低學習成本。

但Modular的問題在於，其所設想的“全平台開發工具”太過理想化。

雖然頂著“超越Python”的頭銜，又有Chris Lattner名聲作為背書，但Mojo作為一種新語言，在推廣上還需要經過眾多開發者的考驗。

而AI引擎要面臨的問題就更多，不僅需要與眾多硬體公司之間達成協議，還要考慮各平臺之間的相容。這些都是需要長時間的打磨才能完成的工作，到時候的英偉達會進化成什麼樣子，恐怕沒人會知道。

挑戰者華為

10月17日，美國更新了針對AI晶元的出口管制規定，阻止英偉達等公司向中國出口先進的AI晶元。根據最新的規則，英偉達包括A800和H800在內的晶元對華出口都將受到影響。

此前英偉達A100及H100兩款型號限制出口中國後，為中國專供的“閹割版”A800和H800就是為了符合規定。英特爾同樣也針對中國市場，推出了AI晶元Gaudi2。如今看來，企業們又要在新一輪出口禁令下再進行調整應對。

今年8月，搭載華為自研麒麟9000S晶元的Mate60Pro突然開售，瞬間引發了巨大輿論浪潮，使得幾乎同一時間的另外一條新聞很快被淹沒。

科大訊飛董事長劉慶峰在一個公開活動上罕見表態，稱華為GPU可對標英偉達A100，但前提是華為派出專門工作組在訊飛成立專班工作優化的背景下。

這種突然的表態往往都有深層次的意圖，雖然沒有預知能力但其效用仍是為了應對兩個月後的晶元禁令。

華為GPU，也就是昇騰AI全棧軟硬體平臺，全棧包括5層，自底向上為Atlas系列硬體、異構計算架構、AI框架、應用使能、行業應用。

基本上可以理解為華為針對英偉達做了一套平替，晶元層是昇騰910和昇騰310，異構計算架構（CANN）對標英偉達CUDA + CuDNN核心軟體層。

當然差距不可能沒有，有相關從業者總結了兩點：

1 單卡性能落後，昇騰910與A100還有差距，但勝在價格便宜可以堆量，達到集群規模后整體差距不大;

2 生態劣勢的確存在，但華為也在努力追趕，比如經過PyTorch社區與昇騰的合作，PyTorch 2.1版本已同步支援昇騰NPU，意味著開發者可直接在PyTorch 2.1上基於昇騰進行模型開發。

目前華為昇騰主要還是運行華為自家閉環的大模型產品，任何公開模型都必須經過華為的深度優化才能在華為的平臺上運行，而這部分優化工作嚴重依賴於華為。

而在當前背景下，昇騰又具有特殊的重要意義。

今年5月，華為昇騰計算業務總裁張迪煊就已透露，「昇騰AI」基礎軟硬體平臺已孵化和適配了30多個主流大模型，我國一半以上的原生大模型是基於「昇騰AI」基礎軟硬體平臺打造，包括鵬程系列、紫東系列、華為雲盤古系列等。今年8月，百度也官宣了推進在昇騰AI上與飛槳+文心大模型的適配。

並且根據網路上流傳的一張圖片顯示，中國人工智慧超算中心除了未披露，基本都是昇騰，據稱在新一輪晶元限令后，華為30-40%的晶元產能要留給昇騰集群，其餘是Kirin。

尾聲

在英偉達展開宏大敘事的2006年，沒有人認為CUDA會是一個革命性的產品，黃仁勳要苦口婆心的說服董事會每年投入5億美金，來賭一個回報期超過10年的未知，而當年英偉達的營收也不過30億美金而已。

但在所有以技術和創新作為關鍵詞的商業故事里，總有人因為對長遠目標的持久堅持而收穫巨大的成功，英偉達和華為都是其中的佼佼者。

參考資料

[1] 英偉達的「鐮刀」，不是AI晶元，矽基研究室

[2] 為了成為「英偉達平替」，大模型廠商開卷了，小飯桌創服

[3] 成立僅1年，這家AI明星創企，想挑戰英偉達，鎂客網

[4] 英偉達帝國的一道裂縫，遠川研究所

[5] 美計劃加緊對華晶元出口，華為領銜演繹國產崛起，華西證券

[6] AIGC行業深度報告（11）：華為算力分拆：全球AI算力的第二極，華西證券

[7] 2023年AIGC行業專題報告：AI 晶元四大技術路線，寒武紀複製英偉達，申萬宏源

[8] CUDA如何成就NVIDIA：AI領域的巨大突破，騰訊雲社區

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

2人點讚了這條動態

讚賞
2
留言
分享

留言

0/400

暫無留言

話題
1/3
1曬出我的Alpha積分
12k 熱度
2加密市場反彈
165k 熱度
3加密項目計劃
20k 熱度
4成長值抽獎12期
40k 熱度
56 BTC全民空投限時派送中
99k 熱度

英偉達：帝國裂縫一條條

**為什麼CUDA有這種魔力？ **

一條條裂縫

挑戰者華為

尾聲

為什麼CUDA有這種魔力？