📢 Gate廣場 #NERO发帖挑战# 秀觀點贏大獎活動火熱開啓!
Gate NERO生態周來襲!發帖秀出NERO項目洞察和活動實用攻略,瓜分30,000NERO!
💰️ 15位優質發帖用戶 * 2,000枚NERO每人
如何參與:
1️⃣ 調研NERO項目
對NERO的基本面、社區治理、發展目標、代幣經濟模型等方面進行研究,分享你對項目的深度研究。
2️⃣ 參與並分享真實體驗
參與NERO生態周相關活動,並曬出你的參與截圖、收益圖或實用教程。可以是收益展示、簡明易懂的新手攻略、小竅門,也可以是行情點位分析,內容詳實優先。
3️⃣ 鼓勵帶新互動
如果你的帖子吸引到他人參與活動,或者有好友評論“已參與/已交易”,將大幅提升你的獲獎概率!
NERO熱門活動(帖文需附以下活動連結):
NERO Chain (NERO) 生態周:Gate 已上線 NERO 現貨交易,爲回饋平台用戶,HODLer Airdrop、Launchpool、CandyDrop、餘幣寶已上線 NERO,邀您體驗。參與攻略見公告:https://www.gate.com/announcements/article/46284
高質量帖子Tips:
教程越詳細、圖片越直觀、互動量越高,獲獎幾率越大!
市場見解獨到、真實參與經歷、有帶新互動者,評選將優先考慮。
帖子需原創,字數不少於250字,且需獲得至少3條有效互動
英偉達25年路線圖驚爆流出! 老黃豪賭B100暴打AMD,秘密武器X100曝光
原文來源:新智元
英偉達的AI硬體霸主,當得太久了!
現在,各大科技公司都在虎視眈眈,等著一舉顛覆它的霸主之位。
當然,英偉達也不會坐以待斃。
最近,外媒SemiAnalysis曝出了一份英偉達未來幾年的硬體路線圖,包括萬眾矚目的H200、B100和「X100」GPU。
如果這些計劃如願成功,英偉達將繼續成功碾壓對手。
當然,霸主之位也沒這麼好當——AMD的MI300、MI400,亞馬遜的Trainium2,微軟的Athena,英特爾的Gaudi 3,都不會讓英偉達好過。
準備好,前方高能來襲!
谷歌早已開始佈局自己的AI基礎設施,他們構建的TPUv5和TPUv5e,既可以用於內部的訓練和推理,也可以給蘋果、Anthropic、CharacterAI、MidJourney等外部客戶使用。
谷歌不是英偉達唯一的威脅。
在軟體方面,Meta的PyTorch2.0和OpenAI的Triton也在迅猛發展,使其他硬體供應商得以實現相容。
在軟體堆疊上,AMD的GPU、英特爾的Gaudi、Meta的MTIA和微軟的Athena都取得了一定程度的發展。
儘管英偉達仍然保持著硬體領先地位,但差距的縮小,會越來越快。
英偉達H100,也不會獨領風騷太久。
在接下來的幾個月內,無論是AMD的MI300,還是英特爾的Gaudi 3,都將推出技術上優於H100的硬體產品。
這些公司雖然在硬體設計上暫時落後,但能得到背後巨頭的補貼——天下苦英偉達久矣,這些公司都希望打破英偉達在HBM上的巨額利潤壟斷。
亞馬遜即將推出的Trainium2和Inferentia3, 微軟即將推出的Athena,都是已佈局多年的投資。
競爭對手來勢洶洶,英偉達當然也不會坐以待斃。
而黃仁勳身上,體現了一股安迪·格魯夫的精神。
為了穩坐第一把交椅,英偉達野心勃勃,採取了多管齊下的冒險策略。
他們已經不屑於再和英特爾、AMD在傳統的市場上競爭,而是想成為谷歌、微軟、亞馬遜、Meta、蘋果這樣的科技巨頭。
**路線圖最新細節曝光! **
英偉達最新路線圖的重要細節,已經被曝光。
內容包括所採用的網路、記憶體、封裝和工藝節點,各種GPU、SerDes選擇、PCIe6.0、協同封裝光學器件和光路交換機等細節。
B100:上市時間高於一切
根據內部消息,英偉達的B100將於2024年第三季度量產,部分早期樣品將於2024年第二季度出貨。
從性能和TCO看,無論是亞馬遜的Trainium2、谷歌的TPUv5、AMD的MI300X,還是英特爾的Gaudi 3或微軟的Athena,跟它相比都弱爆了。
為了儘快將B100推向市場,英偉達做了不少妥協。
比如,英偉達本想把功耗定在更高的水準(1000W),但最終,他們還是選擇了繼續使用H100的700W。
這樣,B100推出時,就能繼續使用風冷技術。
5.0和700W的組合意味著,它可以直接插入現有的H100 HGX伺服器中,從而大大提高供應鏈能力,更早地量產和出貨。
之所以決定堅持使用5.0,還有部分原因是,AMD和英特爾在PCIe6.0集成上還遠遠落後。 而即使英偉達自己的內部團隊,也沒有準備好使用PCIe6.0CPU。
此外,他們還將使用速度更快的C2C式連結。
據悉,博通和AsteraLabs要到年底才能準備好量產的PCIe6.0重定時器,而考慮到這些基板的尺寸,所需的重定時器只會更多。
這也意味著,最初的B100將被限制在3.2T,使用ConnectX-7時的速度也僅僅是400G,而非英偉達在PPT上所宣稱的每個GPU 800G。
如果保持空氣冷卻,電源、PCIe和網路速度不變,那無論是製造還是部署,都會很容易。
這一版B100將通過ConnectX-8,為每個GPU提供完整的800G網路連接。
對於乙太網/InfiniBand,這些SerDes仍然是8x100G。
雖然每個GPU的網路速度提高了一倍,但基數卻減半了,因為它們仍需通過相同的51.2T交換機。 而102.4T交換機,在B100一代中將不再使用。
有趣的是,有爆料稱B100上的NVLink元件將採用224G SerDes,如果英偉達真能做到這一點,無疑是巨大的進步。
大多數人業內人士都認為,224G並不可靠,2024年不可能實現,但英偉達的人除外。
要知道,無論是谷歌、Meta,還是亞馬遜,他們的224G AI加速器量產目標都定在2026/2027年。
如果英偉達在2024/2025年就實現了這一點,鐵定會把對手們打得落花流水。
顯然,對於如此大的晶片尺寸,台積電的3nm工藝尚未成熟。
SambaNova和英特爾明年的晶片,都採用了類似的宏觀設計。
據SemiAnalysis估測,這兩款B100晶元的記憶體容量將與AMD的MI300X相近或更高,達到24GB堆疊。
風冷版B100的速度可達6.4Gbps,而液冷版可能高達9.2Gbps。
另外,英偉達還在路線圖中展示了GB200和B40。
GB200和GX200都使用了G,顯然這是一個佔位符,因為英偉達將推出基於Arm架構的新CPU。 並不會長期使用Grace。
B40很可能只是B100的一半,只有一個單片N4P晶元,和最多4或6層的HBM。 與L40S不同,這對於小模型的推理是很有意義的。
「X100」:致命一擊
曝出的路線圖中最惹人注意的,就是英偉達的「X100」時程表了。
有趣的是,它與AMD目前的MI400時程表完全吻合。 就在H100推出一年後,AMD發佈了MI300X戰略。
AMD給MI300X的封裝令人印象深刻,他們大量塞入了更多的計算和記憶體,希望能超越一年前的H100,從而在純硬體上超越英偉達。
被逼急了的英偉達,正在把產品週期加快到每年一次,不給對手任何機會。 比如,他們計劃於2025年推出「X100」,僅僅比B100晚一年。
當然,「X100」目前還並未量產(不像B100),所以一切還懸而未決。
要知道,在過去,英偉達可從來不會討論下一代產品之後的產品,這次已經是史無前例了。
而且,名字大概率也不叫「X100」。
英偉達一直以來的傳統,都是以Ada Lovelace、Grace Hopper和Elizabeth Blackwell等傑出女科學家的名字來命名GPU的。
至於「X」,唯一符合邏輯的就是研究半導體和金屬帶結構的Xie Xide,但考慮到她的身份,概率應該不大。
自英偉達成立之初,黃仁勳就一直在積極推動著對供應鏈的掌握,從而支援龐大的增長目標。
他們不僅願意承擔不可取消的訂單——高達111.5億美元的採購、產能和庫存承諾,並且還有38.1億美元的預付款協定。
可以說,沒有一家供應商能與之相提並論。
而英偉達的事蹟也不止一次表明,他們可以在供應短缺時創造性地增加供應量。
當時,張忠謀無法相信英偉達需要如此多的晶圓,但黃仁勳堅持了下來。
英偉達通過在供應方面的大胆嘗試,取得了巨大成功。 雖然時不時要減記價值數十億美元的庫存,但他們仍然從過度的訂購中獲得了正收益。
這次,英偉達直接搶佔了GPU上游元件的大部分供應——
他們向SK海力士、三星和美光這3家HBM供應商下了非常大的訂單,擠佔了除博通和Google之外其他所有人的供應。 同時,還買下了台積電CoWoS的大部分供應,以及Amkor的產能。
此外,英偉達還充分利用了HGX板卡和伺服器所需的下游元件,如重定時器、DSP、光學器件等。
如果供應商對英偉達要求置若罔聞,那麼就會面對老黃的「蘿蔔加大棒」——
一方面,他們會從英偉達獲得難以想像的訂單; 另一方面,他們可能會被英偉達從現有的供應鏈中剔除。
當然,英偉達也只有在供應商至關重要且無法被淘汰或多元化供應的情況下,才會使用承諾和不可取消的訂單。
回到市場動態上,雖然英偉達的目標是在明年實現超過700億美元的數據中心銷售額,但只有谷歌在上游有足夠的產能——擁有超過100萬台的設備。 AMD在AI領域的總產能仍然非常有限,最高也不過幾十萬台。
商業策略:潛在的反競爭
眾所周知,英偉達正在利用對GPU的巨大需求,來向客戶推銷和交叉銷售產品。
供應鏈中有大量資訊透露,英偉達會根據一系列因素向某些公司提供優先分配。 包括但不限於:多元化採購計劃、自主研發AI晶元計劃、購買英偉達的DGX、NIC、交換機和/或光學設備等。
這些策略,可以說是相當周密。
比如,想要在英偉達的系統上實現3.2T網路和可靠的RDMA/RoCE,唯一方法就是使用英偉達的NIC。 當然,一方面也是因為英特爾、AMD和博通的產品實在是缺乏競爭力——仍然停留在200G的水準上。
而通過對供應鏈的管理,英偉達還促使400G InfiniBand NIC的交付週期,能夠比400G乙太網NIC明顯縮短。 而這兩種NIC(ConnectX-7)在晶元和電路板設計上,其實是完全相同的。
其原因在於英偉達的SKU配置,而非實際的供應鏈瓶頸——迫使企業不得不購買成本更高的InfiniBand交換機,而不是標準的乙太網交換機。
這還不止,看看供應鏈對L40和L40S GPU有多麼著迷,就知道英偉達又在分配上做手腳了——為了贏得更多H100的分配,OEM廠商就需要購買更多的L40S。
這與英偉達在PC領域的操作,也是如出一轍——筆記本製造商和AIB合作夥伴必須購買更大量的G106/G107(中/低端GPU)才能獲得更稀缺、更高利潤的G102/G104(高端和旗艦GPU)。
作為配合,供應鏈中的人也被灌輸了這樣的說法——L40S比A100更好,因為它具有更高的FLOPS。
但實際上,這些GPU並不適合LLM推理,因為它們的顯存頻寬還不到A100的一半,而且也沒有NVLink。
這意味著在L40S上運行LLM並實現良好的TCO幾乎是不可能的,除非是非常小的模型。 而大批量的處理也會導致分配到每個使用者上的token/s幾乎是不可用的,從而使理論上的FLOPS在實際應用中變得毫無用處。
戴爾、惠普和聯想等公司顯然對MGX持抵制態度,但諸如超微、廣達、華碩、技嘉等公司則爭相填補這一空白,將低成本的「企業人工智慧」商品化。
而這些參與L40S和MGX炒作的OEM/ODM,也可以從英偉達那裡獲得更好的主線GPU產品分配。
光電共封裝(Co-Packaged Optics)
在CPO方面,英偉達也是相當重視。
他們一直在研究各種解決方案,包括來自Ayar Labs的解決方案,以及他們自己從Global Foundries和台積電獲得的解決方案。
因為直接集成到GPU本身可能成本太高,而且在可靠性方面也很困難。
谷歌在人工智慧基礎設施方面最大的優勢之一,就是它的光路交換機。
顯然,英偉達也在追求類似的東西。 目前,他們已經接觸了多家公司,希望能夠進行合作開發。
與谷歌選擇6D Torus不同,英偉達更傾向於採用Dragonfly結構。
不過,目前還沒有人展示過這種能力,甚至連谷歌也沒有。
雖然英偉達的OCS和CPO還只是研究部門的兩套PPT,但分析人士認為,CPO會在2025至2026年內離產品化更進一步。
參考資料: