Görüntü kaynağı: Sınırsız AI tarafından oluşturuldu
NVIDIA'nın yapay zeka donanım hegemonyası çok uzun sürdü!
Şimdi, büyük teknoloji şirketleri üstünlüklerini devirmeyi bekliyor.
Tabii ki, Nvidia hala oturmayacak.
Son zamanlarda, yabancı medya SemiAnalysis, önümüzdeki birkaç yıl içinde NVIDIA için merakla beklenen H200, B100 ve "X100" GPU'lar da dahil olmak üzere bir donanım yol haritası açıkladı.
Bununla birlikte, NVIDIA'nın işlem teknolojisi planı, HBM3E hız/kapasite, PCIe 6.0, PCIe 7.0, NVLink, 1.6T 224G SerDes planı dahil olmak üzere bazı somut bilgiler var.
Bu planlar umulduğu gibi giderse, Nvidia rakiplerini başarılı bir şekilde ezmeye devam edecek.
Tabii ki, üstünlük konumu o kadar iyi değil - AMD'nin MI300'ü, MI400'ü, Amazon'un Trainium 2'si, Microsoft'un Athena'sı, Intel'in Gaudi 3'ü Nvidia'yı daha iyi hale getirmeyecek.
Hazır olun, önünüzdeki yüksek enerjili saldırı!
NVIDIA, sadece bir donanım hegemonu olmak istemekten daha fazlası
Google zaten kendi AI altyapısını oluşturmaya başladı ve oluşturdukları TPUv5 ve TPUv5e, hem dahili eğitim ve çıkarım için hem de Apple, Anthropic, CharacterAI ve MidJourney gibi harici müşteriler için kullanılabilir.
Google, Nvidia'nın tek tehdidi değil.
Yazılım tarafında, Meta'nın PyTorch 2.0'ı ve OpenAI'nin Triton'u da patlama yaşıyor ve bu da onu diğer donanım satıcılarıyla uyumlu hale getiriyor.
Bugün, yazılım açığı devam ediyor, ancak bir zamanlar olduğu kadar büyük değil.
Yazılım yığınında, AMD'nin GPU'ları, Intel'in Gaudi'si, Meta'nın MTIA'sı ve Microsoft'un Athena'sı bir dereceye kadar gelişme kaydetti.
NVIDIA hala donanımdaki lider konumunu korusa da, aradaki fark daha hızlı ve daha hızlı kapanacak.
NVIDIA H100 uzun süre hakim olmayacak.
Önümüzdeki aylarda hem AMD'nin MI300'ü hem de Intel'in Gaudi 3'ü, teknik olarak H100'den daha üstün donanım ürünlerini piyasaya sürecek.
Google, AMD ve Intel gibi zorlu rakiplerin yanı sıra NVIDIA'ya çok fazla baskı yapan bazı şirketler de var.
Bu şirketler donanım tasarımında geçici olarak geride kalsalar da, arkalarındaki devlerden sübvansiyon alabilirler - dünya NVIDIA'dan uzun süredir acı çekiyor ve bu şirketler NVIDIA'nın HBM üzerindeki büyük kar tekelini kırmayı umuyor.
Amazon'un yaklaşmakta olan Trainium2 ve Inferentia3'ü ve Microsoft'un yakında çıkacak olan Athena'sı, yıllardır devam eden yatırımlardır.
Rakipler tehditkar ve Nvidia kesinlikle yerinde durmayacak.
Yabancı medya SemiAnalysis'e göre, yönetim tarzı veya rota karar verme süreci ne olursa olsun, NVIDIA "sektördeki en şüpheli şirketlerden biri".
Ve Huang Jenxun, Andy Grove'un ruhunu somutlaştırıyor.
Başarı rehavete yol açar. Kayıtsızlık başarısızlığa yol açar. Sadece paranoya hayatta kalır.
İlk sırayı güvence altına almak için NVIDIA hırslı ve çok yönlü maceracı bir strateji benimsiyor.
Artık geleneksel pazarda Intel ve AMD ile rekabet etmeyi küçümsemiyorlar, ancak Google, Microsoft, Amazon, Meta ve Apple gibi teknoloji devleri olmak istiyorlar.
NVIDIA'nın DGX Cloud, yazılımı ve yarı iletken olmayan alanlar için satın alma stratejisi, arkasındaki büyük satranç taşlarıdır.
**Yol haritasının son detayları ortaya çıktı! **
NVIDIA'nın en son yol haritasının önemli detayları ortaya çıktı.
Ayrıntılar arasında ağ, bellek, paketleme ve işlem düğümleri, çeşitli GPU'lar, SerDes seçimi, PCIe 6.0, ortak paketlenmiş optikler ve optik anahtarlar bulunur.
Açıkçası, Google, Amazon, Microsoft, AMD ve Intel'in rekabet baskısı altında NVIDIA, B100 ve X100'ün geliştirilmesini bir gecede hızlandırdı.
B100: Her şeyden önce pazara sunma zamanı
Dahili kaynaklara göre, NVIDIA'nın B100'ü 2024'ün üçüncü çeyreğinde seri üretilecek ve bazı erken numuneler 2024'ün ikinci çeyreğinde gönderilecek.
Performans ve TCO açısından, Amazon'un Trainium 2'si, Google'ın TPUv5'i, AMD'nin MI300X'i veya Intel'in Gaudi 3'ü veya Microsoft'un Athena'sı olsun, ona kıyasla zayıf.
Tasarım ortakları, AMD veya TSMC'den gelen sübvansiyonları hesaba katsak bile, hepsini yenemezler.
NVIDIA, B100'ü mümkün olan en kısa sürede piyasaya sürmek için birçok taviz verdi.
Örneğin NVIDIA, güç tüketimini daha yüksek bir seviyeye (1000W) ayarlamak istedi, ancak sonunda H100'ün 700W'ını kullanmaya devam etmeyi seçtiler.
Bu sayede B100, piyasaya sürüldüğünde hava soğutmalı teknolojiyi kullanmaya devam edebilir.
Ek olarak, B100 serisinin başlarında NVIDIA, PCIe 5.0 kullanmakta da ısrar edecek.
5.0 ve 700W kombinasyonu, doğrudan mevcut H100 HGX sunucularına takılabileceği anlamına gelir, bu da tedarik zinciri kapasitesini büyük ölçüde artırır ve üretim ve sevkiyatı daha erken gerçekleştirir.
5.0'a bağlı kalma kararının bir nedeni, AMD ve Intel'in PCIe 6.0 entegrasyonunda hala çok geride olmasıdır. Ve Nvidia'nın kendi dahili ekibi bile PCIe 6.0 CPU'ları kullanmaya hazır değil.
Ayrıca, daha hızlı C2C tarzı bağlantılar kullanacaklar.
Gelecekte, ConnectX-8 entegre bir PCIe 6.0 anahtarı ile donatılacak, ancak henüz kimse hazır değil.
Broadcom ve AsteraLabs, PCIe6.0 zamanlayıcılarını yıl sonuna kadar üretime hazır hale getirmeyecek ve bu alt tabakaların boyutu göz önüne alındığında, yalnızca daha fazla yeniden zamanlayıcıya ihtiyaç duyulacak.
Bu aynı zamanda orijinal B100'ün 3.2T ile sınırlı olacağı ve ConnectX-7'yi kullanırken hızın NVIDIA tarafından PPT'de talep edilen GPU başına 800G yerine yalnızca 400G olacağı anlamına gelir.
Havayı serin tutar ve güç, PCIe ve ağ hızlarını sabit tutarsanız, üretimi ve dağıtımı kolaydır.
Daha sonra NVIDIA, su soğutması gerektiren 1.000W+ B100 sürümünü piyasaya sürecek.
B100'ün bu sürümü, ConnectX-8 aracılığıyla GPU başına tam 800G ağ bağlantısı sağlayacaktır.
Ethernet/InfiniBand için bu SerDe'ler hala 8x100G'dir.
GPU başına ağ hızı iki katına çıkarken, hala aynı 51.2T anahtarından geçmeleri gerektiğinden kardinalite yarıya indirildi. 102.4T anahtarı artık B100 neslinde kullanılmayacak.
İlginç bir şekilde, B100'deki NVLink bileşeninin 224G SerDes kullanacağı bildirildi ve NVIDIA bunu gerçekten yapabiliyorsa, şüphesiz büyük bir gelişme.
Sektördeki çoğu insan, Nvidia'daki insanlar dışında 224G'nin güvenilmez olduğu ve 2024'te gerçekleşme olasılığının düşük olduğu konusunda hemfikir.
Biliyorsunuz, ister Google, ister Meta veya Amazon olsun, 224G AI hızlandırıcı seri üretim hedefi 2026/2027 olarak belirlendi.
NVIDIA bunu 2024/2025'te başarırsa, rakiplerini kesinlikle yerle bir edecektir.
B100'ün hala TSMC'nin N4P'si olduğu, 3nm işlemine dayalı bir teknoloji olmadığı bildiriliyor.
Açıkçası, bu kadar büyük bir çip boyutu için TSMC'nin 3nm süreci henüz olgunlaşmadı.
NVIDIA alt tabaka tedarikçisi Ibiden tarafından açıklanan alt tabaka boyutuna göre NVIDIA, 8 veya 12 HBM yığını içeren 2 monolitik büyük çipli MCM'den oluşan bir tasarıma geçmiş gibi görünüyor.
SambaNova ve Intel'in gelecek yılki çiplerinin her ikisi de benzer makro tasarımları kullanıyor.
NVIDIA'nın AMD gibi hibrit bağlama teknolojisini kullanmamasının nedeni, seri üretime ihtiyaç duymaları ve maliyetin onlar için büyük bir endişe kaynağı olmasıdır.
SemiAnalysis'e göre, bu iki B100 yongasının bellek kapasitesi AMD'nin MI300X'ine benzer veya daha yüksek olacak ve 24 GB'lık bir yığına ulaşacak.
B100'ün hava soğutmalı versiyonu 6.4Gbps'ye kadar hızlara ulaşabilirken, sıvı soğutmalı versiyonu 9.2Gbps'ye kadar ulaşabilir.
Ayrıca NVIDIA, yol haritasında GB200 ve B40'ı da gösterdi.
Hem GB200 hem de GX200, NVIDIA'nın Arm mimarisine dayalı yeni bir CPU tanıtacağı için açıkça bir yer tutucu olan G'yi kullanıyor. Grace'i uzun süre kullanmayacağım.
B40'ın B100'ün yarısı büyüklüğünde olması muhtemeldir, yalnızca yekpare bir N4P yongası ve 4 veya 6 katmana kadar HBM ile. L40S'den farklı olarak bu, küçük modellerde çıkarım yapmak için mantıklıdır.
"X100": Kritik Vuruş
Ortaya çıkan yol haritasıyla ilgili en çarpıcı şey, NVIDIA'nın "X100" programı.
İlginç bir şekilde, AMD'nin mevcut MI400 programına mükemmel bir şekilde uyuyor. H100'ün piyasaya sürülmesinden sadece bir yıl sonra AMD, MI300X stratejisini yayınladı.
AMD'nin MI300X'i paketlemesi etkileyici ve bir yıl önce H100'ü geçmeyi ve böylece saf donanımda Nvidia'yı geçmeyi umarak içine daha fazla bilgi işlem ve bellek sığdırıyorlar.
Nvidia ayrıca, iki yılda bir piyasaya sürülen yeni GPU'ların rakiplerine pazarı ele geçirmek için harika bir fırsat verdiğini buldu.
Acelesi olan Nvidia, rakiplerine hiç şans vermeden ürün döngüsünü yılda bir kez hızlandırıyor. Örneğin, X100'ü B100'den sadece bir yıl sonra, 2025'te piyasaya sürmeyi planlıyorlar.
Tabii ki, "X100" henüz seri üretimde değil (B100'ün aksine), bu yüzden her şey hala havada.
Biliyorsunuz, geçmişte NVIDIA, yeni nesil ürünlerden sonra ürünleri hiç tartışmadı ve bu sefer zaten emsalsiz.
Ayrıca, isim büyük olasılıkla "X100" olarak adlandırılmaz.
Nvidia, uzun zamandır GPU'lara Ada Lovelace, Grace Hopper ve Elizabeth Blackwell gibi önde gelen kadın bilim insanlarının adını verme geleneği olmuştur.
"X" e gelince, tek mantıklı olanı, yarı iletkenlerin ve metal şeritlerin yapısını inceleyen Xie Xide'dir, ancak kimliği göz önüne alındığında, olasılık küçük olmalıdır.
Tedarik Zinciri Ustası: Lao Huang'ın Büyük Bahsi
NVIDIA'nın kuruluşundan bu yana, Jensen Huang, büyük büyüme hedeflerini desteklemek için tedarik zincirinin ustalığını aktif olarak yönlendiriyor.
Yalnızca iptal edilemeyen siparişleri (11,15 milyar dolara kadar satın alma, kapasite ve envanter taahhütleri) üstlenmeye istekli olmakla kalmıyorlar, aynı zamanda 3,81 milyar dolarlık bir ön ödeme anlaşmasına da sahipler.
Muhtemelen, tek bir tedarikçi bununla boy ölçüşemez.
Ve Nvidia'nın hikayesi, arz yetersiz olduğunda arzı yaratıcı bir şekilde artırabileceklerini bir kereden fazla gösterdi.
2007'de Huang Jenxun ve Zhang Zhongmou arasındaki diyalog
Zhang Zhongmou ve ben 1997'de tanıştığımızda, sadece 100 çalışanı olan Nvidia, o yıl 27 milyon dolar gelir elde etmişti.
İnanmayabilirsiniz ama Zhang Zhongmou satış için arar ve kapısını ziyaret ederdi. Ve Zhang'a NVIDIA'nın ne yaptığını ve çiplerimizin ne kadar büyük olması gerektiğini açıklayacağım ve her yıl daha da büyüyecekler.
Daha sonra NVIDIA toplam 127 milyon gofret üretti. O zamandan beri NVIDIA, şimdiye kadar her yıl yaklaşık %100 büyüdü. Yani, son 10 yılda, bileşik yıllık büyüme oranı yaklaşık% 70'e ulaştı.
O sırada Zhang, Nvidia'nın bu kadar çok gofrete ihtiyacı olduğuna inanamadı ama Huang sebat etti.
NVIDIA, arz tarafını deneyerek büyük başarı elde etti. Zaman zaman milyarlarca dolar değerinde envanter yazsalar da, yine de fazla siparişten olumlu kazançlar elde ediyorlar.
Bu sefer NVIDIA, GPU'nun yukarı akış bileşenlerinin tedarikinin çoğunu doğrudan ele geçirdi -
SK Hynix, Samsung ve Micron olmak üzere üç HBM tedarikçisine çok büyük siparişler verdiler ve Broadcom ve Google dışındaki herkesin arzını doldurdular. Aynı zamanda, TSMC CoWoS arzının çoğunu ve Amkor'un üretim kapasitesini de satın aldı.
Ayrıca NVIDIA, emekliler, DSP'ler, optikler ve daha fazlası gibi HGX kartlarının ve sunucularının ihtiyaç duyduğu aşağı akış bileşenlerinden yararlanır.
Tedarikçi, NVIDIA'nın gereksinimlerine kulak tıkarsa, Lao Huang'ın "turp ve sopa" ile karşı karşıya kalacaktır -
Bir yandan NVIDIA'dan akıl almaz siparişler alacaklar; Öte yandan, NVIDIA tarafından mevcut tedarik zincirinden çıkarılabilirler.
Elbette NVIDIA, taahhütlü ve iptal edilemeyen siparişleri yalnızca tedarikçi kritikse ve ortadan kaldırılamıyorsa veya tedarik çeşitlendirilemiyorsa kullanır.
Her tedarikçi, kısmen NVIDIA'nın tüm tedarikçilerine çok sayıda sipariş vermesi ve hepsi işin çoğunu kazandıklarını düşünmesi nedeniyle, kendisini yapay zekada bir kazanan olarak görüyor gibi görünüyor. Ama gerçekte, bunun nedeni NVIDIA'nın çok hızlı büyümesidir.
Pazar dinamiklerine dönersek, Nvidia gelecek yıl 70 milyar dolardan fazla veri merkezi satışı elde etmeyi hedeflerken, yalnızca Google'ın 1 milyondan fazla cihazla yeterli kapasitesi var. AMD'nin yapay zeka alanındaki toplam üretim kapasitesi, maksimum yalnızca birkaç yüz bin adet ile hala çok sınırlıdır.
İş Stratejisi: Potansiyel Rekabete Karşı
Hepimizin bildiği gibi NVIDIA, ürünleri müşterilere pazarlamak ve çapraz satmak için GPU'lara olan büyük talepten yararlanıyor.
Tedarik zincirinde, NVIDIA'nın bir dizi faktöre dayalı olarak belirli şirketlere öncelik tahsisi sağladığına dair çok sayıda bilgi vardır. Aşağıdakiler dahil ancak bunlarla sınırlı olmamak üzere: çeşitlendirilmiş satın alma planı, AI çip planının bağımsız araştırma ve geliştirmesi, NVIDIA'nın DGX, NIC, anahtar ve/veya optik ekipmanının satın alınması vb.
Aslında, NVIDIA'nın paketlemesi çok başarılı. Küçük bir fiber optik alıcı-verici tedarikçisi olmalarına rağmen, işleri bir çeyrekte üç katına çıktı ve gelecek yıl 1 milyar dolardan fazla sevkiyat yapması bekleniyor - kendi GPU veya ağ çipi işletmelerinin büyümesini çok geride bırakıyor.
Bu stratejilerin oldukça kapsamlı olduğu söylenebilir.
Örneğin, NVIDIA'nın sistemlerinde bir 3.2T ağı ve güvenilir RDMA/RoCE uygulamanın tek yolu NVIDIA'nın NIC'lerini kullanmaktır. Tabii ki, bir yandan, Intel, AMD ve Broadcom'un ürünleri gerçekten rekabetçi değil - hala 200G seviyesinde sıkışıp kaldı.
NVIDIA, tedarik zincirinin yönetimi aracılığıyla, 400G Ethernet NIC'lerden önemli ölçüde daha kısa olabilen 400G InfiniBand NIC'lerin teslimat döngüsünü de destekledi. İki NIC (ConnectX-7) aslında çip ve kart tasarımında aynıdır.
Bunun nedeni, şirketleri standart Ethernet anahtarları yerine daha yüksek maliyetli InfiniBand anahtarları satın almaya zorlayan gerçek tedarik zinciri darboğazı değil, Nvidia'nın SKU yapılandırmasıdır.
Hepsi bu kadar değil, tedarik zincirinin L40 ve L40S GPU'lara ne kadar takıntılı olduğuna bakın ve Nvidia'nın yine dağıtımda hile yaptığını biliyorsunuz - daha fazla H100 tahsisi kazanmak için OEM'lerin daha fazla L40S satın alması gerekiyor.
Bu, NVIDIA'nın PC alanındaki operasyonuyla aynıdır - dizüstü bilgisayar üreticileri ve AIB ortakları, daha kıt, daha yüksek marjlı G102 / G104'ü (üst düzey ve amiral gemisi GPU'lar) elde etmek için daha büyük G106 / G107 (orta / düşük kaliteli GPU'lar) satın almalıdır.
Bir uyum olarak, tedarik zincirindeki insanlara da L40S'nin A100'den daha iyi olduğu iddiası aşılandı çünkü daha yüksek FLOPS'a sahip.
Ancak gerçekte, bu GPU'lar, A100'ün bellek bant genişliğinin yarısından daha azına sahip oldukları ve NVLink'e sahip olmadıkları için LLM çıkarımı için uygun değildir.
Bu, LLM'yi L40S'de çalıştırmanın ve iyi bir TCO elde etmenin, çok küçük modeller dışında neredeyse imkansız olduğu anlamına gelir. Büyük ölçekli işleme aynı zamanda her kullanıcıya tahsis edilen belirteçlerin neredeyse kullanılamaz hale gelmesine neden olur ve teorik FLOPS'u pratik uygulamalarda işe yaramaz hale getirir.
Ek olarak, NVIDIA'nın MGX modüler platformu, sunucu tasarımının zor işini ortadan kaldırırken, OEM kar marjlarını da azaltır.
Dell, HP ve Lenovo gibi şirketler MGX'e karşı açıkça dirençli, ancak Supermicro, Quanta, Asus, Gigabyte ve diğerleri gibi şirketler boşluğu doldurmak ve düşük maliyetli "kurumsal yapay zekayı" ticarileştirmek için çabalıyorlar.
Ve L40S ve MGX yutturmacasına dahil olan bu OEM'ler/ODM'ler, NVIDIA'dan daha iyi ana hat GPU ürün tahsisi de alabilir.
Birlikte Paketlenmiş Optikler
CPO açısından NVIDIA da buna büyük önem veriyor.
Ayar Labs'ın yanı sıra Global Foundries ve TSMC'den aldıkları çözümler de dahil olmak üzere çeşitli çözümler üzerinde çalışıyorlar.
Şu anda NVIDIA, birkaç girişimin CPO planlarını inceledi, ancak henüz nihai bir karar vermedi.
Analiz, NVIDIA'nın CPO'yu "X100" ün NVSwitch'ine entegre edeceğine inanıyor.
Çünkü doğrudan GPU'nun kendisine entegre etmek, güvenilirlik açısından çok maliyetli ve zor olabilir.
Optik Devre Anahtarı
Google'ın yapay zeka altyapısındaki en güçlü yönlerinden biri optik anahtarıdır.
Görünüşe göre Nvidia da benzer bir şeyin peşinde. Şu anda, birkaç şirkete ulaştılar ve kalkınmada işbirliği yapmayı umuyorlar.
NVIDIA, Fat Tree'nin genişlemeye devam etmesinin sona erdiğini fark etti, bu yüzden başka bir topolojiye ihtiyacı vardı.
Google'ın 6D Torus seçiminden farklı olarak Nvidia, Dragonfly yapısını benimsemeyi tercih ediyor.
NVIDIA'nın OCS sevkiyatından hala uzak olduğu anlaşılıyor, ancak 2025'te bu hedefe yaklaşmayı umuyorlar, ancak olasılık elde edilemiyor.
OCS + CPO, özellikle OCS, oyun oyununu doğrudan değiştirecek olan paket başına uygulanabildiğinde kutsal kâsedir.
Ancak, henüz hiç kimse bu yeteneği göstermedi, Google bile.
NVIDIA'nın OCS ve CPO'su araştırma departmanında yalnızca iki PPT seti olsa da, analistler CPO'nun 2025-2026'da ürünleşmeye bir adım daha yaklaşacağına inanıyor.
Kaynaklar:
View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
NVIDIA'nın 25 yıllık yol haritası patladı! Yaşlı Huang Hao, AMD'yi yenmek için B100'e bahse girdi ve gizli silah X100 ortaya çıktı
Orijinal kaynak: Shin Ji Yuan
NVIDIA'nın yapay zeka donanım hegemonyası çok uzun sürdü!
Şimdi, büyük teknoloji şirketleri üstünlüklerini devirmeyi bekliyor.
Tabii ki, Nvidia hala oturmayacak.
Son zamanlarda, yabancı medya SemiAnalysis, önümüzdeki birkaç yıl içinde NVIDIA için merakla beklenen H200, B100 ve "X100" GPU'lar da dahil olmak üzere bir donanım yol haritası açıkladı.
Bu planlar umulduğu gibi giderse, Nvidia rakiplerini başarılı bir şekilde ezmeye devam edecek.
Tabii ki, üstünlük konumu o kadar iyi değil - AMD'nin MI300'ü, MI400'ü, Amazon'un Trainium 2'si, Microsoft'un Athena'sı, Intel'in Gaudi 3'ü Nvidia'yı daha iyi hale getirmeyecek.
Hazır olun, önünüzdeki yüksek enerjili saldırı!
Google zaten kendi AI altyapısını oluşturmaya başladı ve oluşturdukları TPUv5 ve TPUv5e, hem dahili eğitim ve çıkarım için hem de Apple, Anthropic, CharacterAI ve MidJourney gibi harici müşteriler için kullanılabilir.
Google, Nvidia'nın tek tehdidi değil.
Yazılım tarafında, Meta'nın PyTorch 2.0'ı ve OpenAI'nin Triton'u da patlama yaşıyor ve bu da onu diğer donanım satıcılarıyla uyumlu hale getiriyor.
Yazılım yığınında, AMD'nin GPU'ları, Intel'in Gaudi'si, Meta'nın MTIA'sı ve Microsoft'un Athena'sı bir dereceye kadar gelişme kaydetti.
NVIDIA hala donanımdaki lider konumunu korusa da, aradaki fark daha hızlı ve daha hızlı kapanacak.
NVIDIA H100 uzun süre hakim olmayacak.
Önümüzdeki aylarda hem AMD'nin MI300'ü hem de Intel'in Gaudi 3'ü, teknik olarak H100'den daha üstün donanım ürünlerini piyasaya sürecek.
Bu şirketler donanım tasarımında geçici olarak geride kalsalar da, arkalarındaki devlerden sübvansiyon alabilirler - dünya NVIDIA'dan uzun süredir acı çekiyor ve bu şirketler NVIDIA'nın HBM üzerindeki büyük kar tekelini kırmayı umuyor.
Amazon'un yaklaşmakta olan Trainium2 ve Inferentia3'ü ve Microsoft'un yakında çıkacak olan Athena'sı, yıllardır devam eden yatırımlardır.
Rakipler tehditkar ve Nvidia kesinlikle yerinde durmayacak.
Ve Huang Jenxun, Andy Grove'un ruhunu somutlaştırıyor.
İlk sırayı güvence altına almak için NVIDIA hırslı ve çok yönlü maceracı bir strateji benimsiyor.
Artık geleneksel pazarda Intel ve AMD ile rekabet etmeyi küçümsemiyorlar, ancak Google, Microsoft, Amazon, Meta ve Apple gibi teknoloji devleri olmak istiyorlar.
**Yol haritasının son detayları ortaya çıktı! **
NVIDIA'nın en son yol haritasının önemli detayları ortaya çıktı.
Ayrıntılar arasında ağ, bellek, paketleme ve işlem düğümleri, çeşitli GPU'lar, SerDes seçimi, PCIe 6.0, ortak paketlenmiş optikler ve optik anahtarlar bulunur.
B100: Her şeyden önce pazara sunma zamanı
Dahili kaynaklara göre, NVIDIA'nın B100'ü 2024'ün üçüncü çeyreğinde seri üretilecek ve bazı erken numuneler 2024'ün ikinci çeyreğinde gönderilecek.
Performans ve TCO açısından, Amazon'un Trainium 2'si, Google'ın TPUv5'i, AMD'nin MI300X'i veya Intel'in Gaudi 3'ü veya Microsoft'un Athena'sı olsun, ona kıyasla zayıf.
NVIDIA, B100'ü mümkün olan en kısa sürede piyasaya sürmek için birçok taviz verdi.
Örneğin NVIDIA, güç tüketimini daha yüksek bir seviyeye (1000W) ayarlamak istedi, ancak sonunda H100'ün 700W'ını kullanmaya devam etmeyi seçtiler.
Bu sayede B100, piyasaya sürüldüğünde hava soğutmalı teknolojiyi kullanmaya devam edebilir.
5.0 ve 700W kombinasyonu, doğrudan mevcut H100 HGX sunucularına takılabileceği anlamına gelir, bu da tedarik zinciri kapasitesini büyük ölçüde artırır ve üretim ve sevkiyatı daha erken gerçekleştirir.
5.0'a bağlı kalma kararının bir nedeni, AMD ve Intel'in PCIe 6.0 entegrasyonunda hala çok geride olmasıdır. Ve Nvidia'nın kendi dahili ekibi bile PCIe 6.0 CPU'ları kullanmaya hazır değil.
Ayrıca, daha hızlı C2C tarzı bağlantılar kullanacaklar.
Broadcom ve AsteraLabs, PCIe6.0 zamanlayıcılarını yıl sonuna kadar üretime hazır hale getirmeyecek ve bu alt tabakaların boyutu göz önüne alındığında, yalnızca daha fazla yeniden zamanlayıcıya ihtiyaç duyulacak.
Bu aynı zamanda orijinal B100'ün 3.2T ile sınırlı olacağı ve ConnectX-7'yi kullanırken hızın NVIDIA tarafından PPT'de talep edilen GPU başına 800G yerine yalnızca 400G olacağı anlamına gelir.
Havayı serin tutar ve güç, PCIe ve ağ hızlarını sabit tutarsanız, üretimi ve dağıtımı kolaydır.
B100'ün bu sürümü, ConnectX-8 aracılığıyla GPU başına tam 800G ağ bağlantısı sağlayacaktır.
Ethernet/InfiniBand için bu SerDe'ler hala 8x100G'dir.
GPU başına ağ hızı iki katına çıkarken, hala aynı 51.2T anahtarından geçmeleri gerektiğinden kardinalite yarıya indirildi. 102.4T anahtarı artık B100 neslinde kullanılmayacak.
İlginç bir şekilde, B100'deki NVLink bileşeninin 224G SerDes kullanacağı bildirildi ve NVIDIA bunu gerçekten yapabiliyorsa, şüphesiz büyük bir gelişme.
Sektördeki çoğu insan, Nvidia'daki insanlar dışında 224G'nin güvenilmez olduğu ve 2024'te gerçekleşme olasılığının düşük olduğu konusunda hemfikir.
Biliyorsunuz, ister Google, ister Meta veya Amazon olsun, 224G AI hızlandırıcı seri üretim hedefi 2026/2027 olarak belirlendi.
NVIDIA bunu 2024/2025'te başarırsa, rakiplerini kesinlikle yerle bir edecektir.
Açıkçası, bu kadar büyük bir çip boyutu için TSMC'nin 3nm süreci henüz olgunlaşmadı.
SambaNova ve Intel'in gelecek yılki çiplerinin her ikisi de benzer makro tasarımları kullanıyor.
SemiAnalysis'e göre, bu iki B100 yongasının bellek kapasitesi AMD'nin MI300X'ine benzer veya daha yüksek olacak ve 24 GB'lık bir yığına ulaşacak.
B100'ün hava soğutmalı versiyonu 6.4Gbps'ye kadar hızlara ulaşabilirken, sıvı soğutmalı versiyonu 9.2Gbps'ye kadar ulaşabilir.
Ayrıca NVIDIA, yol haritasında GB200 ve B40'ı da gösterdi.
Hem GB200 hem de GX200, NVIDIA'nın Arm mimarisine dayalı yeni bir CPU tanıtacağı için açıkça bir yer tutucu olan G'yi kullanıyor. Grace'i uzun süre kullanmayacağım.
B40'ın B100'ün yarısı büyüklüğünde olması muhtemeldir, yalnızca yekpare bir N4P yongası ve 4 veya 6 katmana kadar HBM ile. L40S'den farklı olarak bu, küçük modellerde çıkarım yapmak için mantıklıdır.
"X100": Kritik Vuruş
Ortaya çıkan yol haritasıyla ilgili en çarpıcı şey, NVIDIA'nın "X100" programı.
İlginç bir şekilde, AMD'nin mevcut MI400 programına mükemmel bir şekilde uyuyor. H100'ün piyasaya sürülmesinden sadece bir yıl sonra AMD, MI300X stratejisini yayınladı.
AMD'nin MI300X'i paketlemesi etkileyici ve bir yıl önce H100'ü geçmeyi ve böylece saf donanımda Nvidia'yı geçmeyi umarak içine daha fazla bilgi işlem ve bellek sığdırıyorlar.
Acelesi olan Nvidia, rakiplerine hiç şans vermeden ürün döngüsünü yılda bir kez hızlandırıyor. Örneğin, X100'ü B100'den sadece bir yıl sonra, 2025'te piyasaya sürmeyi planlıyorlar.
Tabii ki, "X100" henüz seri üretimde değil (B100'ün aksine), bu yüzden her şey hala havada.
Biliyorsunuz, geçmişte NVIDIA, yeni nesil ürünlerden sonra ürünleri hiç tartışmadı ve bu sefer zaten emsalsiz.
Ayrıca, isim büyük olasılıkla "X100" olarak adlandırılmaz.
Nvidia, uzun zamandır GPU'lara Ada Lovelace, Grace Hopper ve Elizabeth Blackwell gibi önde gelen kadın bilim insanlarının adını verme geleneği olmuştur.
"X" e gelince, tek mantıklı olanı, yarı iletkenlerin ve metal şeritlerin yapısını inceleyen Xie Xide'dir, ancak kimliği göz önüne alındığında, olasılık küçük olmalıdır.
NVIDIA'nın kuruluşundan bu yana, Jensen Huang, büyük büyüme hedeflerini desteklemek için tedarik zincirinin ustalığını aktif olarak yönlendiriyor.
Yalnızca iptal edilemeyen siparişleri (11,15 milyar dolara kadar satın alma, kapasite ve envanter taahhütleri) üstlenmeye istekli olmakla kalmıyorlar, aynı zamanda 3,81 milyar dolarlık bir ön ödeme anlaşmasına da sahipler.
Muhtemelen, tek bir tedarikçi bununla boy ölçüşemez.
Ve Nvidia'nın hikayesi, arz yetersiz olduğunda arzı yaratıcı bir şekilde artırabileceklerini bir kereden fazla gösterdi.
O sırada Zhang, Nvidia'nın bu kadar çok gofrete ihtiyacı olduğuna inanamadı ama Huang sebat etti.
NVIDIA, arz tarafını deneyerek büyük başarı elde etti. Zaman zaman milyarlarca dolar değerinde envanter yazsalar da, yine de fazla siparişten olumlu kazançlar elde ediyorlar.
Bu sefer NVIDIA, GPU'nun yukarı akış bileşenlerinin tedarikinin çoğunu doğrudan ele geçirdi -
SK Hynix, Samsung ve Micron olmak üzere üç HBM tedarikçisine çok büyük siparişler verdiler ve Broadcom ve Google dışındaki herkesin arzını doldurdular. Aynı zamanda, TSMC CoWoS arzının çoğunu ve Amkor'un üretim kapasitesini de satın aldı.
Ayrıca NVIDIA, emekliler, DSP'ler, optikler ve daha fazlası gibi HGX kartlarının ve sunucularının ihtiyaç duyduğu aşağı akış bileşenlerinden yararlanır.
Tedarikçi, NVIDIA'nın gereksinimlerine kulak tıkarsa, Lao Huang'ın "turp ve sopa" ile karşı karşıya kalacaktır -
Bir yandan NVIDIA'dan akıl almaz siparişler alacaklar; Öte yandan, NVIDIA tarafından mevcut tedarik zincirinden çıkarılabilirler.
Elbette NVIDIA, taahhütlü ve iptal edilemeyen siparişleri yalnızca tedarikçi kritikse ve ortadan kaldırılamıyorsa veya tedarik çeşitlendirilemiyorsa kullanır.
Pazar dinamiklerine dönersek, Nvidia gelecek yıl 70 milyar dolardan fazla veri merkezi satışı elde etmeyi hedeflerken, yalnızca Google'ın 1 milyondan fazla cihazla yeterli kapasitesi var. AMD'nin yapay zeka alanındaki toplam üretim kapasitesi, maksimum yalnızca birkaç yüz bin adet ile hala çok sınırlıdır.
İş Stratejisi: Potansiyel Rekabete Karşı
Hepimizin bildiği gibi NVIDIA, ürünleri müşterilere pazarlamak ve çapraz satmak için GPU'lara olan büyük talepten yararlanıyor.
Tedarik zincirinde, NVIDIA'nın bir dizi faktöre dayalı olarak belirli şirketlere öncelik tahsisi sağladığına dair çok sayıda bilgi vardır. Aşağıdakiler dahil ancak bunlarla sınırlı olmamak üzere: çeşitlendirilmiş satın alma planı, AI çip planının bağımsız araştırma ve geliştirmesi, NVIDIA'nın DGX, NIC, anahtar ve/veya optik ekipmanının satın alınması vb.
Bu stratejilerin oldukça kapsamlı olduğu söylenebilir.
Örneğin, NVIDIA'nın sistemlerinde bir 3.2T ağı ve güvenilir RDMA/RoCE uygulamanın tek yolu NVIDIA'nın NIC'lerini kullanmaktır. Tabii ki, bir yandan, Intel, AMD ve Broadcom'un ürünleri gerçekten rekabetçi değil - hala 200G seviyesinde sıkışıp kaldı.
NVIDIA, tedarik zincirinin yönetimi aracılığıyla, 400G Ethernet NIC'lerden önemli ölçüde daha kısa olabilen 400G InfiniBand NIC'lerin teslimat döngüsünü de destekledi. İki NIC (ConnectX-7) aslında çip ve kart tasarımında aynıdır.
Bunun nedeni, şirketleri standart Ethernet anahtarları yerine daha yüksek maliyetli InfiniBand anahtarları satın almaya zorlayan gerçek tedarik zinciri darboğazı değil, Nvidia'nın SKU yapılandırmasıdır.
Hepsi bu kadar değil, tedarik zincirinin L40 ve L40S GPU'lara ne kadar takıntılı olduğuna bakın ve Nvidia'nın yine dağıtımda hile yaptığını biliyorsunuz - daha fazla H100 tahsisi kazanmak için OEM'lerin daha fazla L40S satın alması gerekiyor.
Bu, NVIDIA'nın PC alanındaki operasyonuyla aynıdır - dizüstü bilgisayar üreticileri ve AIB ortakları, daha kıt, daha yüksek marjlı G102 / G104'ü (üst düzey ve amiral gemisi GPU'lar) elde etmek için daha büyük G106 / G107 (orta / düşük kaliteli GPU'lar) satın almalıdır.
Bir uyum olarak, tedarik zincirindeki insanlara da L40S'nin A100'den daha iyi olduğu iddiası aşılandı çünkü daha yüksek FLOPS'a sahip.
Ancak gerçekte, bu GPU'lar, A100'ün bellek bant genişliğinin yarısından daha azına sahip oldukları ve NVLink'e sahip olmadıkları için LLM çıkarımı için uygun değildir.
Bu, LLM'yi L40S'de çalıştırmanın ve iyi bir TCO elde etmenin, çok küçük modeller dışında neredeyse imkansız olduğu anlamına gelir. Büyük ölçekli işleme aynı zamanda her kullanıcıya tahsis edilen belirteçlerin neredeyse kullanılamaz hale gelmesine neden olur ve teorik FLOPS'u pratik uygulamalarda işe yaramaz hale getirir.
Dell, HP ve Lenovo gibi şirketler MGX'e karşı açıkça dirençli, ancak Supermicro, Quanta, Asus, Gigabyte ve diğerleri gibi şirketler boşluğu doldurmak ve düşük maliyetli "kurumsal yapay zekayı" ticarileştirmek için çabalıyorlar.
Ve L40S ve MGX yutturmacasına dahil olan bu OEM'ler/ODM'ler, NVIDIA'dan daha iyi ana hat GPU ürün tahsisi de alabilir.
Birlikte Paketlenmiş Optikler
CPO açısından NVIDIA da buna büyük önem veriyor.
Ayar Labs'ın yanı sıra Global Foundries ve TSMC'den aldıkları çözümler de dahil olmak üzere çeşitli çözümler üzerinde çalışıyorlar.
Çünkü doğrudan GPU'nun kendisine entegre etmek, güvenilirlik açısından çok maliyetli ve zor olabilir.
Google'ın yapay zeka altyapısındaki en güçlü yönlerinden biri optik anahtarıdır.
Görünüşe göre Nvidia da benzer bir şeyin peşinde. Şu anda, birkaç şirkete ulaştılar ve kalkınmada işbirliği yapmayı umuyorlar.
Google'ın 6D Torus seçiminden farklı olarak Nvidia, Dragonfly yapısını benimsemeyi tercih ediyor.
Ancak, henüz hiç kimse bu yeteneği göstermedi, Google bile.
NVIDIA'nın OCS ve CPO'su araştırma departmanında yalnızca iki PPT seti olsa da, analistler CPO'nun 2025-2026'da ürünleşmeye bir adım daha yaklaşacağına inanıyor.
Kaynaklar: