Nvidia'nın boynunu kim soktu?

Orijinal: He Luheng

Kaynak: Yuanchuan Technology Review** (ID: kechuangych)**

Nvidia'nın son üç aylık mali raporunun açıklanmasının ardından AMD, Intel'i susturup gözyaşı dökmekle kalmadı, uzun vadeli psikolojik inşa yapan analistler de gerçek durumun beklentileri aşacağını beklemiyordu.

Daha da korkutucu olan ise Nvidia'nın gelirinin bir önceki yıla göre %854 oranında artmasıydı; bunun büyük ölçüde "şu kadar satmak" yerine "ancak bu kadar çok satabiliyor olması" nedeniyle. "H100 ipotek alan start-up'lar" hakkındaki pek çok küçük makalenin arkasında, H100 GPU arzının kısıtlı olduğu gerçeği yansıtılıyor.

Kıtlığın bu yılın sonuna kadar devam etmesi durumunda Nvidia'nın performansı daha da şaşırtıcı olabilir.

H100 kıtlığı, birkaç yıl önce hızla artan kripto para birimleri nedeniyle GPU'ların stokta kalmadığı ve Nvidia'nın oyuncular tarafından fena halde azarlandığı zamanları hatırlatıyor. Ancak o dönemde grafik kartlarının sıkıntısı büyük ölçüde mantıksız primden kaynaklanıyordu, H100'ün sıkıntısı ise sınırlı üretim kapasitesinden kaynaklanıyordu ve daha yüksek bir fiyata satın alınamıyordu.

Başka bir deyişle Nvidia hâlâ daha az para kazanıyordu.

Mali raporun açıklandığı gün yapılan konferans görüşmesinde doğal olarak "kapasite" kelimesi en sık kullanılan kelime oldu. Bu konuda Nvidia'nın üslubu oldukça sert, taşınmaması gereken potu taşımamakta da kararlı:

"Pazar payı açısından bu tek başımıza başarabileceğimiz bir şey değil, birçok farklı tedarikçiyi kapsaması gerekiyor."

Aslında Nvidia'nın "birçok farklı tedarikçiden" yalnızca ikisi var:

SK Hynix ve TSMC.

HBM: Kore Oyunu

Sadece alan oranına baktığınızda H100 çipinin sadece %50'si Nvidia'ya ait.

Çipin kesit görünümünde, H100 kalıbı her iki tarafta üç HBM yığınıyla çekirdek konumunu işgal eder ve birleştirilmiş alan H100 kalıbına eşdeğerdir.

Bu altı vasat bellek yongası, H100 tedarik sıkıntısının suçlularından biri.

HBM (Yüksek Bant Genişlikli Bellek), kelimenin tam anlamıyla, GPU'daki belleğin bir kısmını üstlenen yüksek bant genişlikli bellek olarak çevrilir.

Geleneksel DDR bellekten farklı olarak HBM, birden fazla DRAM belleğini dikey olarak istifler; bu, yalnızca bellek kapasitesini artırmakla kalmaz, aynı zamanda belleğin güç tüketimini ve yonga alanını da iyi bir şekilde kontrol edebilir ve paketin içinde kaplanan alanı azaltabilir.

"Yığınlanmış bellek" başlangıçta çip alanına ve ısı üretimine karşı çok hassas olan akıllı telefon pazarını hedef alıyordu, ancak sorun şu ki, yüksek üretim maliyeti nedeniyle akıllı telefonlar sonunda daha uygun maliyetli LPDDR yolunu seçti ve bu da boş teknolojiyle sonuçlandı. yığın hafıza için Ayrılmış, ancak iniş sahnesini bulamadık.

2015 yılına kadar pazar payı zayıflayan AMD, 4K oyunların popülaritesinden yararlanarak Nvidia dalgasını kopyalamayı umuyordu.

AMD, o yıl piyasaya sürülen AMD Fiji serisi GPU'larda, SK Hynix ile ortaklaşa geliştirilen yığın belleği benimsedi ve buna HBM (Yüksek Bant Genişlikli Bellek) adını verdi.

AMD'nin vizyonu, 4K oyunların daha fazla veri verimliliği gerektirmesi ve HBM belleğin yüksek bant genişliğinin avantajlarının yansıtılabilmesidir. O zamanlar AMD'nin Radeon R9 Fury X grafik kartı, kağıt performansı açısından gerçekten de yeni Nvidia Kepler mimarisini geride bırakıyordu.

Ancak sorun şu ki, HBM'nin getirdiği bant genişliği iyileştirmesinin kendi yüksek maliyetini dengelemek açıkça zor olduğundan, popüler hale getirilemedi.

AlphaGo, 2016 yılına kadar şampiyon satranç oyuncusu Li Shishi'yi taradı ve HBM hafızasının devreye girmesini sağlayan derin öğrenme doğdu.

Derin öğrenmenin özü, modeli büyük veriler aracılığıyla eğitmek, işlevdeki parametreleri belirlemek ve nihai çözümü elde etmek için gerçek verileri karara dahil etmektir.

Teorik olarak konuşursak, veri miktarı ne kadar büyük olursa, işlev parametreleri de o kadar güvenilir olur; bu da yapay zeka eğitiminin veri üretimi ve veri iletim gecikmesi konusunda neredeyse patolojik bir takip yapmasına neden olur ki bu da HBM belleğinin tam olarak çözdüğü sorundur.

2017 yılında AlphaGo, Ke Jie ile yeniden savaştı ve çipin yerini Google'ın kendisi tarafından geliştirilen bir TPU aldı. Çip tasarımı açısından ikinci nesilden başlayarak her nesil TPU, HBM tasarımını benimsiyor. Nvidia'nın veri merkezleri ve derin öğrenmeye yönelik yeni GPU'su Tesla P100, ikinci nesil HBM bellek (HBM2) ile donatılmıştır.

Yüksek performanslı bilgi işlem pazarındaki neredeyse tüm GPU yongaları HBM bellekle donatıldığından, depolama devleri arasında HBM etrafındaki rekabet de hızla gelişiyor.

Şu anda dünyada HBM'yi seri üretebilen yalnızca üç bellek devi var: SK Hynix, Samsung Electronics ve Micron.

SK Hynix, HBM'nin mucitlerinden biridir ve şu anda HBM3E'yi (üçüncü nesil HBM) seri üreten tek üreticidir; Samsung Electronics, pazara HBM2 (ikinci nesil HBM) ile girmiştir ve Nvidia'nın ilk GPU tedarikçisidir. HBM kullanan; Micron En geride kalan, ancak 2018 yılında HMC'den HBM'ye geçiş yaptı ve HBM2'nin seri üretimine 2020 ortalarında başlandı.

Bunların arasında SK Hynix, HBM'nin pazar payının %50'sini tekeline alıyor ve Nvidia'ya özel HBM3E tedariki, H100'ün sevkiyatını kesin bir şekilde engelliyor:

H100 PCIe ve SXM sürümlerinin her ikisi de 5 HBM yığını kullanıyor, H100S SXM sürümü 6'ya ulaşabilir ve Nvidia tarafından sunulan H100 NVL sürümü 12'ye ulaştı. Araştırma kurumunun dağıtılmasına göre tek bir 16GB HBM yığınının maliyeti 240 dolara kadar çıkıyor. O zaman tek başına H100 NVL bellek yongasının maliyeti neredeyse 3.000 ABD dolarıdır.

Maliyet hala küçük bir sorun.H100 ile doğrudan rekabet eden Google TPU v5 ve AMD MI300'ün yakın zamanda seri üretileceğini ve son ikisinin de HBM3E'yi kullanacağını düşünürsek Chen Neng daha da gergin.

Artan talep karşısında SK Hynix'in üretim kapasitesini iki katına çıkarmak gibi küçük bir hedef belirlediği ve üretim hatlarını genişletmeye başladığı söyleniyor.Samsung ve Micron'un da HBM3E için hazırlık yaptığı ancak yarı iletken endüstrisinde üretim hatlarını genişletmek hiçbir zaman işe yaramadı. bir gecede başarıldı.

9-12 aylık döngünün iyimser tahminine göre, HBM3E üretim kapasitesi en azından gelecek yılın ikinci çeyreğine kadar yenilenmeyecek.

Ayrıca HBM'nin üretim kapasitesi çözülse bile ne kadar H100 tedarik edebileceği TSMC'nin yüzüne bağlı.

CoWoS: TSMC'nin kılıcı

Analist Robert Castellano kısa süre önce bir hesaplama yapmıştı: H100, TSMC'nin 4N prosesi (5nm) kullanılarak üretiliyor ve 12 inçlik 4N prosesli gofretin fiyatı 13.400 dolar. Teorik olarak 86 adet H100 yongası kesilebiliyor.

Üretim verimi dikkate alınmazsa üretilen her H100 için TSMC 155$ gelir elde edebilir [6] .

Ancak aslında her H100'ün TSMC'ye getireceği gelirin 1.000 ABD Dolarını aşması muhtemeldir. Bunun nedeni, H100'ün TSMC'nin CoWoS paketleme teknolojisini kullanması ve paketlemenin getirdiği gelirin 723 ABD Doları kadar yüksek olmasıdır. [6] .

TSMC'nin 18. fabrikasının N4/N5 üretim hattından çıkan her H100, H100 üretiminin en özel ve önemli adımı olan CoWoS'u tamamlamak üzere TSMC'nin aynı parktaki ikinci gelişmiş paketleme ve test fabrikasına gönderilecek.

CoWoS paketlemenin önemini anlamak için hâlâ H100'ün çip tasarımıyla başlamamız gerekiyor.

Tüketici sınıfı GPU ürünlerinde, bellek yongaları genellikle GPU'nun çekirdeği etrafında paketlenir ve sinyaller PCB kartları arasındaki devreler aracılığıyla iletilir.

Örneğin aşağıdaki resimde RTX4090 yongası da Nvidia tarafından üretiliyor.GPU çekirdeği ve GDDR belleği ayrı ayrı paketlenip birbirinden bağımsız olarak bir PCB kartı üzerine monte ediliyor.

Hem GPU hem de CPU, von Neumann mimarisini takip ediyor ve çekirdeği "depolama ve hesaplamanın ayrılmasında" yatıyor - yani çip verileri işlerken, verileri harici bellekten alması ve ardından onu aktarması gerekiyor. Hesaplama tamamlandıktan sonra hafıza silinir, bir kez hesaplamada gecikmeye neden olur. Aynı zamanda veri aktarımlarının "miktarı" da buna göre sınırlı olacaktır.

GPU ve bellek arasındaki ilişki Şangay'daki Pudong ve Puxi'ye benzetilebilir.İki yer arasındaki malzeme (veri) taşımacılığı Nanpu Köprüsü'ne bağlıdır.Nanpu Köprüsü'nün taşıma kapasitesi malzeme taşımacılığının verimliliğini belirler.Bu taşıma kapasitesi belirleyen bellek bant genişliği Veri aktarım hızını etkiler ve dolaylı olarak GPU'nun bilgi işlem hızını etkiler.

1980'den 2000'e kadar GPU ile bellek arasındaki "hız uyumsuzluğu" yılda %50 oranında arttı. Başka bir deyişle, Longyao Karayolu Tüneli ve Shangzhong Karayolu Tüneli inşa edilse bile Pudong ve Puxi arasındaki malzeme taşımacılığındaki büyümeyi karşılayamayacaktır.Bu durum bant genişliğinin yüksek performanslı bilgi işlemde giderek belirgin bir darboğaz haline gelmesine neden olmuştur. senaryolar.

CPU/GPU performansı ile bellek performansı arasındaki fark açılıyor

AMD, 2015 yılında HBM belleği uygularken veri iletimi için yenilikçi bir çözümü de benimsedi: Pudong ve Puxi'yi birleştirmek.

Basitçe söylemek gerekirse, 2015 Fiji mimarisine sahip grafik kartı, HBM belleği ve GPU çekirdeğini "bir araya getirerek" birkaç küçük yongayı büyük bir yongaya dönüştürdü. Bu sayede veri aktarım verimliliği iki katına çıkar.

Ancak yukarıda da belirttiğimiz gibi maliyet ve teknik sorunlar nedeniyle AMD'nin Fiji mimarisi piyasanın bunu satın almasına izin vermedi. Bununla birlikte, derin öğrenmedeki patlama ve yapay zeka eğitiminin maliyetten bağımsız olarak veri verimi verimliliği arayışı, "çip birleştirmeyi" faydalı hale getirdi.

Ayrıca AMD'nin fikri güzel ama aynı zamanda yeni bir sorunu da beraberinde getiriyor; HBM'nin ne kadar avantajı olursa olsun, gelişmiş paketleme teknolojisi olan "dikiş çipi" ile işbirliği yapması gerekiyor ve bu ikisi birbiriyle yakından ilişkili.

HBM belleğin hala üç firmayla karşılaştırılabileceği söylenirse, o zaman "dikiş çipi"nde kullanılan gelişmiş paketleme, TSMC'nin yapabileceği tek şey gibi görünüyor.

CoWoS, TSMC'nin gelişmiş paketleme işinin başlangıç noktasıdır ve Nvidia, bu teknolojiyi benimseyen ilk çip şirketidir.

CoWoS, CoW ve oS'nin bir kombinasyonudur: CoW, çıplak yongaların bir levha üzerinde birleştirilmesi işlemini ifade eden Chip on Wafer anlamına gelir ve OS, Substrate üzerinde anlamına gelir, bu da bir alt tabaka üzerinde paketlenme işlemi anlamına gelir.

Geleneksel paketlemede genellikle yalnızca işletim sistemi bağlantısı bulunur. Dökümhane gofret üretimini tamamladıktan sonra çözüm için üçüncü taraf paketleme ve test fabrikasına teslim edilir. Ancak gelişmiş paketlemeyle eklenen CoW bağlantısı paketleme ve testle çözülemez. fabrika.

Örnek olarak eksiksiz bir H100 yongasını ele alırsak, H100 kalıbının etrafına CoW teknolojisi aracılığıyla birbirine eklenen birden fazla HBM yığını dağıtılır. Ancak sadece birleştirme değil, kalıp ile yığın arasında aynı anda iletişim.

TSMC'nin CoW'si, kalıbı ve yığını bir silikon ara elemanın (esasen bir levha) üzerine yerleştirmesi ve kalıp ile yığın arasındaki iletişimi gerçekleştirmek için aracıdaki kanalları birbirine bağlaması açısından diğer gelişmiş paketlemeden farklıdır.

Intel'in EMIB'sine benzer şekilde aradaki fark, silikon bir köprü aracılığıyla birbirine bağlanmasıdır. Ancak bant genişliği silikon aracıya göre çok daha azdır.Bant genişliğinin veri aktarım hızıyla yakından ilişkili olduğu göz önüne alındığında CoWoS H100 için tek seçenek haline gelmiştir.

Bu da H100 üretim kapasitesinde sıkışıp kalan bir el daha.

CoWoS'un etkisi her ne kadar aleyhine olsa da parça başına 4000-6000 ABD doları gibi yüksek fiyatlar, aralarında son derece zengin olan Apple'ın da bulunduğu pek çok insanı hala durduruyor. Bu nedenle TSMC'nin hazır üretim kapasitesi oldukça sınırlıdır.

Ancak yapay zeka dalgası aniden patlak verdi ve arz-talep dengesi bir anda bozuldu.

Haziran ayının başlarında Nvidia'nın bu yıl CoWoS talebinin 45.000 levhaya ulaştığına dair söylentiler vardı, TSMC'nin yılın başındaki tahmini ise 30.000 levhaydı.Diğer müşterilerin ihtiyaçları da eklenince üretim kapasitesi açığı %20'yi aştı.

Aradaki farkı kapatmak için TSMC'nin mücadelesi hiç de küçük değil.

Haziran ayında TSMC, Nanke'de altıncı gelişmiş paketleme ve test fabrikasını resmi olarak açtı. Tek başına temiz oda, diğer paketleme ve test fabrikalarının toplamından daha büyük. Ayrıca CoWoS üretim kapasitesini çeyrek dönem artırma sözü verdi. Bu nedenle, kısmen İşletim sisteminin üçüncü bir tarafa devredilmesi Paketleme ve test fabrikası.

Ancak HBM'nin üretimi genişletmesi kolay olmadığı gibi TSMC'nin de üretimi genişletmesi zaman alacak. Şu anda bazı paketleme ekipman ve bileşenlerinin teslim süresi 3 ila 6 ay arasında değişiyor, yıl sonundan önce ne kadar yeni üretim kapasitesinin açılabileceği henüz bilinmiyor.

Mevcut olmayan B planı

H100'ün yapısal sıkıntısıyla karşı karşıya kalan Nvidia, B Planı'ndan tamamen yoksun değil.

Mali raporun yayınlanmasının ardından yapılan konferans görüşmesinde Nvidia, CoWoS üretim kapasitesinin diğer tedarikçiler tarafından zaten sertifikalandırıldığını açıkladı. Kim olduğunu söylemesem de ileri paketlemenin teknik eşiği göz önüne alındığında TSMC'nin yanı sıra yalnızca Intel'in doğuştan eksik olan EMIB'si ve Samsung'un uzun süredir geliştirilip müşteri bekleyen I-Cube'ü bunu yapabiliyor. ateşe zar zor müdahale ediyorum.

Ancak çekirdek teknolojinin değiştirilmesi, savaştan önce generallerin değiştirilmesi gibidir. AMD MI300 seri üretilip sevk edilmek üzereyken, AI çipleri için rekabet şiddetli. Korkarım Huang Renxun da entegre olup olamayacağı konusunda endişeli. Intel ve Samsung teknolojisiyle.

H100'ü satın alamayan bulut hizmeti sağlayıcıları ve AI start-up'ları Huang Renxun'dan daha endişeli olabilir. Sonuçta oyuncular grafik kartını alamıyorlar, yani oyun karelerinin sayısı 20 kare daha az; büyük şirketler H100'ü alamıyor ve milyarlarca gelir, on milyarlarca değer kaybı yaşayabilirler.

H100'e ihtiyaç duyan üç ana şirket türü vardır: Microsoft ve Amazon gibi bulut hizmet sağlayıcıları; Anthropic ve OpenAI gibi start-up şirketleri ve Tesla gibi büyük teknoloji şirketleri. Eğitim için GPU kümesi.

Buna Citadel gibi finans şirketleri ve H800'ün özel versiyonunu satın alamayan Çinli şirketler dahil değildir.

GPU Utils hesaplamasına göre [7] İhtiyatlı bir tahminle H100'ün mevcut arz açığı 430.000'e ulaştı.

H100'ün teorik alternatifleri olmasına rağmen bunların hiçbiri pratik durumlarda uygulanabilir değildir.

Örneğin H100'ün önceki ürünü olan A100, H100'ün fiyatının yalnızca 1/3'ü kadardır. Ancak sorun şu ki, H100'ün performansı A100'ünkinden çok daha güçlü, bu da H100'ün birim maliyeti başına hesaplama gücünün A100'e göre daha yüksek olmasına neden oluyor. Teknoloji şirketlerinin yüzlerce hatta binlerce kopya almaya başladığını düşünürsek A100 satın almak daha da kötü.

AMD başka bir alternatif ve kağıt üzerindeki performansı H100'ün çok gerisinde değil. Ancak Nvidia'nın CUDA ekosisteminin engelleri nedeniyle AMD'nin GPU'sunun kullanılması geliştirme döngüsünü daha da uzatacak ve H100 kullanan rakiplerin bu zaman farkından dolayı kendileriyle arada uçurum açması, hatta yüzlerce yatırım yapması muhtemeldir. Milyonlarca dolar, geri dönüş yok.

Çeşitli nedenlerden ötürü, toplam malzeme maliyeti 3.000 ABD doları olan bir çip, Nvidia doğrudan bir perakende ürün ekledi ve herkes onu satın almak için koştu. Bu, Huang Renxun'un kendisinin beklemediği bir şey olabilir.

HBM ve CoWoS'un üretim kapasitesi artmadan H100'ü satın almanın tek yolu olabilir:

Bir sürü H100 satın alan girişimlerin övünerek ve para toplayarak iflas etmelerini bekleyin ve ardından ikinci el GPU'larını alın.

Referanslar

[1] Yapay Zeka Kapasite Kısıtlamaları - CoWoS ve HBM Tedarik Zinciri,YarıAnaliz

[2] TrendForce, orijinal fabrikanın üretimi aktif olarak genişlettiğini ve HBM bit tedarikinin yıllık büyüme oranının 2024'te %105 olacağı tahmin ediliyor.

[3] HBM teknolojisi veri merkezine ne gibi değişiklikler getirecek? Yarı iletken endüstrisi dikey ve yatay

[4] Gelişmiş Paketleme Bölüm II: Intel, TSMC, Samsung, AMD, ASE, Sony, Micron, SKHynix, YMTC, Tesla ve Nvidia için Seçenekler/Kullanım İncelemesi, Semianaliz

[5] OpenAI kurucu ortağı ve yarı zamanlı bilim adamı Andrej Karpathy tweet attı

[6] Tayvan Yarı İletkeni: Nvidia'nın Çip ve Paket Tedarikçisi Olarak Değeri Oldukça Düşük Değerlendirildi,Alpha Aranıyor

[7] Nvidia H100 GPU'lar: Arz ve Talep,GPU Yardımcı Programları

Editör: Li Motian

Görsel Tasarım: Shurui

Sorumlu editör: Li Motian

View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Reward
  • Comment
  • Share
Comment
0/400
No comments
Trade Crypto Anywhere Anytime
qrCode
Scan to download Gate app
Community
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)