GPT-5'in doğuşu için 50.000 H100 gerekiyor! H100 için toplam küresel talep 430.000 ve Nvidia GPU kıtlık fırtınasında

2023-08-06 06:37:26

Orijinal kaynak: Xinzhiyuan

Görsel kaynağı: Unbounded AI‌ tarafından oluşturuldu

“H100'ün kimden ne kadar alacağı, Silikon Vadisi'nin en sıcak konusu olacak.”

OpenAI'nin kurucu ortağı ve yarı zamanlı bilim adamı Andrej Karpathy, geçtiğimiz günlerde NVIDIA GPU'ların eksikliği konusundaki görüşlerini açıklayan bir makale yayınladı.

Son zamanlarda, toplulukta geniş çapta dolaşan "Kaç tane GPU'ya ihtiyacımız var" resmi birçok netizen arasında tartışmalara yol açtı.

Şekilde gösterilen içeriğe göre:

GPT-4 muhtemelen yaklaşık 10.000-25.000 A100 üzerinde eğitilmiştir.
21000 A100 hakkında meta
Tesla yaklaşık 7000 A100
Kararlılık AI yaklaşık 5000 A100
Falcon-40B, 384 adet A100'de eğitildi

– Inflection, GPT-3.5 ile karşılaştırılabilir bir modeli eğitmek için 3500 ve H100 kullandı

Ayrıca Musk'a göre GPT-5'in 30.000-50.000 H100'e ihtiyacı olabilir.

Daha önce Morgan Stanley, GPT-5'in 25.000 GPU kullandığını ve Şubat ayından beri eğitim aldığını belirtmişti ancak Sam Altman daha sonra GPT-5'in henüz eğitilmediğini açıklığa kavuşturmuştu.

Ancak Altman daha önce şunu belirtmişti:

Çok az GPU kaynağımız var, ürünlerimizi ne kadar az insan kullanırsa o kadar iyi.

Yeterince GPU'muz olmadığı için insanlar daha az kullanırsa mutlu oluruz.

"Nvidia H100 GPU: Arz ve Talep" başlıklı bu yazıda, güncel teknoloji şirketlerinin GPU kullanım ve taleplerinin derinlemesine analizi.

Makale, küçük ve büyük bulut sağlayıcıların büyük ölçekli H100 küme kapasitesinin tükenmek üzere olduğunu ve H100 için talep eğiliminin en az 2024'ün sonuna kadar devam edeceğini tahmin ediyor.

Peki, GPU talebi gerçekten bir darboğaz mı?

Büyük şirketlerin GPU gereksinimleri: yaklaşık 430.000 H100

Şu anda, üretken yapay zekanın patlaması yavaşlamadı ve bilgi işlem gücü için daha yüksek gereksinimler ortaya koydu.

Bazı girişimler, modelleri eğitmek için Nvidia'nın pahalı ve son derece yüksek performanslı H100'ünü kullanıyor.

Musk, bu noktada GPU'ları bulmanın ilaçlardan daha zor olduğunu söyledi.

Sam Altman, OpenAI'nin GPU ile sınırlı olduğunu ve bunun da kısa vadeli planlarını (ince ayar, ayrılmış kapasite, 32k bağlam pencereleri, çoklu mod) geciktirdiğini söylüyor.

Karpathy'nin yorumları, büyük teknoloji şirketlerinin yıllık raporlarında bile GPU erişimiyle ilgili konuları tartışırken geliyor.

Geçen hafta Microsoft yıllık raporunu yayınladı ve yatırımcılara GPU'ların hızla büyüyen bulut işi için "temel bir hammadde" olduğunun altını çizdi. Gerekli altyapı yoksa, veri merkezi kesintileri için bir risk faktörü olabilir.

Bu makalenin, HK gönderisinin yazarı tarafından yazıldığı iddia edilmektedir.

OpenAI'nin 50.000 H100'e, Inflection'ın 22.000'e, Meta'nın 25k'ya ve büyük bulut hizmeti sağlayıcılarının (Azure, Google Cloud, AWS, Oracle gibi) 30k'ya ihtiyacı olabileceğini tahmin etti.

Lambda ve CoreWeave ve diğer özel bulutların toplam 100 bine ihtiyacı olabilir. Antropik, Helsing, Mistral ve Karakterin her birinin 10 bine ihtiyacı olabileceğini yazdı.

Yazarlar, bunların hepsinin kaba tahminler ve tahminler olduğunu, bunların bir kısmının çifte sayma bulutu ve buluttan ekipman kiralayan son müşteriler olduğunu söylüyor.

Genel olarak, küresel şirketlerin yaklaşık 432.000 H100'e ihtiyacı var. H100 başına yaklaşık 35 bin ABD doları olarak hesaplanan toplam GPU ihtiyacının maliyeti 15 milyar ABD dolarıdır.

Bu, çok sayıda H800'e ihtiyaç duyan yerli İnternet şirketlerini içermez.

Jane Street, JP Morgan, Two Sigma, vb. gibi her biri yüzlerce A/H100 ile başlayan ve binlerce A/H100'e uzanan dağıtım yapan bazı tanınmış finans şirketleri de vardır.

OpenAI, Anthropic, DeepMind, Google ve X.ai dahil tüm büyük laboratuvarlar büyük dil modelleri eğitiyor ve Nvidia'nın H100'ü yeri doldurulamaz.

H100 neden ilk tercihtir?

H100, kısmen daha düşük önbellek gecikmesi ve FP8 bilgi işlemi nedeniyle ilk tercih olarak A100'den daha popüler.

Çünkü verimliliği 3 katına kadar çıkıyor, ancak maliyeti sadece (1,5-2 kat). Genel sistem maliyeti göz önüne alındığında, H100'ün performansı çok daha yüksektir.

Teknik detaylar açısından, A100 ile karşılaştırıldığında H100, 16 bit muhakemede yaklaşık 3,5 kat ve 16 bit eğitimde yaklaşık 2,3 kat daha hızlıdır.

A100 ve H100 hızı

H100 eğitimi MEB

H100 muazzam hızlanma

Çoğu şirket H100'ü satın alır ve onu eğitim ve çıkarım için kullanır, A100 ise çoğunlukla çıkarım içindir.

Ancak bazı şirketler, maliyet, kapasite, yeni donanım kullanma ve kurma riskleri ve mevcut yazılımların zaten A100 için optimize edilmiş olması nedeniyle geçiş yapmaktan çekiniyor.

GPU bir eksiklik değil, bir tedarik zinciri sorunudur

Bir Nvidia yöneticisi, sorunun GPU eksikliği değil, bu GPU'ların piyasaya nasıl sürüldüğü olduğunu söyledi.

Nvidia, tam kapasitede GPU üretiyor, ancak yönetici, GPU üretim kapasitesinin esas olarak tedarik zinciriyle sınırlı olduğunu söyledi.

Çipin kendisi yeterli kapasiteye sahip olabilir, ancak diğer bileşenlerin yetersiz kapasitesi, GPU'nun kapasitesini ciddi şekilde sınırlayacaktır.

Bu bileşenlerin üretimi dünya genelindeki diğer tedarikçilere bağlıdır.

Ancak talep tahmin edilebilir, bu nedenle şimdi sorun yavaş yavaş çözülüyor.

GPU yongası üretim kapasitesi

Her şeyden önce Nvidia, H100'ü üretmek için yalnızca TSMC ile işbirliği yapıyor. Nvidia'nın tüm 5nm GPU'ları yalnızca TSMC ile ortaktır.

Gelecekte Intel ve Samsung ile işbirliği yapmak mümkün ancak kısa vadede imkansız, bu da H100'ün üretimini sınırlıyor.

İhbarcıya göre, TSMC'nin 5nm yongalara kapasite sağlamak için 4 üretim düğümü var: N5, N5P, N4, N5P

H100, yalnızca 5nm gelişmiş bir düğüm olan N5 veya N5P'nin 4N düğümünde üretilir.

Nvidia'nın bu düğümün kapasitesini Apple, Qualcomm ve AMD ile paylaşması gerekiyor.

TSMC fabrikasının her müşterinin üretim kapasitesini 12 ay önceden planlaması gerekiyor.

Nvidia ve TSMC daha önce H100'e olan talebi hafife aldıysa, şimdi üretim kapasitesi sınırlı olacak.

Muhbire göre, H100'ün üretimden teslimata geçmesi yaklaşık altı ay sürecek.

Ve muhbir ayrıca emekli bir yarı iletken endüstrisi profesyonelinin fabrikanın TSMC'nin üretim darboğazı olmadığını ve CoWoS (3D istifleme) paketlemenin TSMC'nin üretim kapasitesinin kapısı olduğunu söylediğini aktardı.

H100 bellek kapasitesi

H100'ün bir diğer önemli bileşeni olan H100 belleğine gelince, yetersiz kapasite sorunu da olabilir.

GPU ile özel bir şekilde entegre edilen HBM (Yüksek Bant Genişlikli Bellek), GPU performansını sağlamak için önemli bir bileşendir.

İhbarcı, sektörden bir kaynağın şu sözlerini aktardı:

Asıl sorun HBM'dir. Bunu yapmak bir kabus. HBM'nin üretilmesi zor olduğu için tedarikler çok sınırlıdır. Hem üretim hem de tasarım ritmini takip etmelidir.

HBM3 bellek için Nvidia neredeyse her zaman SK Hynix ürünlerini kullanır ve bazı Samsung ürünleri olabilir ve Micron ürünleri olmamalıdır.

Nvidia, SK Hynix'in üretim kapasitesini artırmasını istiyor ve yapıyorlar. Ancak hem Samsung hem de Micron sınırlı kapasiteye sahiptir.

Ayrıca, nadir toprak elementleri de dahil olmak üzere diğer birçok malzeme ve süreç GPU'ların üretiminde kullanılacak ve bu da GPU üretim kapasitesini sınırlayan olası faktörler haline gelecektir.

GPU çipi gelecekte nasıl gelişecek

Nvidia'nın açıklaması

Nvidia, yalnızca yılın ikinci yarısında daha fazla GPU tedarik edebileceklerini açıkladı, ancak herhangi bir nicel bilgi sağlamadı.

Çeyrek için bugün tedarik yapıyoruz, ancak yılın ikinci yarısı için de önemli miktarda tedarik alıyoruz. Yılın ikinci yarısındaki arzın ilk yarıdaki arzın çok üzerinde olacağına inanıyoruz.

– Nvidia CFO'su Colette Kress, Şubat-Nisan 2023 kazanç çağrısı

Sıradaki ne?

GPU tedarik sorunu artık bir kısır döngüye dönüşmüştür; burada kıtlık, GPU sahipliğinin bir hendek olarak görülmesine neden olarak daha fazla GPU'nun istiflenmesine neden olarak kıtlığı şiddetlendirmektedir.

– Açıklanan özel bir buluttan sorumlu kişi

**Yeni nesil H100 ne zaman ortaya çıkacak? **

Nvidia'nın önceki yol haritasına göre, yeni nesil H100, 2024'ün sonlarından 2025'in başlarına kadar duyurulmayacak.

O zamana kadar H100, Nvidia'nın amiral gemisi ürünü olacak.

Ancak Nvidia, bu dönemde H100'ün 120GB'lık su soğutmalı bir versiyonunu piyasaya sürecek.

İhbarcının röportaj yaptığı sektörden kaynaklara göre, H100 2023'ün sonunda tükenecek! !

H100'ün bilgi işlem gücü nasıl elde edilir?

Nvidia yöneticilerinin daha önce belirttiği gibi, H100 GPU tarafından sağlanan bilgi işlem gücü, sonunda çeşitli bulut bilgi işlem sağlayıcıları aracılığıyla endüstri zincirine entegre edilecek, bu nedenle H100 eksikliği, bir yandan GPU üretiminden kaynaklanıyor.

Diğer bir husus ise, bilgi işlem gücü bulut sağlayıcılarının Nvidia'dan H100'ü etkili bir şekilde nasıl edinebilecekleri ve sonunda bulut bilgi işlem gücü sağlayarak buna ihtiyaç duyan müşterilere nasıl ulaşabilecekleridir.

Süreç basitçe:

Bilgi işlem gücü bulut sağlayıcısı, OEM'lerden H100 yongaları satın alır ve ardından bilgi işlem gücü bulut hizmetleri oluşturur ve bunları son kullanıcıların H100 bilgi işlem gücü elde edebilmesi için çeşitli yapay zeka şirketlerine satar.

Bu süreçte, H100 bilgi işlem gücünün mevcut sıkıntısına neden olan çeşitli faktörler de var ve haberi veren makale, ayrıca endüstri içinde referansınız için pek çok bilgi sağlıyor.

**H100 kartını kimden satın alabilirim? **

Dell, Lenovo, HPE, Supermicro ve Quanta gibi OEM'ler hem H100'ü hem de HGX H100'ü satacak.

CoreWeave ve Lambda gibi bulut sağlayıcıları, OEM'lerden GPU satın alır ve bunları startup'lara kiralar.

Hiper ölçekleyiciler (Azure, GCP, AWS, Oracle) Nvidia ile daha doğrudan çalışacak, ancak OEM'lerden de satın alacak. Bu, oyuncuların grafik kartı satın alma şekline benziyor gibi görünüyor. Ancak DGX satın almak için bile, kullanıcıların OEM aracılığıyla satın almaları gerekir ve doğrudan Nvidia'dan sipariş veremezler.

teslimat süresi

8-GPU HGX sunucusunun teslim süresi korkunç, 4-GPU HGX sunucusunun teslim süresi gayet iyi.

Ancak her müşteri 8 GPU'lu bir sunucu ister!

Başlangıç, OEM'lerden ve satıcılardan satın alıyor mu?

Yeni başlayan bir şirket, H100'ün bilgi işlem gücünü elde etmek istiyorsa, H100'ü satın alıp kendi GPU kümesine bağlamaz.

Genellikle Oracle gibi büyük bulutlardan, Lambda ve CoreWeave gibi özel bulutlardan veya OEM'ler ve FluidStack gibi veri merkezleriyle çalışan sağlayıcılardan bilgi işlem gücü kiralarlar.

Kendi veri merkezinizi kurmak istiyorsanız, veri merkezini kurma zamanını, donanım konusunda personel ve deneyime sahip olup olmadığınızı ve sermaye harcamalarının karşılanıp karşılanamayacağını göz önünde bulundurmanız gerekir.

Sunucu kiralamak ve barındırmak artık daha kolay. Kullanıcılar kendi veri merkezlerini kurmak istiyorlarsa, internete bağlanmak için karanlık bir fiber hat döşenmelidir - kilometre başına 10.000 ABD doları. Altyapının çoğu, dot-com patlaması sırasında zaten inşa edilmiş ve ödenmiştir. Sadece kirala, ucuz.

– Özel bir buluttan sorumlu kişi

Kiralamadan kendi kendine oluşturulan bulut hizmetlerine giden sıralama kabaca şöyledir: isteğe bağlı kiralama bulut hizmetleri (yalnızca kiralama bulut hizmetleri), planlanmış bulut hizmetleri, yönetilen bulut hizmetleri (sunucu satın alma, sunucuları barındırmak ve yönetmek için sağlayıcılarla işbirliği), kendi kendine barındırma (kendiniz satın alarak) ve barındırma sunucusu)).

H100 bilgi işlem gücüne ihtiyaç duyan çoğu start-up, bulut hizmetlerini veya yönetilen bulut hizmetlerini rezerve etmeyi seçecektir.

Büyük bulut bilgi işlem platformları arasında karşılaştırma

Birçok girişim için, büyük bulut bilgi işlem şirketleri tarafından sağlanan bulut hizmetleri, H100'lerinin nihai kaynağıdır.

Bulut platformu seçimi aynı zamanda nihai olarak kararlı H100 bilgi işlem gücü elde edip edemeyeceklerini de belirler.

Genel nokta şu: Oracle, üç büyük bulut kadar güvenilir değil. Ancak Oracle, daha fazla teknik destek yardımı sağlayacaktır.

Diğer büyük bulut bilişim şirketleri arasındaki temel farklar şunlardır:

Ağ Oluşturma: Büyük A100/H100 kümeleri arayan yeni başlayanların çoğu InfiniBand'i ararken, AWS ve Google Cloud, hizmetleri sağlamak için kendi yöntemlerine sahip oldukları için InfiniBand'i benimseme konusunda daha yavaş davrandılar.

Kullanılabilirlik: Microsoft Azure H100'ün çoğu OpenAI'ye ayrılmıştır. Google, H100'ü satın almakta zorlandı.

Çünkü Nvidia, rakip makine öğrenimi çipleri geliştirme planı olmayan bulutlar için daha fazla H100 kotası sağlama eğiliminde görünüyor. (Bunların hepsi spekülasyon, katı gerçek değil.)

Microsoft dışındaki üç büyük bulut şirketinin tümü makine öğrenimi yongaları geliştiriyor ve AWS ve Google'ın Nvidia alternatif ürünleri zaten pazarda ve pazar payının bir kısmını işgal ediyor.

Nvidia ile ilişki açısından şöyle olabilir: Oracle ve Azure > GCP ve AWS. Ama bu sadece tahmin.

Daha küçük bulut bilgi işlem güç sağlayıcıları daha ucuz olacaktır, ancak bazı durumlarda, bazı bulut bilgi işlem sağlayıcıları bilgi işlem gücünü eşitlik karşılığında değiştirecektir.

Nvidia H100'ü nasıl tahsis eder

Nvidia, her müşteriye H100 kotası sağlayacaktır.

Ancak Azure "Hey, tamamı Çarpım için 10.000 H100 almak istiyoruz" derse, Azure'un "Hey, Azure bulutu için 10.000 H100 almak istiyoruz" demesinden farklı bir kota alırsınız.

Nvidia, son müşterinin kim olduğunu önemser, bu nedenle Nvidia son kullanıcı müşteriyle ilgilenirse, bulut bilgi işlem sağlayıcı platformu daha fazla H100 alacaktır.

Nvidia, son müşterinin kim olduğunu olabildiğince anlamak istiyor ve iyi markalara sahip müşterileri veya güçlü bir geçmişe sahip startupları tercih ediyor.

Evet, öyle görünüyor. NVIDIA, gelişmekte olan AI şirketlerine (çoğunun kendileriyle yakın bağları olan) GPU erişimini garanti etmeyi sever. Yatırım yaptıkları bir yapay zeka şirketi olan Inflection'a bakın - aynı zamanda yatırım yaptıkları CoreWeave üzerinde devasa bir H100 kümesini test ediyor.

– Özel bir buluttan sorumlu kişi

Çözüm

GPU'lara yönelik mevcut susuzluk hem köpük hem de abartılı, ancak nesnel olarak var.

OpenAI gibi, ChatGPT gibi ürünlerle ilgi gören şirketler var, ancak yine de yeterince GPU alamıyorlar.

Diğer şirketler, GPU'ları gelecekte kullanmak veya pazarın kullanmayabileceği büyük dil modellerini eğitmek için satın alıyor ve istifliyor. Bu, bir GPU kıtlığı balonu yaratır.

Ama nasıl bakarsanız bakın, Nvidia kaledeki yeşil kraldır.

Referanslar:

View Original

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.

2 Likes