Kelahiran GPT-5 membutuhkan 50.000 H100! Total permintaan global untuk H100 adalah 430.000, dan GPU Nvidia sedang dalam badai kekurangan

2023-08-06 06:37:26

Sumber asli: Xinzhiyuan

Sumber gambar: Dihasilkan oleh AI‌ Tak Terbatas

“Siapa yang akan mendapatkan berapa H100 dan kapan akan menjadi topik terpanas di Silicon Valley.”

Salah satu pendiri OpenAI dan ilmuwan paruh waktu Andrej Karpathy baru-baru ini menerbitkan sebuah artikel yang menjelaskan pandangannya tentang kekurangan GPU NVIDIA.

Baru-baru ini, gambar "Berapa banyak GPU yang kita butuhkan" yang beredar luas di masyarakat memicu perbincangan banyak netizen.

Menurut konten yang ditunjukkan pada gambar:

GPT-4 mungkin dilatih pada sekitar 10.000-25.000 A100
Meta sekitar 21000 A100
Tesla sekitar 7000 A100
Stabilitas AI sekitar 5000 A100
Falcon-40B dilatih pada 384 A100s

– Infleksi menggunakan 3500 dan H100 untuk melatih model yang sebanding dengan GPT-3.5

Selain itu, menurut Musk, GPT-5 mungkin membutuhkan 30.000-50.000 H100.

Sebelumnya, Morgan Stanley telah menyatakan bahwa GPT-5 menggunakan 25.000 GPU dan telah dilatih sejak Februari, namun Sam Altman kemudian mengklarifikasi bahwa GPT-5 belum dilatih.

Namun, Altman sebelumnya menyatakan,

Kami memiliki persediaan GPU yang sangat sedikit, semakin sedikit orang yang menggunakan produk kami semakin baik.

Kami akan senang jika orang menggunakan lebih sedikit, karena kami tidak memiliki cukup GPU.

Dalam artikel berjudul "Nvidia H100 GPU: Supply and Demand", analisis mendalam tentang penggunaan dan permintaan GPU oleh perusahaan teknologi saat ini.

Artikel tersebut berspekulasi bahwa kapasitas klaster H100 berskala besar dari penyedia cloud kecil dan besar akan segera habis, dan tren permintaan untuk H100 akan berlanjut hingga setidaknya akhir tahun 2024.

Jadi, apakah permintaan GPU benar-benar menjadi hambatan?

Persyaratan GPU untuk perusahaan besar: sekitar 430.000 H100

Saat ini, ledakan AI generatif tidak melambat, dan telah mengajukan persyaratan yang lebih tinggi untuk daya komputasi.

Beberapa startup menggunakan H100 Nvidia yang mahal dan berperforma sangat tinggi untuk melatih model.

GPU lebih sulit didapat daripada obat-obatan pada saat ini, kata Musk.

Sam Altman mengatakan bahwa OpenAI adalah GPU terbatas, yang menunda rencana jangka pendek mereka (penyempurnaan, kapasitas khusus, jendela konteks 32k, multimodalitas).

Komentar Karpathy datang ketika laporan tahunan dari perusahaan teknologi besar bahkan membahas masalah terkait akses GPU.

Pekan lalu, Microsoft merilis laporan tahunannya dan menyoroti kepada investor bahwa GPU adalah "bahan mentah utama" untuk bisnis cloud yang berkembang pesat. Jika infrastruktur yang diperlukan tidak tersedia, mungkin ada faktor risiko pemadaman pusat data.

Artikel ini konon ditulis oleh penulis pos HK.

Dia menebak bahwa OpenAI mungkin membutuhkan 50.000 H100, sementara Infleksi membutuhkan 22.000, Meta mungkin membutuhkan 25k, dan penyedia layanan cloud besar mungkin membutuhkan 30k (seperti Azure, Google Cloud, AWS, Oracle).

Lambda dan CoreWeave dan cloud pribadi lainnya mungkin membutuhkan total 100rb. Dia menulis bahwa Anthropic, Helsing, Mistral, dan Character masing-masing mungkin membutuhkan 10k.

Para penulis mengatakan ini semua adalah perkiraan dan tebakan kasar, beberapa di antaranya adalah penghitungan ganda cloud dan pelanggan akhir menyewa peralatan dari cloud.

Secara keseluruhan, perusahaan global membutuhkan sekitar 432.000 H100. Dihitung sekitar $35k per H100, total kebutuhan GPU menelan biaya $15 miliar.

Ini tidak termasuk perusahaan Internet domestik yang membutuhkan H800 dalam jumlah besar.

Ada juga beberapa perusahaan keuangan terkenal, seperti Jane Street, JP Morgan, Two Sigma, dll., yang masing-masing menyebarkan, dimulai dengan ratusan A/H100 dan berkembang menjadi ribuan A/H100.

Semua lab besar termasuk OpenAI, Anthropic, DeepMind, Google, dan X.ai melatih model bahasa besar, dan H100 Nvidia tidak tergantikan.

Mengapa H100 menjadi pilihan pertama?

H100 lebih populer daripada A100 sebagai pilihan pertama, sebagian karena latensi cache yang lebih rendah dan komputasi FP8.

Karena efisiensinya hingga 3 kali lipat, tetapi biayanya hanya (1,5-2 kali). Mempertimbangkan keseluruhan biaya sistem, kinerja H100 jauh lebih tinggi.

Dalam hal detail teknis, dibandingkan dengan A100, H100 sekitar 3,5 kali lebih cepat pada penalaran 16-bit, dan sekitar 2,3 kali lebih cepat pada pelatihan 16-bit.

Kecepatan A100 vs H100

Pelatihan H100 MoE

Akselerasi masif H100

Sebagian besar perusahaan membeli H100 dan menggunakannya untuk pelatihan dan inferensi, sedangkan A100 kebanyakan untuk inferensi.

Namun beberapa perusahaan ragu untuk beralih karena biaya, kapasitas, risiko penggunaan dan penyiapan perangkat keras baru, dan fakta bahwa perangkat lunak yang ada telah dioptimalkan untuk A100.

GPU bukan kekurangan, tetapi masalah rantai pasokan

Seorang eksekutif Nvidia mengatakan masalahnya bukan pada kekurangan GPU, tetapi bagaimana GPU tersebut sampai ke pasar.

Nvidia memproduksi GPU dengan kapasitas penuh, tetapi eksekutif tersebut mengatakan bahwa kapasitas produksi GPU terutama dibatasi oleh rantai pasokan.

Chip itu sendiri mungkin memiliki kapasitas yang cukup, tetapi kapasitas komponen lain yang tidak mencukupi akan sangat membatasi kapasitas GPU.

Produksi komponen ini bergantung pada pemasok lain di seluruh dunia.

Tapi permintaannya bisa diprediksi, jadi sekarang masalahnya sudah teratasi secara bertahap.

kapasitas produksi chip GPU

Pertama-tama, Nvidia hanya bekerja sama dengan TSMC untuk memproduksi H100. Semua GPU 5nm Nvidia hanya bermitra dengan TSMC.

Dimungkinkan untuk bekerja sama dengan Intel dan Samsung di masa depan, tetapi tidak mungkin dalam jangka pendek, yang membatasi produksi H100.

Menurut pelapor, TSMC memiliki 4 node produksi untuk menyediakan kapasitas chip 5nm: N5, N5P, N4, N5P

H100 hanya diproduksi pada simpul 4N dari N5 atau N5P, yang merupakan simpul yang ditingkatkan 5nm.

Nvidia perlu berbagi kapasitas node ini dengan Apple, Qualcomm, dan AMD.

Fab TSMC perlu merencanakan kapasitas produksi setiap pelanggan 12 bulan sebelumnya.

Jika sebelumnya Nvidia dan TSMC meremehkan permintaan H100, maka kapasitas produksi sekarang akan dibatasi.

Menurut pelapor, akan memakan waktu sekitar setengah tahun untuk H100 dari produksi ke pengiriman.

Dan pelapor juga mengutip pensiunan profesional industri semikonduktor yang mengatakan bahwa fab bukanlah hambatan produksi TSMC, dan pengemasan CoWoS (penumpukan 3D) adalah gerbang kapasitas produksi TSMC.

kapasitas memori H100

Adapun komponen penting lainnya pada H100, memori H100, mungkin juga ada masalah kapasitas yang tidak mencukupi.

HBM (Memori Bandwidth Tinggi), yang terintegrasi dengan GPU dengan cara khusus, merupakan komponen kunci untuk memastikan kinerja GPU.

Whistleblower mengutip orang dalam industri yang mengatakan:

Masalah utamanya adalah HBM. Membuatnya adalah mimpi buruk. Karena HBM sulit diproduksi, pasokannya sangat terbatas. Baik produksi maupun desain harus mengikuti ritmenya.

Untuk memori HBM3, Nvidia hampir selalu menggunakan produk SK Hynix, dan mungkin ada beberapa produk Samsung, dan seharusnya tidak ada produk Micron.

Nvidia ingin SK Hynix meningkatkan kapasitas produksi, dan mereka melakukannya. Namun baik Samsung maupun Micron memiliki kapasitas yang terbatas.

Selain itu, banyak material dan proses lain, termasuk elemen tanah jarang, akan digunakan dalam pembuatan GPU, yang juga akan menjadi faktor yang membatasi kapasitas produksi GPU.

Bagaimana chip GPU akan berkembang di masa depan

Pernyataan Nvidia

Nvidia hanya mengungkapkan bahwa mereka akan dapat memasok lebih banyak GPU pada paruh kedua tahun ini, tetapi tidak memberikan informasi kuantitatif apa pun.

Kami sedang memproses pasokan untuk kuartal hari ini, tetapi kami juga mendapatkan sejumlah besar pasokan untuk paruh kedua tahun ini. Kami percaya bahwa pasokan di paruh kedua tahun ini akan jauh lebih tinggi daripada di paruh pertama.

– CFO Nvidia Colette Kress pada panggilan pendapatan Februari-April 2023

Apa berikutnya?

Masalah pasokan GPU sekarang menjadi lingkaran setan di mana kelangkaan menyebabkan kepemilikan GPU dilihat sebagai parit, yang menyebabkan lebih banyak GPU yang ditimbun, memperburuk kelangkaan.

– Seseorang yang bertanggung jawab atas cloud pribadi diungkapkan

**Kapan H100 generasi berikutnya akan muncul? **

Menurut peta jalan Nvidia sebelumnya, H100 generasi berikutnya tidak akan diumumkan hingga akhir 2024 hingga awal 2025.

Hingga saat itu, H100 akan menjadi produk andalan Nvidia.

Namun, Nvidia akan meluncurkan versi H100 berpendingin air 120GB selama periode ini.

Menurut orang dalam industri yang diwawancarai oleh pelapor, H100 akan terjual habis pada akhir tahun 2023! !

Bagaimana cara mendapatkan daya komputasi H100?

Seperti yang disebutkan eksekutif Nvidia sebelumnya, daya komputasi yang disediakan oleh GPU H100 pada akhirnya akan diintegrasikan ke dalam rantai industri melalui berbagai penyedia cloud computing, sehingga kekurangan H100 disebabkan oleh generasi GPU di satu sisi.

Aspek lainnya adalah bagaimana penyedia cloud computing power dapat secara efektif memperoleh H100 dari Nvidia, dan akhirnya menjangkau pelanggan yang membutuhkannya dengan menyediakan cloud computing power.

Prosesnya sederhana:

Penyedia cloud daya komputasi membeli chip H100 dari OEM, lalu membangun layanan cloud daya komputasi dan menjualnya ke berbagai perusahaan AI, sehingga pengguna akhir dapat memperoleh daya komputasi H100.

Ada juga berbagai faktor dalam proses ini, yang menyebabkan kekurangan daya komputasi H100 saat ini, dan artikel yang menyampaikan berita juga memberikan banyak informasi dalam industri untuk referensi Anda.

** Dari siapa saya dapat membeli papan H100? **

OEM seperti Dell, Lenovo, HPE, Supermicro dan Quanta akan menjual H100 dan HGX H100.

Penyedia cloud seperti CoreWeave dan Lambda membeli GPU dari OEM dan menyewakannya ke startup.

Hyperscalers (Azure, GCP, AWS, Oracle) akan bekerja lebih langsung dengan Nvidia, tetapi juga akan membeli dari OEM. Ini sepertinya mirip dengan cara gamer membeli kartu grafis. Tetapi bahkan untuk membeli DGX, pengguna harus membeli melalui OEM, dan tidak dapat memesan langsung dengan Nvidia.

waktu pengiriman

Lead time untuk server 8-GPU HGX sangat buruk, lead time untuk server 4-GPU HGX baik-baik saja.

Tetapi setiap pelanggan menginginkan server 8-GPU!

Apakah startup membeli dari OEM dan pengecer?

Jika sebuah perusahaan start-up ingin mendapatkan daya komputasi H100, ia tidak akan membeli H100 dan menghubungkannya ke cluster GPU-nya sendiri.

Mereka biasanya menyewa daya komputasi dari cloud besar seperti Oracle, cloud pribadi seperti Lambda dan CoreWeave, atau penyedia yang bekerja dengan OEM dan pusat data seperti FluidStack.

Jika Anda ingin membangun pusat data Anda sendiri, Anda perlu mempertimbangkan waktu untuk membangun pusat data tersebut, apakah Anda memiliki personel dan pengalaman dalam perangkat keras, dan apakah belanja modal dapat diberikan.

Menyewa dan menghosting server semakin mudah. Jika pengguna ingin membangun pusat data mereka sendiri, jalur serat gelap harus dipasang untuk terhubung ke Internet - $10.000 per kilometer. Sebagian besar infrastruktur telah dibangun dan dibayar selama ledakan dot-com. Sewa saja, murah.

– Orang yang bertanggung jawab atas cloud pribadi

Urutan dari leasing ke layanan cloud yang dibangun sendiri kira-kira: layanan cloud sewa sesuai permintaan (layanan cloud sewa murni), layanan cloud terjadwal, layanan cloud terkelola (pembelian server, bekerja sama dengan penyedia untuk menghosting dan mengelola server), hosting mandiri (membeli sendiri) dan server hosting)).

Sebagian besar perusahaan rintisan yang membutuhkan daya komputasi H100 akan memilih untuk memesan layanan cloud atau layanan cloud terkelola.

Perbandingan antara platform komputasi awan besar

Bagi banyak startup, layanan cloud yang disediakan oleh perusahaan cloud computing besar adalah sumber utama H100 mereka.

Pilihan platform cloud juga pada akhirnya menentukan apakah mereka dapat memperoleh daya komputasi H100 yang stabil.

Poin keseluruhannya adalah: Oracle tidak dapat diandalkan seperti tiga cloud besar. Tetapi Oracle akan memberikan lebih banyak bantuan dukungan teknis.

Perbedaan utama di antara perusahaan komputasi awan besar lainnya adalah:

Jaringan: Sementara sebagian besar startup yang mencari klaster A100/H100 besar mencari InfiniBand, AWS dan Google Cloud lebih lambat dalam mengadopsi InfiniBand karena mereka memiliki pendekatan sendiri untuk menyediakan layanan.

Ketersediaan: Sebagian besar H100 Microsoft Azure didedikasikan untuk OpenAI. Google mengalami kesulitan untuk mendapatkan H100.

Karena Nvidia tampaknya cenderung memberikan lebih banyak kuota H100 untuk cloud yang tidak memiliki rencana untuk mengembangkan chip pembelajaran mesin pesaing. (Ini semua spekulasi, bukan kebenaran yang sulit.)

Tiga perusahaan cloud besar kecuali Microsoft semuanya sedang mengembangkan chip pembelajaran mesin, dan produk alternatif Nvidia dari AWS dan Google sudah ada di pasaran, menempati sebagian pangsa pasar.

Dalam hal hubungan dengan Nvidia, mungkin seperti ini: Oracle dan Azure > GCP dan AWS. Tapi itu hanya tebakan.

Penyedia daya komputasi awan yang lebih kecil akan lebih murah, tetapi dalam beberapa kasus, beberapa penyedia komputasi awan akan menukar daya komputasi dengan ekuitas.

Bagaimana Nvidia mengalokasikan H100

Nvidia akan memberi setiap pelanggan kuota H100.

Tetapi jika Azure mengatakan "Hei, kami ingin mendapatkan 10.000 H100, semuanya untuk Infleksi" Anda mendapatkan kuota yang berbeda daripada jika Azure mengatakan "Hei, kami ingin mendapatkan 10.000 H100 untuk cloud Azure".

Nvidia peduli dengan siapa pelanggan akhir, jadi jika Nvidia tertarik dengan pelanggan pengguna akhir, platform penyedia komputasi awan akan mendapatkan lebih banyak H100.

Nvidia ingin memahami sebanyak mungkin siapa pelanggan akhir, dan mereka lebih memilih pelanggan dengan merek bagus atau startup dengan silsilah yang kuat.

Ya, sepertinya memang begitu. NVIDIA suka menjamin akses GPU ke perusahaan AI yang baru muncul (banyak di antaranya memiliki hubungan dekat dengan mereka). Lihat Infleksi - perusahaan AI tempat mereka berinvestasi - menguji kluster H100 besar di CoreWeave, tempat mereka juga berinvestasi.

– Orang yang bertanggung jawab atas cloud pribadi

Kesimpulan

Rasa haus saat ini akan GPU adalah buih dan sensasi, tetapi memang ada secara objektif.

Ada perusahaan seperti OpenAI dengan produk seperti ChatGPT yang mendapatkan daya tarik, tetapi mereka masih belum mendapatkan cukup GPU.

Perusahaan lain membeli dan menimbun GPU untuk digunakan di masa mendatang, atau untuk melatih model bahasa besar yang bahkan mungkin tidak digunakan pasar. Ini menciptakan gelembung kekurangan GPU.

Tapi bagaimanapun Anda melihatnya, Nvidia adalah raja hijau di benteng.

Referensi:

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

2 Suka