Sumber: Ulasan Teknologi Yuanchuan** (ID: kechuangych)**
Setelah laporan keuangan triwulanan terbaru Nvidia diumumkan, AMD tidak hanya membungkam Intel dan menitikkan air mata, namun para analis yang telah melakukan konstruksi psikologis jangka panjang tidak memperkirakan situasi sebenarnya akan melebihi ekspektasi.
Yang lebih menakutkan lagi adalah pendapatan Nvidia melonjak sebesar 854% tahun-ke-tahun, terutama karena "hanya dapat menjual sebanyak itu" daripada "menjual sebanyak itu". Di balik banyaknya esai kecil tentang "startup yang mengambil hipotek H100" mencerminkan fakta bahwa pasokan GPU H100 sangat terbatas.
Jika kelangkaan terus berlanjut hingga akhir tahun ini, performa Nvidia mungkin akan semakin menggemparkan.
Kekurangan H100 mengingatkan kita pada beberapa tahun lalu ketika GPU kehabisan stok karena meroketnya mata uang kripto, dan Nvidia dimarahi habis-habisan oleh para gamer. Namun, kekurangan kartu grafis saat itu sebagian besar disebabkan oleh harga premium yang tidak masuk akal, sedangkan kekurangan H100 disebabkan oleh terbatasnya kapasitas produksi, dan tidak dapat dibeli dengan harga lebih tinggi.
Dengan kata lain, Nvidia masih menghasilkan lebih sedikit uang.
Dalam panggilan konferensi pada hari ketika laporan keuangan dirilis, "kapasitas" tentu saja menjadi kata yang paling sering digunakan. Dalam hal ini, kata-kata Nvidia sangat ketat, dan bertekad untuk tidak membawa pot yang tidak boleh dibawa:
“Dalam hal pangsa pasar, hal ini tidak dapat kami capai sendirian, kami perlu menjangkau banyak pemasok yang berbeda.”
Faktanya, hanya ada dua dari "banyak pemasok berbeda" yang disebut Nvidia:
SK Hynix dan TSMC.
HBM: Game Korea
Jika hanya melihat rasio luasnya, sebuah chip H100 hanya sekitar 50% milik Nvidia.
Dalam tampilan penampang chip, dadu H100 menempati posisi inti, dengan tiga tumpukan HBM di setiap sisinya, dan area gabungan setara dengan dadu H100.
Keenam chip memori pas-pasan ini menjadi salah satu penyebab kekurangan pasokan H100.
HBM (Memori Bandwidth Tinggi) secara harfiah diterjemahkan sebagai memori bandwidth tinggi, yang mengambil bagian dari memori di GPU.
Berbeda dari memori DDR tradisional, HBM pada dasarnya menumpuk beberapa memori DRAM secara vertikal, yang tidak hanya meningkatkan kapasitas memori, namun juga dapat mengontrol konsumsi daya dan area chip memori dengan baik, serta mengurangi ruang yang ditempati di dalam paket.
"Stacked memory" awalnya ditujukan untuk pasar smartphone yang sangat sensitif terhadap area chip dan pembangkitan panas, namun yang menjadi permasalahan adalah karena tingginya biaya produksi, akhirnya smartphone memilih jalur LPDDR yang lebih hemat biaya, sehingga mengakibatkan teknologi kosong. untuk memori bertumpuk. Dicadangkan, tetapi tidak dapat menemukan lokasi pendaratan.
Hingga tahun 2015, AMD, yang pangsa pasarnya semakin melemah, berharap dapat memanfaatkan popularitas game 4K untuk meniru gelombang Nvidia.
Dalam seri GPU AMD Fiji yang dirilis tahun itu, AMD mengadopsi memori bertumpuk yang dikembangkan bersama SK Hynix dan menamakannya HBM (High Bandwidth Memory).
Visi AMD adalah bahwa game 4K memerlukan efisiensi throughput data yang lebih besar, dan keunggulan memori HBM bandwidth tinggi dapat tercermin. Saat itu, kartu grafis AMD Radeon R9 Fury X memang mengungguli arsitektur baru Nvidia Kepler dalam hal performa kertas.
Namun permasalahannya adalah peningkatan bandwidth yang dibawa oleh HBM jelas sulit untuk mengimbangi biayanya yang tinggi, sehingga belum dipopulerkan.
Hingga tahun 2016, AlphaGo menyapu bersih pemain catur juara Li Shishi, dan lahirlah pembelajaran mendalam, yang membuat memori HBM ikut berperan.
Inti dari pembelajaran mendalam adalah melatih model melalui data yang sangat besar, menentukan parameter dalam fungsi, dan membawa data aktual ke dalam keputusan untuk mendapatkan solusi akhir.
Secara teoritis, semakin besar jumlah data, semakin andal parameter fungsinya, yang membuat pelatihan AI memiliki pencarian throughput data dan penundaan transmisi data yang hampir patologis, dan inilah masalah yang diselesaikan oleh memori HBM.
Pada tahun 2017, AlphaGo melawan Ke Jie lagi, dan chip tersebut digantikan oleh TPU yang dikembangkan oleh Google sendiri. Dari segi desain chip, setiap generasi TPU mulai generasi kedua mengadopsi desain HBM. GPU baru Nvidia Tesla P100 untuk pusat data dan pembelajaran mendalam dilengkapi dengan memori HBM generasi kedua (HBM2).
Karena hampir semua chip GPU di pasar komputasi performa tinggi dilengkapi dengan memori HBM, persaingan antar raksasa penyimpanan di sekitar HBM juga berkembang pesat.
Saat ini, hanya ada tiga raksasa memori di dunia yang dapat memproduksi HBM secara massal: SK Hynix, Samsung Electronics, dan Micron.
SK Hynix adalah salah satu penemu HBM, dan saat ini merupakan satu-satunya produsen yang memproduksi HBM3E (HBM generasi ketiga) secara massal; Samsung Electronics memasuki pasar dengan HBM2 (HBM generasi kedua), dan merupakan pemasok GPU pertama Nvidia menggunakan HBM; Micron Paling tertinggal, baru beralih dari HMC ke HBM pada tahun 2018, dan produksi massal HBM2 dimulai pada pertengahan tahun 2020.
Diantaranya, SK Hynix memonopoli 50% pangsa pasar HBM, dan pasokan eksklusif HBM3E ke Nvidia telah dengan tegas memblokir pengiriman H100:
Versi H100 PCIe dan SXM sama-sama menggunakan 5 stack HBM, versi H100S SXM bisa mencapai 6, dan versi H100 NVL yang didorong oleh Nvidia sudah mencapai 12. Menurut pembongkaran lembaga penelitian, biaya satu tumpukan HBM 16GB mencapai $240. Kemudian harga chip memori H100 NVL saja hampir 3.000 dolar AS.
Masalah biaya masih kecil, mengingat Google TPU v5 dan AMD MI300 yang bersaing langsung dengan H100 akan segera diproduksi massal, dan dua terakhir juga akan menggunakan HBM3E, Chen Neng pun semakin menggeliat.
Menghadapi lonjakan permintaan, SK Hynix dikatakan telah menetapkan tujuan kecil untuk menggandakan kapasitas produksinya dan mulai memperluas lini produksi.Samsung dan Micron juga bersiap untuk HBM3E, tetapi dalam industri semikonduktor, perluasan lini produksi tidak pernah terjadi. telah dicapai dalam semalam.
Menurut perkiraan optimis siklus 9-12 bulan, kapasitas produksi HBM3E tidak akan terisi kembali setidaknya hingga kuartal kedua tahun depan.
Selain itu, meskipun kapasitas produksi HBM terpecahkan, berapa banyak H100 yang dapat disuplai bergantung pada wajah TSMC.
CoWoS: pedang TSMC
Analis Robert Castellano membuat perhitungan belum lama ini. H100 diproduksi menggunakan proses 4N (5nm) TSMC, dan harga wafer 12 inci dengan proses 4N adalah $13.400. Secara teori, 86 chip H100 dapat dipotong.
Jika hasil produksi tidak diperhitungkan, maka untuk setiap H100 yang diproduksi, TSMC dapat memperoleh pendapatan $155 [6] 。
Namun faktanya, pendapatan yang dihasilkan setiap H100 ke TSMC kemungkinan besar akan melebihi US$1.000.Alasannya adalah H100 menggunakan teknologi pengemasan CoWoS TSMC, dan pendapatan yang diperoleh dari pengemasan mencapai US$723. [6] 。
Setiap H100 yang keluar dari lini produksi N4/N5 di pabrik ke-18 TSMC akan dikirim ke pabrik pengemasan dan pengujian lanjutan kedua TSMC di lokasi yang sama untuk menyelesaikan langkah paling istimewa dan krusial dalam manufaktur H100 - CoWoS.
Untuk memahami pentingnya kemasan CoWoS, kita masih harus memulai dengan desain chip H100.
Pada produk GPU tingkat konsumen, chip memori umumnya dikemas di sekitar inti GPU, dan sinyal ditransmisikan melalui sirkuit antar papan PCB.
Misalnya pada gambar di bawah, chip RTX4090 juga diproduksi oleh Nvidia, inti GPU dan memori GDDR dikemas secara terpisah dan dirangkai pada papan PCB, independen satu sama lain.
Baik GPU maupun CPU mengikuti arsitektur von Neumann, dan intinya terletak pada "pemisahan penyimpanan dan perhitungan" - yaitu, ketika chip memproses data, ia perlu mengambil data dari memori eksternal, dan kemudian mentransfernya ke memori setelah perhitungan selesai, sekali akan menyebabkan keterlambatan perhitungan. Pada saat yang sama, "kuantitas" transfer data akan dibatasi.
Hubungan antara GPU dan memori dapat dibandingkan dengan Pudong dan Puxi di Shanghai. Transportasi material (data) antara kedua tempat tersebut bergantung pada Jembatan Nanpu. Daya dukung Jembatan Nanpu menentukan efisiensi transportasi material. Daya dukung ini adalah bandwidth memori, yang menentukan Ini mempengaruhi kecepatan transmisi data dan secara tidak langsung mempengaruhi kecepatan komputasi GPU.
Dari tahun 1980 hingga 2000, "ketidaksesuaian kecepatan" antara GPU dan memori meningkat sebesar 50% per tahun. Dengan kata lain, meskipun Terowongan Jalan Longyao dan Terowongan Jalan Shangzhong dibangun, hal tersebut tidak akan mampu memenuhi pertumbuhan transportasi material antara Pudong dan Puxi. Hal ini menyebabkan bandwidth menjadi hambatan yang semakin nyata dalam komputasi kinerja tinggi. skenario.
Kesenjangan antara kinerja CPU/GPU dan kinerja memori semakin lebar
Pada tahun 2015, sembari menerapkan memori HBM, AMD juga mengadopsi solusi inovatif untuk transmisi data: menggabungkan Pudong dan Puxi.
Sederhananya, kartu grafis arsitektur Fiji 2015 "menyatukan" memori HBM dan inti GPU, mengubah beberapa chip kecil menjadi satu chip besar. Dengan cara ini, efisiensi throughput data menjadi dua kali lipat.
Namun, seperti disebutkan di atas, karena masalah biaya dan teknis, arsitektur AMD Fiji tidak mengizinkan pasar untuk membelinya. Namun, ledakan pembelajaran mendalam dan pelatihan AI yang berupaya mencapai efisiensi throughput data, berapa pun biayanya, telah membuat "chip stitching" berguna.
Selain ide AMD yang bagus, namun juga membawa masalah baru - betapapun banyaknya keunggulan yang dimiliki HBM, ia harus bekerja sama dengan teknologi pengemasan canggih "seam chip", dan keduanya berkaitan erat.
Jika dikatakan memori HBM masih bisa dibandingkan dengan ketiga perusahaan tersebut, maka kemasan canggih yang digunakan pada "seam chip" sepertinya menjadi satu-satunya yang bisa dibuat oleh TSMC.
CoWoS adalah titik awal bisnis pengemasan canggih TSMC, dan Nvidia adalah perusahaan chip pertama yang mengadopsi teknologi ini.
CoWoS merupakan kombinasi dari CoW dan oS: CoW artinya Chip on Wafer yang mengacu pada proses perakitan bare chip pada wafer, dan oS artinya on Substrate yang artinya proses pengemasan pada substrat.
Pengemasan tradisional umumnya hanya memiliki tautan OS. Setelah pengecoran menyelesaikan pembuatan wafer, diserahkan ke pabrik pengemasan dan pengujian pihak ketiga untuk diselesaikan. Namun, tautan Kontrak Karya yang ditambahkan dengan pengemasan lanjutan tidak dapat diselesaikan dengan pengemasan dan pengujian pabrik.
Mengambil contoh chip H100 lengkap, beberapa tumpukan HBM didistribusikan di sekitar cetakan H100, yang disambung menjadi satu melalui teknologi Kontrak Karya. Tapi bukan sekedar penyambungan, tapi komunikasi antara dadu dan tumpukan pada saat yang bersamaan.
Kontrak Karya TSMC berbeda dari kemasan canggih lainnya karena ia menempatkan cetakan dan tumpukan pada interposer silikon (pada dasarnya wafer), dan menghubungkan saluran dalam interposer untuk mewujudkan komunikasi antara cetakan dan tumpukan.
Mirip dengan EMIB Intel, perbedaannya adalah ia saling terhubung melalui jembatan silikon. Namun bandwidthnya jauh lebih kecil dibandingkan dengan interposer silikon.Mengingat bandwidth berkaitan erat dengan kecepatan transmisi data, CoWoS menjadi satu-satunya pilihan untuk H100.
Ini adalah sisi lain yang tertahan pada kapasitas produksi H100.
Meskipun dampak CoWoS sangat merugikan, harga yang sangat tinggi yaitu 4000-6000 dolar AS per buah masih menghentikan banyak orang, termasuk Apple, yang sangat kaya. Sebab, kapasitas produksi yang disiapkan TSMC cukup terbatas.
Namun, gelombang AI tiba-tiba pecah, dan keseimbangan pasokan dan permintaan langsung terputus.
Pada awal Juni lalu beredar rumor bahwa permintaan CoWoS Nvidia tahun ini mencapai 45.000 wafer, sedangkan perkiraan TSMC di awal tahun adalah 30.000 wafer. Ditambah dengan kebutuhan pelanggan lain, gap kapasitas produksi melebihi 20%.
Untuk menjembatani kesenjangan tersebut, perjuangan TSMC tidaklah kecil.
Pada bulan Juni, TSMC secara resmi meluncurkan pabrik pengemasan dan pengujian canggih keenam di Nanke. Ruang bersihnya sendiri lebih besar dari gabungan pabrik pengemasan dan pengujian lainnya. TSMC juga berjanji untuk meningkatkan kapasitas produksi CoWoS setiap kuartal. Oleh karena itu, sebagian OS dialihdayakan ke pihak ketiga.Pabrik pengemasan dan pengujian.
Namun tidak mudah bagi HBM untuk memperluas produksinya, dan TSMC juga memerlukan waktu untuk memperluas produksinya. Saat ini waktu pengiriman beberapa peralatan dan komponen pengemasan berkisar antara 3 hingga 6 bulan, masih belum diketahui berapa kapasitas produksi baru yang bisa dibuka sebelum akhir tahun.
Rencana B yang tidak ada
Menghadapi kekurangan struktural H100, Nvidia bukannya sepenuhnya tanpa Rencana B.
Dalam conference call usai laporan keuangan dirilis, Nvidia mengungkapkan kapasitas produksi CoWoS sudah disertifikasi oleh pemasok lain. Meskipun saya tidak mengatakan siapa itu, mengingat ambang teknis pengemasan yang canggih, selain TSMC, hanya EMIB bawaan Intel dan I-Cube Samsung, yang telah berkembang sejak lama dan telah menunggu pelanggan, yang dapat nyaris tidak memadamkan api.
Namun, penggantian teknologi inti seperti pergantian jenderal sebelum pertempuran. Karena AMD MI300 akan diproduksi dan dikirim secara massal, persaingan untuk chip AI sangat ketat. Saya khawatir Huang Renxun juga khawatir apakah dia dapat berintegrasi dengan teknologi Intel dan Samsung.
Yang lebih cemas daripada Huang Renxun mungkin adalah vendor layanan cloud dan perusahaan rintisan AI yang tidak dapat membeli H100. Lagi pula, gamer tidak bisa mendapatkan kartu grafis, artinya jumlah frame game berkurang 20 frame; perusahaan besar tidak bisa mendapatkan H100, dan mereka mungkin kehilangan pendapatan miliaran dan penilaian puluhan miliar.
Ada tiga jenis perusahaan utama yang membutuhkan H100: penyedia layanan cloud seperti Microsoft dan Amazon; perusahaan start-up seperti Anthropic dan OpenAI; dan perusahaan teknologi besar seperti Tesla. Cluster GPU untuk pelatihan.
Ini tidak termasuk perusahaan keuangan seperti Citadel, dan perusahaan Tiongkok yang tidak dapat membeli versi khusus H800.
Menurut perhitungan GPU Utils [7] , perkiraan konservatif, kesenjangan pasokan saat ini pada H100 mencapai 430,000.
Meskipun terdapat alternatif teoritis selain H100, tidak ada satupun yang layak digunakan dalam situasi praktis.
Misalnya saja produk pendahulunya H100, A100, yang harganya hanya sekitar 1/3 dari harga H100. Namun masalahnya adalah performa H100 jauh lebih kuat dibandingkan A100, sehingga daya komputasi per unit biaya H100 lebih tinggi dibandingkan A100. Mengingat perusahaan teknologi mulai membeli ratusan atau ribuan eksemplar, membeli A100 bahkan lebih buruk lagi.
AMD adalah alternatif lain, dan performanya di atas kertas tidak jauh tertinggal dari H100. Namun karena adanya hambatan pada ekosistem CUDA Nvidia, penggunaan GPU AMD kemungkinan akan membuat siklus pengembangan menjadi lebih lama, dan pesaing yang menggunakan H100 kemungkinan besar akan membuka celah dengan dirinya sendiri karena perbedaan waktu tersebut, bahkan menginvestasikan ratusan. jutaan dolar, tidak ada pengembalian.
Karena berbagai alasan, sebuah chip dengan harga material keseluruhan 3.000 dolar AS, Nvidia langsung menambahkan item retail, dan semua orang bergegas membelinya. Ini mungkin sesuatu yang tidak diharapkan oleh Huang Renxun sendiri.
Sebelum kapasitas produksi HBM dan CoWoS meningkat, mungkin hanya ada satu cara untuk membeli H100:
Tunggu hingga startup yang membeli banyak H100 gulung tikar dengan membual dan mengumpulkan uang, lalu mengambil GPU bekas mereka.
Referensi
[1] Kendala Kapasitas AI - Rantai Pasokan CoWoS dan HBM, SemiAnalisis
[2] Pabrik asli secara aktif memperluas produksi, dan tingkat pertumbuhan tahunan pasokan bit HBM diperkirakan sebesar 105% pada tahun 2024, TrendForce
[3] Perubahan apa yang akan dibawa oleh teknologi HBM pada pusat data? Industri semikonduktor vertikal dan horizontal
[4] Pengemasan Lanjutan Bagian II: Tinjauan Opsi/Penggunaan untuk Intel, TSMC, Samsung, AMD, ASE, Sony, Micron, SKHynix, YMTC, Tesla, dan Nvidia, Semianalisis
[5] Salah satu pendiri OpenAI dan ilmuwan paruh waktu Andrej Karpathy men-tweet
[6] Semikonduktor Taiwan: Diremehkan Secara Signifikan Sebagai Pemasok Chip Dan Paket Untuk Nvidia,SeekingAlpha
[7] GPU Nvidia H100: Penawaran dan Permintaan, Kegunaan GPU
Penyunting: Li Motian
Desain Visual: Shurui
Editor yang bertanggung jawab: Li Motian
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
Siapa yang menjepit leher Nvidia?
Asli: He Luheng
Sumber: Ulasan Teknologi Yuanchuan** (ID: kechuangych)**
Setelah laporan keuangan triwulanan terbaru Nvidia diumumkan, AMD tidak hanya membungkam Intel dan menitikkan air mata, namun para analis yang telah melakukan konstruksi psikologis jangka panjang tidak memperkirakan situasi sebenarnya akan melebihi ekspektasi.
Yang lebih menakutkan lagi adalah pendapatan Nvidia melonjak sebesar 854% tahun-ke-tahun, terutama karena "hanya dapat menjual sebanyak itu" daripada "menjual sebanyak itu". Di balik banyaknya esai kecil tentang "startup yang mengambil hipotek H100" mencerminkan fakta bahwa pasokan GPU H100 sangat terbatas.
Jika kelangkaan terus berlanjut hingga akhir tahun ini, performa Nvidia mungkin akan semakin menggemparkan.
Kekurangan H100 mengingatkan kita pada beberapa tahun lalu ketika GPU kehabisan stok karena meroketnya mata uang kripto, dan Nvidia dimarahi habis-habisan oleh para gamer. Namun, kekurangan kartu grafis saat itu sebagian besar disebabkan oleh harga premium yang tidak masuk akal, sedangkan kekurangan H100 disebabkan oleh terbatasnya kapasitas produksi, dan tidak dapat dibeli dengan harga lebih tinggi.
Dengan kata lain, Nvidia masih menghasilkan lebih sedikit uang.
Dalam panggilan konferensi pada hari ketika laporan keuangan dirilis, "kapasitas" tentu saja menjadi kata yang paling sering digunakan. Dalam hal ini, kata-kata Nvidia sangat ketat, dan bertekad untuk tidak membawa pot yang tidak boleh dibawa:
“Dalam hal pangsa pasar, hal ini tidak dapat kami capai sendirian, kami perlu menjangkau banyak pemasok yang berbeda.”
Faktanya, hanya ada dua dari "banyak pemasok berbeda" yang disebut Nvidia:
SK Hynix dan TSMC.
HBM: Game Korea
Jika hanya melihat rasio luasnya, sebuah chip H100 hanya sekitar 50% milik Nvidia.
Dalam tampilan penampang chip, dadu H100 menempati posisi inti, dengan tiga tumpukan HBM di setiap sisinya, dan area gabungan setara dengan dadu H100.
Keenam chip memori pas-pasan ini menjadi salah satu penyebab kekurangan pasokan H100.
HBM (Memori Bandwidth Tinggi) secara harfiah diterjemahkan sebagai memori bandwidth tinggi, yang mengambil bagian dari memori di GPU.
Berbeda dari memori DDR tradisional, HBM pada dasarnya menumpuk beberapa memori DRAM secara vertikal, yang tidak hanya meningkatkan kapasitas memori, namun juga dapat mengontrol konsumsi daya dan area chip memori dengan baik, serta mengurangi ruang yang ditempati di dalam paket.
"Stacked memory" awalnya ditujukan untuk pasar smartphone yang sangat sensitif terhadap area chip dan pembangkitan panas, namun yang menjadi permasalahan adalah karena tingginya biaya produksi, akhirnya smartphone memilih jalur LPDDR yang lebih hemat biaya, sehingga mengakibatkan teknologi kosong. untuk memori bertumpuk. Dicadangkan, tetapi tidak dapat menemukan lokasi pendaratan.
Hingga tahun 2015, AMD, yang pangsa pasarnya semakin melemah, berharap dapat memanfaatkan popularitas game 4K untuk meniru gelombang Nvidia.
Dalam seri GPU AMD Fiji yang dirilis tahun itu, AMD mengadopsi memori bertumpuk yang dikembangkan bersama SK Hynix dan menamakannya HBM (High Bandwidth Memory).
Visi AMD adalah bahwa game 4K memerlukan efisiensi throughput data yang lebih besar, dan keunggulan memori HBM bandwidth tinggi dapat tercermin. Saat itu, kartu grafis AMD Radeon R9 Fury X memang mengungguli arsitektur baru Nvidia Kepler dalam hal performa kertas.
Namun permasalahannya adalah peningkatan bandwidth yang dibawa oleh HBM jelas sulit untuk mengimbangi biayanya yang tinggi, sehingga belum dipopulerkan.
Hingga tahun 2016, AlphaGo menyapu bersih pemain catur juara Li Shishi, dan lahirlah pembelajaran mendalam, yang membuat memori HBM ikut berperan.
Inti dari pembelajaran mendalam adalah melatih model melalui data yang sangat besar, menentukan parameter dalam fungsi, dan membawa data aktual ke dalam keputusan untuk mendapatkan solusi akhir.
Secara teoritis, semakin besar jumlah data, semakin andal parameter fungsinya, yang membuat pelatihan AI memiliki pencarian throughput data dan penundaan transmisi data yang hampir patologis, dan inilah masalah yang diselesaikan oleh memori HBM.
Pada tahun 2017, AlphaGo melawan Ke Jie lagi, dan chip tersebut digantikan oleh TPU yang dikembangkan oleh Google sendiri. Dari segi desain chip, setiap generasi TPU mulai generasi kedua mengadopsi desain HBM. GPU baru Nvidia Tesla P100 untuk pusat data dan pembelajaran mendalam dilengkapi dengan memori HBM generasi kedua (HBM2).
Karena hampir semua chip GPU di pasar komputasi performa tinggi dilengkapi dengan memori HBM, persaingan antar raksasa penyimpanan di sekitar HBM juga berkembang pesat.
Saat ini, hanya ada tiga raksasa memori di dunia yang dapat memproduksi HBM secara massal: SK Hynix, Samsung Electronics, dan Micron.
SK Hynix adalah salah satu penemu HBM, dan saat ini merupakan satu-satunya produsen yang memproduksi HBM3E (HBM generasi ketiga) secara massal; Samsung Electronics memasuki pasar dengan HBM2 (HBM generasi kedua), dan merupakan pemasok GPU pertama Nvidia menggunakan HBM; Micron Paling tertinggal, baru beralih dari HMC ke HBM pada tahun 2018, dan produksi massal HBM2 dimulai pada pertengahan tahun 2020.
Diantaranya, SK Hynix memonopoli 50% pangsa pasar HBM, dan pasokan eksklusif HBM3E ke Nvidia telah dengan tegas memblokir pengiriman H100:
Versi H100 PCIe dan SXM sama-sama menggunakan 5 stack HBM, versi H100S SXM bisa mencapai 6, dan versi H100 NVL yang didorong oleh Nvidia sudah mencapai 12. Menurut pembongkaran lembaga penelitian, biaya satu tumpukan HBM 16GB mencapai $240. Kemudian harga chip memori H100 NVL saja hampir 3.000 dolar AS.
Masalah biaya masih kecil, mengingat Google TPU v5 dan AMD MI300 yang bersaing langsung dengan H100 akan segera diproduksi massal, dan dua terakhir juga akan menggunakan HBM3E, Chen Neng pun semakin menggeliat.
Menghadapi lonjakan permintaan, SK Hynix dikatakan telah menetapkan tujuan kecil untuk menggandakan kapasitas produksinya dan mulai memperluas lini produksi.Samsung dan Micron juga bersiap untuk HBM3E, tetapi dalam industri semikonduktor, perluasan lini produksi tidak pernah terjadi. telah dicapai dalam semalam.
Menurut perkiraan optimis siklus 9-12 bulan, kapasitas produksi HBM3E tidak akan terisi kembali setidaknya hingga kuartal kedua tahun depan.
Selain itu, meskipun kapasitas produksi HBM terpecahkan, berapa banyak H100 yang dapat disuplai bergantung pada wajah TSMC.
CoWoS: pedang TSMC
Analis Robert Castellano membuat perhitungan belum lama ini. H100 diproduksi menggunakan proses 4N (5nm) TSMC, dan harga wafer 12 inci dengan proses 4N adalah $13.400. Secara teori, 86 chip H100 dapat dipotong.
Jika hasil produksi tidak diperhitungkan, maka untuk setiap H100 yang diproduksi, TSMC dapat memperoleh pendapatan $155 [6] 。
Namun faktanya, pendapatan yang dihasilkan setiap H100 ke TSMC kemungkinan besar akan melebihi US$1.000.Alasannya adalah H100 menggunakan teknologi pengemasan CoWoS TSMC, dan pendapatan yang diperoleh dari pengemasan mencapai US$723. [6] 。
Setiap H100 yang keluar dari lini produksi N4/N5 di pabrik ke-18 TSMC akan dikirim ke pabrik pengemasan dan pengujian lanjutan kedua TSMC di lokasi yang sama untuk menyelesaikan langkah paling istimewa dan krusial dalam manufaktur H100 - CoWoS.
Untuk memahami pentingnya kemasan CoWoS, kita masih harus memulai dengan desain chip H100.
Pada produk GPU tingkat konsumen, chip memori umumnya dikemas di sekitar inti GPU, dan sinyal ditransmisikan melalui sirkuit antar papan PCB.
Misalnya pada gambar di bawah, chip RTX4090 juga diproduksi oleh Nvidia, inti GPU dan memori GDDR dikemas secara terpisah dan dirangkai pada papan PCB, independen satu sama lain.
Baik GPU maupun CPU mengikuti arsitektur von Neumann, dan intinya terletak pada "pemisahan penyimpanan dan perhitungan" - yaitu, ketika chip memproses data, ia perlu mengambil data dari memori eksternal, dan kemudian mentransfernya ke memori setelah perhitungan selesai, sekali akan menyebabkan keterlambatan perhitungan. Pada saat yang sama, "kuantitas" transfer data akan dibatasi.
Hubungan antara GPU dan memori dapat dibandingkan dengan Pudong dan Puxi di Shanghai. Transportasi material (data) antara kedua tempat tersebut bergantung pada Jembatan Nanpu. Daya dukung Jembatan Nanpu menentukan efisiensi transportasi material. Daya dukung ini adalah bandwidth memori, yang menentukan Ini mempengaruhi kecepatan transmisi data dan secara tidak langsung mempengaruhi kecepatan komputasi GPU.
Dari tahun 1980 hingga 2000, "ketidaksesuaian kecepatan" antara GPU dan memori meningkat sebesar 50% per tahun. Dengan kata lain, meskipun Terowongan Jalan Longyao dan Terowongan Jalan Shangzhong dibangun, hal tersebut tidak akan mampu memenuhi pertumbuhan transportasi material antara Pudong dan Puxi. Hal ini menyebabkan bandwidth menjadi hambatan yang semakin nyata dalam komputasi kinerja tinggi. skenario.
Pada tahun 2015, sembari menerapkan memori HBM, AMD juga mengadopsi solusi inovatif untuk transmisi data: menggabungkan Pudong dan Puxi.
Sederhananya, kartu grafis arsitektur Fiji 2015 "menyatukan" memori HBM dan inti GPU, mengubah beberapa chip kecil menjadi satu chip besar. Dengan cara ini, efisiensi throughput data menjadi dua kali lipat.
Namun, seperti disebutkan di atas, karena masalah biaya dan teknis, arsitektur AMD Fiji tidak mengizinkan pasar untuk membelinya. Namun, ledakan pembelajaran mendalam dan pelatihan AI yang berupaya mencapai efisiensi throughput data, berapa pun biayanya, telah membuat "chip stitching" berguna.
Selain ide AMD yang bagus, namun juga membawa masalah baru - betapapun banyaknya keunggulan yang dimiliki HBM, ia harus bekerja sama dengan teknologi pengemasan canggih "seam chip", dan keduanya berkaitan erat.
Jika dikatakan memori HBM masih bisa dibandingkan dengan ketiga perusahaan tersebut, maka kemasan canggih yang digunakan pada "seam chip" sepertinya menjadi satu-satunya yang bisa dibuat oleh TSMC.
CoWoS adalah titik awal bisnis pengemasan canggih TSMC, dan Nvidia adalah perusahaan chip pertama yang mengadopsi teknologi ini.
CoWoS merupakan kombinasi dari CoW dan oS: CoW artinya Chip on Wafer yang mengacu pada proses perakitan bare chip pada wafer, dan oS artinya on Substrate yang artinya proses pengemasan pada substrat.
Pengemasan tradisional umumnya hanya memiliki tautan OS. Setelah pengecoran menyelesaikan pembuatan wafer, diserahkan ke pabrik pengemasan dan pengujian pihak ketiga untuk diselesaikan. Namun, tautan Kontrak Karya yang ditambahkan dengan pengemasan lanjutan tidak dapat diselesaikan dengan pengemasan dan pengujian pabrik.
Mengambil contoh chip H100 lengkap, beberapa tumpukan HBM didistribusikan di sekitar cetakan H100, yang disambung menjadi satu melalui teknologi Kontrak Karya. Tapi bukan sekedar penyambungan, tapi komunikasi antara dadu dan tumpukan pada saat yang bersamaan.
Kontrak Karya TSMC berbeda dari kemasan canggih lainnya karena ia menempatkan cetakan dan tumpukan pada interposer silikon (pada dasarnya wafer), dan menghubungkan saluran dalam interposer untuk mewujudkan komunikasi antara cetakan dan tumpukan.
Mirip dengan EMIB Intel, perbedaannya adalah ia saling terhubung melalui jembatan silikon. Namun bandwidthnya jauh lebih kecil dibandingkan dengan interposer silikon.Mengingat bandwidth berkaitan erat dengan kecepatan transmisi data, CoWoS menjadi satu-satunya pilihan untuk H100.
Ini adalah sisi lain yang tertahan pada kapasitas produksi H100.
Meskipun dampak CoWoS sangat merugikan, harga yang sangat tinggi yaitu 4000-6000 dolar AS per buah masih menghentikan banyak orang, termasuk Apple, yang sangat kaya. Sebab, kapasitas produksi yang disiapkan TSMC cukup terbatas.
Namun, gelombang AI tiba-tiba pecah, dan keseimbangan pasokan dan permintaan langsung terputus.
Pada awal Juni lalu beredar rumor bahwa permintaan CoWoS Nvidia tahun ini mencapai 45.000 wafer, sedangkan perkiraan TSMC di awal tahun adalah 30.000 wafer. Ditambah dengan kebutuhan pelanggan lain, gap kapasitas produksi melebihi 20%.
Untuk menjembatani kesenjangan tersebut, perjuangan TSMC tidaklah kecil.
Pada bulan Juni, TSMC secara resmi meluncurkan pabrik pengemasan dan pengujian canggih keenam di Nanke. Ruang bersihnya sendiri lebih besar dari gabungan pabrik pengemasan dan pengujian lainnya. TSMC juga berjanji untuk meningkatkan kapasitas produksi CoWoS setiap kuartal. Oleh karena itu, sebagian OS dialihdayakan ke pihak ketiga.Pabrik pengemasan dan pengujian.
Namun tidak mudah bagi HBM untuk memperluas produksinya, dan TSMC juga memerlukan waktu untuk memperluas produksinya. Saat ini waktu pengiriman beberapa peralatan dan komponen pengemasan berkisar antara 3 hingga 6 bulan, masih belum diketahui berapa kapasitas produksi baru yang bisa dibuka sebelum akhir tahun.
Rencana B yang tidak ada
Menghadapi kekurangan struktural H100, Nvidia bukannya sepenuhnya tanpa Rencana B.
Dalam conference call usai laporan keuangan dirilis, Nvidia mengungkapkan kapasitas produksi CoWoS sudah disertifikasi oleh pemasok lain. Meskipun saya tidak mengatakan siapa itu, mengingat ambang teknis pengemasan yang canggih, selain TSMC, hanya EMIB bawaan Intel dan I-Cube Samsung, yang telah berkembang sejak lama dan telah menunggu pelanggan, yang dapat nyaris tidak memadamkan api.
Namun, penggantian teknologi inti seperti pergantian jenderal sebelum pertempuran. Karena AMD MI300 akan diproduksi dan dikirim secara massal, persaingan untuk chip AI sangat ketat. Saya khawatir Huang Renxun juga khawatir apakah dia dapat berintegrasi dengan teknologi Intel dan Samsung.
Yang lebih cemas daripada Huang Renxun mungkin adalah vendor layanan cloud dan perusahaan rintisan AI yang tidak dapat membeli H100. Lagi pula, gamer tidak bisa mendapatkan kartu grafis, artinya jumlah frame game berkurang 20 frame; perusahaan besar tidak bisa mendapatkan H100, dan mereka mungkin kehilangan pendapatan miliaran dan penilaian puluhan miliar.
Ada tiga jenis perusahaan utama yang membutuhkan H100: penyedia layanan cloud seperti Microsoft dan Amazon; perusahaan start-up seperti Anthropic dan OpenAI; dan perusahaan teknologi besar seperti Tesla. Cluster GPU untuk pelatihan.
Ini tidak termasuk perusahaan keuangan seperti Citadel, dan perusahaan Tiongkok yang tidak dapat membeli versi khusus H800.
Menurut perhitungan GPU Utils [7] , perkiraan konservatif, kesenjangan pasokan saat ini pada H100 mencapai 430,000.
Meskipun terdapat alternatif teoritis selain H100, tidak ada satupun yang layak digunakan dalam situasi praktis.
Misalnya saja produk pendahulunya H100, A100, yang harganya hanya sekitar 1/3 dari harga H100. Namun masalahnya adalah performa H100 jauh lebih kuat dibandingkan A100, sehingga daya komputasi per unit biaya H100 lebih tinggi dibandingkan A100. Mengingat perusahaan teknologi mulai membeli ratusan atau ribuan eksemplar, membeli A100 bahkan lebih buruk lagi.
AMD adalah alternatif lain, dan performanya di atas kertas tidak jauh tertinggal dari H100. Namun karena adanya hambatan pada ekosistem CUDA Nvidia, penggunaan GPU AMD kemungkinan akan membuat siklus pengembangan menjadi lebih lama, dan pesaing yang menggunakan H100 kemungkinan besar akan membuka celah dengan dirinya sendiri karena perbedaan waktu tersebut, bahkan menginvestasikan ratusan. jutaan dolar, tidak ada pengembalian.
Karena berbagai alasan, sebuah chip dengan harga material keseluruhan 3.000 dolar AS, Nvidia langsung menambahkan item retail, dan semua orang bergegas membelinya. Ini mungkin sesuatu yang tidak diharapkan oleh Huang Renxun sendiri.
Sebelum kapasitas produksi HBM dan CoWoS meningkat, mungkin hanya ada satu cara untuk membeli H100:
Tunggu hingga startup yang membeli banyak H100 gulung tikar dengan membual dan mengumpulkan uang, lalu mengambil GPU bekas mereka.
Referensi
[1] Kendala Kapasitas AI - Rantai Pasokan CoWoS dan HBM, SemiAnalisis
[2] Pabrik asli secara aktif memperluas produksi, dan tingkat pertumbuhan tahunan pasokan bit HBM diperkirakan sebesar 105% pada tahun 2024, TrendForce
[3] Perubahan apa yang akan dibawa oleh teknologi HBM pada pusat data? Industri semikonduktor vertikal dan horizontal
[4] Pengemasan Lanjutan Bagian II: Tinjauan Opsi/Penggunaan untuk Intel, TSMC, Samsung, AMD, ASE, Sony, Micron, SKHynix, YMTC, Tesla, dan Nvidia, Semianalisis
[5] Salah satu pendiri OpenAI dan ilmuwan paruh waktu Andrej Karpathy men-tweet
[6] Semikonduktor Taiwan: Diremehkan Secara Signifikan Sebagai Pemasok Chip Dan Paket Untuk Nvidia,SeekingAlpha
[7] GPU Nvidia H100: Penawaran dan Permintaan, Kegunaan GPU
Penyunting: Li Motian
Desain Visual: Shurui
Editor yang bertanggung jawab: Li Motian