Nguồn: Đánh giá công nghệ Yuanchuan** (ID: kechuangych)**
Sau khi báo cáo tài chính quý mới nhất của Nvidia được công bố, AMD không chỉ khiến Intel im lặng và rơi nước mắt mà các nhà phân tích đã xây dựng tâm lý lâu dài cũng không ngờ tình hình thực tế lại vượt quá mong đợi.
Điều đáng sợ hơn nữa là doanh thu của Nvidia tăng vọt 854% so với cùng kỳ năm trước, phần lớn là do "chỉ bán được bấy nhiêu" chứ không phải "bán được bấy nhiêu". Đằng sau rất nhiều tiểu luận nhỏ về việc "các công ty khởi nghiệp nhận thế chấp H100" phản ánh thực tế rằng nguồn cung GPU H100 đang khan hiếm.
Nếu tình trạng thiếu hụt tiếp tục kéo dài đến cuối năm nay, thành tích của Nvidia có thể còn gây sốc hơn nữa.
Sự thiếu hụt H100 gợi nhớ đến vài năm trước khi GPU hết hàng do tiền điện tử tăng vọt, Nvidia bị game thủ mắng mỏ. Tuy nhiên, sự thiếu hụt card đồ họa thời đó phần lớn là do giá cao bất hợp lý, trong khi sự thiếu hụt của H100 là do năng lực sản xuất hạn chế và không thể mua được với giá cao hơn.
Nói cách khác, Nvidia vẫn kiếm được ít tiền hơn.
Trong cuộc họp trực tuyến vào ngày báo cáo tài chính được công bố, “năng lực” đương nhiên trở thành từ thường gặp nhất. Về vấn đề này, Nvidia dùng từ rất nghiêm khắc, nhất quyết không mang cái nồi không nên mang:
“Về mặt thị phần, đó không phải là điều chúng tôi có thể đạt được một mình mà cần phải có sự tham gia của nhiều nhà cung cấp khác nhau”.
Trên thực tế, chỉ có hai trong số “nhiều nhà cung cấp khác nhau” mà Nvidia gọi:
SK Hynix và TSMC.
##HBM: Game Hàn Quốc
Nếu chỉ nhìn vào tỷ lệ diện tích, một con chip H100 chỉ có khoảng 50% thuộc về Nvidia.
Ở góc nhìn mặt cắt ngang của chip, khuôn H100 chiếm vị trí lõi, với ba ngăn xếp HBM ở mỗi bên và diện tích kết hợp tương đương với khuôn H100.
Sáu chip nhớ tầm thường này là một trong những thủ phạm gây ra tình trạng thiếu nguồn cung H100.
HBM (Bộ nhớ băng thông cao) được dịch theo nghĩa đen là bộ nhớ băng thông cao, chiếm một phần bộ nhớ trong GPU.
Khác với bộ nhớ DDR truyền thống, HBM về cơ bản xếp chồng nhiều bộ nhớ DRAM theo chiều dọc, điều này không chỉ giúp tăng dung lượng bộ nhớ mà còn có thể kiểm soát tốt mức tiêu thụ điện năng và diện tích chip của bộ nhớ, đồng thời giảm không gian chiếm dụng bên trong gói.
"Bộ nhớ xếp chồng" ban đầu nhắm đến thị trường điện thoại thông minh, vốn rất nhạy cảm với diện tích chip và sinh nhiệt, nhưng vấn đề là do chi phí sản xuất cao, điện thoại thông minh cuối cùng đã chọn con đường LPDDR tiết kiệm chi phí hơn, dẫn đến công nghệ trống rỗng dành cho bộ nhớ xếp chồng.Đã đặt trước nhưng không tìm thấy cảnh hạ cánh.
Cho đến năm 2015, AMD, vốn đang mất thị phần, hy vọng tận dụng sự phổ biến của game 4K để sao chép làn sóng Nvidia.
Trong dòng GPU AMD Fiji được phát hành năm đó, AMD đã sử dụng bộ nhớ xếp chồng được phát triển chung với SK Hynix và đặt tên là HBM (Bộ nhớ băng thông cao).
Tầm nhìn của AMD là các trò chơi 4K yêu cầu hiệu suất truyền dữ liệu cao hơn và những lợi thế của băng thông cao của bộ nhớ HBM có thể được phản ánh. Vào thời điểm đó, card đồ họa Radeon R9 Fury X của AMD quả thực đã áp đảo kiến trúc Nvidia Kepler mới về hiệu năng xử lý trên giấy.
Nhưng vấn đề là việc cải thiện băng thông do HBM mang lại rõ ràng khó có thể bù đắp được chi phí cao của chính nó nên chưa được phổ biến.
Cho đến năm 2016, AlphaGo đã đánh bại nhà vô địch cờ vua Li Shishi, và deep learning ra đời khiến trí nhớ HBM phát huy tác dụng.
Cốt lõi của deep learning là huấn luyện mô hình thông qua dữ liệu khổng lồ, xác định các tham số trong hàm và đưa dữ liệu thực tế vào quyết định để đưa ra giải pháp cuối cùng.
Về mặt lý thuyết, lượng dữ liệu càng lớn thì các tham số chức năng càng đáng tin cậy, điều này khiến cho quá trình đào tạo AI phải theo đuổi thông lượng dữ liệu và độ trễ truyền dữ liệu gần như bệnh lý, đây chính xác là vấn đề được giải quyết bằng bộ nhớ HBM.
Vào năm 2017, AlphaGo lại đấu với Ke Jie và con chip này được thay thế bằng TPU do chính Google phát triển. Về thiết kế chip, mọi thế hệ TPU bắt đầu từ thế hệ thứ hai đều áp dụng thiết kế của HBM. GPU Tesla P100 mới của Nvidia dành cho trung tâm dữ liệu và học sâu được trang bị bộ nhớ HBM thế hệ thứ hai (HBM2).
Vì hầu hết tất cả các chip GPU trên thị trường điện toán hiệu năng cao đều được trang bị bộ nhớ HBM, nên sự cạnh tranh giữa các gã khổng lồ lưu trữ xung quanh HBM cũng đang nhanh chóng diễn ra.
Hiện tại, trên thế giới chỉ có ba gã khổng lồ về bộ nhớ có thể sản xuất hàng loạt HBM: SK Hynix, Samsung Electronics và Micron.
SK Hynix là một trong những nhà phát minh ra HBM và hiện là nhà sản xuất duy nhất sản xuất hàng loạt HBM3E (HBM thế hệ thứ ba); Samsung Electronics gia nhập thị trường với HBM2 (HBM thế hệ thứ hai) và là nhà cung cấp GPU đầu tiên của Nvidia sử dụng HBM; Micron tụt hậu nhất, chỉ chuyển từ HMC sang HBM vào năm 2018 và bắt đầu sản xuất hàng loạt HBM2 vào giữa năm 2020.
Trong số đó, SK Hynix độc quyền 50% thị phần HBM và việc cung cấp HBM3E độc quyền cho Nvidia đã chặn chắc lô hàng H100:
Phiên bản H100 PCIe và SXM đều sử dụng 5 ngăn xếp HBM, phiên bản H100S SXM có thể đạt tới 6, còn phiên bản H100 NVL do Nvidia đẩy lên đã lên tới 12. Theo cơ quan nghiên cứu tháo dỡ, chi phí của một ngăn xếp HBM 16GB có thể lên tới 240 USD. Khi đó giá thành của riêng chip nhớ H100 NVL đã lên tới gần 3.000 USD.
Chi phí vẫn là một vấn đề nhỏ, xét đến việc Google TPU v5 và AMD MI300 cạnh tranh trực tiếp với H100 sẽ sớm được sản xuất hàng loạt, và hai sản phẩm sau cũng sẽ sử dụng HBM3E, Chen Neng càng bị căng thẳng hơn.
Trước nhu cầu tăng đột biến, người ta cho rằng SK Hynix đã đặt mục tiêu nhỏ là tăng gấp đôi công suất sản xuất và bắt đầu mở rộng dây chuyền sản xuất, Samsung và Micron cũng đang chuẩn bị cho HBM3E, nhưng trong ngành bán dẫn, việc mở rộng dây chuyền sản xuất chưa bao giờ đã đạt được chỉ sau một đêm.
Theo dự báo lạc quan về chu kỳ 9-12 tháng, năng lực sản xuất HBM3E sẽ không được bổ sung cho đến ít nhất là quý 2 năm sau.
Ngoài ra, ngay cả khi giải quyết được năng lực sản xuất của HBM thì H100 có thể cung cấp được bao nhiêu cũng tùy thuộc vào thể diện của TSMC.
CoWoS: Thanh kiếm của TSMC
Nhà phân tích Robert Castellano cách đây không lâu đã đưa ra một tính toán, H100 được sản xuất bằng quy trình 4N (5nm) của TSMC, giá của một tấm bán dẫn 12 inch quy trình 4N là 13.400 USD, về lý thuyết có thể cắt được 86 chip H100.
Nếu không tính đến năng suất sản xuất thì với mỗi chiếc H100 được sản xuất, TSMC có thể kiếm được 155 USD doanh thu [6] 。
Nhưng trên thực tế, thu nhập mà mỗi chiếc H100 mang lại cho TSMC có khả năng vượt quá 1.000 USD, nguyên nhân là do H100 sử dụng công nghệ đóng gói CoWoS của TSMC và thu nhập từ việc đóng gói mang lại cao tới 723 USD. [6] 。
Mỗi chiếc H100 ra khỏi dây chuyền sản xuất N4/N5 của nhà máy thứ 18 của TSMC sẽ được chuyển đến nhà máy thử nghiệm và đóng gói tiên tiến thứ hai của TSMC trong cùng khu vực để hoàn thành bước đặc biệt và quan trọng nhất trong quá trình sản xuất H100 - CoWoS.
Để hiểu được tầm quan trọng của việc đóng gói CoWoS, chúng ta vẫn phải bắt đầu từ thiết kế chip của H100.
Trong các sản phẩm GPU dành cho người tiêu dùng, chip bộ nhớ thường được đóng gói xung quanh lõi GPU và tín hiệu được truyền qua các mạch giữa các bo mạch PCB.
Ví dụ như trong hình bên dưới, chip RTX4090 cũng do Nvidia sản xuất, lõi GPU và bộ nhớ GDDR được đóng gói riêng biệt và lắp ráp trên một bo mạch PCB, độc lập với nhau.
Cả GPU và CPU đều tuân theo kiến trúc von Neumann và cốt lõi của nó nằm ở việc “tách biệt lưu trữ và tính toán” – tức là khi chip xử lý dữ liệu, nó cần lấy dữ liệu từ bộ nhớ ngoài, sau đó chuyển sang bộ nhớ sau khi tính toán xong, một lần sẽ gây ra sự chậm trễ trong tính toán. Đồng thời, “số lượng” truyền dữ liệu cũng sẽ bị hạn chế tương ứng.
Mối quan hệ giữa GPU và bộ nhớ có thể được so sánh với Pudong và Puxi ở Thượng Hải. Việc vận chuyển vật liệu (dữ liệu) giữa hai nơi phụ thuộc vào Cầu Nanpu. Khả năng chuyên chở của Cầu Nanpu quyết định hiệu quả của việc vận chuyển vật liệu. Khả năng chuyên chở này là băng thông bộ nhớ, nó quyết định đến tốc độ truyền dữ liệu và gián tiếp ảnh hưởng đến tốc độ tính toán của GPU.
Từ năm 1980 đến năm 2000, “sự không phù hợp về tốc độ” giữa GPU và bộ nhớ đã tăng với tốc độ 50% mỗi năm. Nói cách khác, ngay cả khi Đường hầm Longyao và Đường hầm Shangzhong được xây dựng, nó sẽ không thể đáp ứng sự phát triển vận chuyển vật chất giữa Pudong và Puxi, khiến băng thông trở thành nút thắt ngày càng rõ ràng trong điện toán hiệu năng cao. kịch bản.
Khoảng cách giữa hiệu suất CPU/GPU và hiệu suất bộ nhớ ngày càng lớn
Năm 2015, khi áp dụng bộ nhớ HBM, AMD cũng áp dụng giải pháp truyền dữ liệu sáng tạo: kết hợp Pudong và Puxi.
Nói một cách đơn giản, card đồ họa kiến trúc Fiji 2015 đã “ghép” bộ nhớ HBM và nhân GPU lại với nhau, biến vài con chip nhỏ thành một con chip lớn. Bằng cách này, hiệu suất truyền dữ liệu được tăng gấp đôi.
Tuy nhiên, như đã đề cập ở trên, do vấn đề chi phí và kỹ thuật, kiến trúc Fiji của AMD đã không cho phép thị trường mua nó. Tuy nhiên, sự bùng nổ của deep learning và việc đào tạo AI theo đuổi hiệu quả thông lượng dữ liệu bất kể chi phí đã khiến việc "khâu chip" trở nên hữu ích.
Ngoài ra, ý tưởng của AMD rất hay nhưng cũng mang đến một vấn đề mới - HBM dù có bao nhiêu ưu điểm thì cũng phải hợp tác với công nghệ đóng gói tiên tiến của "chip đường may", và cả hai có liên quan chặt chẽ với nhau.
Nếu nói bộ nhớ HBM vẫn có thể so sánh với ba công ty, thì bao bì tiên tiến được sử dụng trong "chip đường may" dường như là loại duy nhất có thể được TSMC sản xuất.
CoWoS là điểm khởi đầu cho hoạt động kinh doanh bao bì tiên tiến của TSMC và Nvidia là công ty chip đầu tiên áp dụng công nghệ này.
CoWoS là sự kết hợp giữa CoW và oS: CoW có nghĩa là Chip trên wafer, dùng để chỉ quá trình lắp ráp các chip trần trên một wafer và oS có nghĩa là trên Substrate, có nghĩa là quá trình được đóng gói trên một đế.
Bao bì truyền thống thường chỉ có liên kết hệ điều hành, sau khi xưởng đúc hoàn thành quá trình sản xuất wafer, nó sẽ được chuyển cho nhà máy đóng gói và thử nghiệm của bên thứ ba để giải quyết. Tuy nhiên, liên kết CoW được thêm vào bởi bao bì tiên tiến không thể giải quyết được bằng việc đóng gói và thử nghiệm nhà máy.
Lấy một con chip H100 hoàn chỉnh làm ví dụ, nhiều ngăn xếp HBM được phân bổ xung quanh khuôn H100, được ghép lại với nhau thông qua công nghệ CoW. Nhưng không chỉ nối, mà còn liên lạc giữa khuôn và ngăn xếp cùng một lúc.
CoW của TSMC khác với bao bì tiên tiến khác ở chỗ nó đặt khuôn và xếp chồng lên một bộ chuyển đổi silicon (về cơ bản là một tấm bán dẫn) và kết nối các kênh trong bộ chuyển đổi để thực hiện giao tiếp giữa khuôn và ngăn xếp.
Tương tự như EMIB của Intel, điểm khác biệt là nó được kết nối với nhau thông qua một cầu nối silicon. Tuy nhiên, băng thông ít hơn nhiều so với bộ chuyển đổi silicon, vì băng thông có liên quan chặt chẽ đến tốc độ truyền dữ liệu nên CoWoS đã trở thành lựa chọn duy nhất cho H100.
Đây là một bàn tay khác đang bị mắc kẹt trong năng lực sản xuất H100.
Mặc dù tác dụng của CoWoS là trên trời nhưng mức giá cao ngất ngưởng 4000-6000 đô la Mỹ một chiếc vẫn khiến nhiều người phải dừng lại, trong đó có Apple, hãng cực kỳ giàu có. Vì vậy, năng lực sản xuất chuẩn bị của TSMC khá hạn chế.
Tuy nhiên, làn sóng AI bất ngờ bùng phát, cán cân cung cầu ngay lập tức bị phá vỡ.
Ngay từ tháng 6, đã có tin đồn rằng nhu cầu CoWoS năm nay của Nvidia đã lên tới 45.000 tấm wafer, trong khi ước tính của TSMC hồi đầu năm là 30.000 tấm wafer, cùng với nhu cầu của các khách hàng khác, khoảng cách năng lực sản xuất đã vượt quá 20%.
Để bù đắp khoảng cách, cuộc chiến của TSMC không hề nhỏ.
Vào tháng 6, TSMC chính thức ra mắt nhà máy đóng gói và thử nghiệm tiên tiến thứ sáu tại Nanke. Chỉ riêng phòng sạch đã lớn hơn các nhà máy đóng gói và thử nghiệm còn lại cộng lại, đồng thời hứa hẹn sẽ tăng công suất sản xuất CoWoS theo quý. Vì lý do này, một phần Hệ điều hành được gia công cho bên thứ 3. Nhà máy đóng gói và thử nghiệm.
Nhưng cũng như việc HBM mở rộng sản xuất không phải là điều dễ dàng, TSMC sẽ cần thời gian để mở rộng sản xuất. Hiện tại, thời gian giao hàng của một số thiết bị và linh kiện đóng gói dao động từ 3 đến 6 tháng, vẫn chưa rõ năng lực sản xuất mới có thể mở ra bao nhiêu trước cuối năm.
Kế hoạch B không tồn tại
Đối mặt với sự thiếu hụt về cấu trúc của H100, Nvidia không hoàn toàn không có Kế hoạch B.
Trong cuộc gọi hội nghị sau khi báo cáo tài chính được công bố, Nvidia tiết lộ rằng năng lực sản xuất CoWoS đã được các nhà cung cấp khác chứng nhận. Mặc dù tôi không nói đó là ai, nhưng xét đến ngưỡng kỹ thuật của bao bì tiên tiến, ngoài TSMC, chỉ có EMIB thiếu sót bẩm sinh của Intel và I-Cube của Samsung, vốn đã phát triển từ lâu và đang chờ khách hàng, mới có thể hầu như không chữa cháy được.
Tuy nhiên, việc thay thế công nghệ cốt lõi cũng giống như thay tướng trước trận chiến, khi AMD MI300 sắp được sản xuất hàng loạt và xuất xưởng, sự cạnh tranh về chip AI rất khốc liệt, e rằng Huang Renxun cũng đang lo lắng liệu mình có thể tích hợp hay không. với công nghệ của Intel và Samsung.
Lo lắng hơn Huang Renxun có thể là các nhà cung cấp dịch vụ đám mây và các công ty khởi nghiệp AI không thể mua được H100. Suy cho cùng, game thủ không lấy được card đồ họa, tức là số khung hình game ít hơn 20 khung hình, các công ty lớn không lấy được H100, có thể mất hàng tỷ đồng doanh thu và định giá hàng chục tỷ đồng.
Có ba loại công ty chính cần H100: các nhà cung cấp dịch vụ đám mây như Microsoft và Amazon, các công ty khởi nghiệp như Anthropic và OpenAI, và các công ty công nghệ lớn như Tesla, cụm GPU để đào tạo.
Điều này không bao gồm các công ty tài chính như Citadel và các công ty Trung Quốc không thể mua phiên bản đặc biệt của H800.
Theo tính toán của GPU Utils [7] , một ước tính thận trọng, khoảng cách nguồn cung hiện tại của H100 lên tới 430.000.
Mặc dù có những lựa chọn thay thế về mặt lý thuyết cho H100 nhưng không có lựa chọn nào khả thi trong các tình huống thực tế.
Ví dụ sản phẩm tiền nhiệm H100 là A100 có giá chỉ bằng 1/3 giá H100. Nhưng vấn đề là hiệu năng của H100 mạnh hơn A100 rất nhiều, dẫn đến khả năng tính toán trên mỗi đơn giá của H100 cao hơn A100. Xét thấy các hãng công nghệ bắt đầu mua hàng trăm, hàng nghìn chiếc thì việc mua A100 lại càng tệ hơn.
AMD là một lựa chọn thay thế khác và hiệu suất trên giấy tờ không thua xa H100. Tuy nhiên, do những rào cản của hệ sinh thái CUDA của Nvidia, việc sử dụng GPU của AMD có thể sẽ khiến chu kỳ phát triển kéo dài hơn và các đối thủ sử dụng H100 có thể sẽ tạo ra khoảng cách với chính mình vì sự khác biệt về thời gian này, thậm chí đầu tư hàng trăm tỷ đồng. hàng triệu đô la, không trả lại được.
Vì nhiều lý do khác nhau, một con chip có tổng chi phí nguyên liệu là 3.000 đô la Mỹ, Nvidia đã trực tiếp thêm một mặt hàng bán lẻ và mọi người đổ xô đi mua nó. Đây có thể là điều mà bản thân Huang Renxun cũng không ngờ tới.
Trước khi năng lực sản xuất của HBM và CoWoS được cải thiện, có lẽ chỉ có một cách duy nhất để mua H100:
Hãy đợi những công ty khởi nghiệp đã mua nhiều H100 phá sản bằng cách khoe khoang và huy động tiền, sau đó lấy GPU cũ của họ.
Người giới thiệu
[1] Các hạn chế về năng lực AI - Chuỗi cung ứng CoWoS và HBM, Bán phân tích
[2] Nhà máy ban đầu đang tích cực mở rộng sản xuất và tốc độ tăng trưởng hàng năm của nguồn cung bit HBM được ước tính là 105% vào năm 2024, TrendForce
[3] Công nghệ HBM sẽ mang đến những thay đổi gì cho trung tâm dữ liệu? Ngành bán dẫn dọc và ngang
[4] Bao bì nâng cao Phần II: Tùy chọn/Đánh giá cách sử dụng cho Intel, TSMC, Samsung, AMD, ASE, Sony, Micron, SKHynix, YMTC, Tesla và Nvidia, Semianalysis
[5] Đồng sáng lập OpenAI và nhà khoa học bán thời gian Andrej Karpathy đã tweet
[6] Công ty bán dẫn Đài Loan: Bị đánh giá thấp đáng kể khi là nhà cung cấp chip và gói cho Nvidia, SeekingAlpha
[7] GPU Nvidia H100: Cung và Cầu, Tiện ích GPU
Biên tập viên: Li Motian
Thiết kế hình ảnh: Shurui
Biên tập viên chịu trách nhiệm: Li Motian
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
Ai đã bóp cổ Nvidia?
Bản gốc: He Luheng
Nguồn: Đánh giá công nghệ Yuanchuan** (ID: kechuangych)**
Sau khi báo cáo tài chính quý mới nhất của Nvidia được công bố, AMD không chỉ khiến Intel im lặng và rơi nước mắt mà các nhà phân tích đã xây dựng tâm lý lâu dài cũng không ngờ tình hình thực tế lại vượt quá mong đợi.
Điều đáng sợ hơn nữa là doanh thu của Nvidia tăng vọt 854% so với cùng kỳ năm trước, phần lớn là do "chỉ bán được bấy nhiêu" chứ không phải "bán được bấy nhiêu". Đằng sau rất nhiều tiểu luận nhỏ về việc "các công ty khởi nghiệp nhận thế chấp H100" phản ánh thực tế rằng nguồn cung GPU H100 đang khan hiếm.
Nếu tình trạng thiếu hụt tiếp tục kéo dài đến cuối năm nay, thành tích của Nvidia có thể còn gây sốc hơn nữa.
Sự thiếu hụt H100 gợi nhớ đến vài năm trước khi GPU hết hàng do tiền điện tử tăng vọt, Nvidia bị game thủ mắng mỏ. Tuy nhiên, sự thiếu hụt card đồ họa thời đó phần lớn là do giá cao bất hợp lý, trong khi sự thiếu hụt của H100 là do năng lực sản xuất hạn chế và không thể mua được với giá cao hơn.
Nói cách khác, Nvidia vẫn kiếm được ít tiền hơn.
Trong cuộc họp trực tuyến vào ngày báo cáo tài chính được công bố, “năng lực” đương nhiên trở thành từ thường gặp nhất. Về vấn đề này, Nvidia dùng từ rất nghiêm khắc, nhất quyết không mang cái nồi không nên mang:
“Về mặt thị phần, đó không phải là điều chúng tôi có thể đạt được một mình mà cần phải có sự tham gia của nhiều nhà cung cấp khác nhau”.
Trên thực tế, chỉ có hai trong số “nhiều nhà cung cấp khác nhau” mà Nvidia gọi:
SK Hynix và TSMC.
##HBM: Game Hàn Quốc
Nếu chỉ nhìn vào tỷ lệ diện tích, một con chip H100 chỉ có khoảng 50% thuộc về Nvidia.
Ở góc nhìn mặt cắt ngang của chip, khuôn H100 chiếm vị trí lõi, với ba ngăn xếp HBM ở mỗi bên và diện tích kết hợp tương đương với khuôn H100.
Sáu chip nhớ tầm thường này là một trong những thủ phạm gây ra tình trạng thiếu nguồn cung H100.
HBM (Bộ nhớ băng thông cao) được dịch theo nghĩa đen là bộ nhớ băng thông cao, chiếm một phần bộ nhớ trong GPU.
Khác với bộ nhớ DDR truyền thống, HBM về cơ bản xếp chồng nhiều bộ nhớ DRAM theo chiều dọc, điều này không chỉ giúp tăng dung lượng bộ nhớ mà còn có thể kiểm soát tốt mức tiêu thụ điện năng và diện tích chip của bộ nhớ, đồng thời giảm không gian chiếm dụng bên trong gói.
"Bộ nhớ xếp chồng" ban đầu nhắm đến thị trường điện thoại thông minh, vốn rất nhạy cảm với diện tích chip và sinh nhiệt, nhưng vấn đề là do chi phí sản xuất cao, điện thoại thông minh cuối cùng đã chọn con đường LPDDR tiết kiệm chi phí hơn, dẫn đến công nghệ trống rỗng dành cho bộ nhớ xếp chồng.Đã đặt trước nhưng không tìm thấy cảnh hạ cánh.
Cho đến năm 2015, AMD, vốn đang mất thị phần, hy vọng tận dụng sự phổ biến của game 4K để sao chép làn sóng Nvidia.
Trong dòng GPU AMD Fiji được phát hành năm đó, AMD đã sử dụng bộ nhớ xếp chồng được phát triển chung với SK Hynix và đặt tên là HBM (Bộ nhớ băng thông cao).
Tầm nhìn của AMD là các trò chơi 4K yêu cầu hiệu suất truyền dữ liệu cao hơn và những lợi thế của băng thông cao của bộ nhớ HBM có thể được phản ánh. Vào thời điểm đó, card đồ họa Radeon R9 Fury X của AMD quả thực đã áp đảo kiến trúc Nvidia Kepler mới về hiệu năng xử lý trên giấy.
Nhưng vấn đề là việc cải thiện băng thông do HBM mang lại rõ ràng khó có thể bù đắp được chi phí cao của chính nó nên chưa được phổ biến.
Cho đến năm 2016, AlphaGo đã đánh bại nhà vô địch cờ vua Li Shishi, và deep learning ra đời khiến trí nhớ HBM phát huy tác dụng.
Cốt lõi của deep learning là huấn luyện mô hình thông qua dữ liệu khổng lồ, xác định các tham số trong hàm và đưa dữ liệu thực tế vào quyết định để đưa ra giải pháp cuối cùng.
Về mặt lý thuyết, lượng dữ liệu càng lớn thì các tham số chức năng càng đáng tin cậy, điều này khiến cho quá trình đào tạo AI phải theo đuổi thông lượng dữ liệu và độ trễ truyền dữ liệu gần như bệnh lý, đây chính xác là vấn đề được giải quyết bằng bộ nhớ HBM.
Vào năm 2017, AlphaGo lại đấu với Ke Jie và con chip này được thay thế bằng TPU do chính Google phát triển. Về thiết kế chip, mọi thế hệ TPU bắt đầu từ thế hệ thứ hai đều áp dụng thiết kế của HBM. GPU Tesla P100 mới của Nvidia dành cho trung tâm dữ liệu và học sâu được trang bị bộ nhớ HBM thế hệ thứ hai (HBM2).
Vì hầu hết tất cả các chip GPU trên thị trường điện toán hiệu năng cao đều được trang bị bộ nhớ HBM, nên sự cạnh tranh giữa các gã khổng lồ lưu trữ xung quanh HBM cũng đang nhanh chóng diễn ra.
Hiện tại, trên thế giới chỉ có ba gã khổng lồ về bộ nhớ có thể sản xuất hàng loạt HBM: SK Hynix, Samsung Electronics và Micron.
SK Hynix là một trong những nhà phát minh ra HBM và hiện là nhà sản xuất duy nhất sản xuất hàng loạt HBM3E (HBM thế hệ thứ ba); Samsung Electronics gia nhập thị trường với HBM2 (HBM thế hệ thứ hai) và là nhà cung cấp GPU đầu tiên của Nvidia sử dụng HBM; Micron tụt hậu nhất, chỉ chuyển từ HMC sang HBM vào năm 2018 và bắt đầu sản xuất hàng loạt HBM2 vào giữa năm 2020.
Trong số đó, SK Hynix độc quyền 50% thị phần HBM và việc cung cấp HBM3E độc quyền cho Nvidia đã chặn chắc lô hàng H100:
Phiên bản H100 PCIe và SXM đều sử dụng 5 ngăn xếp HBM, phiên bản H100S SXM có thể đạt tới 6, còn phiên bản H100 NVL do Nvidia đẩy lên đã lên tới 12. Theo cơ quan nghiên cứu tháo dỡ, chi phí của một ngăn xếp HBM 16GB có thể lên tới 240 USD. Khi đó giá thành của riêng chip nhớ H100 NVL đã lên tới gần 3.000 USD.
Chi phí vẫn là một vấn đề nhỏ, xét đến việc Google TPU v5 và AMD MI300 cạnh tranh trực tiếp với H100 sẽ sớm được sản xuất hàng loạt, và hai sản phẩm sau cũng sẽ sử dụng HBM3E, Chen Neng càng bị căng thẳng hơn.
Trước nhu cầu tăng đột biến, người ta cho rằng SK Hynix đã đặt mục tiêu nhỏ là tăng gấp đôi công suất sản xuất và bắt đầu mở rộng dây chuyền sản xuất, Samsung và Micron cũng đang chuẩn bị cho HBM3E, nhưng trong ngành bán dẫn, việc mở rộng dây chuyền sản xuất chưa bao giờ đã đạt được chỉ sau một đêm.
Theo dự báo lạc quan về chu kỳ 9-12 tháng, năng lực sản xuất HBM3E sẽ không được bổ sung cho đến ít nhất là quý 2 năm sau.
Ngoài ra, ngay cả khi giải quyết được năng lực sản xuất của HBM thì H100 có thể cung cấp được bao nhiêu cũng tùy thuộc vào thể diện của TSMC.
CoWoS: Thanh kiếm của TSMC
Nhà phân tích Robert Castellano cách đây không lâu đã đưa ra một tính toán, H100 được sản xuất bằng quy trình 4N (5nm) của TSMC, giá của một tấm bán dẫn 12 inch quy trình 4N là 13.400 USD, về lý thuyết có thể cắt được 86 chip H100.
Nếu không tính đến năng suất sản xuất thì với mỗi chiếc H100 được sản xuất, TSMC có thể kiếm được 155 USD doanh thu [6] 。
Nhưng trên thực tế, thu nhập mà mỗi chiếc H100 mang lại cho TSMC có khả năng vượt quá 1.000 USD, nguyên nhân là do H100 sử dụng công nghệ đóng gói CoWoS của TSMC và thu nhập từ việc đóng gói mang lại cao tới 723 USD. [6] 。
Mỗi chiếc H100 ra khỏi dây chuyền sản xuất N4/N5 của nhà máy thứ 18 của TSMC sẽ được chuyển đến nhà máy thử nghiệm và đóng gói tiên tiến thứ hai của TSMC trong cùng khu vực để hoàn thành bước đặc biệt và quan trọng nhất trong quá trình sản xuất H100 - CoWoS.
Để hiểu được tầm quan trọng của việc đóng gói CoWoS, chúng ta vẫn phải bắt đầu từ thiết kế chip của H100.
Trong các sản phẩm GPU dành cho người tiêu dùng, chip bộ nhớ thường được đóng gói xung quanh lõi GPU và tín hiệu được truyền qua các mạch giữa các bo mạch PCB.
Ví dụ như trong hình bên dưới, chip RTX4090 cũng do Nvidia sản xuất, lõi GPU và bộ nhớ GDDR được đóng gói riêng biệt và lắp ráp trên một bo mạch PCB, độc lập với nhau.
Cả GPU và CPU đều tuân theo kiến trúc von Neumann và cốt lõi của nó nằm ở việc “tách biệt lưu trữ và tính toán” – tức là khi chip xử lý dữ liệu, nó cần lấy dữ liệu từ bộ nhớ ngoài, sau đó chuyển sang bộ nhớ sau khi tính toán xong, một lần sẽ gây ra sự chậm trễ trong tính toán. Đồng thời, “số lượng” truyền dữ liệu cũng sẽ bị hạn chế tương ứng.
Mối quan hệ giữa GPU và bộ nhớ có thể được so sánh với Pudong và Puxi ở Thượng Hải. Việc vận chuyển vật liệu (dữ liệu) giữa hai nơi phụ thuộc vào Cầu Nanpu. Khả năng chuyên chở của Cầu Nanpu quyết định hiệu quả của việc vận chuyển vật liệu. Khả năng chuyên chở này là băng thông bộ nhớ, nó quyết định đến tốc độ truyền dữ liệu và gián tiếp ảnh hưởng đến tốc độ tính toán của GPU.
Từ năm 1980 đến năm 2000, “sự không phù hợp về tốc độ” giữa GPU và bộ nhớ đã tăng với tốc độ 50% mỗi năm. Nói cách khác, ngay cả khi Đường hầm Longyao và Đường hầm Shangzhong được xây dựng, nó sẽ không thể đáp ứng sự phát triển vận chuyển vật chất giữa Pudong và Puxi, khiến băng thông trở thành nút thắt ngày càng rõ ràng trong điện toán hiệu năng cao. kịch bản.
Năm 2015, khi áp dụng bộ nhớ HBM, AMD cũng áp dụng giải pháp truyền dữ liệu sáng tạo: kết hợp Pudong và Puxi.
Nói một cách đơn giản, card đồ họa kiến trúc Fiji 2015 đã “ghép” bộ nhớ HBM và nhân GPU lại với nhau, biến vài con chip nhỏ thành một con chip lớn. Bằng cách này, hiệu suất truyền dữ liệu được tăng gấp đôi.
Tuy nhiên, như đã đề cập ở trên, do vấn đề chi phí và kỹ thuật, kiến trúc Fiji của AMD đã không cho phép thị trường mua nó. Tuy nhiên, sự bùng nổ của deep learning và việc đào tạo AI theo đuổi hiệu quả thông lượng dữ liệu bất kể chi phí đã khiến việc "khâu chip" trở nên hữu ích.
Ngoài ra, ý tưởng của AMD rất hay nhưng cũng mang đến một vấn đề mới - HBM dù có bao nhiêu ưu điểm thì cũng phải hợp tác với công nghệ đóng gói tiên tiến của "chip đường may", và cả hai có liên quan chặt chẽ với nhau.
Nếu nói bộ nhớ HBM vẫn có thể so sánh với ba công ty, thì bao bì tiên tiến được sử dụng trong "chip đường may" dường như là loại duy nhất có thể được TSMC sản xuất.
CoWoS là điểm khởi đầu cho hoạt động kinh doanh bao bì tiên tiến của TSMC và Nvidia là công ty chip đầu tiên áp dụng công nghệ này.
CoWoS là sự kết hợp giữa CoW và oS: CoW có nghĩa là Chip trên wafer, dùng để chỉ quá trình lắp ráp các chip trần trên một wafer và oS có nghĩa là trên Substrate, có nghĩa là quá trình được đóng gói trên một đế.
Bao bì truyền thống thường chỉ có liên kết hệ điều hành, sau khi xưởng đúc hoàn thành quá trình sản xuất wafer, nó sẽ được chuyển cho nhà máy đóng gói và thử nghiệm của bên thứ ba để giải quyết. Tuy nhiên, liên kết CoW được thêm vào bởi bao bì tiên tiến không thể giải quyết được bằng việc đóng gói và thử nghiệm nhà máy.
Lấy một con chip H100 hoàn chỉnh làm ví dụ, nhiều ngăn xếp HBM được phân bổ xung quanh khuôn H100, được ghép lại với nhau thông qua công nghệ CoW. Nhưng không chỉ nối, mà còn liên lạc giữa khuôn và ngăn xếp cùng một lúc.
CoW của TSMC khác với bao bì tiên tiến khác ở chỗ nó đặt khuôn và xếp chồng lên một bộ chuyển đổi silicon (về cơ bản là một tấm bán dẫn) và kết nối các kênh trong bộ chuyển đổi để thực hiện giao tiếp giữa khuôn và ngăn xếp.
Tương tự như EMIB của Intel, điểm khác biệt là nó được kết nối với nhau thông qua một cầu nối silicon. Tuy nhiên, băng thông ít hơn nhiều so với bộ chuyển đổi silicon, vì băng thông có liên quan chặt chẽ đến tốc độ truyền dữ liệu nên CoWoS đã trở thành lựa chọn duy nhất cho H100.
Đây là một bàn tay khác đang bị mắc kẹt trong năng lực sản xuất H100.
Mặc dù tác dụng của CoWoS là trên trời nhưng mức giá cao ngất ngưởng 4000-6000 đô la Mỹ một chiếc vẫn khiến nhiều người phải dừng lại, trong đó có Apple, hãng cực kỳ giàu có. Vì vậy, năng lực sản xuất chuẩn bị của TSMC khá hạn chế.
Tuy nhiên, làn sóng AI bất ngờ bùng phát, cán cân cung cầu ngay lập tức bị phá vỡ.
Ngay từ tháng 6, đã có tin đồn rằng nhu cầu CoWoS năm nay của Nvidia đã lên tới 45.000 tấm wafer, trong khi ước tính của TSMC hồi đầu năm là 30.000 tấm wafer, cùng với nhu cầu của các khách hàng khác, khoảng cách năng lực sản xuất đã vượt quá 20%.
Để bù đắp khoảng cách, cuộc chiến của TSMC không hề nhỏ.
Vào tháng 6, TSMC chính thức ra mắt nhà máy đóng gói và thử nghiệm tiên tiến thứ sáu tại Nanke. Chỉ riêng phòng sạch đã lớn hơn các nhà máy đóng gói và thử nghiệm còn lại cộng lại, đồng thời hứa hẹn sẽ tăng công suất sản xuất CoWoS theo quý. Vì lý do này, một phần Hệ điều hành được gia công cho bên thứ 3. Nhà máy đóng gói và thử nghiệm.
Nhưng cũng như việc HBM mở rộng sản xuất không phải là điều dễ dàng, TSMC sẽ cần thời gian để mở rộng sản xuất. Hiện tại, thời gian giao hàng của một số thiết bị và linh kiện đóng gói dao động từ 3 đến 6 tháng, vẫn chưa rõ năng lực sản xuất mới có thể mở ra bao nhiêu trước cuối năm.
Kế hoạch B không tồn tại
Đối mặt với sự thiếu hụt về cấu trúc của H100, Nvidia không hoàn toàn không có Kế hoạch B.
Trong cuộc gọi hội nghị sau khi báo cáo tài chính được công bố, Nvidia tiết lộ rằng năng lực sản xuất CoWoS đã được các nhà cung cấp khác chứng nhận. Mặc dù tôi không nói đó là ai, nhưng xét đến ngưỡng kỹ thuật của bao bì tiên tiến, ngoài TSMC, chỉ có EMIB thiếu sót bẩm sinh của Intel và I-Cube của Samsung, vốn đã phát triển từ lâu và đang chờ khách hàng, mới có thể hầu như không chữa cháy được.
Tuy nhiên, việc thay thế công nghệ cốt lõi cũng giống như thay tướng trước trận chiến, khi AMD MI300 sắp được sản xuất hàng loạt và xuất xưởng, sự cạnh tranh về chip AI rất khốc liệt, e rằng Huang Renxun cũng đang lo lắng liệu mình có thể tích hợp hay không. với công nghệ của Intel và Samsung.
Lo lắng hơn Huang Renxun có thể là các nhà cung cấp dịch vụ đám mây và các công ty khởi nghiệp AI không thể mua được H100. Suy cho cùng, game thủ không lấy được card đồ họa, tức là số khung hình game ít hơn 20 khung hình, các công ty lớn không lấy được H100, có thể mất hàng tỷ đồng doanh thu và định giá hàng chục tỷ đồng.
Có ba loại công ty chính cần H100: các nhà cung cấp dịch vụ đám mây như Microsoft và Amazon, các công ty khởi nghiệp như Anthropic và OpenAI, và các công ty công nghệ lớn như Tesla, cụm GPU để đào tạo.
Điều này không bao gồm các công ty tài chính như Citadel và các công ty Trung Quốc không thể mua phiên bản đặc biệt của H800.
Theo tính toán của GPU Utils [7] , một ước tính thận trọng, khoảng cách nguồn cung hiện tại của H100 lên tới 430.000.
Mặc dù có những lựa chọn thay thế về mặt lý thuyết cho H100 nhưng không có lựa chọn nào khả thi trong các tình huống thực tế.
Ví dụ sản phẩm tiền nhiệm H100 là A100 có giá chỉ bằng 1/3 giá H100. Nhưng vấn đề là hiệu năng của H100 mạnh hơn A100 rất nhiều, dẫn đến khả năng tính toán trên mỗi đơn giá của H100 cao hơn A100. Xét thấy các hãng công nghệ bắt đầu mua hàng trăm, hàng nghìn chiếc thì việc mua A100 lại càng tệ hơn.
AMD là một lựa chọn thay thế khác và hiệu suất trên giấy tờ không thua xa H100. Tuy nhiên, do những rào cản của hệ sinh thái CUDA của Nvidia, việc sử dụng GPU của AMD có thể sẽ khiến chu kỳ phát triển kéo dài hơn và các đối thủ sử dụng H100 có thể sẽ tạo ra khoảng cách với chính mình vì sự khác biệt về thời gian này, thậm chí đầu tư hàng trăm tỷ đồng. hàng triệu đô la, không trả lại được.
Vì nhiều lý do khác nhau, một con chip có tổng chi phí nguyên liệu là 3.000 đô la Mỹ, Nvidia đã trực tiếp thêm một mặt hàng bán lẻ và mọi người đổ xô đi mua nó. Đây có thể là điều mà bản thân Huang Renxun cũng không ngờ tới.
Trước khi năng lực sản xuất của HBM và CoWoS được cải thiện, có lẽ chỉ có một cách duy nhất để mua H100:
Hãy đợi những công ty khởi nghiệp đã mua nhiều H100 phá sản bằng cách khoe khoang và huy động tiền, sau đó lấy GPU cũ của họ.
Người giới thiệu
[1] Các hạn chế về năng lực AI - Chuỗi cung ứng CoWoS và HBM, Bán phân tích
[2] Nhà máy ban đầu đang tích cực mở rộng sản xuất và tốc độ tăng trưởng hàng năm của nguồn cung bit HBM được ước tính là 105% vào năm 2024, TrendForce
[3] Công nghệ HBM sẽ mang đến những thay đổi gì cho trung tâm dữ liệu? Ngành bán dẫn dọc và ngang
[4] Bao bì nâng cao Phần II: Tùy chọn/Đánh giá cách sử dụng cho Intel, TSMC, Samsung, AMD, ASE, Sony, Micron, SKHynix, YMTC, Tesla và Nvidia, Semianalysis
[5] Đồng sáng lập OpenAI và nhà khoa học bán thời gian Andrej Karpathy đã tweet
[6] Công ty bán dẫn Đài Loan: Bị đánh giá thấp đáng kể khi là nhà cung cấp chip và gói cho Nvidia, SeekingAlpha
[7] GPU Nvidia H100: Cung và Cầu, Tiện ích GPU
Biên tập viên: Li Motian
Thiết kế hình ảnh: Shurui
Biên tập viên chịu trách nhiệm: Li Motian