Quyền bá chủ phần cứng AI của NVIDIA đã tồn tại quá lâu!
Giờ đây, các công ty công nghệ lớn đang chờ đợi để lật đổ uy quyền tối cao của họ.
Tất nhiên, Nvidia sẽ không ngồi yên.
Gần đây, truyền thông nước ngoài SemiAnalysis đã tiết lộ lộ trình phần cứng cho NVIDIA trong vài năm tới, bao gồm GPU H200, B100 và "X100" rất được mong đợi.
Cùng với đó, có một số thông tin cứng, bao gồm kế hoạch công nghệ xử lý của NVIDIA, tốc độ / dung lượng HBM3E, PCIe 6.0, PCIe 7.0, NVLink, kế hoạch SerDes 1.6T 224G.
Nếu những kế hoạch này diễn ra như mong đợi, Nvidia sẽ tiếp tục đè bẹp thành công các đối thủ của mình.
Tất nhiên, vị trí uy quyền tối cao không quá tốt - MI300 của AMD, MI400, Trainium 2 của Amazon, Athena của Microsoft, Gaudi 3 của Intel, sẽ không làm cho Nvidia tốt hơn.
Hãy sẵn sàng, cuộc tấn công năng lượng cao phía trước!
NVIDIA, không chỉ muốn trở thành bá chủ phần cứng
Google đã bắt đầu bố trí cơ sở hạ tầng AI của riêng mình và TPUv5 và TPUv5e mà họ xây dựng có thể được sử dụng cho cả đào tạo và suy luận nội bộ, cũng như cho các khách hàng bên ngoài như Apple, Anthropic, CharacterAI và MidJourney.
Google không phải là mối đe dọa duy nhất của Nvidia.
Về mặt phần mềm, PyTorch 2.0 của Meta và Triton của OpenAI cũng đang bùng nổ, khiến nó tương thích với các nhà cung cấp phần cứng khác.
Ngày nay, khoảng cách phần mềm vẫn còn, nhưng không còn lớn như trước đây.
Về phần mềm, GPU của AMD, Gaudi của Intel, MTIA của Meta và Athena của Microsoft đều đã đạt được một mức độ phát triển nhất định.
Mặc dù NVIDIA vẫn duy trì vị trí dẫn đầu về phần cứng, nhưng khoảng cách sẽ thu hẹp ngày càng nhanh.
NVIDIA H100 sẽ không thống trị lâu.
Trong những tháng tới, cả MI300 của AMD và Gaudi 3 của Intel sẽ tung ra các sản phẩm phần cứng vượt trội về mặt kỹ thuật so với H100.
Ngoài những đối thủ khó nhằn như Google, AMD, Intel, có một số công ty cũng đã gây nhiều áp lực lên NVIDIA.
Mặc dù các công ty này đang tạm thời tụt hậu trong thiết kế phần cứng, nhưng họ có thể nhận được trợ cấp từ những gã khổng lồ đằng sau họ - thế giới đã phải chịu đựng NVIDIA trong một thời gian dài và các công ty này hy vọng sẽ phá vỡ sự độc quyền lợi nhuận khổng lồ của NVIDIA đối với HBM.
Trainium2 và Inferentia3 sắp tới của Amazon và Athena sắp tới của Microsoft, là những khoản đầu tư đã được thực hiện trong nhiều năm.
Các đối thủ cạnh tranh đang đe dọa, và Nvidia chắc chắn sẽ không ngồi yên.
Theo quan điểm của truyền thông nước ngoài SemiAnalysis, bất kể phong cách quản lý hay ra quyết định tuyến đường, NVIDIA là "một trong những công ty đáng ngờ nhất trong ngành".
Và Huang Jenxun là hiện thân của tinh thần Andy Grove.
Thành công dẫn đến sự tự mãn. Tự mãn dẫn đến thất bại. Chỉ có hoang tưởng tồn tại.
Để đảm bảo vị trí đầu tiên, NVIDIA có tham vọng và áp dụng chiến lược mạo hiểm đa hướng.
Họ không còn coi thường việc cạnh tranh với Intel và AMD ở thị trường truyền thống, mà muốn trở thành những gã khổng lồ công nghệ như Google, Microsoft, Amazon, Meta và Apple.
DGX Cloud, phần mềm và chiến lược mua lại của NVIDIA cho các lĩnh vực phi bán dẫn đều là những quân cờ lớn đằng sau nó.
** Lộ trình chi tiết mới nhất được tiết lộ! **
Các chi tiết quan trọng về lộ trình mới nhất của NVIDIA đã được tiết lộ.
Chi tiết bao gồm mạng, bộ nhớ, đóng gói và nút quy trình, GPU khác nhau, lựa chọn SerDes, PCIe 6.0, quang học đồng đóng gói và thiết bị chuyển mạch quang.
Rõ ràng, dưới áp lực cạnh tranh của Google, Amazon, Microsoft, AMD và Intel, NVIDIA đã tăng tốc phát triển ** B100 ** và ** X100 ** chỉ sau một đêm.
B100: Đã đến lúc đưa ra thị trường trên hết
Theo các nguồn tin nội bộ, B100 của NVIDIA sẽ được sản xuất hàng loạt vào quý III/2024 và một số mẫu sớm sẽ được xuất xưởng vào quý II/2024.
Về hiệu suất và TCO, cho dù đó là Trainium 2 của Amazon, TPUv5 của Google, MI300X của AMD hay Gaudi 3 của Intel hay Athena của Microsoft, nó đều yếu so với nó.
Ngay cả khi tính đến trợ cấp từ các đối tác thiết kế, AMD hay TSMC, họ cũng không thể đánh bại tất cả.
Để đưa B100 ra thị trường nhanh nhất có thể, NVIDIA đã thực hiện rất nhiều thỏa hiệp.
Ví dụ: NVIDIA muốn đặt mức tiêu thụ điện năng ở mức cao hơn (1000W), nhưng cuối cùng, họ đã chọn tiếp tục sử dụng 700W của H100.
Bằng cách này, B100 có thể tiếp tục sử dụng công nghệ làm mát bằng không khí khi nó được ra mắt.
Ngoài ra, trong dòng B100 đời đầu, NVIDIA cũng sẽ nhấn mạnh vào việc sử dụng PCIe 5.0.
Sự kết hợp của 5.0 và 700W có nghĩa là nó có thể được cắm trực tiếp vào các máy chủ H100 HGX hiện có, cải thiện đáng kể năng lực chuỗi cung ứng và sản xuất và giao hàng sớm hơn.
Một phần lý do cho quyết định gắn bó với 5.0 là AMD và Intel vẫn còn kém xa trong việc tích hợp PCIe 6.0. Và ngay cả đội ngũ nội bộ của Nvidia cũng chưa sẵn sàng sử dụng CPU PCIe 6.0.
Ngoài ra, họ sẽ sử dụng các liên kết kiểu C2C nhanh hơn.
Trong tương lai, ConnectX-8 sẽ được trang bị bộ chuyển mạch PCIe 6.0 tích hợp, nhưng chưa ai sẵn sàng.
Broadcom và AsteraLabs sẽ không có bộ hẹn giờ PCIe6.0 của họ sẵn sàng để sản xuất cho đến cuối năm nay và với kích thước của các chất nền này, chỉ cần nhiều bộ hẹn giờ hơn.
Điều này cũng có nghĩa là B100 ban đầu sẽ bị giới hạn ở 3.2T, và tốc độ khi sử dụng ConnectX-7 sẽ chỉ là 400G, thay vì 800G trên mỗi GPU như NVIDIA tuyên bố trên PPT.
Nếu bạn giữ cho không khí mát mẻ và nguồn điện, PCIe và tốc độ mạng không đổi, thật dễ dàng để sản xuất và triển khai.
Sau đó, NVIDIA sẽ ra mắt phiên bản B100 1.000W + yêu cầu làm mát bằng nước.
Phiên bản B100 này sẽ cung cấp kết nối mạng 800G đầy đủ cho mỗi GPU thông qua ConnectX-8.
Đối với Ethernet / InfiniBand, các SerDes này vẫn là 8x100G.
Trong khi tốc độ mạng trên mỗi GPU đã tăng gấp đôi, hồng y đã giảm một nửa vì chúng vẫn cần phải đi qua cùng một công tắc 51.2T. Công tắc 102.4T sẽ không còn được sử dụng trong thế hệ B100.
Thật thú vị, nó đã được báo cáo rằng thành phần NVLink trên B100 sẽ sử dụng 224G SerDes, và nếu NVIDIA thực sự có thể làm điều này, nó chắc chắn là một cải tiến lớn.
Hầu hết mọi người trong ngành đều đồng ý rằng 224G không đáng tin cậy và khó có thể xảy ra vào năm 2024, ngoại trừ những người ở Nvidia.
Bạn biết đấy, cho dù đó là Google, Meta hay Amazon, mục tiêu sản xuất hàng loạt máy gia tốc AI 224G của họ được đặt ra cho năm 2026/2027.
Nếu NVIDIA đạt được điều này vào năm 2024/2025, nó chắc chắn sẽ đánh bại các đối thủ của mình.
Được biết, B100 vẫn là N4P của TSMC, không phải là công nghệ dựa trên tiến trình 3nm.
Rõ ràng, đối với kích thước chip lớn như vậy, quy trình 3nm của TSMC vẫn chưa hoàn thiện.
Dựa trên kích thước chất nền được tiết lộ bởi nhà cung cấp chất nền NVIDIA Ibiden, NVIDIA dường như đã chuyển sang thiết kế bao gồm 2 MCM chip lớn nguyên khối chứa 8 hoặc 12 ngăn xếp HBM.
Chip của SambaNova và Intel vào năm tới đều sử dụng thiết kế macro tương tự.
Sở dĩ NVIDIA không sử dụng công nghệ liên kết lai như AMD là vì họ cần sản xuất hàng loạt, và chi phí là mối quan tâm lớn đối với họ.
Theo SemiAnalysis, dung lượng bộ nhớ của hai con chip B100 này sẽ tương đương hoặc cao hơn MI300X của AMD, đạt mức 24GB.
Phiên bản làm mát bằng không khí của B100 có thể đạt tốc độ lên tới 6,4Gbps, trong khi phiên bản làm mát bằng chất lỏng có thể đạt tới 9,2Gbps.
Ngoài ra, NVIDIA cũng cho thấy GB200 và B40 trong lộ trình.
Cả GB200 và GX200 đều sử dụng G, đây rõ ràng là một trình giữ chỗ vì NVIDIA sẽ giới thiệu một CPU mới dựa trên kiến trúc Arm. Tôi sẽ không sử dụng Grace lâu.
B40 có thể chỉ bằng một nửa kích thước của B100, chỉ có chip N4P nguyên khối và HBM với tối đa 4 hoặc 6 lớp. Không giống như L40S, điều này có ý nghĩa để suy luận trên các mô hình nhỏ.
"X100": Đòn chí mạng
Điều nổi bật nhất về lộ trình lộ trình là lịch trình "X100" của NVIDIA.
Điều thú vị là nó hoàn toàn phù hợp với lịch trình MI400 hiện tại của AMD. Chỉ một năm sau khi ra mắt H100, AMD đã phát hành chiến lược MI300X.
Bao bì MI300X của AMD rất ấn tượng và họ nhồi nhét nhiều tính toán và bộ nhớ hơn vào đó, hy vọng sẽ vượt qua H100 một năm trước và do đó vượt qua Nvidia về phần cứng thuần túy.
Nvidia cũng nhận thấy rằng việc phát hành GPU mới hai năm một lần của họ đã mang đến cho các đối thủ cạnh tranh một cơ hội tuyệt vời để chiếm lĩnh thị trường.
Nvidia, đang vội vàng, đang đẩy nhanh chu kỳ sản phẩm lên mỗi năm một lần, mà không cho đối thủ bất kỳ cơ hội nào. Ví dụ, họ có kế hoạch ra mắt X100 vào năm 2025, chỉ một năm sau B100.
Tất nhiên, "X100" vẫn chưa được sản xuất hàng loạt (không giống như B100), vì vậy mọi thứ vẫn đang ở trên không.
Bạn biết đấy, trong quá khứ, NVIDIA chưa bao giờ thảo luận về các sản phẩm sau thế hệ sản phẩm tiếp theo và lần này đã là chưa từng có.
Hơn nữa, tên rất có thể không được gọi là "X100".
Nvidia từ lâu đã có truyền thống đặt tên GPU theo tên các nhà khoa học nữ nổi tiếng như Ada Lovelace, Grace Hopper và Elizabeth Blackwell.
Đối với "X", logic duy nhất là Xie Xide, người nghiên cứu cấu trúc của chất bán dẫn và dải kim loại, nhưng xem xét danh tính của cô, xác suất sẽ nhỏ.
**Bậc thầy chuỗi cung ứng: Vụ cá cược lớn của Lão Hoàng **
Kể từ khi thành lập NVIDIA, Jensen Huang đã tích cực thúc đẩy việc làm chủ chuỗi cung ứng để hỗ trợ các mục tiêu tăng trưởng lớn.
Họ không chỉ sẵn sàng nhận các đơn đặt hàng không thể hủy - lên tới 11,15 tỷ đô la cam kết mua, công suất và hàng tồn kho - mà họ còn có thỏa thuận thanh toán trả trước 3,81 tỷ đô la.
Có thể cho rằng, không có nhà cung cấp duy nhất nào có thể phù hợp với nó.
Và câu chuyện của Nvidia đã hơn một lần cho thấy họ có thể tăng nguồn cung một cách sáng tạo khi nguồn cung thiếu hụt.
Đối thoại giữa Huang Jenxun và Zhang Zhongmou năm 2007
Khi Zhang Zhongmou và tôi gặp nhau vào năm 1997, Nvidia, chỉ có 100 người, đã kiếm được 27 triệu đô la doanh thu trong năm đó.
Bạn có thể không tin, nhưng Zhang Zhongmou thường gọi bán hàng và sẽ đến cửa nhà anh ấy. Và tôi sẽ giải thích cho Zhang những gì NVIDIA làm và chip của chúng ta cần phải lớn như thế nào, và chúng sẽ trở nên lớn hơn mỗi năm.
Sau đó, NVIDIA đã tạo ra tổng cộng 127 triệu tấm wafer. Kể từ đó, NVIDIA đã tăng trưởng gần 100% mỗi năm, cho đến nay. Tức là trong 10 năm qua, tốc độ tăng trưởng kép hàng năm đã đạt khoảng 70%.
Vào thời điểm đó, Zhang không thể tin rằng Nvidia cần nhiều tấm wafer như vậy, nhưng Huang vẫn kiên trì.
NVIDIA đã đạt được thành công lớn bằng cách thử nghiệm với phía cung. Mặc dù thỉnh thoảng họ ghi lại hàng tồn kho trị giá hàng tỷ đô la, nhưng họ vẫn nhận được lợi nhuận tích cực từ việc đặt hàng quá mức.
Lần này, NVIDIA trực tiếp chiếm giữ hầu hết nguồn cung cấp các thành phần thượng nguồn của GPU -
Họ đã đặt hàng rất lớn với ba nhà cung cấp HBM, SK Hynix, Samsung và Micron, lấn át nguồn cung của tất cả mọi người ngoại trừ Broadcom và Google. Đồng thời, họ cũng mua phần lớn nguồn cung TSMC CoWoS, cũng như năng lực sản xuất của Amkor.
Ngoài ra, NVIDIA tận dụng các thành phần hạ nguồn theo yêu cầu của bo mạch và máy chủ HGX, chẳng hạn như bộ hẹn giờ, DSP, quang học, v.v.
Nếu nhà cung cấp ngoảnh mặt làm ngơ trước yêu cầu của NVIDIA, thì họ sẽ phải đối mặt với "củ cải và cây gậy" của Lao Hoàng -
Một mặt, họ sẽ nhận được những đơn đặt hàng không thể tưởng tượng được từ NVIDIA; Mặt khác, chúng có thể bị NVIDIA loại bỏ khỏi chuỗi cung ứng hiện có.
Tất nhiên, NVIDIA cũng chỉ sử dụng các đơn đặt hàng đã cam kết và không thể hủy nếu nhà cung cấp quan trọng và không thể loại bỏ hoặc đa dạng hóa nguồn cung.
Mỗi nhà cung cấp dường như tự coi mình là người chiến thắng trong AI, một phần vì NVIDIA đã đặt một số lượng lớn đơn đặt hàng với tất cả các nhà cung cấp của mình và tất cả họ đều nghĩ rằng họ giành được hầu hết các doanh nghiệp. Nhưng trên thực tế, đó chỉ là vì NVIDIA đang phát triển quá nhanh.
Quay trở lại với động lực thị trường, trong khi Nvidia đặt mục tiêu đạt được hơn 70 tỷ đô la doanh thu trung tâm dữ liệu vào năm tới, chỉ có Google có đủ dung lượng ngược dòng - với hơn 1 triệu thiết bị. Tổng năng lực sản xuất của AMD trong lĩnh vực AI vẫn còn rất hạn chế, tối đa chỉ vài trăm nghìn chiếc.
Chiến lược kinh doanh: Tiềm năng phản cạnh tranh
Như chúng ta đã biết, NVIDIA đang tận dụng nhu cầu rất lớn về GPU để tiếp thị và bán chéo sản phẩm cho khách hàng.
Có rất nhiều thông tin trong chuỗi cung ứng mà NVIDIA cung cấp phân bổ ưu tiên cho một số công ty nhất định dựa trên một loạt các yếu tố. Bao gồm nhưng không giới hạn ở: kế hoạch mua sắm đa dạng, nghiên cứu và phát triển độc lập kế hoạch chip AI, mua DGX, NIC, thiết bị chuyển mạch và / hoặc quang học của NVIDIA, v.v.
Trên thực tế, gói của NVIDIA rất thành công. Mặc dù là một nhà cung cấp thu phát cáp quang nhỏ, hoạt động kinh doanh của họ đã tăng gấp ba lần trong một quý và dự kiến sẽ xuất xưởng hơn 1 tỷ đô la vào năm tới - vượt xa sự tăng trưởng của các doanh nghiệp GPU hoặc chip mạng của chính họ.
Những chiến lược này có thể nói là khá kỹ lưỡng.
Ví dụ: cách duy nhất để triển khai mạng 3.2T và RDMA / RoCE đáng tin cậy trên các hệ thống của NVIDIA là sử dụng NIC của NVIDIA. Tất nhiên, một mặt, đó cũng là do các sản phẩm của Intel, AMD và Broadcom thực sự không cạnh tranh - vẫn bị mắc kẹt ở mức 200G.
Thông qua việc quản lý chuỗi cung ứng, NVIDIA cũng đã thúc đẩy chu kỳ phân phối NIC InfiniBand 400G, có thể ngắn hơn đáng kể so với NIC Ethernet 400G. Hai NIC (ConnectX-7) thực sự giống hệt nhau về thiết kế chip và bo mạch.
Lý do cho điều này là cấu hình SKU của Nvidia, không phải là nút thắt chuỗi cung ứng thực tế buộc các công ty phải mua thiết bị chuyển mạch InfiniBand chi phí cao hơn thay vì thiết bị chuyển mạch Ethernet tiêu chuẩn.
Và đó không phải là tất cả, chỉ cần nhìn vào chuỗi cung ứng bị ám ảnh như thế nào với GPU L40 và L40S, và bạn biết rằng Nvidia đang chơi trò phân phối một lần nữa - để giành được nhiều phân bổ H100 hơn, các OEM cần mua thêm L40S.
Điều này cũng giống như hoạt động của NVIDIA trong không gian PC - các nhà sản xuất máy tính xách tay và đối tác AIB phải mua G106 / G107 lớn hơn (GPU trung bình / cấp thấp) để có được G102 / G104 khan hiếm hơn, lợi nhuận cao hơn (GPU cao cấp và hàng đầu).
Để phù hợp, những người trong chuỗi cung ứng cũng đã được truyền bá với tuyên bố rằng L40S tốt hơn A100 vì nó có FLOPS cao hơn.
Nhưng trên thực tế, các GPU này không phù hợp để suy luận LLM, vì chúng có băng thông bộ nhớ nhỏ hơn một nửa so với A100 và không có NVLink.
Điều này có nghĩa là việc chạy LLM trên L40S và đạt được TCO tốt là gần như không thể, ngoại trừ các mô hình rất nhỏ. Xử lý quy mô lớn cũng dẫn đến / s mã thông báo được phân bổ cho mỗi người dùng hầu như không thể sử dụng được, khiến FLOPS lý thuyết trở nên vô dụng trong các ứng dụng thực tế.
Ngoài ra, nền tảng mô-đun MGX của NVIDIA, trong khi loại bỏ công việc khó khăn của thiết kế máy chủ, cũng làm giảm tỷ suất lợi nhuận OEM.
Các công ty như Dell, HP và Lenovo rõ ràng có khả năng chống lại MGX, nhưng các công ty như Supermicro, Quanta, Asus, Gigabyte và các công ty khác đang tranh giành để lấp đầy khoảng trống và thương mại hóa "AI doanh nghiệp" chi phí thấp.
Và các OEM / ODM này liên quan đến sự cường điệu của L40S và MGX cũng có thể nhận được phân bổ sản phẩm GPU chính tốt hơn từ NVIDIA.
** Quang học đồng đóng gói **
Về CPO, NVIDIA cũng rất coi trọng nó.
Họ đã làm việc trên nhiều giải pháp khác nhau, bao gồm cả những giải pháp từ Ayar Labs, cũng như những giải pháp mà chính họ nhận được từ Global Foundries và TSMC.
Hiện tại, NVIDIA đã kiểm tra kế hoạch CPO của một số công ty khởi nghiệp, nhưng vẫn chưa đưa ra quyết định cuối cùng.
Phân tích tin rằng NVIDIA có khả năng tích hợp CPO vào NVSwitch của "X100".
Bởi vì việc tích hợp trực tiếp vào chính GPU có thể quá tốn kém và khó khăn về độ tin cậy.
** Công tắc mạch quang **
Một trong những thế mạnh lớn nhất của Google trong cơ sở hạ tầng AI là công tắc quang.
Rõ ràng, Nvidia đang theo đuổi một cái gì đó tương tự. Hiện tại, họ đã liên hệ với một số công ty và hy vọng sẽ hợp tác phát triển.
NVIDIA nhận ra rằng Fat Tree đã kết thúc việc tiếp tục mở rộng, vì vậy nó cần một cấu trúc liên kết khác.
Không giống như sự lựa chọn của Google về 6D Torus, Nvidia thích áp dụng cấu trúc Chuồn chuồn.
Điều này được hiểu rằng NVIDIA vẫn còn xa lô hàng OCS, nhưng họ hy vọng sẽ tiến gần hơn đến mục tiêu này vào năm 2025, nhưng xác suất không thể đạt được.
OCS + CPO là chén thánh, đặc biệt là khi OCS có thể được triển khai trên cơ sở mỗi gói, điều này sẽ trực tiếp thay đổi trò chơi.
Tuy nhiên, chưa ai thể hiện khả năng này, kể cả Google.
Mặc dù OCS và CPO của NVIDIA chỉ là hai bộ PPT trong bộ phận nghiên cứu, các nhà phân tích tin rằng CPO sẽ tiến gần hơn một bước đến sản xuất vào năm 2025-2026.
Tài nguyên:
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
Lộ trình 25 năm của NVIDIA bùng nổ! Hoàng Hạo cũ đặt cược vào B100 để đánh bại AMD, và vũ khí bí mật X100 đã bị lộ
Nguồn gốc: Shin Ji Yuan
Quyền bá chủ phần cứng AI của NVIDIA đã tồn tại quá lâu!
Giờ đây, các công ty công nghệ lớn đang chờ đợi để lật đổ uy quyền tối cao của họ.
Tất nhiên, Nvidia sẽ không ngồi yên.
Gần đây, truyền thông nước ngoài SemiAnalysis đã tiết lộ lộ trình phần cứng cho NVIDIA trong vài năm tới, bao gồm GPU H200, B100 và "X100" rất được mong đợi.
Nếu những kế hoạch này diễn ra như mong đợi, Nvidia sẽ tiếp tục đè bẹp thành công các đối thủ của mình.
Tất nhiên, vị trí uy quyền tối cao không quá tốt - MI300 của AMD, MI400, Trainium 2 của Amazon, Athena của Microsoft, Gaudi 3 của Intel, sẽ không làm cho Nvidia tốt hơn.
Hãy sẵn sàng, cuộc tấn công năng lượng cao phía trước!
Google đã bắt đầu bố trí cơ sở hạ tầng AI của riêng mình và TPUv5 và TPUv5e mà họ xây dựng có thể được sử dụng cho cả đào tạo và suy luận nội bộ, cũng như cho các khách hàng bên ngoài như Apple, Anthropic, CharacterAI và MidJourney.
Google không phải là mối đe dọa duy nhất của Nvidia.
Về mặt phần mềm, PyTorch 2.0 của Meta và Triton của OpenAI cũng đang bùng nổ, khiến nó tương thích với các nhà cung cấp phần cứng khác.
Về phần mềm, GPU của AMD, Gaudi của Intel, MTIA của Meta và Athena của Microsoft đều đã đạt được một mức độ phát triển nhất định.
Mặc dù NVIDIA vẫn duy trì vị trí dẫn đầu về phần cứng, nhưng khoảng cách sẽ thu hẹp ngày càng nhanh.
NVIDIA H100 sẽ không thống trị lâu.
Trong những tháng tới, cả MI300 của AMD và Gaudi 3 của Intel sẽ tung ra các sản phẩm phần cứng vượt trội về mặt kỹ thuật so với H100.
Mặc dù các công ty này đang tạm thời tụt hậu trong thiết kế phần cứng, nhưng họ có thể nhận được trợ cấp từ những gã khổng lồ đằng sau họ - thế giới đã phải chịu đựng NVIDIA trong một thời gian dài và các công ty này hy vọng sẽ phá vỡ sự độc quyền lợi nhuận khổng lồ của NVIDIA đối với HBM.
Trainium2 và Inferentia3 sắp tới của Amazon và Athena sắp tới của Microsoft, là những khoản đầu tư đã được thực hiện trong nhiều năm.
Các đối thủ cạnh tranh đang đe dọa, và Nvidia chắc chắn sẽ không ngồi yên.
Và Huang Jenxun là hiện thân của tinh thần Andy Grove.
Để đảm bảo vị trí đầu tiên, NVIDIA có tham vọng và áp dụng chiến lược mạo hiểm đa hướng.
Họ không còn coi thường việc cạnh tranh với Intel và AMD ở thị trường truyền thống, mà muốn trở thành những gã khổng lồ công nghệ như Google, Microsoft, Amazon, Meta và Apple.
** Lộ trình chi tiết mới nhất được tiết lộ! **
Các chi tiết quan trọng về lộ trình mới nhất của NVIDIA đã được tiết lộ.
Chi tiết bao gồm mạng, bộ nhớ, đóng gói và nút quy trình, GPU khác nhau, lựa chọn SerDes, PCIe 6.0, quang học đồng đóng gói và thiết bị chuyển mạch quang.
B100: Đã đến lúc đưa ra thị trường trên hết
Theo các nguồn tin nội bộ, B100 của NVIDIA sẽ được sản xuất hàng loạt vào quý III/2024 và một số mẫu sớm sẽ được xuất xưởng vào quý II/2024.
Về hiệu suất và TCO, cho dù đó là Trainium 2 của Amazon, TPUv5 của Google, MI300X của AMD hay Gaudi 3 của Intel hay Athena của Microsoft, nó đều yếu so với nó.
Để đưa B100 ra thị trường nhanh nhất có thể, NVIDIA đã thực hiện rất nhiều thỏa hiệp.
Ví dụ: NVIDIA muốn đặt mức tiêu thụ điện năng ở mức cao hơn (1000W), nhưng cuối cùng, họ đã chọn tiếp tục sử dụng 700W của H100.
Bằng cách này, B100 có thể tiếp tục sử dụng công nghệ làm mát bằng không khí khi nó được ra mắt.
Sự kết hợp của 5.0 và 700W có nghĩa là nó có thể được cắm trực tiếp vào các máy chủ H100 HGX hiện có, cải thiện đáng kể năng lực chuỗi cung ứng và sản xuất và giao hàng sớm hơn.
Một phần lý do cho quyết định gắn bó với 5.0 là AMD và Intel vẫn còn kém xa trong việc tích hợp PCIe 6.0. Và ngay cả đội ngũ nội bộ của Nvidia cũng chưa sẵn sàng sử dụng CPU PCIe 6.0.
Ngoài ra, họ sẽ sử dụng các liên kết kiểu C2C nhanh hơn.
Broadcom và AsteraLabs sẽ không có bộ hẹn giờ PCIe6.0 của họ sẵn sàng để sản xuất cho đến cuối năm nay và với kích thước của các chất nền này, chỉ cần nhiều bộ hẹn giờ hơn.
Điều này cũng có nghĩa là B100 ban đầu sẽ bị giới hạn ở 3.2T, và tốc độ khi sử dụng ConnectX-7 sẽ chỉ là 400G, thay vì 800G trên mỗi GPU như NVIDIA tuyên bố trên PPT.
Nếu bạn giữ cho không khí mát mẻ và nguồn điện, PCIe và tốc độ mạng không đổi, thật dễ dàng để sản xuất và triển khai.
Phiên bản B100 này sẽ cung cấp kết nối mạng 800G đầy đủ cho mỗi GPU thông qua ConnectX-8.
Đối với Ethernet / InfiniBand, các SerDes này vẫn là 8x100G.
Trong khi tốc độ mạng trên mỗi GPU đã tăng gấp đôi, hồng y đã giảm một nửa vì chúng vẫn cần phải đi qua cùng một công tắc 51.2T. Công tắc 102.4T sẽ không còn được sử dụng trong thế hệ B100.
Thật thú vị, nó đã được báo cáo rằng thành phần NVLink trên B100 sẽ sử dụng 224G SerDes, và nếu NVIDIA thực sự có thể làm điều này, nó chắc chắn là một cải tiến lớn.
Hầu hết mọi người trong ngành đều đồng ý rằng 224G không đáng tin cậy và khó có thể xảy ra vào năm 2024, ngoại trừ những người ở Nvidia.
Bạn biết đấy, cho dù đó là Google, Meta hay Amazon, mục tiêu sản xuất hàng loạt máy gia tốc AI 224G của họ được đặt ra cho năm 2026/2027.
Nếu NVIDIA đạt được điều này vào năm 2024/2025, nó chắc chắn sẽ đánh bại các đối thủ của mình.
Rõ ràng, đối với kích thước chip lớn như vậy, quy trình 3nm của TSMC vẫn chưa hoàn thiện.
Chip của SambaNova và Intel vào năm tới đều sử dụng thiết kế macro tương tự.
Theo SemiAnalysis, dung lượng bộ nhớ của hai con chip B100 này sẽ tương đương hoặc cao hơn MI300X của AMD, đạt mức 24GB.
Phiên bản làm mát bằng không khí của B100 có thể đạt tốc độ lên tới 6,4Gbps, trong khi phiên bản làm mát bằng chất lỏng có thể đạt tới 9,2Gbps.
Ngoài ra, NVIDIA cũng cho thấy GB200 và B40 trong lộ trình.
Cả GB200 và GX200 đều sử dụng G, đây rõ ràng là một trình giữ chỗ vì NVIDIA sẽ giới thiệu một CPU mới dựa trên kiến trúc Arm. Tôi sẽ không sử dụng Grace lâu.
B40 có thể chỉ bằng một nửa kích thước của B100, chỉ có chip N4P nguyên khối và HBM với tối đa 4 hoặc 6 lớp. Không giống như L40S, điều này có ý nghĩa để suy luận trên các mô hình nhỏ.
"X100": Đòn chí mạng
Điều nổi bật nhất về lộ trình lộ trình là lịch trình "X100" của NVIDIA.
Điều thú vị là nó hoàn toàn phù hợp với lịch trình MI400 hiện tại của AMD. Chỉ một năm sau khi ra mắt H100, AMD đã phát hành chiến lược MI300X.
Bao bì MI300X của AMD rất ấn tượng và họ nhồi nhét nhiều tính toán và bộ nhớ hơn vào đó, hy vọng sẽ vượt qua H100 một năm trước và do đó vượt qua Nvidia về phần cứng thuần túy.
Nvidia, đang vội vàng, đang đẩy nhanh chu kỳ sản phẩm lên mỗi năm một lần, mà không cho đối thủ bất kỳ cơ hội nào. Ví dụ, họ có kế hoạch ra mắt X100 vào năm 2025, chỉ một năm sau B100.
Tất nhiên, "X100" vẫn chưa được sản xuất hàng loạt (không giống như B100), vì vậy mọi thứ vẫn đang ở trên không.
Bạn biết đấy, trong quá khứ, NVIDIA chưa bao giờ thảo luận về các sản phẩm sau thế hệ sản phẩm tiếp theo và lần này đã là chưa từng có.
Hơn nữa, tên rất có thể không được gọi là "X100".
Nvidia từ lâu đã có truyền thống đặt tên GPU theo tên các nhà khoa học nữ nổi tiếng như Ada Lovelace, Grace Hopper và Elizabeth Blackwell.
Đối với "X", logic duy nhất là Xie Xide, người nghiên cứu cấu trúc của chất bán dẫn và dải kim loại, nhưng xem xét danh tính của cô, xác suất sẽ nhỏ.
Kể từ khi thành lập NVIDIA, Jensen Huang đã tích cực thúc đẩy việc làm chủ chuỗi cung ứng để hỗ trợ các mục tiêu tăng trưởng lớn.
Họ không chỉ sẵn sàng nhận các đơn đặt hàng không thể hủy - lên tới 11,15 tỷ đô la cam kết mua, công suất và hàng tồn kho - mà họ còn có thỏa thuận thanh toán trả trước 3,81 tỷ đô la.
Có thể cho rằng, không có nhà cung cấp duy nhất nào có thể phù hợp với nó.
Và câu chuyện của Nvidia đã hơn một lần cho thấy họ có thể tăng nguồn cung một cách sáng tạo khi nguồn cung thiếu hụt.
Vào thời điểm đó, Zhang không thể tin rằng Nvidia cần nhiều tấm wafer như vậy, nhưng Huang vẫn kiên trì.
NVIDIA đã đạt được thành công lớn bằng cách thử nghiệm với phía cung. Mặc dù thỉnh thoảng họ ghi lại hàng tồn kho trị giá hàng tỷ đô la, nhưng họ vẫn nhận được lợi nhuận tích cực từ việc đặt hàng quá mức.
Lần này, NVIDIA trực tiếp chiếm giữ hầu hết nguồn cung cấp các thành phần thượng nguồn của GPU -
Họ đã đặt hàng rất lớn với ba nhà cung cấp HBM, SK Hynix, Samsung và Micron, lấn át nguồn cung của tất cả mọi người ngoại trừ Broadcom và Google. Đồng thời, họ cũng mua phần lớn nguồn cung TSMC CoWoS, cũng như năng lực sản xuất của Amkor.
Ngoài ra, NVIDIA tận dụng các thành phần hạ nguồn theo yêu cầu của bo mạch và máy chủ HGX, chẳng hạn như bộ hẹn giờ, DSP, quang học, v.v.
Nếu nhà cung cấp ngoảnh mặt làm ngơ trước yêu cầu của NVIDIA, thì họ sẽ phải đối mặt với "củ cải và cây gậy" của Lao Hoàng -
Một mặt, họ sẽ nhận được những đơn đặt hàng không thể tưởng tượng được từ NVIDIA; Mặt khác, chúng có thể bị NVIDIA loại bỏ khỏi chuỗi cung ứng hiện có.
Tất nhiên, NVIDIA cũng chỉ sử dụng các đơn đặt hàng đã cam kết và không thể hủy nếu nhà cung cấp quan trọng và không thể loại bỏ hoặc đa dạng hóa nguồn cung.
Quay trở lại với động lực thị trường, trong khi Nvidia đặt mục tiêu đạt được hơn 70 tỷ đô la doanh thu trung tâm dữ liệu vào năm tới, chỉ có Google có đủ dung lượng ngược dòng - với hơn 1 triệu thiết bị. Tổng năng lực sản xuất của AMD trong lĩnh vực AI vẫn còn rất hạn chế, tối đa chỉ vài trăm nghìn chiếc.
Chiến lược kinh doanh: Tiềm năng phản cạnh tranh
Như chúng ta đã biết, NVIDIA đang tận dụng nhu cầu rất lớn về GPU để tiếp thị và bán chéo sản phẩm cho khách hàng.
Có rất nhiều thông tin trong chuỗi cung ứng mà NVIDIA cung cấp phân bổ ưu tiên cho một số công ty nhất định dựa trên một loạt các yếu tố. Bao gồm nhưng không giới hạn ở: kế hoạch mua sắm đa dạng, nghiên cứu và phát triển độc lập kế hoạch chip AI, mua DGX, NIC, thiết bị chuyển mạch và / hoặc quang học của NVIDIA, v.v.
Những chiến lược này có thể nói là khá kỹ lưỡng.
Ví dụ: cách duy nhất để triển khai mạng 3.2T và RDMA / RoCE đáng tin cậy trên các hệ thống của NVIDIA là sử dụng NIC của NVIDIA. Tất nhiên, một mặt, đó cũng là do các sản phẩm của Intel, AMD và Broadcom thực sự không cạnh tranh - vẫn bị mắc kẹt ở mức 200G.
Thông qua việc quản lý chuỗi cung ứng, NVIDIA cũng đã thúc đẩy chu kỳ phân phối NIC InfiniBand 400G, có thể ngắn hơn đáng kể so với NIC Ethernet 400G. Hai NIC (ConnectX-7) thực sự giống hệt nhau về thiết kế chip và bo mạch.
Lý do cho điều này là cấu hình SKU của Nvidia, không phải là nút thắt chuỗi cung ứng thực tế buộc các công ty phải mua thiết bị chuyển mạch InfiniBand chi phí cao hơn thay vì thiết bị chuyển mạch Ethernet tiêu chuẩn.
Và đó không phải là tất cả, chỉ cần nhìn vào chuỗi cung ứng bị ám ảnh như thế nào với GPU L40 và L40S, và bạn biết rằng Nvidia đang chơi trò phân phối một lần nữa - để giành được nhiều phân bổ H100 hơn, các OEM cần mua thêm L40S.
Điều này cũng giống như hoạt động của NVIDIA trong không gian PC - các nhà sản xuất máy tính xách tay và đối tác AIB phải mua G106 / G107 lớn hơn (GPU trung bình / cấp thấp) để có được G102 / G104 khan hiếm hơn, lợi nhuận cao hơn (GPU cao cấp và hàng đầu).
Để phù hợp, những người trong chuỗi cung ứng cũng đã được truyền bá với tuyên bố rằng L40S tốt hơn A100 vì nó có FLOPS cao hơn.
Nhưng trên thực tế, các GPU này không phù hợp để suy luận LLM, vì chúng có băng thông bộ nhớ nhỏ hơn một nửa so với A100 và không có NVLink.
Điều này có nghĩa là việc chạy LLM trên L40S và đạt được TCO tốt là gần như không thể, ngoại trừ các mô hình rất nhỏ. Xử lý quy mô lớn cũng dẫn đến / s mã thông báo được phân bổ cho mỗi người dùng hầu như không thể sử dụng được, khiến FLOPS lý thuyết trở nên vô dụng trong các ứng dụng thực tế.
Các công ty như Dell, HP và Lenovo rõ ràng có khả năng chống lại MGX, nhưng các công ty như Supermicro, Quanta, Asus, Gigabyte và các công ty khác đang tranh giành để lấp đầy khoảng trống và thương mại hóa "AI doanh nghiệp" chi phí thấp.
Và các OEM / ODM này liên quan đến sự cường điệu của L40S và MGX cũng có thể nhận được phân bổ sản phẩm GPU chính tốt hơn từ NVIDIA.
** Quang học đồng đóng gói **
Về CPO, NVIDIA cũng rất coi trọng nó.
Họ đã làm việc trên nhiều giải pháp khác nhau, bao gồm cả những giải pháp từ Ayar Labs, cũng như những giải pháp mà chính họ nhận được từ Global Foundries và TSMC.
Bởi vì việc tích hợp trực tiếp vào chính GPU có thể quá tốn kém và khó khăn về độ tin cậy.
Một trong những thế mạnh lớn nhất của Google trong cơ sở hạ tầng AI là công tắc quang.
Rõ ràng, Nvidia đang theo đuổi một cái gì đó tương tự. Hiện tại, họ đã liên hệ với một số công ty và hy vọng sẽ hợp tác phát triển.
Không giống như sự lựa chọn của Google về 6D Torus, Nvidia thích áp dụng cấu trúc Chuồn chuồn.
Tuy nhiên, chưa ai thể hiện khả năng này, kể cả Google.
Mặc dù OCS và CPO của NVIDIA chỉ là hai bộ PPT trong bộ phận nghiên cứu, các nhà phân tích tin rằng CPO sẽ tiến gần hơn một bước đến sản xuất vào năm 2025-2026.
Tài nguyên: