Lão Hoàng thắng! Đơn hàng H100 của Nvidia đã được lên kế hoạch 24 năm, và Musk không thể ngồi yên

2023-08-13 01:07:59

Nguồn gốc: Qubit

GPU tốt nhất để tinh chỉnh các mẫu máy lớn NVIDIA H100, hết hàng!

Ngay cả khi bạn đặt hàng ngay bây giờ, nó sẽ không có sẵn cho đến Quý 1 hoặc thậm chí là Quý 2 năm 2024.

Đây là thông tin mới nhất được tiết lộ với Wall Street Journal bởi CoreWeave, một nhà cung cấp dịch vụ đám mây có quan hệ mật thiết với Nvidia.

Nguồn cung đã cực kỳ khan hiếm kể từ đầu tháng Tư. Chỉ trong một tuần, thời gian giao hàng dự kiến đã tăng từ mức hợp lý đến cuối năm.

Amazon AWS, nhà cung cấp điện toán đám mây lớn nhất thế giới, cũng đã xác nhận thông tin này, Giám đốc điều hành Adam Selipsky gần đây cho biết:

A100 và H100 là công nghệ tiên tiến nhất... khó kiếm ngay cả đối với AWS.

Trước đó, Musk cũng đã nói trong một talk show: GPU hiện nay khó kiếm hơn các sản phẩm d.

Nếu bạn tìm mua một "máy đầu cơ" để mua, phí bảo hiểm có thể lên tới 25%.

Ví dụ: giá trên Ebay đã tăng từ khoảng 36.000 đô la Mỹ khi xuất xưởng lên 45.000 đô la Mỹ** và nguồn cung khan hiếm.

Trước tình hình đó, các công ty công nghệ lớn trong nước như Baidu, Byte, Ali, Tencent** cũng đã đặt hàng A800 và các loại chip khác với tổng trị giá 5 tỷ USD** từ Nvidia.

Trong số đó, chỉ có 1 tỷ USD hàng hóa có thể được giao trong năm nay và 80% còn lại sẽ phải đợi đến năm 2024.

Vậy những GPU cao cấp hiện có được bán cho ai? Làn sóng năng lực sản xuất này bị mắc kẹt ở đâu?

Bán H100 cho ai, Lao Huang có tiếng nói cuối cùng

Kể từ khi ChatGPT bùng nổ, Nvidia A100 và H100, vốn giỏi đào tạo các mô hình lớn, đã trở nên phổ biến.

Ngay cả H100 cũng đã có thể được sử dụng làm tài sản cho các công ty mới thành lập tìm quỹ đầu tư để vay thế chấp.

Các công ty AI do OpenAI và Meta đại diện, các công ty điện toán đám mây do Amazon và Microsoft đại diện, các đám mây riêng Coreweave và Lambda và tất cả các công ty công nghệ khác nhau muốn tinh chỉnh các mô hình lớn của riêng họ, The nhu cầu là rất lớn.

**Tuy nhiên, về cơ bản, Giám đốc điều hành Nvidia Huang Renxun mới là người có tiếng nói cuối cùng về việc bán cho ai. **

Theo The Information, nguồn cung cấp H100 bị thiếu hụt đến mức Nvidia** đã phân bổ một số lượng lớn thẻ mới cho CoreWeave** và nguồn cung hạn chế** cho các công ty điện toán đám mây lâu đời như Amazon và Microsoft.

(Nvidia cũng đã đầu tư trực tiếp vào CoreWeave.)

Phân tích bên ngoài là do các công ty lâu đời này đang phát triển chip tăng tốc AI của riêng họ, với hy vọng giảm bớt sự phụ thuộc vào Nvidia, vì vậy Lao Huang sẽ giúp họ.

Lao Huang cũng kiểm soát tất cả các khía cạnh hoạt động hàng ngày của công ty trong Nvidia, thậm chí bao gồm cả "xem xét những gì đại diện bán hàng sẽ nói với các khách hàng tiềm năng nhỏ".

Khoảng 40 giám đốc điều hành trong công ty báo cáo trực tiếp cho Lao Huang**, nhiều hơn số cấp dưới trực tiếp của Meta Xiaozha và Microsoft Xiaona cộng lại.

Một cựu quản lý của Nvidia tiết lộ: “Tại Nvidia, Huang Renxun thực sự là giám đốc sản phẩm của mọi sản phẩm.”

Cách đây không lâu, cũng có tin đồn rằng Lao Huang đã làm một việc phóng đại: Yêu cầu một số công ty điện toán đám mây nhỏ cung cấp danh sách khách hàng của họ, muốn biết ai là người dùng cuối của GPU.

Theo phân tích bên ngoài, động thái này sẽ cho phép Nvidia hiểu rõ hơn nhu cầu của khách hàng đối với các sản phẩm của mình và nó cũng làm dấy lên lo ngại rằng Nvidia có thể sử dụng thông tin này cho các lợi ích bổ sung.

Một số người cũng cho rằng một lý do khác là Lao Huang muốn biết ai đang thực sự sử dụng thẻ và ai chỉ đang tích trữ thẻ chứ không sử dụng.

Tại sao bây giờ Nvidia và Lao Huang lại có tiếng nói lớn như vậy?

Nguyên nhân chính là do cung cầu GPU cao cấp quá mất cân đối, theo tính toán của trang web GPU Utils, chênh lệch H100** lên tới 430.000**.

Tác giả Clay Pascal đã ước tính số lượng H100 mà nhiều người chơi trong ngành AI cần trong tương lai gần dựa trên nhiều thông tin và tin đồn đã biết.

Phía công ty AI:

OpenAI có thể cần 50.000 H100 để đào tạo GPT-5
Meta được cho là cần 100.000
Kế hoạch cụm điện toán 22.000 thẻ của InflectionAI đã được công bố
Các công ty khởi nghiệp AI lớn như Anthropic, Character.ai, MistraAI và HelsingAI ở Châu Âu đều yêu cầu số lượng 10.000.

Công ty điện toán đám mây:

Trong các đám mây công cộng lớn, Amazon, Microsoft, Google và Oracle đều được tính là 30.000, tổng cộng là 120.000
Đám mây riêng do CoreWeave và Lambda đại diện cần tổng cộng 100.000

Nó thêm tới 432.000.

Điều này không tính đến một số công ty tài chính và những người tham gia ngành khác như JP Morgan Chase và Two Sigma, những người cũng đã bắt đầu triển khai các cụm sức mạnh điện toán của riêng họ.

Vì vậy, câu hỏi đặt ra là với khoảng cách cung lớn như vậy, liệu chúng ta có thể sản xuất nhiều hơn không?

Lao Huang cũng nghĩ về điều đó, nhưng ** năng lực sản xuất bị kẹt **.

Lần này năng lực sản xuất bị mắc kẹt ở đâu?

Trên thực tế, TSMC đã điều chỉnh kế hoạch sản xuất cho Nvidia.

Tuy nhiên, nó vẫn không thể lấp đầy khoảng trống lớn như vậy.

Charlie Boyle, phó chủ tịch kiêm tổng giám đốc hệ thống DGX của Nvidia, cho biết lần này không phải do tấm wafer bị kẹt mà do công nghệ đóng gói CoWoS của TSMC đã gặp phải nút thắt cổ chai trong năng lực sản xuất.

Chính Apple đang cạnh tranh với Nvidia về năng lực sản xuất của TSMC và họ sẽ có được chip A17 cho iPhone thế hệ tiếp theo trước hội nghị tháng 9.

TSMC gần đây đã tuyên bố rằng dự kiến sẽ mất 1,5 năm để đưa quy trình đóng gói tồn đọng trở lại bình thường.

Công nghệ đóng gói CoWoS là kỹ năng nội trợ của TSMC và lý do tại sao TSMC có thể đánh bại Samsung để trở thành xưởng đúc chip độc quyền của Apple phụ thuộc vào nó.

Các sản phẩm được đóng gói bằng công nghệ này có hiệu suất cao và độ tin cậy cao, đó là lý do tại sao H100 có thể có băng thông 3TB/s (hoặc thậm chí cao hơn).

Tên đầy đủ của CoWoS là Chip-on-Wafer-on-Substrate, là một công nghệ tích hợp chip duy nhất ở cấp độ wafer.

Công nghệ này cho phép đóng gói nhiều chip vào một bộ xen kẽ silicon chỉ dày 100μm**.

Theo báo cáo, diện tích của bộ xen kẽ thế hệ tiếp theo sẽ đạt gấp 6 lần so với mặt kẻ ô, tức là khoảng 5000mm².

Cho đến nay, ngoài TSMC, không có nhà sản xuất nào có khả năng đóng gói ở mức độ này.

Mặc dù CoWoS chắc chắn là mạnh mẽ, nhưng liệu nó có hoạt động nếu không có nó không? Các nhà sản xuất khác có thể làm điều đó?

Chưa kể Lao Huang đã tuyên bố rằng "chúng tôi sẽ không xem xét thêm xưởng đúc H100 thứ hai".

Trong thực tế, nó có thể là không thể.

Nvidia đã từng hợp tác với Samsung trước đây, nhưng hãng này chưa bao giờ sản xuất các sản phẩm dòng H100 cho Nvidia, hay thậm chí là các chip quy trình 5nm khác.

Dựa trên điều này, một số người suy đoán rằng trình độ kỹ thuật của Samsung có thể không đáp ứng được nhu cầu công nghệ của Nvidia đối với GPU tiên tiến.

Đối với Intel...các sản phẩm 5nm của họ dường như vẫn chưa ra mắt.

Vì việc thay đổi nhà sản xuất Lao Huang là không khả thi, vậy người dùng chuyển thẳng sang AMD thì sao?

AMD，Có？

Chỉ riêng về hiệu suất, AMD thực sự đang dần bắt kịp.

MI300X mới nhất của AMD có bộ nhớ HBM3 192GB, băng thông 5,2TB/giây và có thể chạy 80 tỷ mô hình tham số.

DGX GH200 vừa được Nvidia ra mắt có bộ nhớ 141GB HBM3e và băng thông 5TB/s.

Nhưng điều này không có nghĩa là AMD có thể ngay lập tức lấp đầy chỗ trống của thẻ N——

"Con hào" thực sự của Nvidia nằm ở nền tảng CUDA.

###

CUDA đã thiết lập một hệ sinh thái phát triển hoàn chỉnh, có nghĩa là nếu người dùng mua sản phẩm của AMD, sẽ mất nhiều thời gian hơn để gỡ lỗi.

Giám đốc điều hành của một công ty đám mây tư nhân nói rằng không ai dám mạo hiểm chi 300 triệu USD để triển khai thử nghiệm 10.000 GPU AMD.

Giám đốc điều hành tin rằng chu kỳ phát triển và sửa lỗi có thể mất ít nhất hai tháng.

Trong bối cảnh các sản phẩm AI được thay thế nhanh chóng, khoảng cách hai tháng có thể gây tử vong cho bất kỳ nhà sản xuất nào.

Tuy nhiên, Microsoft đã mở rộng nhánh ô liu cho AMD.

Trước đây, từng có tin đồn cho rằng Microsoft đang chuẩn bị cùng AMD phát triển một con chip AI có tên mã là "Athena".

Trước đó, khi MI200 ra mắt, Microsoft là hãng đầu tiên công bố mua và triển khai nó trên nền tảng đám mây Azure của mình.

Ví dụ: cơ sở hạ tầng mô hình lớn mới của MSRA RetNet đã được đào tạo trên 512 AMD MI200 cách đây một thời gian.

Dưới tình huống Nvidia chiếm lĩnh gần như toàn bộ thị trường AI, có thể cần phải có người đứng đầu chịu trách nhiệm, và toàn bộ cụm sức mạnh điện toán quy mô lớn của AMD phải được kiểm chứng trước khi có ai dám theo dõi.

Tuy nhiên, trong một thời gian ngắn, Nvidia H100 và A100 vẫn là những lựa chọn chủ đạo nhất.

Một điều nữa

Cách đây ít lâu, khi Apple phát hành chip M2 Ultra mới hỗ trợ bộ nhớ lên tới 192GB**, nhiều học viên rất thích sử dụng chip này để tinh chỉnh các mẫu máy lớn.

Xét cho cùng, bộ nhớ và bộ nhớ video của chip dòng M của Apple là thống nhất, bộ nhớ 192GB là bộ nhớ video 192GB, gấp 2,4 lần so với H100 80GB hoặc 8 lần so với RTX4090 24GB.

Tuy nhiên, sau khi có người thực sự mua chiếc máy này, tốc độ thử nghiệm và đào tạo thực tế** không bằng Nvidia RTX3080TI**, tinh chỉnh còn không hiệu quả về chi phí chứ chưa nói đến đào tạo.

Xét cho cùng, khả năng tính toán của chip dòng M không được tối ưu hóa cụ thể cho tính toán AI và bộ nhớ video Everbright là vô dụng.

Có vẻ như chủ yếu phụ thuộc vào H100 để tinh chỉnh mô hình lớn và H100 là thứ bạn không thể yêu cầu.

Đối mặt với tình huống này, thậm chí còn có một "bài hát GPU"** kỳ diệu đang lan truyền trên Internet.

Rất tẩy não, nhập một cách thận trọng.

, thời lượng 04:10

Bài hát GPU về nhà

Liên kết tham khảo: [1] [2] [3] [4] [5] [6] [7] [8] [9]

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.