“Ai sẽ nhận được bao nhiêu H100 và khi nào sẽ là chủ đề nóng nhất ở Thung lũng Silicon.”
Đồng sáng lập OpenAI và nhà khoa học bán thời gian Andrej Karpathy gần đây đã xuất bản một bài viết giải thích quan điểm của ông về tình trạng thiếu GPU NVIDIA.
Gần đây, một bức ảnh "Chúng ta cần bao nhiêu GPU" được lan truyền rộng rãi trong cộng đồng đã làm dấy lên cuộc thảo luận của nhiều cư dân mạng.
Theo nội dung thể hiện trong hình:
GPT-4 có lẽ đã được đào tạo trên khoảng 10.000-25.000 chiếc A100
Meta khoảng 21000 A100
Tesla khoảng 7000 A100
Độ ổn định AI khoảng 5000 A100
Falcon-40B được huấn luyện trên 384 chiếc A100
– Inflection đã sử dụng 3500 và H100 để đào tạo một mô hình tương đương với GPT-3.5
Ngoài ra, theo Musk, GPT-5 có thể cần 30.000-50.000 H100.
Trước đây, Morgan Stanley đã tuyên bố rằng GPT-5 sử dụng 25.000 GPU và đã được đào tạo từ tháng 2, nhưng Sam Altman sau đó đã làm rõ rằng GPT-5 vẫn chưa được đào tạo.
Tuy nhiên, Altman trước đây đã tuyên bố,
Chúng tôi có nguồn cung cấp GPU rất ngắn, càng ít người sử dụng sản phẩm của chúng tôi càng tốt.
Chúng tôi sẽ rất vui nếu mọi người sử dụng ít hơn vì chúng tôi không có đủ GPU.
Trong bài viết này có tiêu đề "GPU Nvidia H100: Cung và Cầu", phân tích chuyên sâu về nhu cầu sử dụng GPU của các công ty công nghệ hiện nay.
Bài báo suy đoán rằng dung lượng cụm H100 quy mô lớn của các nhà cung cấp đám mây lớn và nhỏ sắp cạn kiệt và xu hướng nhu cầu về H100 sẽ tiếp tục cho đến ít nhất là cuối năm 2024.
Vì vậy, nhu cầu GPU có thực sự là một nút cổ chai?
Yêu cầu GPU của các công ty lớn: khoảng 430.000 H100
Hiện tại, sự bùng nổ của AI tổng hợp vẫn chưa chậm lại và nó đặt ra những yêu cầu cao hơn về sức mạnh tính toán.
Một số công ty khởi nghiệp đang sử dụng H100 đắt tiền và hiệu suất cực cao của Nvidia để huấn luyện người mẫu.
Musk cho biết GPU khó kiếm hơn thuốc vào thời điểm này.
Sam Altman nói rằng OpenAI bị giới hạn GPU, điều này làm trì hoãn các kế hoạch ngắn hạn của họ (tinh chỉnh, dung lượng chuyên dụng, cửa sổ ngữ cảnh 32k, đa phương thức).
Ý kiến của Karpathy được đưa ra khi các báo cáo hàng năm từ các công ty công nghệ lớn thậm chí còn thảo luận về các vấn đề liên quan đến quyền truy cập GPU.
Tuần trước, Microsoft đã công bố báo cáo thường niên và nhấn mạnh với các nhà đầu tư rằng GPU là "nguyên liệu thô chính" cho hoạt động kinh doanh trên nền tảng đám mây đang phát triển nhanh chóng của hãng. Nếu cơ sở hạ tầng cần thiết không có sẵn, có thể có yếu tố rủi ro khiến trung tâm dữ liệu ngừng hoạt động.
Bài viết này được viết bởi tác giả của bài đăng HK.
Anh ấy đoán rằng OpenAI có thể cần 50.000 H100, trong khi Inflection cần 22.000, Meta có thể cần 25 nghìn và các nhà cung cấp dịch vụ đám mây lớn có thể cần 30 nghìn (chẳng hạn như Azure, Google Cloud, AWS, Oracle).
Lambda và CoreWeave và các đám mây riêng khác có thể cần tổng cộng 100 nghìn. Anh ấy viết rằng Anthropic, Helsing, Mistral và Character mỗi người có thể cần 10k.
Các tác giả cho biết đây đều là những ước tính và phỏng đoán sơ bộ, một số trong số đó là tính toán hai lần của đám mây và khách hàng cuối thuê thiết bị từ đám mây.
Nhìn chung, các công ty toàn cầu cần khoảng 432.000 chiếc H100. Tính toán khoảng 35.000 đô la cho mỗi H100, tổng nhu cầu GPU có giá 15 tỷ đô la.
Điều này không bao gồm các công ty Internet trong nước cần một số lượng lớn H800.
Ngoài ra còn có một số công ty tài chính nổi tiếng như Jane Street, JP Morgan, Two Sigma… mỗi công ty đang triển khai, bắt đầu với hàng trăm A/H100 và mở rộng lên hàng nghìn A/H100.
Tất cả các phòng thí nghiệm lớn bao gồm OpenAI, Anthropic, DeepMind, Google và X.ai đều đang đào tạo các mô hình ngôn ngữ lớn và H100 của Nvidia là không thể thay thế.
**Tại sao H100 là lựa chọn hàng đầu? **
H100 phổ biến hơn A100 với tư cách là lựa chọn đầu tiên, một phần do độ trễ bộ đệm thấp hơn và điện toán FP8.
Vì hiệu quả của nó gấp 3 lần nhưng giá thành chỉ (1,5-2 lần). Xem xét chi phí hệ thống tổng thể, hiệu suất của H100 cao hơn nhiều.
Về chi tiết kỹ thuật, so với A100, H100 nhanh hơn khoảng 3,5 lần ở tốc độ suy luận 16 bit và nhanh hơn khoảng 2,3 lần ở tốc độ đào tạo 16 bit.
Tốc độ A100 so với H100
H100 đào tạo MoE
H100 gia tốc lớn
Hầu hết các công ty mua H100 và sử dụng nó để đào tạo và suy luận, trong khi A100 chủ yếu là để suy luận.
Nhưng một số công ty do dự trong việc chuyển đổi do chi phí, dung lượng, rủi ro khi sử dụng và thiết lập phần cứng mới cũng như thực tế là phần mềm hiện có đã được tối ưu hóa cho A100.
GPU không phải là thiếu, mà là vấn đề về chuỗi cung ứng
Một giám đốc điều hành của Nvidia cho biết vấn đề không phải là thiếu GPU mà là cách những GPU đó tiếp cận thị trường.
Nvidia đang sản xuất GPU hết công suất, nhưng giám đốc điều hành cho biết năng lực sản xuất GPU chủ yếu bị hạn chế bởi chuỗi cung ứng.
Bản thân chip có thể có đủ công suất, nhưng công suất của các thành phần khác không đủ sẽ hạn chế nghiêm trọng công suất của GPU.
Việc sản xuất các thành phần này phụ thuộc vào các nhà cung cấp khác trên khắp thế giới.
Nhưng nhu cầu là có thể dự đoán được, vì vậy bây giờ vấn đề đang dần được giải quyết.
Năng lực sản xuất chip GPU
Trước hết, Nvidia chỉ hợp tác với TSMC để sản xuất H100. Tất cả GPU 5nm của Nvidia chỉ hợp tác với TSMC.
Có thể hợp tác với Intel và Samsung trong tương lai, nhưng không thể trong thời gian ngắn, điều này làm hạn chế việc sản xuất H100.
Theo người tố giác, TSMC có 4 nút sản xuất để cung cấp năng lực cho chip 5nm: N5, N5P, N4, N5P
H100 chỉ được sản xuất trên nút 4N của N5 hoặc N5P, đây là nút nâng cao 5nm.
Nvidia cần chia sẻ dung lượng của nút này với Apple, Qualcomm và AMD.
Nhà máy TSMC cần lập kế hoạch năng lực sản xuất của từng khách hàng trước 12 tháng.
Nếu như trước đây Nvidia và TSMC đánh giá thấp nhu cầu về H100 thì hiện tại năng lực sản xuất sẽ bị hạn chế.
Theo người tố giác, sẽ mất khoảng nửa năm để H100 đi từ sản xuất đến giao hàng.
Hơn nữa, người tố giác cũng dẫn lời một chuyên gia trong ngành bán dẫn đã nghỉ hưu nói rằng fab không phải là nút cổ chai sản xuất của TSMC và bao bì CoWoS (xếp chồng 3D) là cánh cổng cho năng lực sản xuất của TSMC.
Dung lượng bộ nhớ H100
Còn một thành phần quan trọng khác trên H100 là bộ nhớ H100 cũng có thể gặp vấn đề không đủ dung lượng.
HBM (Bộ nhớ băng thông cao) được tích hợp với GPU theo cách đặc biệt, là thành phần quan trọng đảm bảo hiệu năng của GPU.
Người tố cáo dẫn lời một người trong ngành cho biết:
Vấn đề chính là HBM. Làm cho nó là một cơn ác mộng. Do HBM khó sản xuất nên nguồn cung rất hạn chế. Cả sản xuất và thiết kế đều phải tuân theo nhịp điệu của nó.
Đối với bộ nhớ HBM3, Nvidia hầu như luôn sử dụng các sản phẩm của SK Hynix và có thể có một số sản phẩm của Samsung và không nên có sản phẩm của Micron.
Nvidia muốn SK Hynix tăng năng lực sản xuất và họ đang làm điều đó. Nhưng cả Samsung và Micron đều có năng lực hạn chế.
Hơn nữa, nhiều vật liệu và quy trình khác, bao gồm cả các nguyên tố đất hiếm, sẽ được sử dụng trong sản xuất GPU, đây cũng sẽ trở thành những yếu tố có thể hạn chế năng lực sản xuất GPU.
Chip GPU sẽ phát triển như thế nào trong tương lai
Tuyên bố của Nvidia
Nvidia chỉ tiết lộ rằng họ sẽ có thể cung cấp nhiều GPU hơn trong nửa cuối năm chứ không cung cấp bất kỳ thông tin định lượng nào.
Chúng tôi đang xử lý nguồn cung cho quý hôm nay, nhưng chúng tôi cũng đang mua một lượng lớn nguồn cung cho nửa cuối năm nay.
Chúng tôi cho rằng nguồn cung nửa cuối năm sẽ cao hơn nhiều so với nửa đầu năm.
– Giám đốc tài chính Nvidia Colette Kress trong cuộc gọi thu nhập từ tháng 2 đến tháng 4 năm 2023
Cái gì tiếp theo?
Vấn đề cung cấp GPU hiện là một vòng luẩn quẩn trong đó sự khan hiếm khiến quyền sở hữu GPU bị coi là một con hào, khiến nhiều GPU bị tích trữ hơn, làm trầm trọng thêm tình trạng khan hiếm.
– Tiết lộ người phụ trách private cloud
**Khi nào thế hệ tiếp theo của H100 sẽ xuất hiện? **
Theo lộ trình trước đó của Nvidia, thế hệ tiếp theo của H100 sẽ không được công bố cho đến cuối năm 2024 đến đầu năm 2025.
Cho đến thời điểm đó, H100 sẽ là sản phẩm chủ lực của Nvidia.
Tuy nhiên, Nvidia sẽ ra mắt phiên bản H100 120GB làm mát bằng nước trong thời gian này.
Theo những người trong ngành được người tố giác phỏng vấn, H100 sẽ được bán hết vào cuối năm 2023! !
**Làm thế nào để có được sức mạnh tính toán của H100? **
Như các giám đốc điều hành của Nvidia đã đề cập trước đó, sức mạnh tính toán do GPU H100 cung cấp cuối cùng sẽ được tích hợp vào chuỗi ngành thông qua các nhà cung cấp điện toán đám mây khác nhau, do đó, một mặt, sự thiếu hụt H100 là do việc tạo GPU.
Một khía cạnh khác là cách các nhà cung cấp điện toán đám mây có thể có được H100 từ Nvidia một cách hiệu quả và cuối cùng tiếp cận những khách hàng cần nó bằng cách cung cấp sức mạnh điện toán đám mây.
Quá trình này chỉ đơn giản là:
Nhà cung cấp điện toán đám mây mua chip H100 từ các OEM, sau đó xây dựng các dịch vụ đám mây điện toán và bán chúng cho các công ty AI khác nhau để người dùng cuối có thể có được sức mạnh điện toán H100.
Ngoài ra còn có nhiều yếu tố khác nhau trong quá trình này đã gây ra tình trạng thiếu hụt sức mạnh tính toán H100 hiện nay và bài viết đưa tin cũng cung cấp nhiều thông tin trong ngành để bạn tham khảo.
**Tôi có thể mua bảng H100 từ ai? **
Các OEM như Dell, Lenovo, HPE, Supermicro và Quanta sẽ bán cả H100 và HGX H100.
Các nhà cung cấp đám mây như CoreWeave và Lambda mua GPU từ các OEM và cho các công ty khởi nghiệp thuê chúng.
Hyperscalers (Azure, GCP, AWS, Oracle) sẽ hoạt động trực tiếp hơn với Nvidia, nhưng cũng sẽ mua từ các OEM. Điều này có vẻ giống với cách game thủ mua card đồ họa. Nhưng ngay cả để mua DGX, người dùng cần phải mua thông qua OEM và không thể đặt hàng trực tiếp với Nvidia.
thời gian giao hàng
Thời gian chạy của máy chủ 8 GPU HGX là rất tệ, thời gian chạy của máy chủ 4 GPU HGX là vừa phải.
Nhưng mọi khách hàng đều muốn có một máy chủ 8 GPU!
Công ty khởi nghiệp có mua hàng từ OEM và đại lý không?
Nếu một công ty mới thành lập muốn có được sức mạnh tính toán của H100, thì cuối cùng, họ không mua H100 và cắm nó vào cụm GPU của riêng mình.
Họ thường thuê sức mạnh tính toán từ các đám mây lớn như Oracle, các đám mây riêng như Lambda và CoreWeave hoặc các nhà cung cấp làm việc với các OEM và trung tâm dữ liệu như FluidStack.
Nếu bạn muốn xây dựng trung tâm dữ liệu của riêng mình, bạn cần xem xét thời gian xây dựng trung tâm dữ liệu, liệu bạn có nhân sự và kinh nghiệm về phần cứng hay không và liệu chi phí vốn có thể chi trả được hay không.
Thuê và lưu trữ máy chủ đã trở nên dễ dàng hơn. Nếu người dùng muốn xây dựng trung tâm dữ liệu của riêng mình, thì phải đặt một đường cáp quang tối để kết nối Internet - 10.000 USD mỗi km. Phần lớn cơ sở hạ tầng đã được xây dựng và trả tiền trong thời kỳ bùng nổ dot-com. Cho thuê thôi, rẻ mà.
– Người phụ trách private cloud
Trình tự từ cho thuê đến dịch vụ đám mây tự xây dựng đại khái là: dịch vụ đám mây cho thuê theo yêu cầu (dịch vụ đám mây cho thuê thuần túy), dịch vụ đám mây theo lịch trình, dịch vụ đám mây được quản lý (mua máy chủ, hợp tác với nhà cung cấp để lưu trữ và quản lý máy chủ), tự lưu trữ (tự mua) và máy chủ lưu trữ)).
Hầu hết các công ty khởi nghiệp cần sức mạnh tính toán H100 sẽ chọn đặt dịch vụ đám mây hoặc dịch vụ đám mây được quản lý.
So sánh giữa các nền tảng điện toán đám mây lớn
Đối với nhiều công ty mới thành lập, các dịch vụ đám mây do các công ty điện toán đám mây lớn cung cấp là nguồn H100 cuối cùng của họ.
Việc lựa chọn nền tảng đám mây cuối cùng cũng quyết định liệu họ có thể có được sức mạnh tính toán H100 ổn định hay không.
Điểm chung là: Oracle không đáng tin cậy như ba đám mây lớn. Nhưng Oracle sẽ cung cấp thêm trợ giúp hỗ trợ kỹ thuật.
Sự khác biệt chính giữa các công ty điện toán đám mây lớn khác là:
Kết nối mạng: Trong khi hầu hết các công ty khởi nghiệp đang tìm kiếm các cụm A100/H100 lớn đều đang tìm kiếm InfiniBand, AWS và Google Cloud đã chậm hơn trong việc áp dụng InfiniBand vì họ có cách tiếp cận riêng để cung cấp dịch vụ.
Tính khả dụng: Hầu hết H100 của Microsoft Azure được dành riêng cho OpenAI. Google đã gặp khó khăn hơn trong việc mua H100.
Bởi vì Nvidia dường như có xu hướng cung cấp nhiều hạn ngạch H100 hơn cho những đám mây không có kế hoạch phát triển chip máy học cạnh tranh. (Đây là tất cả suy đoán, không phải sự thật phũ phàng.)
Ba công ty đám mây lớn ngoại trừ Microsoft đều đang phát triển chip máy học và các sản phẩm thay thế Nvidia từ AWS và Google đã có mặt trên thị trường, chiếm một phần thị phần.
Xét về mối quan hệ với Nvidia, nó có thể diễn ra như sau: Oracle và Azure > GCP và AWS. Nhưng đó chỉ là phỏng đoán.
Các nhà cung cấp điện toán đám mây nhỏ hơn sẽ rẻ hơn, nhưng trong một số trường hợp, một số nhà cung cấp điện toán đám mây sẽ trao đổi sức mạnh điện toán để lấy vốn chủ sở hữu.
Cách Nvidia phân bổ H100
Nvidia sẽ cung cấp cho mỗi khách hàng hạn ngạch H100.
Nhưng nếu Azure nói "Này, chúng tôi muốn nhận 10.000 H100, tất cả cho Inflection" thì bạn sẽ nhận được hạn ngạch khác với nếu Azure nói "Này, chúng tôi muốn nhận 10.000 H100 cho đám mây Azure".
Nvidia quan tâm đến khách hàng cuối cùng là ai, vì vậy nếu Nvidia quan tâm đến khách hàng sử dụng cuối cùng, nền tảng của nhà cung cấp điện toán đám mây sẽ nhận được nhiều H100 hơn.
Nvidia muốn hiểu càng nhiều càng tốt khách hàng cuối cùng là ai và họ thích những khách hàng có thương hiệu tốt hoặc công ty khởi nghiệp có truyền thống vững chắc.
Vâng, đó có vẻ là trường hợp. NVIDIA thích đảm bảo quyền truy cập GPU vào các công ty AI mới nổi (nhiều công ty trong số đó có quan hệ chặt chẽ với họ). Hãy xem Inflection - một công ty AI mà họ đầu tư - đang thử nghiệm một cụm H100 khổng lồ trên CoreWeave mà họ cũng đầu tư vào.
– Người phụ trách private cloud
Phần kết luận
Cơn khát GPU hiện tại vừa là bọt vừa là sự cường điệu, nhưng nó tồn tại một cách khách quan.
Có những công ty như OpenAI với các sản phẩm như ChatGPT đang thu hút sự chú ý, nhưng họ vẫn không thể có đủ GPU.
Các công ty khác đang mua và tích trữ GPU để sử dụng trong tương lai hoặc để đào tạo các mô hình ngôn ngữ lớn mà thị trường thậm chí có thể không sử dụng. Điều này tạo ra bong bóng thiếu GPU.
Nhưng dù nhìn thế nào thì Nvidia vẫn là ông vua xanh trong pháo đài.
Người giới thiệu:
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
Sự ra đời của GPT-5 cần 50.000 chiếc H100! Tổng nhu cầu toàn cầu về H100 là 430.000 và GPU Nvidia đang trong cơn bão thiếu hụt
Nguồn gốc: Xinzhiyuan
“Ai sẽ nhận được bao nhiêu H100 và khi nào sẽ là chủ đề nóng nhất ở Thung lũng Silicon.”
Đồng sáng lập OpenAI và nhà khoa học bán thời gian Andrej Karpathy gần đây đã xuất bản một bài viết giải thích quan điểm của ông về tình trạng thiếu GPU NVIDIA.
GPT-4 có lẽ đã được đào tạo trên khoảng 10.000-25.000 chiếc A100
Meta khoảng 21000 A100
Tesla khoảng 7000 A100
Độ ổn định AI khoảng 5000 A100
Falcon-40B được huấn luyện trên 384 chiếc A100
– Inflection đã sử dụng 3500 và H100 để đào tạo một mô hình tương đương với GPT-3.5
Ngoài ra, theo Musk, GPT-5 có thể cần 30.000-50.000 H100.
Trước đây, Morgan Stanley đã tuyên bố rằng GPT-5 sử dụng 25.000 GPU và đã được đào tạo từ tháng 2, nhưng Sam Altman sau đó đã làm rõ rằng GPT-5 vẫn chưa được đào tạo.
Tuy nhiên, Altman trước đây đã tuyên bố,
Bài báo suy đoán rằng dung lượng cụm H100 quy mô lớn của các nhà cung cấp đám mây lớn và nhỏ sắp cạn kiệt và xu hướng nhu cầu về H100 sẽ tiếp tục cho đến ít nhất là cuối năm 2024.
Yêu cầu GPU của các công ty lớn: khoảng 430.000 H100
Hiện tại, sự bùng nổ của AI tổng hợp vẫn chưa chậm lại và nó đặt ra những yêu cầu cao hơn về sức mạnh tính toán.
Một số công ty khởi nghiệp đang sử dụng H100 đắt tiền và hiệu suất cực cao của Nvidia để huấn luyện người mẫu.
Musk cho biết GPU khó kiếm hơn thuốc vào thời điểm này.
Sam Altman nói rằng OpenAI bị giới hạn GPU, điều này làm trì hoãn các kế hoạch ngắn hạn của họ (tinh chỉnh, dung lượng chuyên dụng, cửa sổ ngữ cảnh 32k, đa phương thức).
Ý kiến của Karpathy được đưa ra khi các báo cáo hàng năm từ các công ty công nghệ lớn thậm chí còn thảo luận về các vấn đề liên quan đến quyền truy cập GPU.
Tuần trước, Microsoft đã công bố báo cáo thường niên và nhấn mạnh với các nhà đầu tư rằng GPU là "nguyên liệu thô chính" cho hoạt động kinh doanh trên nền tảng đám mây đang phát triển nhanh chóng của hãng. Nếu cơ sở hạ tầng cần thiết không có sẵn, có thể có yếu tố rủi ro khiến trung tâm dữ liệu ngừng hoạt động.
Lambda và CoreWeave và các đám mây riêng khác có thể cần tổng cộng 100 nghìn. Anh ấy viết rằng Anthropic, Helsing, Mistral và Character mỗi người có thể cần 10k.
Các tác giả cho biết đây đều là những ước tính và phỏng đoán sơ bộ, một số trong số đó là tính toán hai lần của đám mây và khách hàng cuối thuê thiết bị từ đám mây.
Nhìn chung, các công ty toàn cầu cần khoảng 432.000 chiếc H100. Tính toán khoảng 35.000 đô la cho mỗi H100, tổng nhu cầu GPU có giá 15 tỷ đô la.
Điều này không bao gồm các công ty Internet trong nước cần một số lượng lớn H800.
Ngoài ra còn có một số công ty tài chính nổi tiếng như Jane Street, JP Morgan, Two Sigma… mỗi công ty đang triển khai, bắt đầu với hàng trăm A/H100 và mở rộng lên hàng nghìn A/H100.
**Tại sao H100 là lựa chọn hàng đầu? **
H100 phổ biến hơn A100 với tư cách là lựa chọn đầu tiên, một phần do độ trễ bộ đệm thấp hơn và điện toán FP8.
Vì hiệu quả của nó gấp 3 lần nhưng giá thành chỉ (1,5-2 lần). Xem xét chi phí hệ thống tổng thể, hiệu suất của H100 cao hơn nhiều.
Về chi tiết kỹ thuật, so với A100, H100 nhanh hơn khoảng 3,5 lần ở tốc độ suy luận 16 bit và nhanh hơn khoảng 2,3 lần ở tốc độ đào tạo 16 bit.
Hầu hết các công ty mua H100 và sử dụng nó để đào tạo và suy luận, trong khi A100 chủ yếu là để suy luận.
Nhưng một số công ty do dự trong việc chuyển đổi do chi phí, dung lượng, rủi ro khi sử dụng và thiết lập phần cứng mới cũng như thực tế là phần mềm hiện có đã được tối ưu hóa cho A100.
GPU không phải là thiếu, mà là vấn đề về chuỗi cung ứng
Một giám đốc điều hành của Nvidia cho biết vấn đề không phải là thiếu GPU mà là cách những GPU đó tiếp cận thị trường.
Nvidia đang sản xuất GPU hết công suất, nhưng giám đốc điều hành cho biết năng lực sản xuất GPU chủ yếu bị hạn chế bởi chuỗi cung ứng.
Bản thân chip có thể có đủ công suất, nhưng công suất của các thành phần khác không đủ sẽ hạn chế nghiêm trọng công suất của GPU.
Việc sản xuất các thành phần này phụ thuộc vào các nhà cung cấp khác trên khắp thế giới.
Nhưng nhu cầu là có thể dự đoán được, vì vậy bây giờ vấn đề đang dần được giải quyết.
Năng lực sản xuất chip GPU
Trước hết, Nvidia chỉ hợp tác với TSMC để sản xuất H100. Tất cả GPU 5nm của Nvidia chỉ hợp tác với TSMC.
Có thể hợp tác với Intel và Samsung trong tương lai, nhưng không thể trong thời gian ngắn, điều này làm hạn chế việc sản xuất H100.
Theo người tố giác, TSMC có 4 nút sản xuất để cung cấp năng lực cho chip 5nm: N5, N5P, N4, N5P
H100 chỉ được sản xuất trên nút 4N của N5 hoặc N5P, đây là nút nâng cao 5nm.
Nvidia cần chia sẻ dung lượng của nút này với Apple, Qualcomm và AMD.
Nhà máy TSMC cần lập kế hoạch năng lực sản xuất của từng khách hàng trước 12 tháng.
Nếu như trước đây Nvidia và TSMC đánh giá thấp nhu cầu về H100 thì hiện tại năng lực sản xuất sẽ bị hạn chế.
Theo người tố giác, sẽ mất khoảng nửa năm để H100 đi từ sản xuất đến giao hàng.
Hơn nữa, người tố giác cũng dẫn lời một chuyên gia trong ngành bán dẫn đã nghỉ hưu nói rằng fab không phải là nút cổ chai sản xuất của TSMC và bao bì CoWoS (xếp chồng 3D) là cánh cổng cho năng lực sản xuất của TSMC.
Dung lượng bộ nhớ H100
Còn một thành phần quan trọng khác trên H100 là bộ nhớ H100 cũng có thể gặp vấn đề không đủ dung lượng.
HBM (Bộ nhớ băng thông cao) được tích hợp với GPU theo cách đặc biệt, là thành phần quan trọng đảm bảo hiệu năng của GPU.
Vấn đề chính là HBM. Làm cho nó là một cơn ác mộng. Do HBM khó sản xuất nên nguồn cung rất hạn chế. Cả sản xuất và thiết kế đều phải tuân theo nhịp điệu của nó.
Đối với bộ nhớ HBM3, Nvidia hầu như luôn sử dụng các sản phẩm của SK Hynix và có thể có một số sản phẩm của Samsung và không nên có sản phẩm của Micron.
Nvidia muốn SK Hynix tăng năng lực sản xuất và họ đang làm điều đó. Nhưng cả Samsung và Micron đều có năng lực hạn chế.
Hơn nữa, nhiều vật liệu và quy trình khác, bao gồm cả các nguyên tố đất hiếm, sẽ được sử dụng trong sản xuất GPU, đây cũng sẽ trở thành những yếu tố có thể hạn chế năng lực sản xuất GPU.
Chip GPU sẽ phát triển như thế nào trong tương lai
Tuyên bố của Nvidia
Nvidia chỉ tiết lộ rằng họ sẽ có thể cung cấp nhiều GPU hơn trong nửa cuối năm chứ không cung cấp bất kỳ thông tin định lượng nào.
Cái gì tiếp theo?
**Khi nào thế hệ tiếp theo của H100 sẽ xuất hiện? **
Theo lộ trình trước đó của Nvidia, thế hệ tiếp theo của H100 sẽ không được công bố cho đến cuối năm 2024 đến đầu năm 2025.
Cho đến thời điểm đó, H100 sẽ là sản phẩm chủ lực của Nvidia.
Tuy nhiên, Nvidia sẽ ra mắt phiên bản H100 120GB làm mát bằng nước trong thời gian này.
Theo những người trong ngành được người tố giác phỏng vấn, H100 sẽ được bán hết vào cuối năm 2023! !
**Làm thế nào để có được sức mạnh tính toán của H100? **
Như các giám đốc điều hành của Nvidia đã đề cập trước đó, sức mạnh tính toán do GPU H100 cung cấp cuối cùng sẽ được tích hợp vào chuỗi ngành thông qua các nhà cung cấp điện toán đám mây khác nhau, do đó, một mặt, sự thiếu hụt H100 là do việc tạo GPU.
Một khía cạnh khác là cách các nhà cung cấp điện toán đám mây có thể có được H100 từ Nvidia một cách hiệu quả và cuối cùng tiếp cận những khách hàng cần nó bằng cách cung cấp sức mạnh điện toán đám mây.
Quá trình này chỉ đơn giản là:
Nhà cung cấp điện toán đám mây mua chip H100 từ các OEM, sau đó xây dựng các dịch vụ đám mây điện toán và bán chúng cho các công ty AI khác nhau để người dùng cuối có thể có được sức mạnh điện toán H100.
Ngoài ra còn có nhiều yếu tố khác nhau trong quá trình này đã gây ra tình trạng thiếu hụt sức mạnh tính toán H100 hiện nay và bài viết đưa tin cũng cung cấp nhiều thông tin trong ngành để bạn tham khảo.
**Tôi có thể mua bảng H100 từ ai? **
Các OEM như Dell, Lenovo, HPE, Supermicro và Quanta sẽ bán cả H100 và HGX H100.
Các nhà cung cấp đám mây như CoreWeave và Lambda mua GPU từ các OEM và cho các công ty khởi nghiệp thuê chúng.
Hyperscalers (Azure, GCP, AWS, Oracle) sẽ hoạt động trực tiếp hơn với Nvidia, nhưng cũng sẽ mua từ các OEM. Điều này có vẻ giống với cách game thủ mua card đồ họa. Nhưng ngay cả để mua DGX, người dùng cần phải mua thông qua OEM và không thể đặt hàng trực tiếp với Nvidia.
thời gian giao hàng
Thời gian chạy của máy chủ 8 GPU HGX là rất tệ, thời gian chạy của máy chủ 4 GPU HGX là vừa phải.
Nhưng mọi khách hàng đều muốn có một máy chủ 8 GPU!
Công ty khởi nghiệp có mua hàng từ OEM và đại lý không?
Nếu một công ty mới thành lập muốn có được sức mạnh tính toán của H100, thì cuối cùng, họ không mua H100 và cắm nó vào cụm GPU của riêng mình.
Họ thường thuê sức mạnh tính toán từ các đám mây lớn như Oracle, các đám mây riêng như Lambda và CoreWeave hoặc các nhà cung cấp làm việc với các OEM và trung tâm dữ liệu như FluidStack.
Nếu bạn muốn xây dựng trung tâm dữ liệu của riêng mình, bạn cần xem xét thời gian xây dựng trung tâm dữ liệu, liệu bạn có nhân sự và kinh nghiệm về phần cứng hay không và liệu chi phí vốn có thể chi trả được hay không.
Trình tự từ cho thuê đến dịch vụ đám mây tự xây dựng đại khái là: dịch vụ đám mây cho thuê theo yêu cầu (dịch vụ đám mây cho thuê thuần túy), dịch vụ đám mây theo lịch trình, dịch vụ đám mây được quản lý (mua máy chủ, hợp tác với nhà cung cấp để lưu trữ và quản lý máy chủ), tự lưu trữ (tự mua) và máy chủ lưu trữ)).
Hầu hết các công ty khởi nghiệp cần sức mạnh tính toán H100 sẽ chọn đặt dịch vụ đám mây hoặc dịch vụ đám mây được quản lý.
So sánh giữa các nền tảng điện toán đám mây lớn
Đối với nhiều công ty mới thành lập, các dịch vụ đám mây do các công ty điện toán đám mây lớn cung cấp là nguồn H100 cuối cùng của họ.
Việc lựa chọn nền tảng đám mây cuối cùng cũng quyết định liệu họ có thể có được sức mạnh tính toán H100 ổn định hay không.
Điểm chung là: Oracle không đáng tin cậy như ba đám mây lớn. Nhưng Oracle sẽ cung cấp thêm trợ giúp hỗ trợ kỹ thuật.
Sự khác biệt chính giữa các công ty điện toán đám mây lớn khác là:
Kết nối mạng: Trong khi hầu hết các công ty khởi nghiệp đang tìm kiếm các cụm A100/H100 lớn đều đang tìm kiếm InfiniBand, AWS và Google Cloud đã chậm hơn trong việc áp dụng InfiniBand vì họ có cách tiếp cận riêng để cung cấp dịch vụ.
Tính khả dụng: Hầu hết H100 của Microsoft Azure được dành riêng cho OpenAI. Google đã gặp khó khăn hơn trong việc mua H100.
Bởi vì Nvidia dường như có xu hướng cung cấp nhiều hạn ngạch H100 hơn cho những đám mây không có kế hoạch phát triển chip máy học cạnh tranh. (Đây là tất cả suy đoán, không phải sự thật phũ phàng.)
Ba công ty đám mây lớn ngoại trừ Microsoft đều đang phát triển chip máy học và các sản phẩm thay thế Nvidia từ AWS và Google đã có mặt trên thị trường, chiếm một phần thị phần.
Xét về mối quan hệ với Nvidia, nó có thể diễn ra như sau: Oracle và Azure > GCP và AWS. Nhưng đó chỉ là phỏng đoán.
Các nhà cung cấp điện toán đám mây nhỏ hơn sẽ rẻ hơn, nhưng trong một số trường hợp, một số nhà cung cấp điện toán đám mây sẽ trao đổi sức mạnh điện toán để lấy vốn chủ sở hữu.
Cách Nvidia phân bổ H100
Nvidia sẽ cung cấp cho mỗi khách hàng hạn ngạch H100.
Nhưng nếu Azure nói "Này, chúng tôi muốn nhận 10.000 H100, tất cả cho Inflection" thì bạn sẽ nhận được hạn ngạch khác với nếu Azure nói "Này, chúng tôi muốn nhận 10.000 H100 cho đám mây Azure".
Nvidia quan tâm đến khách hàng cuối cùng là ai, vì vậy nếu Nvidia quan tâm đến khách hàng sử dụng cuối cùng, nền tảng của nhà cung cấp điện toán đám mây sẽ nhận được nhiều H100 hơn.
Nvidia muốn hiểu càng nhiều càng tốt khách hàng cuối cùng là ai và họ thích những khách hàng có thương hiệu tốt hoặc công ty khởi nghiệp có truyền thống vững chắc.
Phần kết luận
Cơn khát GPU hiện tại vừa là bọt vừa là sự cường điệu, nhưng nó tồn tại một cách khách quan.
Có những công ty như OpenAI với các sản phẩm như ChatGPT đang thu hút sự chú ý, nhưng họ vẫn không thể có đủ GPU.
Các công ty khác đang mua và tích trữ GPU để sử dụng trong tương lai hoặc để đào tạo các mô hình ngôn ngữ lớn mà thị trường thậm chí có thể không sử dụng. Điều này tạo ra bong bóng thiếu GPU.
Nhưng dù nhìn thế nào thì Nvidia vẫn là ông vua xanh trong pháo đài.