Đè bẹp H100! Siêu chip NVIDIA GH200 ra mắt MLPerf v3.1, hiệu năng tăng 17%

Nguồn: Xinzhiyuan

Sau khi tham gia bài kiểm tra đào tạo LLM vào tháng 4, MLPerf một lần nữa nhận được bản cập nhật lớn!

Vừa rồi, MLCommons đã phát hành bản cập nhật cho MLPerf v3.1 và thêm hai điểm chuẩn mới: Kiểm tra suy luận LLM MLPerf Inference v3.1 và kiểm tra hiệu suất lưu trữ MLPerf Storage v0.5.

Và đây, đây cũng là lần ra mắt kết quả thử nghiệm NVIDIA GH200!

So với một H100 đơn lẻ được ghép nối với CPU Intel, sự kết hợp giữa CPU Grace + GPU H100 của GH200 có mức cải thiện khoảng 15% trong nhiều dự án khác nhau.

Ra mắt siêu chip NVIDIA GH200

Không còn nghi ngờ gì nữa, GPU của Nvidia hoạt động tốt nhất trong tiêu chuẩn MLPerf Inference 3.1.

Trong số đó, siêu chip GH200 Grace Hopper mới ra mắt cũng đã ra mắt lần đầu trên MLPerf Inference 3.1.

Siêu chip Grace Hopper tích hợp CPU Grace của Nvidia và GPU H100 thông qua kết nối băng thông cực cao để mang lại hiệu năng mạnh mẽ hơn so với một chiếc H100 đơn lẻ kết hợp với các CPU khác.

Dave Salvator, giám đốc trí tuệ nhân tạo tại Nvidia, cho biết trong một cuộc họp báo: “Grace Hopper đã thể hiện hiệu suất rất mạnh lần đầu tiên, với mức cải thiện hiệu suất 17% so với GPU H100 của chúng tôi gửi và chúng tôi đã dẫn đầu về mọi mặt”. giải phóng.

Tăng hiệu suất đáng kể

Cụ thể, nó tích hợp GPU H100 và CPU Grace, được kết nối qua NVLink-C2C 900GB/s.

CPU và GPU lần lượt được trang bị bộ nhớ LPDDR5X 480GB và 96GB bộ nhớ HBM3 hoặc 144GB bộ nhớ HBM3e, tích hợp bộ nhớ truy cập tốc độ cao lên tới 576GB.

Siêu chip GH200 Grace Hopper của NVIDIA được thiết kế cho khối lượng công việc tính toán chuyên sâu và có thể đáp ứng nhiều yêu cầu và chức năng khắt khe.

Chẳng hạn như đào tạo và chạy các mô hình Transformer lớn với hàng nghìn tỷ tham số hoặc chạy các hệ thống đề xuất và cơ sở dữ liệu vectơ với các bảng nhúng có kích thước nhiều terabyte.

Siêu chip GH200 Grace Hopper cũng thể hiện rất tốt trong bài kiểm tra MLPerf Inference, phá vỡ kết quả tốt nhất mà một Nvidia H100 SXM duy nhất đạt được trong mỗi dự án.

Kết quả so sánh giữa hiệu năng của trung tâm dữ liệu suy luận NVIDIA Grace Hopper MLPerf và DGX H100 SXM. Mỗi giá trị là dẫn đầu về hiệu suất của GH200

Siêu chip GH200 Grace Hopper tích hợp 96 GB HBM3 và cung cấp băng thông bộ nhớ HBM3 lên tới 4 TB/s, so với 80 GB và 3,35 TB/s của H100 SXM.

Dung lượng bộ nhớ lớn hơn và băng thông bộ nhớ tăng lên cho phép sử dụng kích thước lô lớn hơn cho khối lượng công việc trên siêu chip NVIDIA GH200 Grace Hopper so với H100 SXM.

Ví dụ: trong kịch bản máy chủ, kích thước lô tăng gấp đôi cho cả RetinaNet và DLRMv2 và trong kịch bản ngoại tuyến, kích thước lô tăng thêm 50%.

Kết nối NVLink-C2C băng thông cao của siêu chip GH200 Grace Hopper giữa GPU Hopper và CPU Grace cho phép giao tiếp nhanh giữa CPU và GPU, giúp cải thiện hiệu suất.

Ví dụ: trong MLPerf DLRMv2, việc truyền một loạt tensor qua PCIe trên H100 SXM mất khoảng 22% thời gian suy luận của lô.

Siêu chip GH200 Grace Hopper sử dụng NVLink-C2C đã hoàn thành quá trình truyền tương tự chỉ với 3% thời gian suy luận.

Do có băng thông bộ nhớ cao hơn và dung lượng bộ nhớ lớn hơn nên siêu chip Grace Hopper có lợi thế hiệu năng đơn chip lên tới 17% so với GPU H100 của MLPerf Inference v3.1.

Dẫn đầu về lý luận và đào tạo

Trong lần ra mắt MLPerf, Siêu chip GH200 Grace Hopper đã thể hiện hiệu suất vượt trội trên tất cả các khối lượng công việc và tình huống trong Bộ phận kín.

Trong các ứng dụng máy chủ phổ thông, GPU L4 có thể cung cấp giải pháp điện toán nhỏ gọn, tiêu thụ ít năng lượng và hiệu suất của nó cũng được cải thiện đáng kể so với các giải pháp CPU.

Salvator cho biết: “So với CPU x86 tốt nhất trong thử nghiệm, hiệu năng của L4 cũng rất mạnh, cải thiện gấp 6 lần”.

Đối với các ứng dụng AI và ứng dụng robot khác, các mô-đun Jetson AGX Orin và Jetson Orin NX đạt được hiệu suất vượt trội.

Việc tối ưu hóa phần mềm trong tương lai sẽ giúp khai thác thêm tiềm năng của NVIDIA Orin SoC mạnh mẽ trong các mô-đun này.

Trên mạng AI phát hiện mục tiêu rất phổ biến hiện nay - RetinaNet, hiệu suất của các sản phẩm của Nvidia đã được cải thiện tới 84%.

Kết quả từ NVIDIA Open Division chứng minh tiềm năng tối ưu hóa mô hình để cải thiện đáng kể hiệu suất suy luận trong khi vẫn duy trì độ chính xác cực cao.

Điểm chuẩn MLPerf 3.1 mới

Tất nhiên, đây không phải là nỗ lực đầu tiên của MLCommons trong việc đánh giá hiệu suất của các mô hình ngôn ngữ lớn.

Ngay từ tháng 6 năm nay, MLPerf v3.0 đã lần đầu tiên bổ sung bài kiểm tra điểm chuẩn về đào tạo LLM. Tuy nhiên, nhiệm vụ đào tạo và suy luận của LLM rất khác nhau.

Khối lượng công việc suy luận có yêu cầu tính toán cao và đa dạng, đòi hỏi nền tảng phải xử lý nhanh chóng nhiều loại dự đoán dữ liệu khác nhau và thực hiện suy luận trên nhiều mô hình AI khác nhau.

Đối với các doanh nghiệp muốn triển khai hệ thống AI, cần có cách đánh giá khách quan hiệu suất của cơ sở hạ tầng trên nhiều khối lượng công việc, môi trường và kịch bản triển khai khác nhau.

Vì vậy, việc so sánh điểm chuẩn rất quan trọng cho cả quá trình đào tạo và suy luận.

MLPerf Inference v3.1 bao gồm hai bản cập nhật quan trọng để phản ánh tốt hơn việc sử dụng AI thực tế ngày nay:

Đầu tiên, bài kiểm tra suy luận mô hình ngôn ngữ lớn (LLM) dựa trên GPT-J được thêm vào. GPT-J là LLM tham số 6B mã nguồn mở để tóm tắt văn bản của tập dữ liệu CNN/Daily Mail.

Ngoài GPT-J, bài kiểm tra DLRM cũng đã được cập nhật lần này.

Đối với DLRM được giới thiệu trong MLPerf Training v3.0, kiến trúc mô hình mới và tập dữ liệu lớn hơn được áp dụng để phản ánh tốt hơn quy mô và độ phức tạp của hệ thống đề xuất.

David Kanter, người sáng lập và giám đốc điều hành của MLCommons, cho biết điểm chuẩn đào tạo tập trung vào các mô hình cơ sở quy mô lớn hơn, trong khi các nhiệm vụ thực tế được thực hiện bởi điểm chuẩn suy luận thể hiện phạm vi sử dụng rộng hơn mà hầu hết các tổ chức có thể triển khai.

Về vấn đề này, để cho phép thử nghiệm đại diện cho các nền tảng suy luận và trường hợp sử dụng khác nhau, MLPerf xác định bốn tình huống khác nhau.

Mỗi điểm chuẩn được xác định bởi một tập dữ liệu và mục tiêu chất lượng.

Mỗi điểm chuẩn yêu cầu các tình huống sau:

Trong điểm chuẩn MLPerf v3.1, có hơn 13.500 kết quả, với nhiều người cam kết đạt được mức cải thiện hiệu suất từ 20% trở lên so với điểm chuẩn 3.0.

Các nhà cam kết khác bao gồm Asus, Azure, cTuning, Connect Tech, Dell, Fujitsu, Giga Computing, Google, H3C, HPE, IEI, Intel, Intel Habana Labs, Krai, Lenovo, Ink Core, Neural Magic, Nutanix, Oracle, Qualcomm, Quanta Công nghệ đám mây, SiMA, Supermicro, TTA và xFusion, v.v.

dữ liệu chi tiết:

Người giới thiệu:

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Chia sẻ
Bình luận
0/400
Không có bình luận
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)