Після приєднання до навчального тесту LLM у квітні MLPerf знову отримав серйозне оновлення!
Щойно MLCommons випустив оновлення до MLPerf v3.1 і додав два нові тести: LLM інференційний тест MLPerf Inference v3.1 і тест продуктивності зберігання MLPerf Storage v0.5.
І це також дебют результатів тестування NVIDIA GH200!
Порівняно з одним H100 у поєднанні з процесором Intel, комбінація процесора Grace GH200 + графічного процесора H100 має покращення приблизно на 15% у різних проектах.
Дебют суперчіпа NVIDIA GH200
Без сумніву, графічний процесор Nvidia продемонстрував найкращі результати в тесті MLPerf Inference 3.1.
Серед них нещодавно випущений суперчіп GH200 Grace Hopper також дебютував на MLPerf Inference 3.1.
Суперчіп Grace Hopper інтегрує процесор Nvidia Grace і графічний процесор H100 через з’єднання з надвисокою пропускною здатністю, щоб забезпечити більш високу продуктивність, ніж один H100 у поєднанні з іншими процесорами.
«Грейс Хоппер вперше продемонструвала дуже високу продуктивність із покращенням продуктивності на 17% у порівнянні з нашою поданою нами графічним процесором H100, і ми вже попереду за всіма напрямками», — сказав у пресі Дейв Сальватор, директор із штучного інтелекту Nvidia. реліз.
Значне підвищення продуктивності
Зокрема, він інтегрує графічний процесор H100 і процесор Grace, підключені через NVLink-C2C 900 ГБ/с.
ЦП і графічний процесор відповідно оснащені 480 ГБ пам’яті LPDDR5X і 96 ГБ пам’яті HBM3 або 144 ГБ пам’яті HBM3e, інтегруючи до 576 ГБ пам’яті високошвидкісного доступу.
Суперчіп NVIDIA GH200 Grace Hopper розроблений для інтенсивних обчислювальних навантажень і може відповідати різноманітним вимогам і функціям.
Наприклад, навчання й запуск великих моделей Transformer із трильйонами параметрів або запуск систем рекомендацій і векторних баз даних із вбудованими таблицями розміром у декілька терабайтів.
Суперчіп GH200 Grace Hopper також показав дуже хороші результати в тесті MLPerf Inference, побивши найкращі результати, досягнуті одним Nvidia H100 SXM у кожному проекті.
Порівняльні результати продуктивності центру обробки даних NVIDIA Grace Hopper MLPerf Inference і DGX H100 SXM. Кожне значення є лідером продуктивності GH200
Суперчіп GH200 Grace Hopper інтегрує 96 ГБ HBM3 і забезпечує до 4 ТБ/с пропускної здатності пам’яті HBM3 у порівнянні з 80 ГБ і 3,35 ТБ/с у H100 SXM.
Більший об’єм пам’яті та збільшена пропускна здатність пам’яті дозволяють використовувати більші розміри пакетів для робочих навантажень на суперчіпі NVIDIA GH200 Grace Hopper порівняно з H100 SXM.
Наприклад, у серверному сценарії розмір пакету подвоюється для RetinaNet і DLRMv2, а в автономному сценарії розмір пакета збільшується на 50%.
Високошвидкісне з’єднання NVLink-C2C суперчіпа GH200 Grace Hopper між графічним процесором Hopper і центральним процесором Grace забезпечує швидкий зв’язок між центральним і графічним процесором, допомагаючи підвищити продуктивність.
Наприклад, у MLPerf DLRMv2 передача пакету тензорів через PCIe на H100 SXM займає приблизно 22% часу пакетного висновку.
Суперчіп GH200 Grace Hopper із використанням NVLink-C2C завершив ту саму передачу, використовуючи лише 3% часу висновку.
Завдяки вищій пропускній здатності та більшій ємності пам’яті суперчіп Grace Hopper має перевагу продуктивності одного чіпа на 17% порівняно з графічним процесором H100 MLPerf Inference v3.1.
Лідерство в міркуванні та навчанні
У своєму дебюті MLPerf суперчіп GH200 Grace Hopper продемонстрував чудову продуктивність у всіх робочих навантаженнях і сценаріях у закритому підрозділі.
У стандартних серверних програмах графічний процесор L4 може забезпечити компактне обчислювальне рішення з низьким енергоспоживанням, і його продуктивність також була значно покращена порівняно з рішеннями ЦП.
Сальватор сказав: «Порівняно з найкращим ЦП x86 у тесті, продуктивність L4 також дуже висока, покращившись у 6 разів».
Для інших додатків ШІ та робототехніки модулі Jetson AGX Orin і Jetson Orin NX досягають виняткової продуктивності.
Майбутня оптимізація програмного забезпечення допоможе ще більше розкрити потенціал потужного NVIDIA Orin SoC у цих модулях.
У зараз дуже популярній мережі штучного інтелекту для виявлення цілей RetinaNet продуктивність продуктів Nvidia покращилася на 84%.
Результати NVIDIA Open Division демонструють потенціал оптимізації моделі для значного покращення продуктивності логічного висновку при збереженні надзвичайно високої точності.
Новий тест MLPerf 3.1
Звичайно, це не перша спроба MLCommons порівняти продуктивність великих мовних моделей.
Уже в червні цього року MLPerf v3.0 вперше додав еталонний тест навчання LLM. Однак навчальні та логічні завдання LLM дуже різні.
Робочі навантаження логічного висновку мають високі вимоги до обчислень і є різноманітними, що вимагає від платформи швидкої обробки різних типів прогнозів даних і виконання логічних висновків на різних моделях ШІ.
Підприємствам, які хочуть розгорнути системи штучного інтелекту, потрібен спосіб об’єктивної оцінки продуктивності інфраструктури в різних робочих навантаженнях, середовищах і сценаріях розгортання.
Отже, бенчмаркінг важливий як для навчання, так і для висновків.
MLPerf Inference v3.1 містить два важливі оновлення, які краще відображають фактичне використання ШІ сьогодні:
По-перше, додано тест для висновку моделі великої мови (LLM) на основі GPT-J. GPT-J — це параметр LLM із відкритим кодом 6B для текстового підсумку набору даних CNN/Daily Mail.
Окрім GPT-J, цього разу також оновлено тест DLRM.
Для DLRM, представленого в MLPerf Training v3.0, прийнято нову архітектуру моделі та більший набір даних, щоб краще відобразити масштаб і складність систем рекомендацій.
Девід Кантер, засновник і виконавчий директор MLCommons, сказав, що тест навчання зосереджується на базових моделях більшого масштабу, тоді як фактичні завдання, які виконуються тестом висновку, представляють ширший спектр випадків використання, які можуть розгорнути більшість організацій.
У зв’язку з цим, щоб уможливити репрезентативне тестування різних платформ логічного висновку та варіантів використання, MLPerf визначає чотири різні сценарії.
Кожен контрольний показник визначається набором даних і цілями якості.
Для кожного контрольного тесту потрібні такі сценарії:
У бенчмарку MLPerf v3.1 є понад 13 500 результатів, причому багато комітерів досягли підвищення продуктивності на 20% або більше порівняно з бенчмарком 3.0.
Інші комітери включають Asus, Azure, cTuning, Connect Tech, Dell, Fujitsu, Giga Computing, Google, H3C, HPE, IEI, Intel, Intel Habana Labs, Krai, Lenovo, Ink Core, Neural Magic, Nutanix, Oracle, Qualcomm, Quanta Cloud Technology, SiMA, Supermicro, TTA та xFusion тощо.
детальні дані:
Література:
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
Знищи H100! Суперчіп NVIDIA GH200 дебютує з MLPerf v3.1, продуктивність зросла на 17%
Джерело: Xinzhiyuan
Після приєднання до навчального тесту LLM у квітні MLPerf знову отримав серйозне оновлення!
Щойно MLCommons випустив оновлення до MLPerf v3.1 і додав два нові тести: LLM інференційний тест MLPerf Inference v3.1 і тест продуктивності зберігання MLPerf Storage v0.5.
І це також дебют результатів тестування NVIDIA GH200!
Порівняно з одним H100 у поєднанні з процесором Intel, комбінація процесора Grace GH200 + графічного процесора H100 має покращення приблизно на 15% у різних проектах.
Дебют суперчіпа NVIDIA GH200
Без сумніву, графічний процесор Nvidia продемонстрував найкращі результати в тесті MLPerf Inference 3.1.
Суперчіп Grace Hopper інтегрує процесор Nvidia Grace і графічний процесор H100 через з’єднання з надвисокою пропускною здатністю, щоб забезпечити більш високу продуктивність, ніж один H100 у поєднанні з іншими процесорами.
«Грейс Хоппер вперше продемонструвала дуже високу продуктивність із покращенням продуктивності на 17% у порівнянні з нашою поданою нами графічним процесором H100, і ми вже попереду за всіма напрямками», — сказав у пресі Дейв Сальватор, директор із штучного інтелекту Nvidia. реліз.
Значне підвищення продуктивності
Зокрема, він інтегрує графічний процесор H100 і процесор Grace, підключені через NVLink-C2C 900 ГБ/с.
ЦП і графічний процесор відповідно оснащені 480 ГБ пам’яті LPDDR5X і 96 ГБ пам’яті HBM3 або 144 ГБ пам’яті HBM3e, інтегруючи до 576 ГБ пам’яті високошвидкісного доступу.
Наприклад, навчання й запуск великих моделей Transformer із трильйонами параметрів або запуск систем рекомендацій і векторних баз даних із вбудованими таблицями розміром у декілька терабайтів.
Суперчіп GH200 Grace Hopper також показав дуже хороші результати в тесті MLPerf Inference, побивши найкращі результати, досягнуті одним Nvidia H100 SXM у кожному проекті.
Суперчіп GH200 Grace Hopper інтегрує 96 ГБ HBM3 і забезпечує до 4 ТБ/с пропускної здатності пам’яті HBM3 у порівнянні з 80 ГБ і 3,35 ТБ/с у H100 SXM.
Більший об’єм пам’яті та збільшена пропускна здатність пам’яті дозволяють використовувати більші розміри пакетів для робочих навантажень на суперчіпі NVIDIA GH200 Grace Hopper порівняно з H100 SXM.
Наприклад, у серверному сценарії розмір пакету подвоюється для RetinaNet і DLRMv2, а в автономному сценарії розмір пакета збільшується на 50%.
Високошвидкісне з’єднання NVLink-C2C суперчіпа GH200 Grace Hopper між графічним процесором Hopper і центральним процесором Grace забезпечує швидкий зв’язок між центральним і графічним процесором, допомагаючи підвищити продуктивність.
Наприклад, у MLPerf DLRMv2 передача пакету тензорів через PCIe на H100 SXM займає приблизно 22% часу пакетного висновку.
Суперчіп GH200 Grace Hopper із використанням NVLink-C2C завершив ту саму передачу, використовуючи лише 3% часу висновку.
Завдяки вищій пропускній здатності та більшій ємності пам’яті суперчіп Grace Hopper має перевагу продуктивності одного чіпа на 17% порівняно з графічним процесором H100 MLPerf Inference v3.1.
Лідерство в міркуванні та навчанні
У своєму дебюті MLPerf суперчіп GH200 Grace Hopper продемонстрував чудову продуктивність у всіх робочих навантаженнях і сценаріях у закритому підрозділі.
У стандартних серверних програмах графічний процесор L4 може забезпечити компактне обчислювальне рішення з низьким енергоспоживанням, і його продуктивність також була значно покращена порівняно з рішеннями ЦП.
Сальватор сказав: «Порівняно з найкращим ЦП x86 у тесті, продуктивність L4 також дуже висока, покращившись у 6 разів».
Майбутня оптимізація програмного забезпечення допоможе ще більше розкрити потенціал потужного NVIDIA Orin SoC у цих модулях.
У зараз дуже популярній мережі штучного інтелекту для виявлення цілей RetinaNet продуктивність продуктів Nvidia покращилася на 84%.
Результати NVIDIA Open Division демонструють потенціал оптимізації моделі для значного покращення продуктивності логічного висновку при збереженні надзвичайно високої точності.
Новий тест MLPerf 3.1
Звичайно, це не перша спроба MLCommons порівняти продуктивність великих мовних моделей.
Уже в червні цього року MLPerf v3.0 вперше додав еталонний тест навчання LLM. Однак навчальні та логічні завдання LLM дуже різні.
Робочі навантаження логічного висновку мають високі вимоги до обчислень і є різноманітними, що вимагає від платформи швидкої обробки різних типів прогнозів даних і виконання логічних висновків на різних моделях ШІ.
Підприємствам, які хочуть розгорнути системи штучного інтелекту, потрібен спосіб об’єктивної оцінки продуктивності інфраструктури в різних робочих навантаженнях, середовищах і сценаріях розгортання.
Отже, бенчмаркінг важливий як для навчання, так і для висновків.
MLPerf Inference v3.1 містить два важливі оновлення, які краще відображають фактичне використання ШІ сьогодні:
По-перше, додано тест для висновку моделі великої мови (LLM) на основі GPT-J. GPT-J — це параметр LLM із відкритим кодом 6B для текстового підсумку набору даних CNN/Daily Mail.
Для DLRM, представленого в MLPerf Training v3.0, прийнято нову архітектуру моделі та більший набір даних, щоб краще відобразити масштаб і складність систем рекомендацій.
Девід Кантер, засновник і виконавчий директор MLCommons, сказав, що тест навчання зосереджується на базових моделях більшого масштабу, тоді як фактичні завдання, які виконуються тестом висновку, представляють ширший спектр випадків використання, які можуть розгорнути більшість організацій.
У зв’язку з цим, щоб уможливити репрезентативне тестування різних платформ логічного висновку та варіантів використання, MLPerf визначає чотири різні сценарії.
Інші комітери включають Asus, Azure, cTuning, Connect Tech, Dell, Fujitsu, Giga Computing, Google, H3C, HPE, IEI, Intel, Intel Habana Labs, Krai, Lenovo, Ink Core, Neural Magic, Nutanix, Oracle, Qualcomm, Quanta Cloud Technology, SiMA, Supermicro, TTA та xFusion тощо.
Література: