Раздави H100! Суперчип NVIDIA GH200 представляет MLPerf v3.1, производительность выросла на 17%

Источник: Синьчжиюань

После присоединения к учебному тесту LLM в апреле MLPerf снова получил серьезное обновление!

Только что компания MLCommons выпустила обновление для MLPerf v3.1 и добавила два новых теста: тест вывода LLM MLPerf Inference v3.1 и тест производительности хранилища MLPerf Storage v0.5.

И это тоже дебют результатов теста NVIDIA GH200!

По сравнению с одним H100 в сочетании с процессором Intel, комбинация Grace CPU + H100 GPU в GH200 дает улучшение примерно на 15% в различных проектах.

Дебют суперчипа NVIDIA GH200

Нет сомнений в том, что графический процессор Nvidia показал лучшие результаты в тесте MLPerf Inference 3.1.

Среди них недавно выпущенный суперчип GH200 Grace Hopper также дебютировал в MLPerf Inference 3.1.

Суперчип Grace Hopper объединяет процессор Nvidia Grace и графический процессор H100 через соединение со сверхвысокой пропускной способностью, обеспечивая более высокую производительность, чем один H100 в сочетании с другими процессорами.

«Грейс Хоппер впервые продемонстрировала очень высокую производительность, увеличив производительность на 17% по сравнению с нашим графическим процессором H100, и мы уже впереди по всем направлениям», — заявил в прессе Дэйв Сальватор, директор по искусственному интеллекту Nvidia. выпускать.

Значительное увеличение производительности

В частности, он объединяет графический процессор H100 и процессор Grace, подключенные через NVLink-C2C со скоростью 900 ГБ/с.

ЦП и графический процессор оснащены соответственно 480 ГБ памяти LPDDR5X и 96 ГБ памяти HBM3 или 144 ГБ памяти HBM3e, включая до 576 ГБ памяти с высокоскоростным доступом.

Суперчип NVIDIA GH200 Grace Hopper предназначен для ресурсоемких вычислительных задач и может удовлетворить множество требовательных требований и функций.

Например, обучение и запуск больших моделей Transformer с триллионами параметров или запуск рекомендательных систем и векторных баз данных с встраиваемыми таблицами размером в несколько терабайт.

Суперчип GH200 Grace Hopper также очень хорошо показал себя в тесте MLPerf Inference, превзойдя лучшие результаты, достигнутые одной Nvidia H100 SXM в каждом проекте.

Сравнительные результаты производительности дата-центра NVIDIA Grace Hopper MLPerf Inference и DGX H100 SXM. Каждое значение соответствует лидерству производительности GH200.

Суперчип GH200 Grace Hopper объединяет 96 ГБ HBM3 и обеспечивает пропускную способность памяти HBM3 до 4 ТБ/с по сравнению с 80 ГБ и 3,35 ТБ/с у H100 SXM.

Больший объем памяти и увеличенная пропускная способность памяти позволяют использовать большие размеры пакетов для рабочих нагрузок на суперчипе NVIDIA GH200 Grace Hopper по сравнению с H100 SXM.

Например, в серверном сценарии размер пакета удваивается как для RetinaNet, так и для DLRMv2, а в автономном сценарии размер пакета увеличивается на 50%.

Высокоскоростное соединение NVLink-C2C суперчипа Grace Hopper GH200 между графическим процессором Hopper и процессором Grace обеспечивает быструю связь между процессором и графическим процессором, помогая повысить производительность.

Например, в MLPerf DLRMv2 передача пакета тензоров через PCIe на H100 SXM занимает примерно 22 % времени пакетного вывода.

Суперчип GH200 Grace Hopper, использующий NVLink-C2C, выполнил ту же передачу, затратив всего 3% времени вывода.

Благодаря более высокой пропускной способности и большему объему памяти суперчип Grace Hopper имеет преимущество в производительности одного кристалла до 17% по сравнению с графическим процессором H100 MLPerf Inference v3.1.

Лидер в рассуждении и обучении

В своем дебюте MLPerf суперчип GH200 Grace Hopper продемонстрировал превосходную производительность во всех рабочих нагрузках и сценариях в закрытом подразделении.

В основных серверных приложениях графический процессор L4 может обеспечить компактное вычислительное решение с низким энергопотреблением, а его производительность также значительно улучшена по сравнению с решениями на основе ЦП.

Сальватор сказал: «По сравнению с лучшим процессором x86 в тесте производительность L4 также очень высока, увеличившись в 6 раз».

В других приложениях искусственного интеллекта и робототехники модули Jetson AGX Orin и Jetson Orin NX демонстрируют выдающуюся производительность.

Будущая оптимизация программного обеспечения поможет еще больше раскрыть потенциал мощной SoC NVIDIA Orin в этих модулях.

В очень популярной в настоящее время сети искусственного интеллекта для обнаружения целей — RetinaNet производительность продуктов Nvidia улучшилась до 84%.

Результаты NVIDIA Open Division демонстрируют потенциал оптимизации моделей для значительного улучшения производительности вывода при сохранении чрезвычайно высокой точности.

Новый тест MLPerf 3.1

Конечно, это не первая попытка MLCommons оценить производительность больших языковых моделей.

Уже в июне этого года в MLPerf v3.0 впервые был добавлен эталонный тест обучения LLM. Однако задачи обучения и вывода LLM сильно различаются.

Рабочие нагрузки вывода предъявляют высокие требования к вычислительным ресурсам и разнообразны, что требует от платформы быстрой обработки различных типов прогнозов данных и выполнения выводов на различных моделях ИИ.

Предприятиям, желающим развернуть системы искусственного интеллекта, необходим способ объективной оценки производительности инфраструктуры в различных рабочих нагрузках, средах и сценариях развертывания.

Таким образом, бенчмаркинг важен как для обучения, так и для вывода.

MLPerf Inference v3.1 включает два важных обновления, которые лучше отражают фактическое использование ИИ сегодня:

Во-первых, добавляется тест на вывод модели большого языка (LLM) на основе GPT-J. GPT-J — это параметр LLM 6B с открытым исходным кодом для текстового суммирования набора данных CNN/Daily Mail.

Помимо GPT-J на этот раз обновился и тест DLRM.

Для DLRM, представленного в MLPerf Training v3.0, используется новая архитектура модели и больший набор данных, чтобы лучше отражать масштаб и сложность рекомендательных систем.

Дэвид Кантер, основатель и исполнительный директор MLCommons, сказал, что тест обучения фокусируется на более крупномасштабных базовых моделях, в то время как фактические задачи, выполняемые тестом вывода, представляют собой более широкий спектр вариантов использования, которые может развернуть большинство организаций.

В связи с этим, чтобы обеспечить репрезентативное тестирование различных платформ вывода и вариантов использования, MLPerf определяет четыре различных сценария.

Каждый эталонный показатель определяется набором данных и целями качества.

Для каждого теста требуются следующие сценарии:

В тесте MLPerf v3.1 получено более 13 500 результатов, причем многие коммиттеры добились улучшения производительности на 20% и более по сравнению с тестом 3.0.

Среди других коммиттеров — Asus, Azure, cTuning, Connect Tech, Dell, Fujitsu, Giga Computing, Google, H3C, HPE, IEI, Intel, Intel Habana Labs, Krai, Lenovo, Ink Core, Neural Magic, Nutanix, Oracle, Qualcomm, Quanta. Облачные технологии, SiMA, Supermicro, TTA и xFusion и т. д.

подробные данные:

Использованная литература:

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить