Después de unirse a la prueba de capacitación de LLM en abril, ¡MLPerf recibió una vez más una actualización importante!
Justo ahora, MLCommons lanzó una actualización de MLPerf v3.1 y agregó dos nuevos puntos de referencia: la prueba de inferencia LLM MLPerf Inference v3.1 y la prueba de rendimiento de almacenamiento MLPerf Storage v0.5.
¡Y este es también el debut de los resultados de la prueba NVIDIA GH200!
En comparación con un solo H100 emparejado con una CPU Intel, la combinación de la CPU Grace + GPU H100 del GH200 tiene una mejora de aproximadamente el 15% en varios proyectos.
Debut del súper chip NVIDIA GH200
No hay duda de que la GPU de Nvidia tuvo el mejor rendimiento en el benchmark MLPerf Inference 3.1.
Entre ellos, el superchip GH200 Grace Hopper recientemente lanzado también hizo su debut en MLPerf Inference 3.1.
El superchip Grace Hopper integra la CPU Grace de Nvidia y la GPU H100 a través de una conexión de ancho de banda ultraalto para proporcionar un rendimiento más potente que un solo H100 combinado con otras CPU.
"Grace Hopper ha demostrado un rendimiento muy sólido por primera vez, con una mejora de rendimiento del 17% en comparación con nuestra GPU H100, y ya estamos por delante en todos los ámbitos", dijo en una conferencia de prensa Dave Salvator, director de inteligencia artificial de Nvidia. liberar.
Aumento significativo del rendimiento
En concreto, integra una GPU H100 y una CPU Grace, conectadas mediante NVLink-C2C de 900GB/s.
La CPU y la GPU están equipadas respectivamente con 480 GB de memoria LPDDR5X y 96 GB de memoria HBM3 o 144 GB de memoria HBM3e, integrando hasta 576 GB de memoria de acceso de alta velocidad.
El superchip GH200 Grace Hopper de NVIDIA está diseñado para cargas de trabajo con uso intensivo de computación y puede cumplir con una variedad de requisitos y funciones exigentes.
Como entrenar y ejecutar grandes modelos Transformer con billones de parámetros, o ejecutar sistemas de recomendación y bases de datos vectoriales con tablas integradas de varios terabytes de tamaño.
El superchip GH200 Grace Hopper también tuvo un muy buen desempeño en la prueba MLPerf Inference, superando los mejores resultados logrados por una sola Nvidia H100 SXM en cada proyecto.
Resultados comparativos del rendimiento del centro de datos NVIDIA Grace Hopper MLPerf Inference y DGX H100 SXM. Cada valor es el líder de rendimiento de GH200
El superchip GH200 Grace Hopper integra 96 GB de HBM3 y proporciona hasta 4 TB/s de ancho de banda de memoria HBM3, en comparación con los 80 GB y 3,35 TB/s del H100 SXM.
La mayor capacidad de memoria y el mayor ancho de banda de la memoria permiten el uso de tamaños de lote más grandes para cargas de trabajo en el superchip NVIDIA GH200 Grace Hopper en comparación con el H100 SXM.
Por ejemplo, en el escenario del servidor, el tamaño del lote se duplica tanto para RetinaNet como para DLRMv2, y en el escenario fuera de línea, el tamaño del lote aumenta en un 50 %.
La conexión NVLink-C2C de gran ancho de banda del superchip GH200 Grace Hopper entre la GPU Hopper y la CPU Grace permite una comunicación rápida entre la CPU y la GPU, lo que ayuda a mejorar el rendimiento.
Por ejemplo, en MLPerf DLRMv2, transferir un lote de tensores a través de PCIe en el H100 SXM requiere aproximadamente el 22 % del tiempo de inferencia del lote.
El superchip GH200 Grace Hopper que utiliza NVLink-C2C completó la misma transmisión utilizando solo el 3% del tiempo de inferencia.
Debido a su mayor ancho de banda de memoria y mayor capacidad de memoria, el superchip Grace Hopper tiene una ventaja de rendimiento de un solo chip de hasta un 17% en comparación con la GPU H100 de MLPerf Inference v3.1.
Líder en razonamiento y entrenamiento
En su debut en MLPerf, el superchip Grace Hopper GH200 demostró un rendimiento superior en todas las cargas de trabajo y escenarios en la División Cerrada.
En las aplicaciones de servidor convencionales, la GPU L4 puede proporcionar una solución informática compacta y de bajo consumo, y su rendimiento también se ha mejorado significativamente en comparación con las soluciones de CPU.
Salvator dijo: "En comparación con la mejor CPU x86 de la prueba, el rendimiento de L4 también es muy sólido, mejorando 6 veces".
Para otras aplicaciones de IA y robótica, los módulos Jetson AGX Orin y Jetson Orin NX logran un rendimiento excepcional.
Las futuras optimizaciones de software ayudarán a desbloquear aún más el potencial del potente NVIDIA Orin SoC en estos módulos.
En la actualmente muy popular red de IA de detección de objetivos, RetinaNet, el rendimiento de los productos de Nvidia ha mejorado hasta un 84%.
Los resultados de NVIDIA Open Division demuestran el potencial de la optimización de modelos para mejorar significativamente el rendimiento de la inferencia y al mismo tiempo mantener una precisión extremadamente alta.
Nueva prueba comparativa de MLPerf 3.1
Por supuesto, este no es el primer intento de MLCommons de evaluar el rendimiento de modelos de lenguaje grandes.
Ya en junio de este año, MLPerf v3.0 agregó por primera vez la prueba comparativa de capacitación LLM. Sin embargo, las tareas de formación e inferencia de LLM son muy diferentes.
Las cargas de trabajo de inferencia tienen altos requisitos informáticos y son diversas, lo que requiere que la plataforma procese rápidamente varios tipos de predicciones de datos y realice inferencias en varios modelos de IA.
Para las empresas que buscan implementar sistemas de IA, existe la necesidad de una forma de evaluar objetivamente el rendimiento de la infraestructura en una variedad de cargas de trabajo, entornos y escenarios de implementación.
Por lo tanto, la evaluación comparativa es importante tanto para el entrenamiento como para la inferencia.
MLPerf Inference v3.1 incluye dos actualizaciones importantes para reflejar mejor el uso real de la IA en la actualidad:
Primero, se agrega una prueba de inferencia de modelo de lenguaje grande (LLM) basada en GPT-J. GPT-J es un LLM de parámetros 6B de código abierto para el resumen de texto del conjunto de datos de CNN/Daily Mail.
Además de GPT-J, esta vez también se actualizó la prueba DLRM.
Para DLRM introducido en MLPerf Training v3.0, se adopta una nueva arquitectura de modelo y un conjunto de datos más grande para reflejar mejor la escala y la complejidad de los sistemas de recomendación.
David Kanter, fundador y director ejecutivo de MLCommons, dijo que el punto de referencia de capacitación se centra en modelos base de mayor escala, mientras que las tareas reales realizadas por el punto de referencia de inferencia representan una gama más amplia de casos de uso que la mayoría de las organizaciones pueden implementar.
En este sentido, para permitir pruebas representativas de varias plataformas de inferencia y casos de uso, MLPerf define cuatro escenarios diferentes.
Cada punto de referencia está definido por un conjunto de datos y objetivos de calidad.
Cada punto de referencia requiere los siguientes escenarios:
En el punto de referencia MLPerf v3.1, hay más de 13.500 resultados, y muchos participantes lograron mejoras de rendimiento del 20 % o más con respecto al punto de referencia 3.0.
Otros participantes incluyen Asus, Azure, cTuning, Connect Tech, Dell, Fujitsu, Giga Computing, Google, H3C, HPE, IEI, Intel, Intel Habana Labs, Krai, Lenovo, Ink Core, Neural Magic, Nutanix, Oracle, Qualcomm, Quanta. Tecnología en la nube, SiMA, Supermicro, TTA y xFusion, etc.
datos detallados:
Referencias:
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
¡Aplasta H100! El superchip NVIDIA GH200 estrena MLPerf v3.1, el rendimiento aumenta un 17%
Fuente: Xinzhiyuan
Después de unirse a la prueba de capacitación de LLM en abril, ¡MLPerf recibió una vez más una actualización importante!
Justo ahora, MLCommons lanzó una actualización de MLPerf v3.1 y agregó dos nuevos puntos de referencia: la prueba de inferencia LLM MLPerf Inference v3.1 y la prueba de rendimiento de almacenamiento MLPerf Storage v0.5.
¡Y este es también el debut de los resultados de la prueba NVIDIA GH200!
En comparación con un solo H100 emparejado con una CPU Intel, la combinación de la CPU Grace + GPU H100 del GH200 tiene una mejora de aproximadamente el 15% en varios proyectos.
Debut del súper chip NVIDIA GH200
No hay duda de que la GPU de Nvidia tuvo el mejor rendimiento en el benchmark MLPerf Inference 3.1.
El superchip Grace Hopper integra la CPU Grace de Nvidia y la GPU H100 a través de una conexión de ancho de banda ultraalto para proporcionar un rendimiento más potente que un solo H100 combinado con otras CPU.
"Grace Hopper ha demostrado un rendimiento muy sólido por primera vez, con una mejora de rendimiento del 17% en comparación con nuestra GPU H100, y ya estamos por delante en todos los ámbitos", dijo en una conferencia de prensa Dave Salvator, director de inteligencia artificial de Nvidia. liberar.
Aumento significativo del rendimiento
En concreto, integra una GPU H100 y una CPU Grace, conectadas mediante NVLink-C2C de 900GB/s.
La CPU y la GPU están equipadas respectivamente con 480 GB de memoria LPDDR5X y 96 GB de memoria HBM3 o 144 GB de memoria HBM3e, integrando hasta 576 GB de memoria de acceso de alta velocidad.
Como entrenar y ejecutar grandes modelos Transformer con billones de parámetros, o ejecutar sistemas de recomendación y bases de datos vectoriales con tablas integradas de varios terabytes de tamaño.
El superchip GH200 Grace Hopper también tuvo un muy buen desempeño en la prueba MLPerf Inference, superando los mejores resultados logrados por una sola Nvidia H100 SXM en cada proyecto.
El superchip GH200 Grace Hopper integra 96 GB de HBM3 y proporciona hasta 4 TB/s de ancho de banda de memoria HBM3, en comparación con los 80 GB y 3,35 TB/s del H100 SXM.
La mayor capacidad de memoria y el mayor ancho de banda de la memoria permiten el uso de tamaños de lote más grandes para cargas de trabajo en el superchip NVIDIA GH200 Grace Hopper en comparación con el H100 SXM.
Por ejemplo, en el escenario del servidor, el tamaño del lote se duplica tanto para RetinaNet como para DLRMv2, y en el escenario fuera de línea, el tamaño del lote aumenta en un 50 %.
La conexión NVLink-C2C de gran ancho de banda del superchip GH200 Grace Hopper entre la GPU Hopper y la CPU Grace permite una comunicación rápida entre la CPU y la GPU, lo que ayuda a mejorar el rendimiento.
Por ejemplo, en MLPerf DLRMv2, transferir un lote de tensores a través de PCIe en el H100 SXM requiere aproximadamente el 22 % del tiempo de inferencia del lote.
El superchip GH200 Grace Hopper que utiliza NVLink-C2C completó la misma transmisión utilizando solo el 3% del tiempo de inferencia.
Debido a su mayor ancho de banda de memoria y mayor capacidad de memoria, el superchip Grace Hopper tiene una ventaja de rendimiento de un solo chip de hasta un 17% en comparación con la GPU H100 de MLPerf Inference v3.1.
Líder en razonamiento y entrenamiento
En su debut en MLPerf, el superchip Grace Hopper GH200 demostró un rendimiento superior en todas las cargas de trabajo y escenarios en la División Cerrada.
En las aplicaciones de servidor convencionales, la GPU L4 puede proporcionar una solución informática compacta y de bajo consumo, y su rendimiento también se ha mejorado significativamente en comparación con las soluciones de CPU.
Salvator dijo: "En comparación con la mejor CPU x86 de la prueba, el rendimiento de L4 también es muy sólido, mejorando 6 veces".
Las futuras optimizaciones de software ayudarán a desbloquear aún más el potencial del potente NVIDIA Orin SoC en estos módulos.
En la actualmente muy popular red de IA de detección de objetivos, RetinaNet, el rendimiento de los productos de Nvidia ha mejorado hasta un 84%.
Los resultados de NVIDIA Open Division demuestran el potencial de la optimización de modelos para mejorar significativamente el rendimiento de la inferencia y al mismo tiempo mantener una precisión extremadamente alta.
Nueva prueba comparativa de MLPerf 3.1
Por supuesto, este no es el primer intento de MLCommons de evaluar el rendimiento de modelos de lenguaje grandes.
Ya en junio de este año, MLPerf v3.0 agregó por primera vez la prueba comparativa de capacitación LLM. Sin embargo, las tareas de formación e inferencia de LLM son muy diferentes.
Las cargas de trabajo de inferencia tienen altos requisitos informáticos y son diversas, lo que requiere que la plataforma procese rápidamente varios tipos de predicciones de datos y realice inferencias en varios modelos de IA.
Para las empresas que buscan implementar sistemas de IA, existe la necesidad de una forma de evaluar objetivamente el rendimiento de la infraestructura en una variedad de cargas de trabajo, entornos y escenarios de implementación.
Por lo tanto, la evaluación comparativa es importante tanto para el entrenamiento como para la inferencia.
MLPerf Inference v3.1 incluye dos actualizaciones importantes para reflejar mejor el uso real de la IA en la actualidad:
Primero, se agrega una prueba de inferencia de modelo de lenguaje grande (LLM) basada en GPT-J. GPT-J es un LLM de parámetros 6B de código abierto para el resumen de texto del conjunto de datos de CNN/Daily Mail.
Para DLRM introducido en MLPerf Training v3.0, se adopta una nueva arquitectura de modelo y un conjunto de datos más grande para reflejar mejor la escala y la complejidad de los sistemas de recomendación.
David Kanter, fundador y director ejecutivo de MLCommons, dijo que el punto de referencia de capacitación se centra en modelos base de mayor escala, mientras que las tareas reales realizadas por el punto de referencia de inferencia representan una gama más amplia de casos de uso que la mayoría de las organizaciones pueden implementar.
En este sentido, para permitir pruebas representativas de varias plataformas de inferencia y casos de uso, MLPerf define cuatro escenarios diferentes.
Otros participantes incluyen Asus, Azure, cTuning, Connect Tech, Dell, Fujitsu, Giga Computing, Google, H3C, HPE, IEI, Intel, Intel Habana Labs, Krai, Lenovo, Ink Core, Neural Magic, Nutanix, Oracle, Qualcomm, Quanta. Tecnología en la nube, SiMA, Supermicro, TTA y xFusion, etc.
Referencias: