Depois de ingressar no teste de treinamento LLM em abril, o MLPerf recebeu mais uma vez uma grande atualização!
Agora mesmo, MLCommons lançou uma atualização para MLPerf v3.1 e adicionou dois novos benchmarks: teste de inferência LLM MLPerf Inference v3.1 e teste de desempenho de armazenamento MLPerf Storage v0.5.
E esta é também a estreia dos resultados dos testes NVIDIA GH200!
Comparado com um único H100 emparelhado com uma CPU Intel, a combinação da CPU Grace + GPU H100 do GH200 tem uma melhoria de cerca de 15% em vários projetos.
Estreia do superchip NVIDIA GH200
Não há dúvida de que a GPU da Nvidia teve o melhor desempenho no benchmark MLPerf Inference 3.1.
Entre eles, o recém-lançado superchip GH200 Grace Hopper também fez sua estreia no MLPerf Inference 3.1.
O superchip Grace Hopper integra a CPU Grace e a GPU H100 da Nvidia por meio de uma conexão de largura de banda ultra-alta para fornecer desempenho mais forte do que um único H100 combinado com outras CPUs.
“Grace Hopper demonstrou um desempenho muito forte pela primeira vez, com uma melhoria de desempenho de 17% em comparação com nossa GPU H100 enviada, e já estamos à frente em todos os aspectos”, disse Dave Salvator, diretor de inteligência artificial da Nvidia, em uma imprensa liberar.
Aumento significativo de desempenho
Especificamente, ele integra uma GPU H100 e uma CPU Grace, conectadas via NVLink-C2C de 900 GB/s.
A CPU e GPU são equipadas respectivamente com 480 GB de memória LPDDR5X e 96 GB de memória HBM3 ou 144 GB de memória HBM3e, integrando até 576 GB de memória de acesso de alta velocidade.
O superchip GH200 Grace Hopper da NVIDIA foi projetado para cargas de trabalho com uso intensivo de computação e pode atender a uma variedade de requisitos e funções exigentes.
Como treinar e executar grandes modelos de Transformer com trilhões de parâmetros ou executar sistemas de recomendação e bancos de dados vetoriais com tabelas incorporadas de vários terabytes de tamanho.
O superchip GH200 Grace Hopper também teve um desempenho muito bom no teste MLPerf Inference, quebrando os melhores resultados alcançados por uma única Nvidia H100 SXM em cada projeto.
Resultados comparativos do desempenho do data center NVIDIA Grace Hopper MLPerf Inference e DGX H100 SXM. Cada valor é o líder de desempenho do GH200
O superchip GH200 Grace Hopper integra 96 GB de HBM3 e fornece até 4 TB/s de largura de banda de memória HBM3, em comparação com 80 GB e 3,35 TB/s do H100 SXM.
A maior capacidade de memória e maior largura de banda de memória permitem o uso de lotes maiores para cargas de trabalho no superchip NVIDIA GH200 Grace Hopper em comparação com o H100 SXM.
Por exemplo, no cenário de servidor, o tamanho do lote é duplicado para RetinaNet e DLRMv2 e, no cenário offline, o tamanho do lote é aumentado em 50%.
A conexão NVLink-C2C de alta largura de banda do super chip GH200 Grace Hopper entre a GPU Hopper e a CPU Grace permite uma comunicação rápida entre a CPU e a GPU, ajudando a melhorar o desempenho.
Por exemplo, no MLPerf DLRMv2, a transferência de um lote de tensores por PCIe no H100 SXM leva aproximadamente 22% do tempo de inferência do lote.
O superchip GH200 Grace Hopper usando NVLink-C2C completou a mesma transmissão usando apenas 3% do tempo de inferência.
Devido à sua maior largura de banda de memória e maior capacidade de memória, o super chip Grace Hopper tem uma vantagem de desempenho de chip único de até 17% em comparação com a GPU H100 do MLPerf Inference v3.1.
Liderança em raciocínio e treinamento
Em sua estreia no MLPerf, o Superchip GH200 Grace Hopper demonstrou desempenho superior em todas as cargas de trabalho e cenários na Divisão Fechada.
Em aplicativos de servidor convencionais, a GPU L4 pode fornecer uma solução de computação compacta e de baixo consumo de energia, e seu desempenho também foi significativamente melhorado em comparação com soluções de CPU.
Salvator disse: “Comparado com o melhor CPU x86 no teste, o desempenho do L4 também é muito forte, melhorando 6 vezes”.
Para outras aplicações de IA e robótica, os módulos Jetson AGX Orin e Jetson Orin NX alcançam desempenho excepcional.
As futuras otimizações de software ajudarão a desbloquear ainda mais o potencial do poderoso NVIDIA Orin SoC nesses módulos.
Na rede AI de detecção de alvos atualmente muito popular - RetinaNet, o desempenho dos produtos da Nvidia melhorou em até 84%.
Os resultados da NVIDIA Open Division demonstram o potencial da otimização de modelos para melhorar significativamente o desempenho de inferência, mantendo ao mesmo tempo uma precisão extremamente alta.
Novo benchmark MLPerf 3.1
É claro que esta não é a primeira tentativa do MLCommons de avaliar o desempenho de grandes modelos de linguagem.
Já em junho deste ano, o MLPerf v3.0 adicionou pela primeira vez o teste de benchmark do treinamento LLM. No entanto, as tarefas de formação e inferência do LLM são muito diferentes.
As cargas de trabalho de inferência têm altos requisitos de computação e são diversas, o que exige que a plataforma processe rapidamente vários tipos de previsões de dados e execute inferência em vários modelos de IA.
Para as empresas que procuram implementar sistemas de IA, é necessário encontrar uma forma de avaliar objetivamente o desempenho da infraestrutura numa variedade de cargas de trabalho, ambientes e cenários de implementação.
Portanto, o benchmarking é importante tanto para treinamento quanto para inferência.
MLPerf Inference v3.1 inclui duas atualizações importantes para refletir melhor o uso real da IA hoje:
Primeiro, é adicionado um teste para inferência de modelo de linguagem grande (LLM) baseado em GPT-J. GPT-J é um LLM de parâmetro 6B de código aberto para resumo de texto do conjunto de dados CNN/Daily Mail.
Além do GPT-J, o teste DLRM também foi atualizado desta vez.
Para o DLRM introduzido no MLPerf Training v3.0, uma nova arquitetura de modelo e um conjunto de dados maior são adotados para refletir melhor a escala e a complexidade dos sistemas de recomendação.
David Kanter, fundador e diretor executivo da MLCommons, disse que o benchmark de treinamento se concentra em modelos básicos de maior escala, enquanto as tarefas reais executadas pelo benchmark de inferência representam uma gama mais ampla de casos de uso que a maioria das organizações pode implantar.
Neste sentido, a fim de permitir testes representativos de várias plataformas de inferência e casos de uso, o MLPerf define quatro cenários diferentes.
Cada benchmark é definido por um conjunto de dados e metas de qualidade.
Cada benchmark requer os seguintes cenários:
No benchmark MLPerf v3.1, existem mais de 13.500 resultados, com muitos committers alcançando melhorias de desempenho de 20% ou mais em relação ao benchmark 3.0.
Outros committers incluem Asus, Azure, cTuning, Connect Tech, Dell, Fujitsu, Giga Computing, Google, H3C, HPE, IEI, Intel, Intel Habana Labs, Krai, Lenovo, Ink Core, Neural Magic, Nutanix, Oracle, Qualcomm, Quanta Tecnologia em nuvem, SiMA, Supermicro, TTA e xFusion, etc.
dados detalhados:
Referências:
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
Esmague H100! Super chip NVIDIA GH200 estreia MLPerf v3.1, desempenho aumenta 17%
Fonte: Xinzhiyuan
Depois de ingressar no teste de treinamento LLM em abril, o MLPerf recebeu mais uma vez uma grande atualização!
Agora mesmo, MLCommons lançou uma atualização para MLPerf v3.1 e adicionou dois novos benchmarks: teste de inferência LLM MLPerf Inference v3.1 e teste de desempenho de armazenamento MLPerf Storage v0.5.
E esta é também a estreia dos resultados dos testes NVIDIA GH200!
Comparado com um único H100 emparelhado com uma CPU Intel, a combinação da CPU Grace + GPU H100 do GH200 tem uma melhoria de cerca de 15% em vários projetos.
Estreia do superchip NVIDIA GH200
Não há dúvida de que a GPU da Nvidia teve o melhor desempenho no benchmark MLPerf Inference 3.1.
O superchip Grace Hopper integra a CPU Grace e a GPU H100 da Nvidia por meio de uma conexão de largura de banda ultra-alta para fornecer desempenho mais forte do que um único H100 combinado com outras CPUs.
“Grace Hopper demonstrou um desempenho muito forte pela primeira vez, com uma melhoria de desempenho de 17% em comparação com nossa GPU H100 enviada, e já estamos à frente em todos os aspectos”, disse Dave Salvator, diretor de inteligência artificial da Nvidia, em uma imprensa liberar.
Aumento significativo de desempenho
Especificamente, ele integra uma GPU H100 e uma CPU Grace, conectadas via NVLink-C2C de 900 GB/s.
A CPU e GPU são equipadas respectivamente com 480 GB de memória LPDDR5X e 96 GB de memória HBM3 ou 144 GB de memória HBM3e, integrando até 576 GB de memória de acesso de alta velocidade.
Como treinar e executar grandes modelos de Transformer com trilhões de parâmetros ou executar sistemas de recomendação e bancos de dados vetoriais com tabelas incorporadas de vários terabytes de tamanho.
O superchip GH200 Grace Hopper também teve um desempenho muito bom no teste MLPerf Inference, quebrando os melhores resultados alcançados por uma única Nvidia H100 SXM em cada projeto.
O superchip GH200 Grace Hopper integra 96 GB de HBM3 e fornece até 4 TB/s de largura de banda de memória HBM3, em comparação com 80 GB e 3,35 TB/s do H100 SXM.
A maior capacidade de memória e maior largura de banda de memória permitem o uso de lotes maiores para cargas de trabalho no superchip NVIDIA GH200 Grace Hopper em comparação com o H100 SXM.
Por exemplo, no cenário de servidor, o tamanho do lote é duplicado para RetinaNet e DLRMv2 e, no cenário offline, o tamanho do lote é aumentado em 50%.
A conexão NVLink-C2C de alta largura de banda do super chip GH200 Grace Hopper entre a GPU Hopper e a CPU Grace permite uma comunicação rápida entre a CPU e a GPU, ajudando a melhorar o desempenho.
Por exemplo, no MLPerf DLRMv2, a transferência de um lote de tensores por PCIe no H100 SXM leva aproximadamente 22% do tempo de inferência do lote.
O superchip GH200 Grace Hopper usando NVLink-C2C completou a mesma transmissão usando apenas 3% do tempo de inferência.
Devido à sua maior largura de banda de memória e maior capacidade de memória, o super chip Grace Hopper tem uma vantagem de desempenho de chip único de até 17% em comparação com a GPU H100 do MLPerf Inference v3.1.
Liderança em raciocínio e treinamento
Em sua estreia no MLPerf, o Superchip GH200 Grace Hopper demonstrou desempenho superior em todas as cargas de trabalho e cenários na Divisão Fechada.
Em aplicativos de servidor convencionais, a GPU L4 pode fornecer uma solução de computação compacta e de baixo consumo de energia, e seu desempenho também foi significativamente melhorado em comparação com soluções de CPU.
Salvator disse: “Comparado com o melhor CPU x86 no teste, o desempenho do L4 também é muito forte, melhorando 6 vezes”.
As futuras otimizações de software ajudarão a desbloquear ainda mais o potencial do poderoso NVIDIA Orin SoC nesses módulos.
Na rede AI de detecção de alvos atualmente muito popular - RetinaNet, o desempenho dos produtos da Nvidia melhorou em até 84%.
Os resultados da NVIDIA Open Division demonstram o potencial da otimização de modelos para melhorar significativamente o desempenho de inferência, mantendo ao mesmo tempo uma precisão extremamente alta.
Novo benchmark MLPerf 3.1
É claro que esta não é a primeira tentativa do MLCommons de avaliar o desempenho de grandes modelos de linguagem.
Já em junho deste ano, o MLPerf v3.0 adicionou pela primeira vez o teste de benchmark do treinamento LLM. No entanto, as tarefas de formação e inferência do LLM são muito diferentes.
As cargas de trabalho de inferência têm altos requisitos de computação e são diversas, o que exige que a plataforma processe rapidamente vários tipos de previsões de dados e execute inferência em vários modelos de IA.
Para as empresas que procuram implementar sistemas de IA, é necessário encontrar uma forma de avaliar objetivamente o desempenho da infraestrutura numa variedade de cargas de trabalho, ambientes e cenários de implementação.
Portanto, o benchmarking é importante tanto para treinamento quanto para inferência.
MLPerf Inference v3.1 inclui duas atualizações importantes para refletir melhor o uso real da IA hoje:
Primeiro, é adicionado um teste para inferência de modelo de linguagem grande (LLM) baseado em GPT-J. GPT-J é um LLM de parâmetro 6B de código aberto para resumo de texto do conjunto de dados CNN/Daily Mail.
Para o DLRM introduzido no MLPerf Training v3.0, uma nova arquitetura de modelo e um conjunto de dados maior são adotados para refletir melhor a escala e a complexidade dos sistemas de recomendação.
David Kanter, fundador e diretor executivo da MLCommons, disse que o benchmark de treinamento se concentra em modelos básicos de maior escala, enquanto as tarefas reais executadas pelo benchmark de inferência representam uma gama mais ampla de casos de uso que a maioria das organizações pode implantar.
Neste sentido, a fim de permitir testes representativos de várias plataformas de inferência e casos de uso, o MLPerf define quatro cenários diferentes.
Outros committers incluem Asus, Azure, cTuning, Connect Tech, Dell, Fujitsu, Giga Computing, Google, H3C, HPE, IEI, Intel, Intel Habana Labs, Krai, Lenovo, Ink Core, Neural Magic, Nutanix, Oracle, Qualcomm, Quanta Tecnologia em nuvem, SiMA, Supermicro, TTA e xFusion, etc.
Referências: