De acordo com um relatório da IT House de 9 de setembro, a NVIDIA anunciou recentemente o lançamento do TensorRT-LLM, uma biblioteca de código aberto profundamente otimizada que pode acelerar o desempenho de inferência de todos os grandes modelos de linguagem em GPUs de IA, como Hopper. A NVIDIA está atualmente trabalhando com a comunidade de código aberto para usar tecnologias de ponta como SmoothQuant, FlashAttention e fMHA para implementar kernels de IA para otimizar sua GPU, que pode acelerar os modelos GPT-3 (175B), Llama Falcom (180B) e Bloom.
O destaque do TensorRT-LLM é a introdução de um esquema de agendamento chamado In-Flight batching, que permite que o trabalho entre e saia da GPU independentemente de outras tarefas. Esta solução permite que a mesma GPU processe dinamicamente múltiplas consultas menores ao processar grandes solicitações com uso intensivo de computação, melhorando o desempenho de processamento da GPU e acelerando o rendimento do H100 em 2 vezes.
No teste de desempenho, a NVIDIA usou A100 como base e comparou H100 e H100 com TensorRT-LLM habilitado.Na inferência GPT-J 6B, o desempenho de inferência de H100 foi 4 vezes maior que o de A100, enquanto o desempenho de H100 com TensorRT -LLM habilitado foi melhor que A100, 8 vezes.
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
NVIDIA lança TensorRT-LLM, que pode melhorar o desempenho de inferência H100 em até 8 vezes
De acordo com um relatório da IT House de 9 de setembro, a NVIDIA anunciou recentemente o lançamento do TensorRT-LLM, uma biblioteca de código aberto profundamente otimizada que pode acelerar o desempenho de inferência de todos os grandes modelos de linguagem em GPUs de IA, como Hopper. A NVIDIA está atualmente trabalhando com a comunidade de código aberto para usar tecnologias de ponta como SmoothQuant, FlashAttention e fMHA para implementar kernels de IA para otimizar sua GPU, que pode acelerar os modelos GPT-3 (175B), Llama Falcom (180B) e Bloom.
O destaque do TensorRT-LLM é a introdução de um esquema de agendamento chamado In-Flight batching, que permite que o trabalho entre e saia da GPU independentemente de outras tarefas. Esta solução permite que a mesma GPU processe dinamicamente múltiplas consultas menores ao processar grandes solicitações com uso intensivo de computação, melhorando o desempenho de processamento da GPU e acelerando o rendimento do H100 em 2 vezes.
No teste de desempenho, a NVIDIA usou A100 como base e comparou H100 e H100 com TensorRT-LLM habilitado.Na inferência GPT-J 6B, o desempenho de inferência de H100 foi 4 vezes maior que o de A100, enquanto o desempenho de H100 com TensorRT -LLM habilitado foi melhor que A100, 8 vezes.