NVIDIA lança TensorRT-LLM, que pode melhorar o desempenho de inferência H100 em até 8 vezes

2023-09-10 01:21:23

De acordo com um relatório da IT House de 9 de setembro, a NVIDIA anunciou recentemente o lançamento do TensorRT-LLM, uma biblioteca de código aberto profundamente otimizada que pode acelerar o desempenho de inferência de todos os grandes modelos de linguagem em GPUs de IA, como Hopper. A NVIDIA está atualmente trabalhando com a comunidade de código aberto para usar tecnologias de ponta como SmoothQuant, FlashAttention e fMHA para implementar kernels de IA para otimizar sua GPU, que pode acelerar os modelos GPT-3 (175B), Llama Falcom (180B) e Bloom.

O destaque do TensorRT-LLM é a introdução de um esquema de agendamento chamado In-Flight batching, que permite que o trabalho entre e saia da GPU independentemente de outras tarefas. Esta solução permite que a mesma GPU processe dinamicamente múltiplas consultas menores ao processar grandes solicitações com uso intensivo de computação, melhorando o desempenho de processamento da GPU e acelerando o rendimento do H100 em 2 vezes.

No teste de desempenho, a NVIDIA usou A100 como base e comparou H100 e H100 com TensorRT-LLM habilitado.Na inferência GPT-J 6B, o desempenho de inferência de H100 foi 4 vezes maior que o de A100, enquanto o desempenho de H100 com TensorRT -LLM habilitado foi melhor que A100, 8 vezes.

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.

Recompensa
curtir
Comentário
Compartilhar

Comentário

0/400

Sem comentários

Tema
1/3
1Altcoin Season Coming?
27k Popularidade
2Stablecoin Regulation Crackdown
13k Popularidade
3Gate June Transparency Report
21k Popularidade
4ETH Breaks Through $3,800
23k Popularidade
5Institutions Buying Bitcoin
17k Popularidade

Marcar

sitemap