NVIDIA lança TensorRT-LLM, que pode melhorar o desempenho de inferência H100 em até 8 vezes

De acordo com um relatório da IT House de 9 de setembro, a NVIDIA anunciou recentemente o lançamento do TensorRT-LLM, uma biblioteca de código aberto profundamente otimizada que pode acelerar o desempenho de inferência de todos os grandes modelos de linguagem em GPUs de IA, como Hopper. A NVIDIA está atualmente trabalhando com a comunidade de código aberto para usar tecnologias de ponta como SmoothQuant, FlashAttention e fMHA para implementar kernels de IA para otimizar sua GPU, que pode acelerar os modelos GPT-3 (175B), Llama Falcom (180B) e Bloom.

O destaque do TensorRT-LLM é a introdução de um esquema de agendamento chamado In-Flight batching, que permite que o trabalho entre e saia da GPU independentemente de outras tarefas. Esta solução permite que a mesma GPU processe dinamicamente múltiplas consultas menores ao processar grandes solicitações com uso intensivo de computação, melhorando o desempenho de processamento da GPU e acelerando o rendimento do H100 em 2 vezes.

No teste de desempenho, a NVIDIA usou A100 como base e comparou H100 e H100 com TensorRT-LLM habilitado.Na inferência GPT-J 6B, o desempenho de inferência de H100 foi 4 vezes maior que o de A100, enquanto o desempenho de H100 com TensorRT -LLM habilitado foi melhor que A100, 8 vezes.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Partilhar
Comentar
0/400
Nenhum comentário
  • Pino
Negocie cripto em qualquer lugar e a qualquer hora
qrCode
Digitalizar para transferir a aplicação Gate
Novidades
Português (Portugal)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)