NVIDIA lanza TensorRT-LLM, que puede mejorar el rendimiento de inferencia H100 hasta 8 veces

Según un informe de IT House del 9 de septiembre, NVIDIA anunció recientemente el lanzamiento de TensorRT-LLM, una biblioteca de código abierto profundamente optimizada que puede acelerar el rendimiento de inferencia de todos los modelos de lenguaje grandes en GPU de IA como Hopper. Actualmente, NVIDIA está trabajando con la comunidad de código abierto para utilizar tecnologías de vanguardia como SmoothQuant, FlashAttention y fMHA para implementar núcleos de IA para optimizar su GPU, que puede acelerar los modelos GPT-3 (175B), Llama Falcom (180B) y Bloom.

Lo más destacado de TensorRT-LLM es la introducción de un esquema de programación llamado procesamiento por lotes en vuelo, que permite que el trabajo entre y salga de la GPU independientemente de otras tareas. Esta solución permite que la misma GPU procese dinámicamente múltiples consultas más pequeñas al procesar solicitudes grandes con uso intensivo de computación, mejorando el rendimiento de procesamiento de la GPU y acelerando el rendimiento del H100 2 veces.

En la prueba de rendimiento, NVIDIA utilizó A100 como base y comparó H100 y H100 con TensorRT-LLM habilitado. En la inferencia GPT-J 6B, el rendimiento de inferencia de H100 fue 4 veces mayor que el de A100, mientras que el rendimiento de H100 con TensorRT -LLM habilitado fue mejor que A100.8 veces.

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Compartir
Comentar
0/400
Sin comentarios
Opere con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)