Відповідно до звіту IT House від 9 вересня, NVIDIA нещодавно оголосила про запуск TensorRT-LLM, глибоко оптимізованої бібліотеки з відкритим вихідним кодом, яка може прискорити продуктивність логічного висновку всіх великих мовних моделей на графічних процесорах ШІ, таких як Hopper. Наразі NVIDIA працює з спільнотою відкритих вихідних кодів над використанням передових технологій, таких як SmoothQuant, FlashAttention і fMHA, для впровадження ядер AI для оптимізації графічного процесора, який може прискорювати моделі GPT-3 (175B), Llama Falcom (180B) і Bloom.
Основною особливістю TensorRT-LLM є впровадження схеми планування під назвою In-Flight batching, яка дозволяє роботі надходити та виходити з GPU незалежно від інших завдань. Це рішення дозволяє тому самому графічному процесору динамічно обробляти декілька менших запитів під час обробки великих запитів із інтенсивним обчисленням, підвищуючи продуктивність обробки графічного процесора та прискорюючи пропускну здатність H100 у 2 рази.
У тесті продуктивності NVIDIA використовувала A100 як основу та порівнювала H100 і H100 із увімкненим TensorRT-LLM.У висновках GPT-J 6B продуктивність логічного висновку H100 була в 4 рази вищою, ніж у A100, тоді як продуктивність H100 із TensorRT -Увімкнений LLM був кращим, ніж у A100., у 8 разів.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
NVIDIA випускає TensorRT-LLM, який може покращити продуктивність логічного висновку H100 до 8 разів
Відповідно до звіту IT House від 9 вересня, NVIDIA нещодавно оголосила про запуск TensorRT-LLM, глибоко оптимізованої бібліотеки з відкритим вихідним кодом, яка може прискорити продуктивність логічного висновку всіх великих мовних моделей на графічних процесорах ШІ, таких як Hopper. Наразі NVIDIA працює з спільнотою відкритих вихідних кодів над використанням передових технологій, таких як SmoothQuant, FlashAttention і fMHA, для впровадження ядер AI для оптимізації графічного процесора, який може прискорювати моделі GPT-3 (175B), Llama Falcom (180B) і Bloom.
Основною особливістю TensorRT-LLM є впровадження схеми планування під назвою In-Flight batching, яка дозволяє роботі надходити та виходити з GPU незалежно від інших завдань. Це рішення дозволяє тому самому графічному процесору динамічно обробляти декілька менших запитів під час обробки великих запитів із інтенсивним обчисленням, підвищуючи продуктивність обробки графічного процесора та прискорюючи пропускну здатність H100 у 2 рази.
У тесті продуктивності NVIDIA використовувала A100 як основу та порівнювала H100 і H100 із увімкненим TensorRT-LLM.У висновках GPT-J 6B продуктивність логічного висновку H100 була в 4 рази вищою, ніж у A100, тоді як продуктивність H100 із TensorRT -Увімкнений LLM був кращим, ніж у A100., у 8 разів.