Согласно отчету IT House от 9 сентября, NVIDIA недавно объявила о запуске TensorRT-LLM, глубоко оптимизированной библиотеки с открытым исходным кодом, которая может повысить производительность вывода всех больших языковых моделей на графических процессорах AI, таких как Hopper. NVIDIA в настоящее время работает с сообществом открытого исходного кода над использованием передовых технологий, таких как SmoothQuant, FlashAttention и fMHA, для реализации ядер искусственного интеллекта для оптимизации своего графического процессора, который может ускорять модели GPT-3 (175B), Llama Falcom (180B) и Bloom.
Изюминкой TensorRT-LLM является введение схемы планирования, называемой пакетной обработкой в полете, которая позволяет входить и выходить из графического процессора независимо от других задач. Это решение позволяет одному и тому же графическому процессору динамически обрабатывать несколько небольших запросов при обработке больших ресурсоемких запросов, улучшая производительность обработки графического процессора и увеличивая пропускную способность H100 в 2 раза.
В тесте производительности NVIDIA использовала A100 в качестве основы и сравнивала H100 и H100 с включенным TensorRT-LLM.В выводе GPT-J 6B производительность вывода H100 была в 4 раза выше, чем у A100, в то время как производительность H100 с TensorRT -Включенный LLM был лучше, чем у А100, в 8 раз.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
NVIDIA выпускает TensorRT-LLM, который может улучшить производительность вывода H100 до 8 раз
Согласно отчету IT House от 9 сентября, NVIDIA недавно объявила о запуске TensorRT-LLM, глубоко оптимизированной библиотеки с открытым исходным кодом, которая может повысить производительность вывода всех больших языковых моделей на графических процессорах AI, таких как Hopper. NVIDIA в настоящее время работает с сообществом открытого исходного кода над использованием передовых технологий, таких как SmoothQuant, FlashAttention и fMHA, для реализации ядер искусственного интеллекта для оптимизации своего графического процессора, который может ускорять модели GPT-3 (175B), Llama Falcom (180B) и Bloom.
Изюминкой TensorRT-LLM является введение схемы планирования, называемой пакетной обработкой в полете, которая позволяет входить и выходить из графического процессора независимо от других задач. Это решение позволяет одному и тому же графическому процессору динамически обрабатывать несколько небольших запросов при обработке больших ресурсоемких запросов, улучшая производительность обработки графического процессора и увеличивая пропускную способность H100 в 2 раза.
В тесте производительности NVIDIA использовала A100 в качестве основы и сравнивала H100 и H100 с включенным TensorRT-LLM.В выводе GPT-J 6B производительность вывода H100 была в 4 раза выше, чем у A100, в то время как производительность H100 с TensorRT -Включенный LLM был лучше, чем у А100, в 8 раз.