IT House の 9 月 9 日のレポートによると、NVIDIA は最近、Hopper などの AI GPU 上のすべての大規模言語モデルの推論パフォーマンスを高速化できる、深く最適化されたオープン ソース ライブラリである TensorRT-LLM の発売を発表しました。 NVIDIA は現在、オープン ソース コミュニティと協力して、SmoothQuant、FlashAttendant、fMHA などの最先端のテクノロジを使用して AI カーネルを実装し、GPU を最適化しています。これにより、GPT-3 (175B)、Llama Falcom (180B)、Bloom モデルを高速化できます。TensorRT-LLM のハイライトは、In-Flight バッチングと呼ばれるスケジューリング スキームの導入であり、これにより、作業が他のタスクから独立して GPU に出入りできるようになります。このソリューションにより、大規模なコンピューティング集約型リクエストを処理するときに、同じ GPU で複数の小さなクエリを動的に処理できるようになり、GPU の処理パフォーマンスが向上し、H100 のスループットが 2 倍高速化されます。パフォーマンス テストでは、NVIDIA は A100 をベースとして使用し、H100 と TensorRT-LLM を有効にした H100 を比較しました。GPT-J 6B 推論では、H100 の推論パフォーマンスは A100 の 4 倍でしたが、TensorRT を使用した H100 のパフォーマンスは-LLM 有効は A100 よりも 8 倍優れていました。
NVIDIA が H100 推論パフォーマンスを最大 8 倍向上できる TensorRT-LLM をリリース
IT House の 9 月 9 日のレポートによると、NVIDIA は最近、Hopper などの AI GPU 上のすべての大規模言語モデルの推論パフォーマンスを高速化できる、深く最適化されたオープン ソース ライブラリである TensorRT-LLM の発売を発表しました。 NVIDIA は現在、オープン ソース コミュニティと協力して、SmoothQuant、FlashAttendant、fMHA などの最先端のテクノロジを使用して AI カーネルを実装し、GPU を最適化しています。これにより、GPT-3 (175B)、Llama Falcom (180B)、Bloom モデルを高速化できます。
TensorRT-LLM のハイライトは、In-Flight バッチングと呼ばれるスケジューリング スキームの導入であり、これにより、作業が他のタスクから独立して GPU に出入りできるようになります。このソリューションにより、大規模なコンピューティング集約型リクエストを処理するときに、同じ GPU で複数の小さなクエリを動的に処理できるようになり、GPU の処理パフォーマンスが向上し、H100 のスループットが 2 倍高速化されます。
パフォーマンス テストでは、NVIDIA は A100 をベースとして使用し、H100 と TensorRT-LLM を有効にした H100 を比較しました。GPT-J 6B 推論では、H100 の推論パフォーマンスは A100 の 4 倍でしたが、TensorRT を使用した H100 のパフォーマンスは-LLM 有効は A100 よりも 8 倍優れていました。