NVIDIA が H100 推論パフォーマンスを最大 8 倍向上できる TensorRT-LLM をリリース

IT House の 9 月 9 日のレポートによると、NVIDIA は最近、Hopper などの AI GPU 上のすべての大規模言語モデルの推論パフォーマンスを高速化できる、深く最適化されたオープン ソース ライブラリである TensorRT-LLM の発売を発表しました。 NVIDIA は現在、オープン ソース コミュニティと協力して、SmoothQuant、FlashAttendant、fMHA などの最先端のテクノロジを使用して AI カーネルを実装し、GPU を最適化しています。これにより、GPT-3 (175B)、Llama Falcom (180B)、Bloom モデルを高速化できます。

TensorRT-LLM のハイライトは、In-Flight バッチングと呼ばれるスケジューリング スキームの導入であり、これにより、作業が他のタスクから独立して GPU に出入りできるようになります。このソリューションにより、大規模なコンピューティング集約型リクエストを処理するときに、同じ GPU で複数の小さなクエリを動的に処理できるようになり、GPU の処理パフォーマンスが向上し、H100 のスループットが 2 倍高速化されます。

パフォーマンス テストでは、NVIDIA は A100 をベースとして使用し、H100 と TensorRT-LLM を有効にした H100 を比較しました。GPT-J 6B 推論では、H100 の推論パフォーマンスは A100 の 4 倍でしたが、TensorRT を使用した H100 のパフォーマンスは-LLM 有効は A100 よりも 8 倍優れていました。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • 共有
コメント
0/400
コメントなし
いつでもどこでも暗号資産取引
qrCode
スキャンしてGateアプリをダウンロード
コミュニティ
日本語
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)