NVIDIA が H100 推論パフォーマンスを最大 8 倍向上できる TensorRT-LLM をリリース

2023-09-10 01:21:23

IT House の 9 月 9 日のレポートによると、NVIDIA は最近、Hopper などの AI GPU 上のすべての大規模言語モデルの推論パフォーマンスを高速化できる、深く最適化されたオープンソースライブラリである TensorRT-LLM の発売を発表しました。 NVIDIA は現在、オープンソースコミュニティと協力して、SmoothQuant、FlashAttendant、fMHA などの最先端のテクノロジを使用して AI カーネルを実装し、GPU を最適化しています。これにより、GPT-3 (175B)、Llama Falcom (180B)、Bloom モデルを高速化できます。

TensorRT-LLM のハイライトは、In-Flight バッチングと呼ばれるスケジューリングスキームの導入であり、これにより、作業が他のタスクから独立して GPU に出入りできるようになります。このソリューションにより、大規模なコンピューティング集約型リクエストを処理するときに、同じ GPU で複数の小さなクエリを動的に処理できるようになり、GPU の処理パフォーマンスが向上し、H100 のスループットが 2 倍高速化されます。

パフォーマンステストでは、NVIDIA は A100 をベースとして使用し、H100 と TensorRT-LLM を有効にした H100 を比較しました。GPT-J 6B 推論では、H100 の推論パフォーマンスは A100 の 4 倍でしたが、TensorRT を使用した H100 のパフォーマンスは-LLM 有効は A100 よりも 8 倍優れていました。

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。

報酬
いいね
コメント
共有

0/400

コメントなし

トピック
1/3
1Altcoin Season Coming?
27k 人気度
2Stablecoin Regulation Crackdown
13k 人気度
3Gate June Transparency Report
21k 人気度
4ETH Breaks Through $3,800
23k 人気度
5Institutions Buying Bitcoin
17k 人気度

ピン

サイトマップ