英偉達發布TensorRT-LLM,可將H100 推理性能最高提升8 倍

據IT 之家9 月9 日報導,英偉達近日宣布推出名為TensorRT-LLM,是一個深度優化的開源庫,能夠在Hopper 等AI GPU 上加速所有大語言模型的推理性能。英偉達目前已經和開源社區合作,利用SmoothQuant、FlashAttention 和fMHA 等尖端技術,實現AI 內核來優化其GPU,可以加速GPT-3(175B),Llama Falcom(180B)和Bloom 模型。

TensorRT-LLM 的亮點在於引入了名為In-Flight batching 的調度方案,允許工作獨立於其他任務進入和退出GPU。該方案允許同一GPU 在處理大型計算密集型請求時,動態處理多個較小的查詢,提高GPU 的處理性能,可以讓H100 的吞吐量加快2 倍。

在性能測試中,英偉達以A100 為基礎,對比了H100 以及啟用TensorRT-LLM 的H100,在GPT-J 6B 推理中,H100 推理性能比A100 提升4 倍,而啟用TensorRT-LLM 的H100 性能是A100 的8 倍。

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 留言
  • 分享
留言
0/400
暫無留言
交易,隨時隨地
qrCode
掃碼下載 Gate APP
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)