NVIDIA, H100 çıkarım performansını 8 kata kadar artırabilen TensorRT-LLM'yi piyasaya sürdü

IT House tarafından 9 Eylül'de hazırlanan bir rapora göre Nvidia, yakın zamanda Hopper gibi AI GPU'lar üzerindeki tüm büyük dil modellerinin çıkarım performansını hızlandırabilen derinlemesine optimize edilmiş bir açık kaynak kitaplığı olan TensorRT-LLM'nin piyasaya sürüldüğünü duyurdu. NVIDIA şu anda GPT-3 (175B), Llama Falcom (180B) ve Bloom modellerini hızlandırabilen GPU'sunu optimize etmek amacıyla AI çekirdeklerini uygulamak için SmoothQuant, FlashAttention ve fMHA gibi en son teknolojileri kullanmak üzere açık kaynak topluluğuyla birlikte çalışıyor.

TensorRT-LLM'nin öne çıkan özelliği, uçuş sırasında toplu işlem adı verilen ve işin diğer görevlerden bağımsız olarak GPU'ya girip çıkmasına olanak tanıyan bir planlama şemasının sunulmasıdır. Bu çözüm, aynı GPU'nun yoğun bilgi işlem gerektiren büyük istekleri işlerken birden çok küçük sorguyu dinamik olarak işlemesine olanak tanır, GPU'nun işlem performansını artırır ve H100'ün verimini 2 kat hızlandırır.

Performans testinde NVIDIA, A100'ü temel olarak kullandı ve H100 ile H100'ü TensorRT-LLM etkinken karşılaştırdı. GPT-J 6B çıkarımında H100'ün çıkarım performansı A100'ünkinden 4 kat daha yüksek olurken, H100'ün TensorRT ile performansı -LLM etkinken A100'den 8 kat daha iyiydi.

View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Reward
  • Comment
  • Share
Comment
0/400
No comments
Trade Crypto Anywhere Anytime
qrCode
Scan to download Gate app
Community
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)