NVIDIA, H100 çıkarım performansını 8 kata kadar artırabilen TensorRT-LLM'yi piyasaya sürdü

2023-09-10 01:21:23

IT House tarafından 9 Eylül'de hazırlanan bir rapora göre Nvidia, yakın zamanda Hopper gibi AI GPU'lar üzerindeki tüm büyük dil modellerinin çıkarım performansını hızlandırabilen derinlemesine optimize edilmiş bir açık kaynak kitaplığı olan TensorRT-LLM'nin piyasaya sürüldüğünü duyurdu. NVIDIA şu anda GPT-3 (175B), Llama Falcom (180B) ve Bloom modellerini hızlandırabilen GPU'sunu optimize etmek amacıyla AI çekirdeklerini uygulamak için SmoothQuant, FlashAttention ve fMHA gibi en son teknolojileri kullanmak üzere açık kaynak topluluğuyla birlikte çalışıyor.

TensorRT-LLM'nin öne çıkan özelliği, uçuş sırasında toplu işlem adı verilen ve işin diğer görevlerden bağımsız olarak GPU'ya girip çıkmasına olanak tanıyan bir planlama şemasının sunulmasıdır. Bu çözüm, aynı GPU'nun yoğun bilgi işlem gerektiren büyük istekleri işlerken birden çok küçük sorguyu dinamik olarak işlemesine olanak tanır, GPU'nun işlem performansını artırır ve H100'ün verimini 2 kat hızlandırır.

Performans testinde NVIDIA, A100'ü temel olarak kullandı ve H100 ile H100'ü TensorRT-LLM etkinken karşılaştırdı. GPT-J 6B çıkarımında H100'ün çıkarım performansı A100'ünkinden 4 kat daha yüksek olurken, H100'ün TensorRT ile performansı -LLM etkinken A100'den 8 kat daha iyiydi.

View Original

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.

Reward
like
Comment
Share

Comment

0/400

No comments

Topic
1/3
1Altcoin Season Coming?
26k Popularity
2Stablecoin Regulation Crackdown
12k Popularity
3Gate June Transparency Report
21k Popularity
4ETH Breaks Through $3,800
23k Popularity
5Institutions Buying Bitcoin
17k Popularity

sitemap