NVIDIA merilis TensorRT-LLM, yang dapat meningkatkan performa inferensi H100 hingga 8 kali lipat

2023-09-10 01:21:23

Menurut laporan IT House pada tanggal 9 September, NVIDIA baru-baru ini mengumumkan peluncuran TensorRT-LLM, pustaka sumber terbuka yang sangat dioptimalkan yang dapat mempercepat kinerja inferensi semua model bahasa besar pada GPU AI seperti Hopper. NVIDIA saat ini bekerja sama dengan komunitas open source untuk menggunakan teknologi mutakhir seperti SmoothQuant, FlashAttention, dan fMHA untuk mengimplementasikan kernel AI guna mengoptimalkan GPU-nya, yang dapat mempercepat model GPT-3 (175B), Llama Falcom (180B), dan Bloom.

Puncak dari TensorRT-LLM adalah pengenalan skema penjadwalan yang disebut In-Flight batching, yang memungkinkan pekerjaan masuk dan keluar dari GPU secara independen dari tugas lainnya. Solusi ini memungkinkan GPU yang sama untuk secara dinamis memproses beberapa kueri yang lebih kecil saat memproses permintaan komputasi intensif yang besar, meningkatkan kinerja pemrosesan GPU dan mempercepat throughput H100 sebanyak 2 kali lipat.

Dalam pengujian performa, NVIDIA menggunakan A100 sebagai basis dan membandingkan H100 dan H100 dengan TensorRT-LLM yang diaktifkan. Dalam inferensi GPT-J 6B, performa inferensi H100 4 kali lebih tinggi dibandingkan performa A100, sedangkan performa H100 dengan TensorRT -LLM yang diaktifkan lebih baik dari A100. 8 kali.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

Hadiah
suka
Komentar
Bagikan

Komentar

0/400

Tidak ada komentar

Topik
1/3
1Altcoin Season Coming?
27k Popularitas
2Stablecoin Regulation Crackdown
13k Popularitas
3Gate June Transparency Report
21k Popularitas
4ETH Breaks Through $3,800
23k Popularitas
5Institutions Buying Bitcoin
17k Popularitas

Sematkan

peta situs