Menurut laporan IT House pada tanggal 9 September, NVIDIA baru-baru ini mengumumkan peluncuran TensorRT-LLM, pustaka sumber terbuka yang sangat dioptimalkan yang dapat mempercepat kinerja inferensi semua model bahasa besar pada GPU AI seperti Hopper. NVIDIA saat ini bekerja sama dengan komunitas open source untuk menggunakan teknologi mutakhir seperti SmoothQuant, FlashAttention, dan fMHA untuk mengimplementasikan kernel AI guna mengoptimalkan GPU-nya, yang dapat mempercepat model GPT-3 (175B), Llama Falcom (180B), dan Bloom.
Puncak dari TensorRT-LLM adalah pengenalan skema penjadwalan yang disebut In-Flight batching, yang memungkinkan pekerjaan masuk dan keluar dari GPU secara independen dari tugas lainnya. Solusi ini memungkinkan GPU yang sama untuk secara dinamis memproses beberapa kueri yang lebih kecil saat memproses permintaan komputasi intensif yang besar, meningkatkan kinerja pemrosesan GPU dan mempercepat throughput H100 sebanyak 2 kali lipat.
Dalam pengujian performa, NVIDIA menggunakan A100 sebagai basis dan membandingkan H100 dan H100 dengan TensorRT-LLM yang diaktifkan. Dalam inferensi GPT-J 6B, performa inferensi H100 4 kali lebih tinggi dibandingkan performa A100, sedangkan performa H100 dengan TensorRT -LLM yang diaktifkan lebih baik dari A100. 8 kali.
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
NVIDIA merilis TensorRT-LLM, yang dapat meningkatkan performa inferensi H100 hingga 8 kali lipat
Menurut laporan IT House pada tanggal 9 September, NVIDIA baru-baru ini mengumumkan peluncuran TensorRT-LLM, pustaka sumber terbuka yang sangat dioptimalkan yang dapat mempercepat kinerja inferensi semua model bahasa besar pada GPU AI seperti Hopper. NVIDIA saat ini bekerja sama dengan komunitas open source untuk menggunakan teknologi mutakhir seperti SmoothQuant, FlashAttention, dan fMHA untuk mengimplementasikan kernel AI guna mengoptimalkan GPU-nya, yang dapat mempercepat model GPT-3 (175B), Llama Falcom (180B), dan Bloom.
Puncak dari TensorRT-LLM adalah pengenalan skema penjadwalan yang disebut In-Flight batching, yang memungkinkan pekerjaan masuk dan keluar dari GPU secara independen dari tugas lainnya. Solusi ini memungkinkan GPU yang sama untuk secara dinamis memproses beberapa kueri yang lebih kecil saat memproses permintaan komputasi intensif yang besar, meningkatkan kinerja pemrosesan GPU dan mempercepat throughput H100 sebanyak 2 kali lipat.
Dalam pengujian performa, NVIDIA menggunakan A100 sebagai basis dan membandingkan H100 dan H100 dengan TensorRT-LLM yang diaktifkan. Dalam inferensi GPT-J 6B, performa inferensi H100 4 kali lebih tinggi dibandingkan performa A100, sedangkan performa H100 dengan TensorRT -LLM yang diaktifkan lebih baik dari A100. 8 kali.