Mereka yang "miskin GPU" akan mengucapkan selamat tinggal pada kesulitan mereka!
Baru-baru ini, NVIDIA merilis perangkat lunak sumber terbuka TensorRT-LLM, yang dapat mempercepat penalaran model bahasa besar di H100.
Jadi, berapa kali bisa diperbaiki?
Setelah menambahkan TensorRT-LLM dan rangkaian fungsi pengoptimalannya (termasuk pemrosesan batch In-Flight), total throughput model meningkat 8 kali lipat.
Perbandingan GPT-J-6B A100 dan H100 dengan dan tanpa TensorRT-LLM
Selain itu, dengan menggunakan Llama 2 sebagai contoh, TensorRT-LLM dapat meningkatkan performa inferensi sebesar 4,6 kali lipat dibandingkan hanya menggunakan A100.
Perbandingan Llama 2 70B, A100 dan H100 dengan dan tanpa TensorRT-LLM
Netizen mengatakan bahwa H100 yang super kuat, dikombinasikan dengan TensorRT-LLM, tidak diragukan lagi akan sepenuhnya mengubah situasi inferensi model bahasa skala besar saat ini!
## TensorRT-LLM: Artefak akselerasi inferensi model besar
Saat ini, karena skala parameter model besar yang sangat besar, kesulitan dan biaya "penerapan dan inferensi" tetap tinggi.
TensorRT-LLM yang dikembangkan oleh NVIDIA bertujuan untuk meningkatkan throughput LLM secara signifikan dan mengurangi biaya melalui GPU.
Secara khusus, TensorRT-LLM merangkum compiler deep learning TensorRT, kernel FasterTransformer yang dioptimalkan, sebelum dan sesudah pemrosesan, dan komunikasi multi-GPU/multi-node ke dalam API Python open source yang sederhana.
NVIDIA semakin menyempurnakan FasterTransformer untuk menjadikannya solusi produk.
Terlihat bahwa TensorRT-LLM menyediakan antarmuka pemrograman aplikasi Python yang mudah digunakan, open source, dan modular.
Pembuat kode tidak memerlukan keahlian C++ atau CUDA yang mendalam untuk menerapkan, menjalankan, dan men-debug berbagai model bahasa besar, dan juga dapat memperoleh performa terbaik dan penyesuaian cepat.
Menurut blog resmi Nvidia, TensorRT-LLM mengoptimalkan kinerja inferensi LLM pada GPU Nvidia dalam empat cara.
Pertama, TensorRT-LLM diperkenalkan untuk 10+ model besar saat ini, sehingga pengembang dapat langsung menjalankannya.
Kedua, TensorRT-LLM, sebagai pustaka perangkat lunak sumber terbuka, memungkinkan LLM melakukan inferensi pada beberapa GPU dan beberapa server GPU secara bersamaan.
Server-server ini terhubung melalui interkoneksi NVLink dan InfiniBand NVIDIA.
Yang ketiga adalah "Pemrosesan batch dalam penerbangan", yang merupakan teknologi penjadwalan baru yang memungkinkan berbagai model tugas masuk dan keluar dari GPU secara independen dari tugas lainnya.
Terakhir, TensorRT-LLM dioptimalkan untuk memanfaatkan H100 Transformer Engine guna mengurangi penggunaan memori dan latensi selama inferensi model.
Selanjutnya, mari kita lihat lebih dekat bagaimana TensorRT-LLM meningkatkan performa model.
Mendukung ekologi LLM yang kaya
TensorRT-LLM memberikan dukungan yang sangat baik untuk ekosistem model open source.
Model bahasa terbesar dan tercanggih, seperti Llama 2-70B dari Meta, memerlukan beberapa GPU yang bekerja sama untuk memberikan respons secara real time.
Sebelumnya, jika mereka ingin mencapai performa optimal untuk inferensi LLM, pengembang harus menulis ulang model AI dan secara manual membaginya menjadi beberapa fragmen dan mengoordinasikan eksekusi di seluruh GPU.
TensorRT-LLM menggunakan paralelisme tensor untuk mendistribusikan matriks bobot ke setiap perangkat, sehingga menyederhanakan proses ini dan memungkinkan inferensi efisien skala besar.
Setiap model dapat berjalan secara paralel pada beberapa GPU dan beberapa server yang terhubung melalui NVLink, tanpa campur tangan pengembang atau perubahan model.
Dengan diperkenalkannya model dan arsitektur model baru, pengembang dapat mengoptimalkan model mereka menggunakan kernel NVIDIA AI (Kernal) terbaru yang bersumber terbuka di TensorRT-LLM.
Fusi kernel yang didukung (Kernal Fusion), termasuk implementasi FlashAttention paling mutakhir dan perhatian multi-head yang terselubung untuk konteks dan tahapan pembuatan eksekusi model GPT, dll.
Selain itu, TensorRT-LLM menyertakan versi banyak model bahasa besar yang sudah dioptimalkan dan siap dijalankan yang populer saat ini.
Ini termasuk Meta Llama 2, OpenAI GPT-2 dan GPT-3, Falcon, Moses MPT, BLOOM dan lebih dari 10 model, semuanya dapat dipanggil menggunakan TensorRT-LLM Python API yang sederhana dan mudah digunakan.
Fitur-fitur ini dapat membantu pengembang membangun model bahasa besar yang disesuaikan dengan lebih cepat dan akurat untuk memenuhi berbagai kebutuhan berbagai industri.
Pemrosesan batch dalam penerbangan
Model bahasa besar digunakan dalam berbagai macam aplikasi saat ini.
Sebuah model dapat digunakan secara bersamaan untuk beberapa tugas yang tampaknya berbeda - mulai dari respons tanya jawab sederhana di chatbot, hingga ringkasan dokumen, atau pembuatan blok kode yang panjang.Beban kerja sangat dinamis dan ukuran keluaran harus bervariasi dalam besarnya tugas tersebut. membutuhkan.
Keberagaman tugas dapat menyulitkan pengelompokan permintaan secara efektif dan melakukan eksekusi paralel yang efisien, sehingga mungkin menyebabkan beberapa permintaan diselesaikan lebih awal dibandingkan permintaan lainnya.
Untuk mengelola beban dinamis ini, TensorRT-LLM menyertakan teknologi penjadwalan yang dioptimalkan yang disebut "In-flight batching".
Prinsip intinya adalah bahwa seluruh proses pembuatan teks dari model bahasa besar dapat dipecah menjadi beberapa iterasi eksekusi pada model tersebut.
Dengan pengelompokan dalam penerbangan, runtime TensorRT-LLM segera merilis urutan yang telah selesai dari kumpulan, daripada menunggu seluruh kumpulan selesai sebelum melanjutkan memproses rangkaian permintaan berikutnya.
Saat permintaan baru sedang dijalankan, permintaan lain dari batch sebelumnya yang belum diselesaikan masih diproses.
Batching dalam penerbangan dan optimasi tingkat kernel tambahan meningkatkan pemanfaatan GPU dan setidaknya dapat menggandakan throughput dari benchmark permintaan LLM sebenarnya pada H100.
Mesin Trafo H100 menggunakan FP 8
TensorRT-LLM juga menyediakan fitur yang disebut H100 Transformer Engine, yang secara efektif dapat mengurangi konsumsi memori dan latensi selama inferensi model besar.
Karena LLM berisi miliaran bobot model dan fungsi aktivasi, LLM biasanya dilatih dan direpresentasikan dengan nilai FP16 atau BF16, masing-masing menempati 16 bit memori.
Namun, pada waktu inferensi, sebagian besar model dapat direpresentasikan secara efisien dengan presisi lebih rendah menggunakan teknik kuantisasi, seperti bilangan bulat 8-bit atau bahkan 4-bit (INT8 atau INT4).
Kuantisasi adalah proses pengurangan bobot model dan akurasi aktivasi tanpa mengorbankan akurasi. Menggunakan presisi yang lebih rendah berarti setiap parameter menjadi lebih kecil dan model menggunakan lebih sedikit ruang di memori GPU.
Hal ini memungkinkan inferensi pada model yang lebih besar menggunakan perangkat keras yang sama dan menghabiskan lebih sedikit waktu pada operasi memori selama eksekusi.
Melalui teknologi H100 Transformer Engine, GPU H100 dengan TensorRT-LLM memungkinkan pengguna dengan mudah mengonversi bobot model ke format FP8 baru dan secara otomatis mengkompilasi model untuk memanfaatkan kernel FP8 yang dioptimalkan.
Dan proses ini tidak memerlukan pengkodean apa pun! Format data FP8 yang diperkenalkan oleh H100 memungkinkan pengembang mengukur model mereka dan secara signifikan mengurangi konsumsi memori tanpa mengurangi akurasi model.
Dibandingkan dengan format data lain seperti INT8 atau INT4, kuantisasi FP8 mempertahankan presisi lebih tinggi sekaligus mencapai performa tercepat dan paling nyaman untuk diterapkan.
Cara mendapatkan TensorRT-LLM
Meskipun TensorRT-LLM belum dirilis secara resmi, pengguna kini dapat memiliki akses awal.
Tautan aplikasinya adalah sebagai berikut:
NVIDIA juga mengatakan bahwa TensorRT-LLM akan segera diintegrasikan ke dalam framework NVIDIA NeMo.
Kerangka kerja ini adalah bagian dari AI Enterprise yang diluncurkan oleh NVIDIA belum lama ini, menyediakan platform perangkat lunak AI tingkat perusahaan yang aman, stabil, dan sangat mudah dikelola bagi pelanggan korporat.
Pengembang dan peneliti dapat mengakses TensorRT-LLM melalui framework NeMo di NVIDIA NGC atau sebagai proyek di GitHub.
Namun perlu diperhatikan bahwa pengguna harus mendaftar ke Program Pengembang NVIDIA untuk mengajukan versi akses awal.
Diskusi hangat di kalangan netizen
Netizen di Reddit meluncurkan diskusi hangat tentang peluncuran TensorRT-LLM.
Sulit membayangkan seberapa besar peningkatan efek setelah mengoptimalkan perangkat keras khusus untuk LLM.
Namun beberapa netizen percaya bahwa tujuan dari hal ini adalah untuk membantu Lao Huang menjual lebih banyak H100.
Namun, beberapa netizen kurang setuju. Ia merasa Tensor RT juga berguna bagi pengguna yang menerapkan SD secara lokal, jadi selama ada GPU RTX, produk serupa akan dapat dimanfaatkan di masa mendatang.
Dari sudut pandang yang lebih makro, mungkin untuk LLM juga akan ada serangkaian optimasi tingkat perangkat keras, dan bahkan perangkat keras yang dirancang khusus untuk LLM akan muncul di masa depan untuk meningkatkan kinerja LLM. Situasi ini sebenarnya sudah populer di banyak negara. telah muncul di aplikasi, dan LLM tidak terkecuali.
Referensi:
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
Alasan H100 melonjak 8 kali lipat! NVIDIA secara resmi mengumumkan TensorRT-LLM open source, mendukung 10+ model
Sumber asli: Xinzhiyuan
Mereka yang "miskin GPU" akan mengucapkan selamat tinggal pada kesulitan mereka!
Baru-baru ini, NVIDIA merilis perangkat lunak sumber terbuka TensorRT-LLM, yang dapat mempercepat penalaran model bahasa besar di H100.
Setelah menambahkan TensorRT-LLM dan rangkaian fungsi pengoptimalannya (termasuk pemrosesan batch In-Flight), total throughput model meningkat 8 kali lipat.
Selain itu, dengan menggunakan Llama 2 sebagai contoh, TensorRT-LLM dapat meningkatkan performa inferensi sebesar 4,6 kali lipat dibandingkan hanya menggunakan A100.
Netizen mengatakan bahwa H100 yang super kuat, dikombinasikan dengan TensorRT-LLM, tidak diragukan lagi akan sepenuhnya mengubah situasi inferensi model bahasa skala besar saat ini!
Saat ini, karena skala parameter model besar yang sangat besar, kesulitan dan biaya "penerapan dan inferensi" tetap tinggi.
TensorRT-LLM yang dikembangkan oleh NVIDIA bertujuan untuk meningkatkan throughput LLM secara signifikan dan mengurangi biaya melalui GPU.
NVIDIA semakin menyempurnakan FasterTransformer untuk menjadikannya solusi produk.
Terlihat bahwa TensorRT-LLM menyediakan antarmuka pemrograman aplikasi Python yang mudah digunakan, open source, dan modular.
Pembuat kode tidak memerlukan keahlian C++ atau CUDA yang mendalam untuk menerapkan, menjalankan, dan men-debug berbagai model bahasa besar, dan juga dapat memperoleh performa terbaik dan penyesuaian cepat.
Pertama, TensorRT-LLM diperkenalkan untuk 10+ model besar saat ini, sehingga pengembang dapat langsung menjalankannya.
Kedua, TensorRT-LLM, sebagai pustaka perangkat lunak sumber terbuka, memungkinkan LLM melakukan inferensi pada beberapa GPU dan beberapa server GPU secara bersamaan.
Server-server ini terhubung melalui interkoneksi NVLink dan InfiniBand NVIDIA.
Yang ketiga adalah "Pemrosesan batch dalam penerbangan", yang merupakan teknologi penjadwalan baru yang memungkinkan berbagai model tugas masuk dan keluar dari GPU secara independen dari tugas lainnya.
Terakhir, TensorRT-LLM dioptimalkan untuk memanfaatkan H100 Transformer Engine guna mengurangi penggunaan memori dan latensi selama inferensi model.
Selanjutnya, mari kita lihat lebih dekat bagaimana TensorRT-LLM meningkatkan performa model.
Mendukung ekologi LLM yang kaya
TensorRT-LLM memberikan dukungan yang sangat baik untuk ekosistem model open source.
Model bahasa terbesar dan tercanggih, seperti Llama 2-70B dari Meta, memerlukan beberapa GPU yang bekerja sama untuk memberikan respons secara real time.
Sebelumnya, jika mereka ingin mencapai performa optimal untuk inferensi LLM, pengembang harus menulis ulang model AI dan secara manual membaginya menjadi beberapa fragmen dan mengoordinasikan eksekusi di seluruh GPU.
Setiap model dapat berjalan secara paralel pada beberapa GPU dan beberapa server yang terhubung melalui NVLink, tanpa campur tangan pengembang atau perubahan model.
Fusi kernel yang didukung (Kernal Fusion), termasuk implementasi FlashAttention paling mutakhir dan perhatian multi-head yang terselubung untuk konteks dan tahapan pembuatan eksekusi model GPT, dll.
Selain itu, TensorRT-LLM menyertakan versi banyak model bahasa besar yang sudah dioptimalkan dan siap dijalankan yang populer saat ini.
Ini termasuk Meta Llama 2, OpenAI GPT-2 dan GPT-3, Falcon, Moses MPT, BLOOM dan lebih dari 10 model, semuanya dapat dipanggil menggunakan TensorRT-LLM Python API yang sederhana dan mudah digunakan.
Fitur-fitur ini dapat membantu pengembang membangun model bahasa besar yang disesuaikan dengan lebih cepat dan akurat untuk memenuhi berbagai kebutuhan berbagai industri.
Pemrosesan batch dalam penerbangan
Model bahasa besar digunakan dalam berbagai macam aplikasi saat ini.
Sebuah model dapat digunakan secara bersamaan untuk beberapa tugas yang tampaknya berbeda - mulai dari respons tanya jawab sederhana di chatbot, hingga ringkasan dokumen, atau pembuatan blok kode yang panjang.Beban kerja sangat dinamis dan ukuran keluaran harus bervariasi dalam besarnya tugas tersebut. membutuhkan.
Keberagaman tugas dapat menyulitkan pengelompokan permintaan secara efektif dan melakukan eksekusi paralel yang efisien, sehingga mungkin menyebabkan beberapa permintaan diselesaikan lebih awal dibandingkan permintaan lainnya.
Prinsip intinya adalah bahwa seluruh proses pembuatan teks dari model bahasa besar dapat dipecah menjadi beberapa iterasi eksekusi pada model tersebut.
Dengan pengelompokan dalam penerbangan, runtime TensorRT-LLM segera merilis urutan yang telah selesai dari kumpulan, daripada menunggu seluruh kumpulan selesai sebelum melanjutkan memproses rangkaian permintaan berikutnya.
Saat permintaan baru sedang dijalankan, permintaan lain dari batch sebelumnya yang belum diselesaikan masih diproses.
Batching dalam penerbangan dan optimasi tingkat kernel tambahan meningkatkan pemanfaatan GPU dan setidaknya dapat menggandakan throughput dari benchmark permintaan LLM sebenarnya pada H100.
Mesin Trafo H100 menggunakan FP 8
TensorRT-LLM juga menyediakan fitur yang disebut H100 Transformer Engine, yang secara efektif dapat mengurangi konsumsi memori dan latensi selama inferensi model besar.
Karena LLM berisi miliaran bobot model dan fungsi aktivasi, LLM biasanya dilatih dan direpresentasikan dengan nilai FP16 atau BF16, masing-masing menempati 16 bit memori.
Namun, pada waktu inferensi, sebagian besar model dapat direpresentasikan secara efisien dengan presisi lebih rendah menggunakan teknik kuantisasi, seperti bilangan bulat 8-bit atau bahkan 4-bit (INT8 atau INT4).
Kuantisasi adalah proses pengurangan bobot model dan akurasi aktivasi tanpa mengorbankan akurasi. Menggunakan presisi yang lebih rendah berarti setiap parameter menjadi lebih kecil dan model menggunakan lebih sedikit ruang di memori GPU.
Melalui teknologi H100 Transformer Engine, GPU H100 dengan TensorRT-LLM memungkinkan pengguna dengan mudah mengonversi bobot model ke format FP8 baru dan secara otomatis mengkompilasi model untuk memanfaatkan kernel FP8 yang dioptimalkan.
Dan proses ini tidak memerlukan pengkodean apa pun! Format data FP8 yang diperkenalkan oleh H100 memungkinkan pengembang mengukur model mereka dan secara signifikan mengurangi konsumsi memori tanpa mengurangi akurasi model.
Dibandingkan dengan format data lain seperti INT8 atau INT4, kuantisasi FP8 mempertahankan presisi lebih tinggi sekaligus mencapai performa tercepat dan paling nyaman untuk diterapkan.
Cara mendapatkan TensorRT-LLM
Meskipun TensorRT-LLM belum dirilis secara resmi, pengguna kini dapat memiliki akses awal.
Tautan aplikasinya adalah sebagai berikut:
NVIDIA juga mengatakan bahwa TensorRT-LLM akan segera diintegrasikan ke dalam framework NVIDIA NeMo.
Kerangka kerja ini adalah bagian dari AI Enterprise yang diluncurkan oleh NVIDIA belum lama ini, menyediakan platform perangkat lunak AI tingkat perusahaan yang aman, stabil, dan sangat mudah dikelola bagi pelanggan korporat.
Pengembang dan peneliti dapat mengakses TensorRT-LLM melalui framework NeMo di NVIDIA NGC atau sebagai proyek di GitHub.
Namun perlu diperhatikan bahwa pengguna harus mendaftar ke Program Pengembang NVIDIA untuk mengajukan versi akses awal.
Diskusi hangat di kalangan netizen
Netizen di Reddit meluncurkan diskusi hangat tentang peluncuran TensorRT-LLM.
Sulit membayangkan seberapa besar peningkatan efek setelah mengoptimalkan perangkat keras khusus untuk LLM.