Resim kaynağı: Sınırsız Yapay Zeka tarafından oluşturulmuştur
"GPU yoksulları" içinde bulundukları zor duruma veda etmek üzere!
Şu anda NVIDIA, H100'deki büyük dil modellerinin akıl yürütmesini hızlandırabilen açık kaynaklı bir yazılım olan TensorRT-LLM'yi piyasaya sürdü.
Peki kaç kez geliştirilebilir?
TensorRT-LLM ve onun optimizasyon fonksiyonları serisi (Uçuş İçi toplu işleme dahil) eklendikten sonra toplam model verimi 8 kat arttı.
GPT-J-6B A100 ve H100'ün TensorRT-LLM ile ve TensorRT-LLM olmadan karşılaştırılması
Ayrıca Llama 2'yi örnek alırsak TensorRT-LLM, A100'ün tek başına kullanılmasına kıyasla çıkarım performansını 4,6 kat artırabilir.
TensorRT-LLM'li ve TensorRT-LLM'siz Llama 2 70B, A100 ve H100'ün karşılaştırılması
Netizenler, süper güçlü H100'ün TensorRT-LLM ile birleştiğinde büyük ölçekli dil modeli çıkarımının mevcut durumunu şüphesiz tamamen değiştireceğini söyledi!
## TensorRT-LLM: Büyük model çıkarımı hızlandırma yapısı
Şu anda, büyük modellerin büyük parametre ölçeği nedeniyle, "dağıtım ve çıkarımın" zorluğu ve maliyeti yüksek olmaya devam ediyor.
NVIDIA tarafından geliştirilen TensorRT-LLM, LLM verimini önemli ölçüde artırmayı ve GPU aracılığıyla maliyetleri azaltmayı hedefliyor.
Özellikle TensorRT-LLM, TensorRT'nin derin öğrenme derleyicisini, FasterTransformer'ın optimize edilmiş çekirdeğini, ön ve son işlemeyi ve çoklu GPU/çok düğümlü iletişimi basit bir açık kaynaklı Python API'sinde kapsüller.
NVIDIA, FasterTransformer'ı ürünleştirilmiş bir çözüm haline getirmek için daha da geliştirdi.
TensorRT-LLM'nin kullanımı kolay, açık kaynaklı ve modüler bir Python uygulama programlama arayüzü sağladığı görülmektedir.
Kodlayıcıların çeşitli büyük dil modellerini dağıtmak, çalıştırmak ve hata ayıklamak için derinlemesine C++ veya CUDA uzmanlığına ihtiyacı yoktur ve ayrıca en yüksek performansı ve hızlı özelleştirmeyi elde edebilirler.
Nvidia'nın resmi bloguna göre TensorRT-LLM, Nvidia GPU'larındaki LLM çıkarım performansını dört şekilde optimize ediyor.
İlk olarak, mevcut 10'dan fazla büyük model için TensorRT-LLM tanıtıldı ve geliştiricilerin bunları hemen çalıştırmasına olanak tanındı.
İkincisi, açık kaynaklı bir yazılım kütüphanesi olan TensorRT-LLM, LLM'nin birden fazla GPU ve birden fazla GPU sunucusu üzerinde aynı anda çıkarım yapmasına olanak tanır.
Bu sunucular NVIDIA'nın NVLink ve InfiniBand ara bağlantıları aracılığıyla bağlanır.
Üçüncüsü, farklı model görevlerin diğer görevlerden bağımsız olarak GPU'ya girip çıkmasına olanak tanıyan yepyeni bir planlama teknolojisi olan "Hareket halinde toplu işleme"dir.
Son olarak TensorRT-LLM, model çıkarımı sırasında bellek kullanımını ve gecikmeyi azaltmak için H100 Transformer Engine'i kullanacak şekilde optimize edilmiştir.
Şimdi TensorRT-LLM'nin model performansını nasıl iyileştirdiğine daha yakından bakalım.
Zengin LLM ekolojisini destekleyin
TensorRT-LLM, açık kaynak model ekosistemi için çok iyi bir destek sağlıyor.
Meta'nın Llama 2-70B gibi en büyük ve en gelişmiş dil modelleri, gerçek zamanlı yanıtlar sağlamak için birden fazla GPU'nun birlikte çalışmasını gerektirir.
Önceden, LLM çıkarımı için en iyi performansı elde etmek istiyorlarsa, geliştiricilerin yapay zeka modelini yeniden yazması, onu manuel olarak birden fazla parçaya bölmesi ve yürütmeyi GPU'lar arasında koordine etmesi gerekiyordu.
TensorRT-LLM, ağırlık matrisini her cihaza dağıtmak için tensör paralelliğini kullanır, böylece bu süreci basitleştirir ve büyük ölçekli verimli çıkarıma olanak tanır.
Her model, geliştiricinin müdahalesine veya model değişikliğine gerek kalmadan, NVLink aracılığıyla bağlanan birden fazla GPU'da ve birden fazla sunucuda paralel olarak çalışabilir.
Yeni modellerin ve model mimarilerinin tanıtılmasıyla geliştiriciler, TensorRT-LLM'deki açık kaynaklı en yeni NVIDIA AI çekirdeğini (Kernal) kullanarak modellerini optimize edebilirler.
Desteklenen çekirdek füzyonu (Kernal Fusion), en gelişmiş FlashAttention uygulaması ve GPT modelinin yürütülmesinin bağlamı ve oluşturma aşamaları için maskelenmiş çok kafalı dikkat vb. dahil.
Ayrıca TensorRT-LLM, günümüzde popüler olan birçok büyük dil modelinin tamamen optimize edilmiş, çalışmaya hazır sürümlerini içerir.
Bunlara Meta Llama 2, OpenAI GPT-2 ve GPT-3, Falcon, Mosaic MPT, BLOOM ve 10'dan fazla model dahildir; bunların tümü basit ve kullanımı kolay TensorRT-LLM Python API kullanılarak çağrılabilir.
Bu özellikler, geliştiricilerin çeşitli sektörlerin farklı ihtiyaçlarını karşılamak için özelleştirilmiş büyük dil modellerini daha hızlı ve daha doğru bir şekilde oluşturmasına yardımcı olabilir.
Uçuş sırasında toplu işleme
Büyük dil modelleri günümüzde çok çeşitli uygulamalarda kullanılmaktadır.
Bir model, bir sohbet robotundaki basit Soru-Cevap yanıtlarından belge özetlemeye veya uzun kod blokları oluşturmaya kadar görünüşte birbirinden farklı birden fazla görev için aynı anda kullanılabilir. İş yükleri son derece dinamiktir ve çıktı boyutlarının, görev için değişen büyüklük sıralarında olması gerekir. ihtiyaç.
Görevlerin çeşitliliği, isteklerin etkili bir şekilde toplu olarak işlenmesini ve verimli paralel yürütmenin gerçekleştirilmesini zorlaştırabilir ve muhtemelen bazı isteklerin diğerlerinden daha erken tamamlanmasına neden olabilir.
Bu dinamik yükleri yönetmek için TensorRT-LLM, "Havada toplu işlem" adı verilen optimize edilmiş bir planlama teknolojisi içerir.
Temel ilkesi, büyük bir dil modelinin tüm metin oluşturma sürecinin, model üzerinde birden fazla yürütme yinelemesine bölünebilmesidir.
Uçuş sırasında toplu işleme ile TensorRT-LLM çalışma zamanı, bir sonraki istek kümesini işlemeye devam etmeden önce tüm toplu işin tamamlanmasını beklemek yerine, tamamlanmış dizileri toplu işten hemen serbest bırakır.
Yeni bir istek yürütülürken, önceki gruptan tamamlanmamış diğer istekler hala işlenmektedir.
Uçuş sırasında toplu işleme ve ek çekirdek düzeyindeki optimizasyonlar, GPU kullanımını artırır ve H100'deki gerçek LLM istek karşılaştırmasının verimini en az iki katına çıkarabilir.
FP 8 kullanan H100 Trafo motoru
TensorRT-LLM ayrıca, büyük model çıkarımı sırasında bellek tüketimini ve gecikmeyi etkili bir şekilde azaltabilen H100 Transformer Engine adlı bir özellik de sağlar.
LLM milyarlarca model ağırlığı ve aktivasyon fonksiyonu içerdiğinden, genellikle her biri 16 bit bellek kaplayan FP16 veya BF16 değerleriyle eğitilir ve temsil edilir.
Bununla birlikte, çıkarım zamanında çoğu model, 8 bitlik ve hatta 4 bitlik tamsayılar (INT8 veya INT4) gibi niceleme teknikleri kullanılarak daha düşük hassasiyetle verimli bir şekilde temsil edilebilir.
Niceleme, doğruluktan ödün vermeden model ağırlıklarını ve aktivasyon doğruluğunu azaltma işlemidir. Daha düşük hassasiyet kullanmak, her parametrenin daha küçük olması ve modelin GPU belleğinde daha az yer kaplaması anlamına gelir.
Bu, yürütme sırasında bellek işlemlerine daha az zaman harcayarak aynı donanımı kullanan daha büyük modeller üzerinde çıkarım yapılmasına olanak tanır.
H100 Transformer Engine teknolojisi sayesinde TensorRT-LLM'li H100 GPU, kullanıcıların model ağırlıklarını kolayca yeni FP8 formatına dönüştürmesine ve optimize edilmiş FP8 çekirdeğinin avantajlarından yararlanmak için modeli otomatik olarak derlemesine olanak tanır.
Üstelik bu işlem herhangi bir kodlama gerektirmiyor! H100 tarafından sunulan FP8 veri formatı, geliştiricilerin modellerini ölçmelerine ve model doğruluğunu azaltmadan bellek tüketimini önemli ölçüde azaltmalarına olanak tanır.
INT8 veya INT4 gibi diğer veri formatlarıyla karşılaştırıldığında FP8 nicemleme, en hızlı performansa ulaşırken daha yüksek hassasiyeti korur ve uygulanması en uygun olanıdır.
TensorRT-LLM nasıl edinilir
TensorRT-LLM henüz resmi olarak yayınlanmamış olsa da kullanıcılar artık erken erişime sahip olabiliyor.
Başvuru linki aşağıdaki gibidir:
NVIDIA ayrıca TensorRT-LLM'nin yakında NVIDIA NeMo çerçevesine entegre edileceğini söyledi.
Bu çerçeve, NVIDIA tarafından kısa bir süre önce başlatılan AI Enterprise'ın bir parçasıdır ve kurumsal müşterilere güvenli, istikrarlı ve yüksek düzeyde yönetilebilir bir kurumsal düzeyde AI yazılım platformu sağlar.
Geliştiriciler ve araştırmacılar TensorRT-LLM'ye NVIDIA NGC'deki NeMo çerçevesi aracılığıyla veya GitHub'daki bir proje olarak erişebilirler.
Ancak kullanıcıların erken erişim sürümüne başvuru yapabilmeleri için NVIDIA Geliştirici Programına kayıt olmaları gerektiğini de belirtelim.
Netizenler arasında sıcak tartışma
Reddit'teki netizenler TensorRT-LLM'nin lansmanı hakkında hararetli bir tartışma başlattı.
Donanımı yüksek lisans için özel olarak optimize ettikten sonra etkinin ne kadar artacağını hayal etmek zor.
Ancak bazı netizenler bu şeyin amacının Lao Huang'ın daha fazla H100 satmasına yardımcı olmak olduğuna inanıyor.
Ancak bazı netizenler buna pek katılmıyor ve Tensor RT'nin SD'yi yerel olarak dağıtan kullanıcılar için de yararlı olduğunu, dolayısıyla bir RTX GPU olduğu sürece gelecekte benzer ürünlerden faydalanmanın mümkün olabileceğini düşünüyor.
Daha makro bir perspektiften bakıldığında, belki Yüksek Lisans için, donanım düzeyinde bir dizi optimizasyon da olacak ve hatta Yüksek Lisans için özel olarak tasarlanmış donanımlar bile gelecekte LLM'nin performansını artırmak için ortaya çıkacak. Bu durum aslında zaten birçok BT'de popüler. başvurularda yer aldı ve LLM bir istisna değildir.
Referanslar:
View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
H100 muhakemesi 8 kat arttı! NVIDIA, 10'dan fazla modeli destekleyen açık kaynaklı TensorRT-LLM'yi resmi olarak duyurdu
Orijinal kaynak: Xinzhiyuan
"GPU yoksulları" içinde bulundukları zor duruma veda etmek üzere!
Şu anda NVIDIA, H100'deki büyük dil modellerinin akıl yürütmesini hızlandırabilen açık kaynaklı bir yazılım olan TensorRT-LLM'yi piyasaya sürdü.
TensorRT-LLM ve onun optimizasyon fonksiyonları serisi (Uçuş İçi toplu işleme dahil) eklendikten sonra toplam model verimi 8 kat arttı.
Ayrıca Llama 2'yi örnek alırsak TensorRT-LLM, A100'ün tek başına kullanılmasına kıyasla çıkarım performansını 4,6 kat artırabilir.
Netizenler, süper güçlü H100'ün TensorRT-LLM ile birleştiğinde büyük ölçekli dil modeli çıkarımının mevcut durumunu şüphesiz tamamen değiştireceğini söyledi!
Şu anda, büyük modellerin büyük parametre ölçeği nedeniyle, "dağıtım ve çıkarımın" zorluğu ve maliyeti yüksek olmaya devam ediyor.
NVIDIA tarafından geliştirilen TensorRT-LLM, LLM verimini önemli ölçüde artırmayı ve GPU aracılığıyla maliyetleri azaltmayı hedefliyor.
NVIDIA, FasterTransformer'ı ürünleştirilmiş bir çözüm haline getirmek için daha da geliştirdi.
TensorRT-LLM'nin kullanımı kolay, açık kaynaklı ve modüler bir Python uygulama programlama arayüzü sağladığı görülmektedir.
Kodlayıcıların çeşitli büyük dil modellerini dağıtmak, çalıştırmak ve hata ayıklamak için derinlemesine C++ veya CUDA uzmanlığına ihtiyacı yoktur ve ayrıca en yüksek performansı ve hızlı özelleştirmeyi elde edebilirler.
İlk olarak, mevcut 10'dan fazla büyük model için TensorRT-LLM tanıtıldı ve geliştiricilerin bunları hemen çalıştırmasına olanak tanındı.
İkincisi, açık kaynaklı bir yazılım kütüphanesi olan TensorRT-LLM, LLM'nin birden fazla GPU ve birden fazla GPU sunucusu üzerinde aynı anda çıkarım yapmasına olanak tanır.
Bu sunucular NVIDIA'nın NVLink ve InfiniBand ara bağlantıları aracılığıyla bağlanır.
Üçüncüsü, farklı model görevlerin diğer görevlerden bağımsız olarak GPU'ya girip çıkmasına olanak tanıyan yepyeni bir planlama teknolojisi olan "Hareket halinde toplu işleme"dir.
Son olarak TensorRT-LLM, model çıkarımı sırasında bellek kullanımını ve gecikmeyi azaltmak için H100 Transformer Engine'i kullanacak şekilde optimize edilmiştir.
Şimdi TensorRT-LLM'nin model performansını nasıl iyileştirdiğine daha yakından bakalım.
Zengin LLM ekolojisini destekleyin
TensorRT-LLM, açık kaynak model ekosistemi için çok iyi bir destek sağlıyor.
Meta'nın Llama 2-70B gibi en büyük ve en gelişmiş dil modelleri, gerçek zamanlı yanıtlar sağlamak için birden fazla GPU'nun birlikte çalışmasını gerektirir.
Önceden, LLM çıkarımı için en iyi performansı elde etmek istiyorlarsa, geliştiricilerin yapay zeka modelini yeniden yazması, onu manuel olarak birden fazla parçaya bölmesi ve yürütmeyi GPU'lar arasında koordine etmesi gerekiyordu.
Her model, geliştiricinin müdahalesine veya model değişikliğine gerek kalmadan, NVLink aracılığıyla bağlanan birden fazla GPU'da ve birden fazla sunucuda paralel olarak çalışabilir.
Desteklenen çekirdek füzyonu (Kernal Fusion), en gelişmiş FlashAttention uygulaması ve GPT modelinin yürütülmesinin bağlamı ve oluşturma aşamaları için maskelenmiş çok kafalı dikkat vb. dahil.
Ayrıca TensorRT-LLM, günümüzde popüler olan birçok büyük dil modelinin tamamen optimize edilmiş, çalışmaya hazır sürümlerini içerir.
Bunlara Meta Llama 2, OpenAI GPT-2 ve GPT-3, Falcon, Mosaic MPT, BLOOM ve 10'dan fazla model dahildir; bunların tümü basit ve kullanımı kolay TensorRT-LLM Python API kullanılarak çağrılabilir.
Bu özellikler, geliştiricilerin çeşitli sektörlerin farklı ihtiyaçlarını karşılamak için özelleştirilmiş büyük dil modellerini daha hızlı ve daha doğru bir şekilde oluşturmasına yardımcı olabilir.
Uçuş sırasında toplu işleme
Büyük dil modelleri günümüzde çok çeşitli uygulamalarda kullanılmaktadır.
Bir model, bir sohbet robotundaki basit Soru-Cevap yanıtlarından belge özetlemeye veya uzun kod blokları oluşturmaya kadar görünüşte birbirinden farklı birden fazla görev için aynı anda kullanılabilir. İş yükleri son derece dinamiktir ve çıktı boyutlarının, görev için değişen büyüklük sıralarında olması gerekir. ihtiyaç.
Görevlerin çeşitliliği, isteklerin etkili bir şekilde toplu olarak işlenmesini ve verimli paralel yürütmenin gerçekleştirilmesini zorlaştırabilir ve muhtemelen bazı isteklerin diğerlerinden daha erken tamamlanmasına neden olabilir.
Temel ilkesi, büyük bir dil modelinin tüm metin oluşturma sürecinin, model üzerinde birden fazla yürütme yinelemesine bölünebilmesidir.
Uçuş sırasında toplu işleme ile TensorRT-LLM çalışma zamanı, bir sonraki istek kümesini işlemeye devam etmeden önce tüm toplu işin tamamlanmasını beklemek yerine, tamamlanmış dizileri toplu işten hemen serbest bırakır.
Yeni bir istek yürütülürken, önceki gruptan tamamlanmamış diğer istekler hala işlenmektedir.
Uçuş sırasında toplu işleme ve ek çekirdek düzeyindeki optimizasyonlar, GPU kullanımını artırır ve H100'deki gerçek LLM istek karşılaştırmasının verimini en az iki katına çıkarabilir.
FP 8 kullanan H100 Trafo motoru
TensorRT-LLM ayrıca, büyük model çıkarımı sırasında bellek tüketimini ve gecikmeyi etkili bir şekilde azaltabilen H100 Transformer Engine adlı bir özellik de sağlar.
LLM milyarlarca model ağırlığı ve aktivasyon fonksiyonu içerdiğinden, genellikle her biri 16 bit bellek kaplayan FP16 veya BF16 değerleriyle eğitilir ve temsil edilir.
Bununla birlikte, çıkarım zamanında çoğu model, 8 bitlik ve hatta 4 bitlik tamsayılar (INT8 veya INT4) gibi niceleme teknikleri kullanılarak daha düşük hassasiyetle verimli bir şekilde temsil edilebilir.
Niceleme, doğruluktan ödün vermeden model ağırlıklarını ve aktivasyon doğruluğunu azaltma işlemidir. Daha düşük hassasiyet kullanmak, her parametrenin daha küçük olması ve modelin GPU belleğinde daha az yer kaplaması anlamına gelir.
H100 Transformer Engine teknolojisi sayesinde TensorRT-LLM'li H100 GPU, kullanıcıların model ağırlıklarını kolayca yeni FP8 formatına dönüştürmesine ve optimize edilmiş FP8 çekirdeğinin avantajlarından yararlanmak için modeli otomatik olarak derlemesine olanak tanır.
Üstelik bu işlem herhangi bir kodlama gerektirmiyor! H100 tarafından sunulan FP8 veri formatı, geliştiricilerin modellerini ölçmelerine ve model doğruluğunu azaltmadan bellek tüketimini önemli ölçüde azaltmalarına olanak tanır.
INT8 veya INT4 gibi diğer veri formatlarıyla karşılaştırıldığında FP8 nicemleme, en hızlı performansa ulaşırken daha yüksek hassasiyeti korur ve uygulanması en uygun olanıdır.
TensorRT-LLM nasıl edinilir
TensorRT-LLM henüz resmi olarak yayınlanmamış olsa da kullanıcılar artık erken erişime sahip olabiliyor.
Başvuru linki aşağıdaki gibidir:
NVIDIA ayrıca TensorRT-LLM'nin yakında NVIDIA NeMo çerçevesine entegre edileceğini söyledi.
Bu çerçeve, NVIDIA tarafından kısa bir süre önce başlatılan AI Enterprise'ın bir parçasıdır ve kurumsal müşterilere güvenli, istikrarlı ve yüksek düzeyde yönetilebilir bir kurumsal düzeyde AI yazılım platformu sağlar.
Geliştiriciler ve araştırmacılar TensorRT-LLM'ye NVIDIA NGC'deki NeMo çerçevesi aracılığıyla veya GitHub'daki bir proje olarak erişebilirler.
Ancak kullanıcıların erken erişim sürümüne başvuru yapabilmeleri için NVIDIA Geliştirici Programına kayıt olmaları gerektiğini de belirtelim.
Netizenler arasında sıcak tartışma
Reddit'teki netizenler TensorRT-LLM'nin lansmanı hakkında hararetli bir tartışma başlattı.
Donanımı yüksek lisans için özel olarak optimize ettikten sonra etkinin ne kadar artacağını hayal etmek zor.