Theo báo cáo của IT House vào ngày 9/9, NVIDIA mới đây đã công bố ra mắt TensorRT-LLM, thư viện mã nguồn mở được tối ưu hóa sâu, có thể tăng tốc hiệu suất suy luận của tất cả các mô hình ngôn ngữ lớn trên GPU AI như Hopper. NVIDIA hiện đang làm việc với cộng đồng nguồn mở để sử dụng các công nghệ tiên tiến như SmoothQuant, FlashAttention và fMHA để triển khai nhân AI nhằm tối ưu hóa GPU của mình, có thể tăng tốc các mô hình GPT-3 (175B), Llama Falcom (180B) và Bloom.
Điểm nổi bật của TensorRT-LLM là việc giới thiệu sơ đồ lập lịch có tên là In-Flight batching, cho phép công việc vào và thoát GPU độc lập với các tác vụ khác. Giải pháp này cho phép cùng một GPU xử lý động nhiều truy vấn nhỏ hơn khi xử lý các yêu cầu đòi hỏi tính toán lớn, cải thiện hiệu suất xử lý của GPU và tăng tốc thông lượng của H100 lên 2 lần.
Trong bài test hiệu năng, NVIDIA sử dụng A100 làm cơ sở và so sánh H100, H100 khi kích hoạt TensorRT-LLM, trong GPT-J 6B thì hiệu năng suy luận của H100 cao gấp 4 lần so với A100, trong khi hiệu năng của H100 với TensorRT -LLM kích hoạt tốt hơn A100, 8 lần.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
NVIDIA phát hành TensorRT-LLM, có thể cải thiện hiệu suất suy luận H100 lên tới 8 lần
Theo báo cáo của IT House vào ngày 9/9, NVIDIA mới đây đã công bố ra mắt TensorRT-LLM, thư viện mã nguồn mở được tối ưu hóa sâu, có thể tăng tốc hiệu suất suy luận của tất cả các mô hình ngôn ngữ lớn trên GPU AI như Hopper. NVIDIA hiện đang làm việc với cộng đồng nguồn mở để sử dụng các công nghệ tiên tiến như SmoothQuant, FlashAttention và fMHA để triển khai nhân AI nhằm tối ưu hóa GPU của mình, có thể tăng tốc các mô hình GPT-3 (175B), Llama Falcom (180B) và Bloom.
Điểm nổi bật của TensorRT-LLM là việc giới thiệu sơ đồ lập lịch có tên là In-Flight batching, cho phép công việc vào và thoát GPU độc lập với các tác vụ khác. Giải pháp này cho phép cùng một GPU xử lý động nhiều truy vấn nhỏ hơn khi xử lý các yêu cầu đòi hỏi tính toán lớn, cải thiện hiệu suất xử lý của GPU và tăng tốc thông lượng của H100 lên 2 lần.
Trong bài test hiệu năng, NVIDIA sử dụng A100 làm cơ sở và so sánh H100, H100 khi kích hoạt TensorRT-LLM, trong GPT-J 6B thì hiệu năng suy luận của H100 cao gấp 4 lần so với A100, trong khi hiệu năng của H100 với TensorRT -LLM kích hoạt tốt hơn A100, 8 lần.