Lý luận H100 tăng vọt 8 lần! NVIDIA chính thức công bố TensorRT-LLM mã nguồn mở, hỗ trợ hơn 10 model

Nguồn gốc: Xinzhiyuan

Nguồn hình ảnh: Được tạo bởi AI‌ không giới hạn

Những người "nghèo GPU" sắp chia tay tình thế khó khăn của mình!

Vừa rồi NVIDIA đã phát hành phần mềm mã nguồn mở TensorRT-LLM, có thể tăng tốc khả năng suy luận của các mô hình ngôn ngữ lớn trên H100.

Vì vậy, nó có thể được cải thiện bao nhiêu lần?

Sau khi thêm TensorRT-LLM và một loạt chức năng tối ưu hóa của nó (bao gồm cả xử lý hàng loạt trong chuyến bay), tổng công suất của mô hình đã tăng lên 8 lần.

So sánh GPT-J-6B A100 và H100 có và không có TensorRT-LLM

Ngoài ra, lấy Llama 2 làm ví dụ, TensorRT-LLM có thể cải thiện hiệu suất suy luận lên 4,6 lần so với chỉ sử dụng A100.

So sánh Llama 2 70B, A100 và H100 có và không có TensorRT-LLM

Cư dân mạng cho rằng H100 siêu mạnh, kết hợp với TensorRT-LLM, chắc chắn sẽ thay đổi hoàn toàn tình hình suy luận mô hình ngôn ngữ quy mô lớn hiện nay!

## TensorRT-LLM: Tạo tác tăng tốc suy luận mô hình lớn

Hiện nay, do quy mô tham số rất lớn của các mô hình lớn nên độ khó và chi phí cho việc “triển khai và suy luận” còn cao.

TensorRT-LLM do NVIDIA phát triển nhằm mục đích cải thiện đáng kể thông lượng LLM và giảm chi phí thông qua GPU.

Cụ thể, TensorRT-LLM gói gọn trình biên dịch học sâu của TensorRT, hạt nhân được tối ưu hóa của FasterTransformer, quá trình xử lý trước và sau cũng như giao tiếp đa GPU/đa nút thành một API Python nguồn mở đơn giản.

NVIDIA đã cải tiến hơn nữa FasterTransformer để biến nó thành một giải pháp hiệu quả.

Có thể thấy, TensorRT-LLM cung cấp giao diện lập trình ứng dụng Python dạng mô-đun, mã nguồn mở, dễ sử dụng.

Các lập trình viên không cần chuyên môn sâu về C++ hoặc CUDA để triển khai, chạy và gỡ lỗi các mô hình ngôn ngữ lớn khác nhau và cũng có thể đạt được hiệu suất cao nhất cũng như khả năng tùy chỉnh nhanh chóng.

Theo blog chính thức của Nvidia, TensorRT-LLM tối ưu hóa hiệu suất suy luận LLM trên GPU Nvidia theo bốn cách.

Đầu tiên, TensorRT-LLM được giới thiệu cho hơn 10 mô hình lớn hiện tại, cho phép các nhà phát triển chạy chúng ngay lập tức.

Thứ hai, TensorRT-LLM, với tư cách là một thư viện phần mềm nguồn mở, cho phép LLM thực hiện suy luận đồng thời trên nhiều GPU và nhiều máy chủ GPU.

Các máy chủ này được kết nối thông qua kết nối NVLink và InfiniBand của NVIDIA.

Thứ ba là "Xử lý hàng loạt trong chuyến bay", đây là công nghệ lập lịch hoàn toàn mới cho phép các tác vụ mô hình khác nhau vào và thoát GPU một cách độc lập với các tác vụ khác.

Cuối cùng, TensorRT-LLM được tối ưu hóa để sử dụng Công cụ biến áp H100 nhằm giảm mức sử dụng bộ nhớ và độ trễ trong quá trình suy luận mô hình.

Tiếp theo, chúng ta hãy xem xét kỹ hơn cách TensorRT-LLM cải thiện hiệu suất mô hình.

Hỗ trợ hệ sinh thái LLM phong phú

TensorRT-LLM hỗ trợ rất tốt cho hệ sinh thái mô hình nguồn mở.

Các mô hình ngôn ngữ lớn nhất và tiên tiến nhất, chẳng hạn như Llama 2-70B của Meta, yêu cầu nhiều GPU hoạt động cùng nhau để cung cấp phản hồi trong thời gian thực.

Trước đây, nếu muốn đạt được hiệu suất tối ưu cho suy luận LLM, các nhà phát triển phải viết lại mô hình AI và chia nó thành nhiều phân đoạn theo cách thủ công và phối hợp thực thi trên các GPU.

TensorRT-LLM sử dụng tính năng song song tensor để phân phối ma trận trọng số tới từng thiết bị, từ đó đơn giản hóa quy trình này và cho phép suy luận hiệu quả trên quy mô lớn.

Mỗi mô hình có thể chạy song song trên nhiều GPU và nhiều máy chủ được kết nối qua NVLink mà không cần sự can thiệp của nhà phát triển hoặc thay đổi mô hình.

Với việc giới thiệu các mô hình và kiến trúc mô hình mới, các nhà phát triển có thể tối ưu hóa mô hình của họ bằng cách sử dụng nhân NVIDIA AI (Kernal) mới nhất có nguồn mở trong TensorRT-LLM.

Hỗ trợ phản ứng tổng hợp hạt nhân (Kernal Fusion), bao gồm triển khai FlashAttention tiên tiến nhất và sự chú ý nhiều đầu được che giấu cho bối cảnh và các giai đoạn tạo của quá trình thực thi mô hình GPT, v.v.

Ngoài ra, TensorRT-LLM còn bao gồm các phiên bản sẵn sàng chạy, được tối ưu hóa hoàn toàn của nhiều mô hình ngôn ngữ lớn phổ biến hiện nay.

Chúng bao gồm Meta Llama 2, OpenAI GPT-2 và GPT-3, Falcon, Khảm MPT, BLOOM và hơn 10 mô hình, tất cả đều có thể được gọi bằng API Python TensorRT-LLM đơn giản và dễ sử dụng.

Những tính năng này có thể giúp nhà phát triển xây dựng các mô hình ngôn ngữ lớn tùy chỉnh nhanh hơn và chính xác hơn để đáp ứng các nhu cầu khác nhau của các ngành khác nhau.

Xử lý hàng loạt trên chuyến bay

Ngày nay, các mô hình ngôn ngữ lớn được sử dụng trong rất nhiều ứng dụng.

Một mô hình có thể được sử dụng đồng thời cho nhiều nhiệm vụ dường như khác nhau - từ những câu trả lời Hỏi & Đáp đơn giản trong chatbot, đến tóm tắt tài liệu hoặc tạo các khối mã dài. nhu cầu.

Sự đa dạng của các nhiệm vụ có thể gây khó khăn cho việc phân nhóm các yêu cầu một cách hiệu quả và thực hiện song song hiệu quả, có thể khiến một số yêu cầu hoàn thành sớm hơn các yêu cầu khác.

Để quản lý các tải động này, TensorRT-LLM bao gồm một công nghệ lập kế hoạch được tối ưu hóa có tên là "Phân khối trên chuyến bay".

Nguyên tắc cốt lõi của nó là toàn bộ quá trình tạo văn bản của một mô hình ngôn ngữ lớn có thể được chia thành nhiều lần lặp thực thi trên mô hình.

Với tính năng phân đợt trong khi thực hiện, thời gian chạy TensorRT-LLM sẽ giải phóng các chuỗi đã hoàn thành từ lô ngay lập tức, thay vì đợi toàn bộ lô hoàn thành trước khi tiếp tục xử lý nhóm yêu cầu tiếp theo.

Trong khi một yêu cầu mới đang được thực thi, các yêu cầu khác từ đợt trước chưa được hoàn thành vẫn đang được xử lý.

Tính năng phân khối trong quá trình hoạt động và các tối ưu hóa cấp hạt nhân bổ sung sẽ cải thiện việc sử dụng GPU và ít nhất có thể tăng gấp đôi thông lượng của điểm chuẩn yêu cầu LLM thực tế trên H100.

Động cơ máy biến áp H100 sử dụng FP 8

TensorRT-LLM cũng cung cấp một tính năng gọi là Công cụ biến áp H100, có thể giảm mức tiêu thụ bộ nhớ và độ trễ một cách hiệu quả trong quá trình suy luận mô hình lớn.

Bởi vì LLM chứa hàng tỷ trọng số mô hình và các hàm kích hoạt nên nó thường được huấn luyện và biểu diễn bằng các giá trị FP16 hoặc BF16, mỗi giá trị chiếm 16 bit bộ nhớ.

Tuy nhiên, tại thời điểm suy luận, hầu hết các mô hình có thể được biểu diễn một cách hiệu quả với độ chính xác thấp hơn bằng cách sử dụng các kỹ thuật lượng tử hóa, chẳng hạn như số nguyên 8 bit hoặc thậm chí 4 bit (INT8 hoặc INT4).

Lượng tử hóa là quá trình giảm trọng lượng mô hình và độ chính xác kích hoạt mà không làm giảm độ chính xác. Sử dụng độ chính xác thấp hơn có nghĩa là mỗi tham số nhỏ hơn và mô hình chiếm ít dung lượng hơn trong bộ nhớ GPU.

Điều này cho phép suy luận trên các mô hình lớn hơn sử dụng cùng phần cứng trong khi tiêu tốn ít thời gian hơn cho các thao tác bộ nhớ trong quá trình thực thi.

Thông qua công nghệ H100 Transformer Engine, GPU H100 với TensorRT-LLM cho phép người dùng dễ dàng chuyển đổi trọng lượng mô hình sang định dạng FP8 mới và tự động biên dịch mô hình để tận dụng nhân FP8 được tối ưu hóa.

Và quá trình này không yêu cầu bất kỳ mã hóa nào! Định dạng dữ liệu FP8 được H100 giới thiệu cho phép các nhà phát triển định lượng mô hình của họ và giảm đáng kể mức tiêu thụ bộ nhớ mà không làm giảm độ chính xác của mô hình.

So với các định dạng dữ liệu khác như INT8 hoặc INT4, lượng tử hóa FP8 giữ được độ chính xác cao hơn đồng thời đạt được hiệu suất nhanh nhất và thuận tiện nhất để thực hiện.

Cách lấy TensorRT-LLM

Mặc dù TensorRT-LLM vẫn chưa được phát hành chính thức nhưng hiện tại người dùng đã có thể truy cập sớm.

Liên kết ứng dụng như sau:

NVIDIA cũng cho biết TensorRT-LLM sẽ sớm được tích hợp vào framework NVIDIA NeMo.

Framework này là một phần của AI Enterprise do NVIDIA ra mắt cách đây không lâu, cung cấp cho khách hàng doanh nghiệp nền tảng phần mềm AI cấp doanh nghiệp an toàn, ổn định và có khả năng quản lý cao.

Các nhà phát triển và nhà nghiên cứu có thể truy cập TensorRT-LLM thông qua khung NeMo trên NVIDIA NGC hoặc dưới dạng dự án trên GitHub.

Tuy nhiên, cần lưu ý rằng người dùng phải đăng ký NVIDIA Developer Program để đăng ký phiên bản truy cập sớm.

Cư dân mạng thảo luận sôi nổi

Cư dân mạng trên Reddit đã đưa ra một cuộc thảo luận sôi nổi về việc ra mắt TensorRT-LLM.

Thật khó để tưởng tượng hiệu quả sẽ được cải thiện đến mức nào sau khi tối ưu hóa phần cứng dành riêng cho LLM.

Nhưng một số cư dân mạng cho rằng mục đích của việc này là để giúp Lão Hoàng bán được nhiều xe H100 hơn.

Tuy nhiên, một số cư dân mạng không đồng tình lắm, anh ấy cảm thấy Tensor RT cũng hữu ích cho người dùng triển khai SD cục bộ, vì vậy miễn là có GPU RTX thì sẽ có thể hưởng lợi từ các sản phẩm tương tự trong tương lai.

Từ góc độ vĩ mô hơn, có lẽ đối với LLM, cũng sẽ có một loạt tối ưu hóa ở cấp độ phần cứng và thậm chí phần cứng được thiết kế dành riêng cho LLM sẽ xuất hiện trong tương lai để cải thiện hiệu suất của LLM. Tình trạng này thực sự đã phổ biến ở nhiều nơi. đã xuất hiện trong các ứng dụng và LLM cũng không ngoại lệ.

Người giới thiệu:

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Chia sẻ
Bình luận
0/400
Không có bình luận
  • Ghim
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)