H100 аргументація злетіла у 8 разів! NVIDIA офіційно анонсувала відкритий вихідний код TensorRT-LLM, який підтримує понад 10 моделей

Перше джерело: Xinzhiyuan

Джерело зображення: створено Unbounded AI‌

«Бідні ГПУ» ось-ось попрощаються зі своїм скрутним становищем!

Щойно NVIDIA випустила програмне забезпечення з відкритим кодом TensorRT-LLM, яке може прискорити обґрунтування великих мовних моделей на H100.

Отже, скільки разів його можна покращити?

Після додавання TensorRT-LLM і його серії оптимізаційних функцій (включно з пакетною обробкою в польоті) загальна пропускна здатність моделі зросла у 8 разів.

Порівняння GPT-J-6B A100 і H100 з і без TensorRT-LLM

Крім того, на прикладі Llama 2 TensorRT-LLM може покращити ефективність логічного висновку в 4,6 рази порівняно з використанням лише A100.

Порівняння Llama 2 70B, A100 і H100 з і без TensorRT-LLM

Користувачі мережі сказали, що надпотужний H100 у поєднанні з TensorRT-LLM, безсумнівно, повністю змінить поточну ситуацію з виведенням великомасштабної мовної моделі!

## TensorRT-LLM: великий артефакт прискорення висновку моделі

Зараз через величезний масштаб параметрів великих моделей складність і вартість «розгортання та висновку» залишаються високими.

TensorRT-LLM, розроблений NVIDIA, має на меті значно підвищити пропускну здатність LLM і зменшити витрати за допомогою GPU.

Зокрема, TensorRT-LLM інкапсулює компілятор глибокого навчання TensorRT, оптимізоване ядро FasterTransformer, попередню та постобробку, а також зв’язок із кількома GPU/багатьма вузлами в простий API Python з відкритим кодом.

NVIDIA ще більше вдосконалила FasterTransformer, щоб зробити його продуктивним рішенням.

Можна побачити, що TensorRT-LLM забезпечує простий у використанні модульний інтерфейс програмування Python з відкритим кодом.

Для розгортання, запуску та налагодження різноманітних великих мовних моделей програмістам не потрібні глибокі знання C++ або CUDA, а також вони можуть отримати високу продуктивність і швидке налаштування.

Відповідно до офіційного блогу Nvidia, TensorRT-LLM оптимізує продуктивність логічного висновку на графічних процесорах Nvidia чотирма способами.

По-перше, TensorRT-LLM представлено для поточних 10+ великих моделей, що дозволяє розробникам запускати їх негайно.

По-друге, TensorRT-LLM, як бібліотека програмного забезпечення з відкритим вихідним кодом, дозволяє LLM виконувати висновок на кількох GPU та кількох серверах GPU одночасно.

Ці сервери з’єднані через з’єднання NVIDIA NVLink і InfiniBand.

Третя — це «пакетна обробка під час польоту», яка є абсолютно новою технологією планування, яка дозволяє завданням різних моделей входити та виходити з GPU незалежно від інших завдань.

Нарешті, TensorRT-LLM оптимізовано для використання H100 Transformer Engine для зменшення використання пам’яті та затримки під час визначення моделі.

Далі розглянемо докладніше, як TensorRT-LLM покращує продуктивність моделі.

Підтримуйте багату екологію LLM

TensorRT-LLM забезпечує дуже хорошу підтримку для екосистеми моделі з відкритим кодом.

Найбільші та найдосконаліші мовні моделі, такі як Llama 2-70B від Meta, потребують спільної роботи кількох графічних процесорів, щоб надавати відповіді в реальному часі.

Раніше, якщо вони хотіли досягти оптимальної продуктивності для логічного висновку LLM, розробникам доводилося переписувати модель штучного інтелекту та вручну розбивати її на кілька фрагментів і координувати виконання між GPU.

TensorRT-LLM використовує тензорний паралелізм для розподілу вагової матриці на кожен пристрій, тим самим спрощуючи цей процес і забезпечуючи ефективний масштабний висновок.

Кожна модель може працювати паралельно на кількох графічних процесорах і кількох серверах, підключених через NVLink, без втручання розробника чи зміни моделі.

З появою нових моделей і архітектур розробники можуть оптимізувати свої моделі за допомогою останнього ядра NVIDIA AI (Kernal) з відкритим вихідним кодом TensorRT-LLM.

Підтримується злиття ядра (Kernal Fusion), включаючи найсучаснішу реалізацію FlashAttention і замасковану увагу кількох головок для контексту та етапів генерації виконання моделі GPT тощо.

Крім того, TensorRT-LLM включає повністю оптимізовані, готові до запуску версії багатьох великих мовних моделей, які популярні сьогодні.

Серед них Meta Llama 2, OpenAI GPT-2 і GPT-3, Falcon, Mosaic MPT, BLOOM і понад 10 моделей, усі з яких можна викликати за допомогою простого та легкого у використанні TensorRT-LLM Python API.

Ці функції можуть допомогти розробникам швидше й точніше створювати налаштовані великі мовні моделі для задоволення різних потреб різних галузей.

Пакетна обробка під час польоту

Великі мовні моделі сьогодні використовуються в різноманітних програмах.

Модель можна використовувати одночасно для багатьох, здавалося б, різнорідних завдань - від простих відповідей на запитання та відповіді в чат-боті до підсумовування документів або генерації довгих блоків коду. Робочі навантаження дуже динамічні, а розміри вихідних даних мають бути різного порядку для виконання завдання. потреба.

Різноманітність завдань може ускладнити ефективне групування запитів і ефективне паралельне виконання, що може призвести до того, що деякі запити будуть виконані раніше за інші.

Щоб керувати цими динамічними навантаженнями, TensorRT-LLM включає оптимізовану технологію планування під назвою «дозування під час польоту».

Його основний принцип полягає в тому, що весь процес генерації тексту великої мовної моделі можна розбити на кілька ітерацій виконання моделі.

За допомогою пакетування під час польоту середовище виконання TensorRT-LLM негайно вивільняє завершені послідовності з пакету, а не чекає, поки весь пакет завершиться, перш ніж продовжити обробку наступного набору запитів.

Поки виконується новий запит, інші запити з попереднього пакету, які не були завершені, все ще обробляються.

Пакетування під час польоту та додаткові оптимізації на рівні ядра покращують використання графічного процесора та можуть щонайменше подвоїти пропускну здатність фактичного тесту запиту LLM на H100.

Трансформатор H100 з використанням FP 8

TensorRT-LLM також надає функцію під назвою H100 Transformer Engine, яка може ефективно зменшити споживання пам’яті та затримку під час створення великих моделей.

Оскільки LLM містить мільярди вагових коефіцієнтів моделі та функцій активації, його зазвичай навчають і представляють значеннями FP16 або BF16, кожне з яких займає 16 біт пам’яті.

Однак під час висновку більшість моделей можна ефективно представити з нижчою точністю за допомогою методів квантування, таких як 8- або навіть 4-бітні цілі числа (INT8 або INT4).

Квантування — це процес зменшення вагових коефіцієнтів моделі та точності активації без шкоди для точності. Використання нижчої точності означає, що кожен параметр менший, і модель займає менше місця в пам’яті GPU.

Це дає змогу робити висновок на більших моделях, використовуючи те саме обладнання, витрачаючи менше часу на операції з пам’яттю під час виконання.

Завдяки технології H100 Transformer Engine графічний процесор H100 із TensorRT-LLM дозволяє користувачам легко конвертувати ваги моделі в новий формат FP8 і автоматично компілювати модель, щоб скористатися перевагами оптимізованого ядра FP8.

І цей процес не потребує кодування! Формат даних FP8, представлений H100, дозволяє розробникам кількісно оцінювати свої моделі та значно зменшувати споживання пам’яті без зниження точності моделі.

У порівнянні з іншими форматами даних, такими як INT8 або INT4, квантування FP8 зберігає вищу точність, одночасно досягаючи найшвидшої продуктивності та є найзручнішим у реалізації.

Як отримати TensorRT-LLM

Хоча TensorRT-LLM ще не було офіційно випущено, користувачі тепер можуть отримати ранній доступ.

Посилання на заявку виглядає наступним чином:

NVIDIA також повідомила, що незабаром TensorRT-LLM буде інтегрований у структуру NVIDIA NeMo.

Цей фреймворк є частиною AI Enterprise, запущеної NVIDIA нещодавно, що надає корпоративним клієнтам безпечну, стабільну та добре керовану програмну платформу ШІ корпоративного рівня.

Розробники та дослідники можуть отримати доступ до TensorRT-LLM через фреймворк NeMo на NVIDIA NGC або як проект на GitHub.

Однак слід зазначити, що користувачі повинні зареєструватися в програмі розробників NVIDIA, щоб подати заявку на ранній доступ до версії.

Гаряча дискусія серед користувачів мережі

Користувачі мережі на Reddit розгорнули бурхливу дискусію щодо запуску TensorRT-LLM.

Важко уявити, наскільки покращиться ефект після оптимізації апаратного забезпечення спеціально для LLM.

Але деякі користувачі мережі вважають, що мета цього — допомогти Lao Huang продавати більше H100.

Однак деякі користувачі мережі не дуже погоджуються з цим.Він вважає, що Tensor RT також корисний для користувачів, які розгортають SD локально, тому, поки є GPU RTX, можна буде використовувати подібні продукти в майбутньому.

З точки зору більш макросів, можливо, для LLM також буде низка оптимізацій на апаратному рівні, і навіть апаратне забезпечення, розроблене спеціально для LLM, з’явиться в майбутньому для покращення продуктивності LLM. Ця ситуація насправді вже популярна в багатьох IT з’явився в додатках, і LLM не є винятком.

Література:

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити