Посібник з «алхімії» GPT-4: MoE, кількість параметрів, вартість навчання та секрети висновків

Оригінал: Збирання слонів

Джерело: Overseas Unicorns

Автори: Ділан Патель, Джеральд Вонг

Редагували: Хайна, Венлі, Кейдж

Редактор: Siqi

Джерело зображення: створено Unbounded AI‌

Ця стаття складена з колонки SemiAnalysis Ділана Пателя та Джеральда Вонга. Нещодавно Ділан Патель повідомив про внутрішній лист Google: у нас немає Moat, як і OpenAI.

GPT-4 є результатом глибокого поєднання науки та інженерних інновацій. У середині є незліченна кількість хитрощів. Для зовнішнього світу, якщо ви можете зрозуміти структуру GPT-4, це все одно, що отримати «рецепт алхімії». найсильнішої моделі. У цьому вмісті детально описано архітектуру GPT-4, інфраструктуру навчання та логічного висновку, кількість параметрів, набір даних навчання, номер маркера, вартість і модель MoE, а також інші параметри й інформацію.

Ділан і Джеральд вважають, що причина, чому OpenAI не розкриває архітектуру GPT-4, полягає не в так званих міркуваннях безпеки ШІ, а в тому, що цю архітектуру легко скопіювати; Джордж Хотц, відомий як «геніальний хакер» , також висловив подібну думку, однак Джордж стверджує, що GPT-4 складається з MoE з 8 експертних моделей, кожна з яких має приблизно 1100 параметрів.

Два автори передбачають, що такі компанії, як Google, Meta, Anthropic, Inflection, Character.ai, Tencent, ByteDance, Baidu тощо, матимуть такі ж або навіть сильніші можливості моделі, як GPT-4, у короткостроковій перспективі. Незважаючи на те, що архітектуру GPT-4 «легко копіювати», на їхню думку, OpenAI має найміцніший рів — найбільшу кількість кінцевих користувачів, провідних інженерних талантів і переваги першопрохідців у змінах моделей між поколіннями.

Дружнє нагадування: дані в статті походять із багатостороннього збору та дослідження оригінального автора та не підтверджені OpenAI. Дослідження Ділана Пателя загалом вважаються дуже надійними та можуть використовуватися як хороший довідник для GPT-4 матеріали поглибленого дослідження. Крім того, ми вважаємо, що легкі для відтворення погляди в статті можна запідозрити як «головну вечірку», тому що, окрім OpenAI і Google, наразі мало вчених, які б добре володіли складною структурою навчання та міркуванням, і поточний GPT-4 є лише першим поколінням MoE. Це не остаточна відповідь, яку дає OpenAI, і багато досвіду в цьому процесі недоступні іншим командам, і цей досвід безперечно стане унікальною перевагою OpenAI.

Нижче наведено зміст цієї статті, і його рекомендується прочитати в поєднанні з основними моментами.

👇

01 Огляд

02 Структура моделі

03 Набір даних

04 Паралельна стратегія

05 Вартість навчання

06 MoE

07 Міркування

08 Інфра та вартість аргументації

09 Механізм звернення до кількох запитів

10 послідовних партій

11 Спекулятивне декодування

12 Vision Multimodal

01.Огляд

Інженерні можливості OpenAI і те, що вони створили, вражають, але це не означає, що рішення непереборні. Їхнє рішення є дуже елегантним, і воно також передбачає врахування та баланс ряду складних факторів, і розширення масштабу моделі є лише частиною цього. **Найміцніший рів OpenAI походить з трьох аспектів: по-перше, вони мають найбільшу кількість реальних користувачів, по-друге, провідні інженерні таланти, і, нарешті, вони, ймовірно, продовжуватимуть підтримувати передову перевагу в майбутній розробці моделей. **

Важливо не тільки зрозуміти, чому GPT-4 вибрав певну архітектуру, але нещодавно ми також окреслимо витрати на навчання та висновки GPT-4 на A100, а також як використовувати H100 в архітектурі моделі наступного покоління.

Від GPT-3 до GPT-4 OpenAI хоче збільшити розмір моделі в 100 разів.Суть цього процесу, природно, полягає у вартості**. Щільні трансформатори є широко використовуваними архітектурами моделей, такими як OpenAI GPT-3, Google PaLM, Meta LLaMA, TII Falcon, MosaicML MPT тощо. На даний момент є щонайменше 50 компаній, які використовують цю архітектуру для навчання LLM, яка є гарним прикладом архітектури , але його масштабованість дуже обмежена.

AI Brick Wall обговорив вартість навчання моделі в цій статті до випуску GPT-4. З точки зору вартості навчання, щільна модель (щільні трансформатори) ось-ось зіткнеться зі своєю власною «цегляною стіною штучного інтелекту». Зробіть деякі зусилля з архітектури верхнього рівня.

Цегляна стіна штучного інтелекту: апаратне забезпечення на цьому етапі досягло своєї межі з точки зору щільного трансформатора, тому непрактично та дорого постійно розширювати масштаб моделі до моделі з одним трильйоном чи десятьма трильйонами параметрів. Перед появою апаратного забезпечення нового покоління потрібні різні стратегії та методи, щоб зменшити витрати на навчання, підвищити ефективність навчання моделі та розширити модель до більшої кількості параметрів. Автор вважає, що ця серія технологій буде реалізована приблизно в 2023 році, а компанії, здатні взяти участь, включають OpenAI, Google, DeepMind, Microsoft і Nvidia. Багато з цих стратегій були представлені на конференції NeurIPS і, ймовірно, матимуть великий вплив на додатки ШІ.

Але за останні 6 місяців ми зрозуміли, що вартість навчання може не бути проблемою. Хоча витрачати мільйони чи навіть сотні мільйонів доларів на навчання моделей звучить божевільно, насправді для технічних гігантів це тривіально. Велика модель — це капітальний інвестиційний проект (стаття рядка Capex), і чим більша модель, тим кращий результат. Єдиним обмежуючим фактором є те, чи мають люди достатньо можливостей і часу для надання зворотного зв’язку та зміни архітектури моделі під час розширення моделі масштаб.

Meta інвестує понад 16 мільярдів доларів у «Metaverse» щороку, Google витрачає близько 10 мільярдів доларів на спроби нових проектів, Amazon витрачає понад 50 мільярдів доларів на Alexa, а криптовалюти витрачаються на «безцінні речі». Понад 100 мільярдів доларів витрачено даремно. Суспільство в цілому витратить понад 100 мільярдів доларів на створення суперкомп’ютерів, здатних навчати великомасштабні моделі, які можна створювати різними способами. Кілька країн і компаній повторять навчання** на великих моделях, які є новою «гонкою озброєнь у космосі»**. Порівняно з попереднім «розтратою ресурсів», реальна цінність буде реалізована в короткостроковій перспективі через появу людей-асистентів і автономних агентів.

Але в найближчі кілька років Google, Meta і OpenAI, Microsoft та інші компанії витратять понад 100 мільярдів доларів США на створення суперкомп’ютера для навчання моделі.

Більш важливе питання збільшення розміру моделі, справжньої «Цегляної стіни штучного інтелекту», полягає в посиланні висновку. Мета тут полягає в тому, щоб відокремити обчислювальну потужність навчання від обчислювальної потужності логічного висновку, тому для будь-якої моделі, яка буде розгорнута, має сенс навчатися за межами оптимуму Chinchilla від DeepMind. (Примітка щодо вибору: збільшення обсягу навчальних даних, щоб зробити модель надмірним навчанням, є стратегією підвищення здатності малих моделей і зниження вартості міркувань.) Ось чому використовується розріджена архітектура моделі (розріджена архітектура моделі). Обґрунтування цієї архітектури не означає, що не всі параметри мають бути активними.

Chinchilla optimal: у документі Deepmind Training Compute-Optimal Large Language Models вказується, який розмір моделі та обсяг даних слід використовувати для отримання найменших втрат за фіксованої загальної кількості FLOPS.

Наразі Chinchilla-optimal є оптимальною стратегією з боку навчання, а навчання з більшою кількістю токенів для перевершення ефекту Chinchilla-optimal є оптимальною стратегією з боку висновку. І оскільки витрати на міркування припадають на «велику голову», більшість компаній оберуть стратегію, яка перевищує оптимальну для Chinchilla.

Суть проблеми в посиланні на висновок полягає в тому, що вартість розгортання моделі для користувачів і агентів занадто висока. Вартість логічного висновку в кілька разів перевищує вартість навчання, і вирішення цієї проблеми є метою OpenAI з точки зору архітектури моделі та інфраструктури.

Коли справа доходить до висновків за допомогою великих моделей, особливо щільних моделей, розмір моделі може стати багатовимірною проблемою. На пристрої ШІ-двосічний меч У цій статті обговорювалась ситуація в контексті периферійних обчислень. Простіше кажучи, термінальні пристрої ніколи не можуть мати пропускну спроможність і пропускну здатність пам'яті, необхідні для реалізації великих мовних моделей.Навіть якщо пропускна здатність достатня, ефективність периферійних пристроїв у використанні апаратних обчислювальних ресурсів дуже низька. Центри обробки даних стикаються з подібними проблемами.

Використання обчислювальних ресурсів дуже важливо для центрів обробки даних і хмар. (Примітка: на даний момент верхня межа використання GPU/TPU в галузі становить близько 50%.) Однією з важливих причин, чому програмне забезпечення NVIDIA широко хвалять, є те, що в процесі постійного запуску нового покоління GPU, NVIDIA також постійно оновлюється. Покоління програмного забезпечення, яке сприяє збільшенню використання FLOPS, забезпечуючи розумніший переміщення даних між мікросхемами, між мікросхемами та між пам’яттю.

FLOPS: Операції з плаваючою точкою в секунду – це одиниця, яка використовується для вимірювання швидкості операцій комп’ютера. Чим вищий FLOPS, тим краще комп’ютер справляється з проблемою. Обчислювальна потужність графічного процесора в основному залежить від FLOPS, який він може забезпечити. Чим вищий FLOPS забезпечує GPU, тим сильніша його обчислювальна потужність.

На цій стадії сценарії використання висновку LLM – це здебільшого «живі помічники», що означає, що він повинен досягти достатньо високої пропускної здатності, щоб бути дійсно корисним для користувачів. Взявши за аналогію людей, середня швидкість читання людей становить близько 250 слів за хвилину, а деякі люди можуть досягати приблизно 1000 слів за хвилину. Відповідно до моделі це означає виведення принаймні 8,33 маркерів за секунду, краще 33,33 слова за секунду. символ, можна задовольнити всі людські потреби.

Однак через обмеження пропускної здатності пам’яті навіть на останньому сервері GPU NVIDA H100 щільна модель (щільна модель) із трильйонами параметрів не може математично досягти такої пропускної здатності. Кожного разу, коли генерується маркер, його потрібно завантажити з пам’яті в мікросхему, а потім цей маркер знову надсилається для генерації наступного маркера. Крім того, КВ-кеш (KV Cache) для реалізації механізму уваги також вимагає додаткової пропускної здатності.

KV Cache (KV Cache): Під час процесу вибірки модель Transformer виконає операцію самоуважності (Self-Attention), для якої необхідно витягти значення ключа для кожного елемента в поточній послідовності (незалежно від того, чи є він /контекст або згенерований токен) вектор (ключ-значення, KV). Ці вектори зберігаються в матриці, яку часто називають KV-кешем або минулим кешем. Функція кешу KV полягає в тому, щоб уникнути перерахунку вектора ключ-значення кожного разу, коли токен виконується вибірку. Використання попередньо обчислених значень K і V може заощадити багато часу на обчислення, хоча це займе деякий простір для зберігання. KV-кеш відіграє дуже важливу роль у моделі Transformer і може допомогти значно підвищити ефективність і продуктивність моделі.

Ця діаграма припускає, що неможливість об’єднати кожну операцію є неефективною, і що механізми уваги вимагають порівнянної пропускної здатності пам’яті та апаратних витрат під час зчитування параметрів. Насправді навіть із «оптимізованими» бібліотеками, такими як NVIDIA FasterTransformer, загальні накладні витрати будуть вищими.

На малюнку вище показано пропускну здатність пам’яті, необхідну для обслуговування LLM одного користувача з достатньо високою пропускною здатністю. З цього малюнка видно, що:

• Навіть пропускна здатність, у 8 разів більша за H100, не може обслуговувати щільну модель із масштабом 1 трильйон параметрів зі швидкістю 33,33 токенів на секунду;

• Крім того, використання FLOPS 8x H100 все ще нижче 5% при 20 жетонах за секунду, що призводить до надзвичайно високої вартості висновку.

Фактично, для сучасної 8-сторонньої тензорної розпаралеленої системи H100 обмеження висновку становить приблизно 300 мільярдів параметрів прямого зв’язку.

Однак OpenAI досягає швидкості читання людиною за допомогою A100 і моделей із понад 1 трильйоном параметрів, широко доступних за низькою ціною 0,06 дол. США за 1000 токенів, і це можливо саме завдяки його розрідженій архітектурі.

Далі ми обговоримо архітектуру моделі GPT-4, інформацію для навчання та міркування, кількість параметрів, склад набору даних навчання, кількість токенів, кількість шарів, паралельні стратегії, мультимодальні візуальні кодери, і т. д. за серією різних інженерних конструкцій Міркування, методи реалізації та те, як OpenAI усуває вузькі місця у висновках великих моделей.

02. Структура моделі

Масштаб GPT-4 більш ніж у 10 разів перевищує GPT-3, за нашими оцінками, він має близько 1,8 трильйона параметрів, і ці параметри розподілені на 120 шарах трансформатора. Для порівняння, параметри GPT-3 становлять близько 1750 млрд. (Примітка: GPT-3 має лише 12 шарів трансформатора, а кількість шарів становить 1/10 GPT-4.)

Щоб контролювати витрати, OpenAI вирішив використовувати модель MoE. OpenAI використовує в моделі 16 експертів типу MLP.2, кожен з яких має близько 111 мільярдів параметрів. Дві з цих експертних моделей викликаються під час кожного проходу вперед.

• Суміш експертів (MoE): модель MoE – це архітектура глибокого навчання, яка зазвичай складається з кількох експертів (Experts), кожен експерт відповідає за обробку різних аспектів вхідних даних і має власний набір параметрів (є також деякі параметри, такі як вбудовування, які можуть бути спільними для всіх експертів, тобто спільні параметри). У процесі міркування моделі, відповідно до різних характеристик вхідних даних, модель направлятиме вхідні дані різним експертам. Кожен експерт обробляє відповідні призначені вхідні дані відповідно до свого набору параметрів і завершує вихід. Кінцевим виходом є інтеграція результатів кожного експерта.

• MLP: багаторівневий персептрон (багатошаровий персептрон). MLP — це штучна нейронна мережа, яка включає кілька прихованих рівнів. У моделі MoE зазвичай є кілька незалежних експертів MLP.

Є багато літератури, де обговорюється, як маршрутизувати (призначити) кожен незавершений токен експертній моделі, але сказано, що набір алгоритмів, які використовує OpenAI, досить простий, принаймні GPT-4 такий.

Крім того, близько 55 мільярдів спільних параметрів використовуються в механізмі уваги.

Кожен прямий висновок (генерація маркера) використовує лише близько 280 мільярдів параметрів і 560 TFLOP, у порівнянні з приблизно 1,8 трильйонами параметрів і 3700 TFLOP, необхідних для кожного прямого висновку, якщо використовується суто щільна модель.

03. Набір даних

GPT-4 було навчено приблизно на 13 трильйонах токенів, що цілком розумно, враховуючи, що CommonCrawl RefinedWeb містить близько 5 трильйонів високоякісних токенів. Для довідки, моделі Chinchilla від Deepmind і PaLM від Google були навчені з приблизно 1,4 трильйона токенів і приблизно 0,78 трильйона токенів відповідно, а PaLM2, як кажуть, навчений приблизно на 5 трильйонах токенів.

CommonCrawl Refinedweb: CommonCrawl — це некомерційний проект, метою якого є створення та підтримка відкритого та доступного Інтернет-набору даних, який використовує технологію веб-сканера для регулярного сканування веб-сторінок в Інтернеті та впорядкування веб-сторінок, пов’язаних метаданих і архіву. CommonCrawl RefinedWeb — це бібліотека високоякісних текстів, які CommonCrawl відібрав із зібраних необроблених даних після алгоритмічної та людської перевірки.

Набір даних, який використовує OpenAI для навчання GPT-4, не становить 13 трильйонів унікальних токенів. Навпаки, через відсутність високоякісних токенів цей набір даних містить кілька епох. Є 2 епохи для текстових даних і 4 епохи для кодових даних. (Примітка: це стосується деяких високоякісних текстів і кодів, які були вивчені моделлю багато разів.) Це далеко від досягнення оптимального для Chinchilla (модель потрібно навчати на подвійній кількості токенів), що також показує що мережу легко Отримати токен недостатньо. Високоякісні текстові токени, які фактично існують у мережі, повинні бути в 1000 разів більші, ніж доступні сьогодні, а аудіо- та відеотокенів ще більше, але зібрати ці токени неможливо просто за допомогою веб-збирання. На жаль, ми не знайшли багато інформації про OpenAI RLHF to data.

Епоха відноситься до процесу використання всіх зразків у всьому навчальному наборі (навчальному наборі) для одноразового навчання моделі. Зокрема, епоха включає кілька етапів навчання (етапи навчання), кожен крок навчання полягає у введенні невеликої партії зразків у модель для навчання та оновленні параметрів моделі для мінімізації функції втрат (функції втрат).

Якщо епоха надто мала, модель може бути не в змозі повною мірою використовувати інформацію в навчальному наборі, що призводить до недостатнього підбору, тобто модель не може добре відповідати навчальним даним, що призводить до поганої продуктивності на тестовому наборі . І навпаки, якщо епоха надто велика, модель може переобладнуватися, вивчаючи занадто багато шуму та локальних особливостей у навчальному наборі, ігноруючи при цьому глобальні особливості.

На етапі попереднього навчання довжина контексту (seqlen) становить 8k. Контекстна версія 32k GPT-4 реалізована поверх тонкого налаштування 8k після попереднього навчання.

Розмір пакету поступово збільшувався в кластері протягом кількох днів, але врешті OpenAI використав розмір пакета до 60 мільйонів. Звичайно, оскільки не кожен параметр бачить усі параметри, це лише розмір пакету 7,5 мільйонів на експерта.

Розмір партії відноситься до кількості навчальних зразків для кожної ітерації (ітерації) або прямого проходу (передового проходу). Під час навчання моделі дані поділяються на партії для навчання, а розмір партії вказує на кількість зразків у кожній партії. Перевага пакетного навчання полягає в тому, що воно дозволяє уникнути обмежень пам’яті та заощадити обчислювальні ресурси для повторного обчислення проміжних результатів.

Розмір Batch Size має великий вплив на тренувальний ефект і швидкість моделі. Чим більший розмір партії, тим більший обчислення параметрів оновлення кожного разу, але процес навчання буде більш стабільним, оскільки зразки в кожній партії можуть усереднювати шум і невизначеність. З іншого боку, якщо розмір партії занадто малий, процес навчання може стати нестабільним і потребуватиме додаткових етапів навчання для досягнення оптимального рішення. Крім того, розмір розміру партії також буде обмежений апаратними ресурсами. Тому в практичних застосуваннях дуже важливо вибрати відповідний розмір партії.

04. Паралельна стратегія

Паралельна обробка на всіх графічних процесорах A100 дуже важлива.

OpenAI використовує 8-сторонній (8-way) масштаб тензорного паралелізму (Tensor Parallelism), причиною є 8-way (8-way), оскільки це обмеження NVLink. Крім того, ми також чули, що OpenAI використовує 15-way (15-way) стратегію паралелізму конвеєра. Теоретично 15-канальних — це занадто багато, враховуючи час передачі даних і обчислення, але це також розумно, якщо вони обмежені обсягом пам’яті.

Є кілька класичних розподілених паралельних парадигм у навчанні великих моделей, а саме конвеєрний паралелізм, паралелізм даних і тензорний паралелізм. FastSpeed, система розподіленого навчання Microsoft з відкритим кодом, поєднує ці три паралельні парадигми.

Якщо ви просто використовуєте конвеєрний паралелізм і тензорний паралелізм, параметри на кожному графічному процесорі потребують приблизно 30 ГБ під FP16, і якщо взяти до уваги кеш KV і накладні витрати KV, якщо більшість графічних процесорів, які використовує OpenAI, мають 40 ГБ A100, ця архітектура з It is також розумно в теорії. OpenAI може використовувати ZeRo stage 1, FSDP на рівні блоку або гібридний паралелізм спільних даних.

• Накладні витрати KV (накладні витрати KV): стосується навантаження, спричиненого додатковими накладними витратами в системі зберігання KV. Ці накладні витрати можуть включати метадані для зберігання та керування парами ключ-значення, структури індексів, реплікацію та синхронізацію даних, мережевий зв’язок тощо. Збільшення накладних витрат KV може призвести до зниження продуктивності, збільшення вимог до пам’яті та збільшення складності системи.

• Етап ZeRo 1: ZeRO (оптимізатор нульової надмірності) означає, що кожна карта зберігає повний стан оптимізатора. Якщо кожна карта зберігає лише частину стану оптимізатора, стани оптимізатора всіх карт разом утворюють повний стан, тобто Pos (Partition Optimizer States), який називається ZeRO-stage1.

• FSDP на рівні блоку: відноситься до технології повного точного динамічного квантування на основі блоків (Full Precision Dynamic Quantization). Більш високу точність моделі можна зберегти під час навчання та міркувань, що знижує вартість моделювання.

Причиною, чому повна модель FSDP не використовується, може бути висока вартість зв'язку. Хоча OpenAI має високошвидкісну мережу між більшістю вузлів, можливо, не всіма, ми вважаємо, що є принаймні деякі кластери з набагато меншою пропускною здатністю з’єднання, ніж інші.

Незрозуміло, як OpenAI уникає величезних бульбашок із таким високим паралелізмом конвеєрів. Швидше за все, вони просто понесли витрати.

Бульбашка: затримка або час очікування в кожній партії через високий ступінь паралельності конвеєра. Це означає, що в процесі високопаралельних обчислень, через різну швидкість обчислення різних частин, деяким частинам може знадобитися чекати, поки інші частини завершать обчислення, що призводить до затримки або простою. У цьому випадку «бульбашка» відноситься до цих інтервалів очікування. Це речення означає, що вони можуть просто погодитися з тим, що в процесі розрахунку є деякий час простою або затримка.

05. Вартість навчання

OpenAI використовував приблизно 2,15e25 FLOPS у навчанні GPT-4 приблизно на 25 000 графічних процесорах A100 протягом 90–100 днів навчання, де максимальне використання обчислювальної потужності становило приблизно 32%–36%. **

Це надзвичайно низьке використання частково пояснюється великою кількістю збоїв, які вимагають перезапуску контрольних точок, причому згадані вище бульбашки спричиняють великі витрати.

Інша причина полягає в тому, що повне скорочення для такої кількості графічних процесорів дуже дороге. Особливо, якщо ми підозрюємо, що кластер насправді складається з багатьох менших кластерів із відносно слабкими мережевими з’єднаннями, такими як неблокуючі з’єднання 800G/1,6T між різними частинами кластера, але ці деякі можуть з’єднуватися лише на швидкості 200G/400G.

all-reduce — це операція зв’язку в паралельних обчисленнях, яка використовується для реалізації глобального скорочення даних у розподілених обчисленнях. У розподіленому глибокому навчанні all-reduce — це звичайна операція зв’язку для обміну та агрегування інформації про градієнт між кількома обчислювальними вузлами, щоб оновлювати параметри моделі під час навчання.

Якщо їхня вартість у хмарі становить приблизно 1 долар США за годину за A100, це становитиме ~63 мільйони доларів лише за цю навчальну сесію**. Це не включає всі випробування, невдалі спроби та інші витрати на збір даних, RLHF, персонал тощо. Якщо врахувати ці фактори, фактична вартість виявляється набагато вищою. Крім того, вам також потрібно врахувати, що вам потрібна команда для завершення конфігурації чіпа, мережевого обладнання та центру обробки даних, нести капітальні інвестиції (Capex) і здавати їх вам в оренду.

Наразі попереднє навчання можна виконати приблизно за 55 днів із приблизно 8192 H100 із загальною вартістю 21,5 мільйона доларів США, кожен графічний процесор H100 коштує 2 долари США за годину.

Ми очікуємо, що до кінця року дев’ять компаній матимуть більше графічних процесорів H100. Можливо, не всі H100 будуть використовуватися для навчання моделей, але ці компанії точно охоплять великі моделі та стануть важливими гравцями. Meta очікує, що до кінця року матиме понад 100 000 H100, значна частина яких буде розгорнута у їхніх власних центрах обробки даних для висновків, хоча їхній найбільший окремий кластер матиме понад 25 000 GPU H100. (Примітка: обчислювальні ресурси Meta зроблять здатність LLaMA розвиватися у важливу змінну для відкритого та приватного розгортання.) Багато компаній навчать модель з такими ж можливостями, як GPT-4, до кінця цього року.

06.МНС

MoE — це ефективний спосіб зменшити кількість параметрів під час логічного висновку, водночас він також збільшує кількість параметрів, що допомагає кодувати більше інформації на навчальний маркер. Оскільки отримати достатньо якісних токенів дуже важко, необхідно вибрати архітектуру MoE. Тому що, якщо OpenAI дійсно хоче впровадити Chinchilla-Optimal, вони повинні навчити вдвічі більше жетонів зараз.

При цьому OpenAI робить кілька компромісів. Наприклад, працювати з MoE під час висновку дуже складно, оскільки не кожна частина моделі використовується під час генерації кожного маркера. Це означає, що деякі частини можуть бути неактивними, а інші використовуються. Це може серйозно вплинути на використання під час обслуговування користувачів.

Дослідники довели, що використання від 64 до 128 експертів дало кращі результати втрати, ніж використання 16 експертів, але це лише дослідження. Причин скорочення експертів декілька. Однією з причин, чому OpenAI обрав 16 експертів, є те, що наявність більшої кількості експертів ускладнює узагальнення та досягнення конвергенції. Враховуючи такий великий тренінг, OpenAI вирішила бути більш консервативною щодо кількості експертів.

Крім того, використання меншої кількості експертів корисно для архітектур логічного висновку. Існують різні складні компроміси під час переходу до архітектури висновку MoE. Давайте почнемо з основних компромісів висновків LLM, а потім дослідимо проблеми, з якими зіткнувся OpenAI, і вибір, який вони зробили.

07. Міркування

У цій частині ми спочатку хочемо зазначити, що кожна LLM-компанія, з якою ми контактували, вважає бібліотеку висновків NVIDIA FasterTransformer досить поганою, а TensorRT ще гіршою. Не маючи можливості використовувати шаблони Nvidia та змінювати їх, що означає створення власного рішення з нуля, NVIDIA має вирішити цю проблему якнайшвидше, щоб адаптуватись до потреб LLM inference, інакше він стане фактично відкритим інструментом. щоб додати підтримку апаратного забезпечення сторонніх виробників. З’являється все більше і більше великих моделей, і якщо NVIDA не зможе забезпечити перевагу програмного забезпечення у висновках, а ядра все ще потрібно писати від руки, тоді MI300 від AMD та інше обладнання матиме набагато більший ринок.

Є 3 ключові фактори в зв’язку з LLM, які в основному пов’язані з кількістю використовуваних мікросхем.

1. Затримка

Модель повинна відповісти з розумною затримкою. Люди не хочуть чекати кілька секунд, перш ніж почати отримувати вихідні дані в програмі чату. Час обробки вхідних і вихідних маркерів може коливатися.

2. Пропускна здатність

Модель повинна видавати певну кількість жетонів за секунду. Людина використовує близько 30 жетонів на секунду, і пропускна здатність може бути нижчою або вищою для різних інших випадків використання.

3. Використання

Апаратне забезпечення, на якому працює модель, має досягати високого рівня використання, інакше вартість буде непомірно високою. Хоча можна досягти кращого використання, згрупувавши більше запитів користувачів із більшою затримкою та нижчою пропускною здатністю, це збільшує труднощі.

LLM висновок полягає в основному для збалансування двох основних факторів, пропускної здатності пам’яті та обчислення.

Простіше кажучи, кожен параметр повинен читатися за допомогою двох пов’язаних із ним FLOP. Таким чином, співвідношення більшості чіпів (наприклад, H100 SXM має лише 3 ТБ/с пропускну здатність пам’яті, але має 2000 TFLOP/с FP8) є абсолютно незбалансованим у висновку з пакетним розміром 1. Якщо обслуговується лише один користувач, тобто з розміром пакета 1, пропускна здатність пам’яті, необхідна для потокової передачі кожного параметра для кожної генерації маркера, домінує над часом висновку, а час обчислення майже незначний.

Щоб мати можливість масштабувати великі моделі для кількох користувачів, розмір пакету має бути більшим за 1, і кілька користувачів розподіляють вартість читання параметрів. Наприклад, з розміром пакета 256 або 512, кожен байт пам’яті, що читається, відповідає 512 FLOP/с або 1024 FLOP/с. Це співвідношення ближче до співвідношення пропускної здатності пам’яті H100 до FLOPS. Допомагає досягти кращого використання, але має недолік у вищій затримці.

Багато людей вважають, що ємність пам’яті є головним вузьким місцем для висновків LLM, оскільки розмір моделі може поміститися на декілька чіпів, але така точка зору може бути проблематичною. Хоча висновок про великі моделі потребує кількох чіпів, а більший об’єм пам’яті призводить до меншої кількості адаптованих чіпів, насправді краще використовувати більше чіпів, ніж потрібно, щоб зменшити затримку, збільшити пропускну здатність, а для постійного збільшення використання можна використовувати більші розміри пакетів.

Google також згадав вирішення трьох вищезазначених проблем у висновках PaLM. Варто зазначити, що **це для щільної моделі, як PaLM, а не для розрідженої моделі, як GPT4. **

Якщо програма потребує найменшої можливої затримки, нам потрібно більше чіпів і розділити модель на якомога більше способів, щоб бути економними. Менші розміри пакетів забезпечують меншу затримку, але менші розміри пакетів також призводять до гіршого MFU [використання], що призводить до вищої загальної вартості токена (у чіп-секундах або доларах).

Якщо програма потребує автономного висновку, а затримка не є проблемою, тоді головною метою є максимізація пропускної здатності на чіп (тобто мінімізація загальної вартості одного токена). Збільшення розміру партії є найефективнішим, оскільки більші розміри партії зазвичай призводять до кращого MFU [використання], але певні стратегії розподілу, які неефективні для малих розмірів партії, зростають із зростанням розміру партії та стають ефективними.

**Більше мікросхем і більші розміри партій обходяться дешевше, оскільки вони збільшують використання, але це також вводить третю змінну, час роботи в мережі. ** Метод розгортання моделі на кількох мікросхемах може ефективно вирішити проблему затримки, але за рахунок утилізації.

І частина часу зберігання, пов’язана з навантаженням на вагу, і час обчислення без уваги пропорційні розміру моделі та обернено пропорційні кількості мікросхем. Для даного макета розділу час, необхідний для зв’язку між мікросхемами, зменшується менш швидко (або зовсім не зменшується) зі збільшенням кількості мікросхем, що використовуються, тому це стає дедалі складнішою проблемою зі збільшенням кількості мікросхем. вузьке місце.

Ми помітили, що вимоги до пам’яті кешу KV різко зросли зі збільшенням розміру партії.

Якщо програмі потрібно створити текст із контекстами тривалої уваги (контексти тривалої уваги), це значно збільшить час висновку. Для моделі з більш ніж 500 Б багатоголової уваги кеш KV може стати дуже великим: для моделі з розміром пакета 512 і довжиною контексту 2048 загальний обсяг кешу KV становить 3 ТБ, тобто Розмір параметра моделі в 3 рази. Внутрішня пам’ять (пам’ять на кристалі) потребує завантаження кеш-пам’яті KV із зовнішньої пам’яті (пам’яті поза мікросхемою), яка завантажується щоразу, коли генерується маркер. Протягом цього періоду обчислювальне ядро мікросхеми в основному простоює.

Велика довжина послідовності є особливо неприємною для пропускної здатності та ємності пам’яті. Причина, чому OpenAI GPT-3.5 turbo з контекстами 16k і GPT-4 з контекстами 32k дорогі, полягає в тому, що вони не можуть приймати більші пакети через обмеження пам’яті.

Менші партії призводять до меншого використання обладнання. Крім того, кеш KV роздувається зі збільшенням довжини послідовності. Кеш KV не можна спільно використовувати між користувачами, тому потрібні окремі зчитування пам’яті, що ще більше зменшує пропускну здатність пам’яті. Додаткову інформацію про MQA див. нижче.

08. Інфра та вартість аргументації

Інфра

Завдяки архітектурі MoE висновок GPT-4 стикається з проблемами з точки зору затримки, пропускної здатності та використання. Оскільки прямий перехід кожного маркера може бути направлений до різних експертних моделей, у цьому випадку дуже важко досягти низької затримки, високої пропускної здатності та високого використання, особливо при великому розмірі пакету.

Архітектура GPT-4 OpenAI містить 16 експертних моделей, і кожен прямий канал має 2 маршрутизатори. Це означає, що з розміром пакета 8 кожен параметр, який зчитує експерт, може займати лише «1» розміру пакета. Більш серйозно, це також призводить до розміру пакету 8 для одного експерта, тоді як розмір пакету інших експертів може становити лише 4, 1 або 0.

Крім того, алгоритм маршрутизації спрямовує прямий перехід у різних напрямках кожного разу, коли генерується маркер, що призводить до значних коливань затримки між маркерами та розміру пакету експертів. Тобто при обробці різних токенів різні експерти можуть бути призначені для різних завдань, і як обчислювальне навантаження, так і розмір пакету можуть відповідно змінюватися.

Висновок нижче є одним із основних міркувань для OpenAI, щоб обрати невелику кількість експертів у проектуванні MoE. Якщо вони використовують більше експертів, пропускна здатність пам’яті стає більш вузьким місцем для висновків. OpenAI часто досягає розміру пакета понад 4 Кб на власних кластерах висновків, що означає, що навіть за оптимального балансування навантаження між експертами кожен експерт може досягти розміру пакета лише близько 500. Для досягнення цього потрібно дуже велике використання.

Ми розуміємо, що OpenAI виконує висновки на кластері зі 128 графічних процесорів і має кілька таких кластерів у різних центрах обробки даних і географічних регіонах. Висновок виконується паралельно з 8-сторонніми тензорами та 16-сторонніми конвеєрами. Використовуючи 8 графічних процесорів на вузол, кожен графічний процесор має лише близько 130 Б параметрів, або менше 30 ГБ на графічний процесор за FP16 і менше 15 ГБ за FP8/int8. Це дозволяє виконувати висновки на 40 ГБ A100, якщо розмір кешу KV для всіх пакетів не надто роздувається.

FP16, FP8 і int8 — це різні представлення числової точності (точності), які часто використовуються в процесі обчислень у глибокому навчанні, щоб зменшити використання пам’яті та обчислювальних ресурсів, тим самим підвищуючи ефективність навчання моделі та міркувань.

FP16, FP8 і int8 відповідно стосуються 16-розрядних чисел з плаваючою комою, 8-розрядних чисел з плаваючою комою та 8-розрядних цілих. Їхня точність нижча, ніж у 32-розрядних чисел з плаваючою комою одинарної точності (FP32 ), але вони можуть значно зменшити обсяг пам’яті та обчислювальних ресурсів. Використовуйте для прискорення навчання моделі та висновків у глибокому навчанні. Наприклад, використання FP16 може більш ніж удвічі скоротити час обчислення без втрати надто великої точності, тоді як використання int8 може скоротити час обчислення приблизно в 4 рази без втрати надто великої точності.

Слід зазначити, що використання обчислень з низькою точністю може мати певний вплив на точність моделі, тому необхідний компроміс між точністю та ефективністю, а найбільш прийнятний метод представлення точності повинен бути обраний відповідно до конкретного завдання. вимоги.

Щоб уникнути надто нерегулярного мережевого зв’язку та в той же час уникнути надмірних витрат на переобчислення кешу KV між кожним поколінням маркерів, різні рівні, що містять різних експертів, не розбиваються на різні вузли, щоб спільно використовувати кеш KV.

**Найбільша складність для всіх майбутніх розширень моделі MoE та умовної маршрутизації. Це те, як мати справу з обмеженням у 120 рівнів маршрутизації навколо кешу KV. **

У моделі MoE кількість шарів маршрутизації на гілку не може перевищувати 120 рівнів, інакше кеш KV не зможе ефективно оброблятися. Це пов’язано з тим, що під час процесу логічного висновку моделі кожній гілці потрібно обчислити кеш KV, що призводить до збільшення обчислювальних витрат.

Просте рішення цієї проблеми полягає в тому, щоб розмістити охоплюючий маршрут у 15 різних вузлах на основі обмеження рівня 120. Таким чином, обчислювальне навантаження можна рівномірно розподілити на різні вузли, таким чином покращуючи ефективність і продуктивність моделі. Однак, оскільки перший вузол повинен виконувати завантаження та вбудовування даних, важливо, як розмістити менше шарів на головному вузлі кластера висновків.

Крім того, у процесі кодування та декодування вхідних даних може виникнути деякий шум щодо інференційного декодування, про що ми поговоримо пізніше. Більш важливим питанням є визначення того, чи варто вірити такому шуму. Це також може пояснити, чому має сенс включати менше шарів у головний вузол.

вартість міркування

Порівняно з моделлю Davinchi з параметрами 175B, GPT-4 має в 1,6 рази більше параметрів прямого зв’язку, але вартість у 3 рази вища за Davinchi. Це в основному через те, що GPT-4 вимагає більшого кластера та забезпечує менше використання.

Ми припускаємо, що використання 128 A100 для висновку з довжиною контексту GPT-4 8k (seqlen) коштує приблизно $0,0049 за 1k маркерів. При використанні 128 H100 для висновків у контексті GPT-4 8k, вартість 1k токенів становить близько $0,0021. (Примітка: поточна ціна GPT-4-8k становить 0,03/1k вхідних токенів, 0,06/1k вихідних токенів. На даний момент використання OpenAI чіпів висновку не буде таким екстравагантним, як припускає автор. Цей розрахунок можна використовувати як нижчу прив’язане до майбутнього зниження ціни.) Важливо зазначити, що **ці витрати розраховуються на основі високого рівня використання та розміру партії. **

Також можливо, що наше припущення хибне, враховуючи, що використання кластерів OpenAI іноді може бути дуже низьким.

Ми припускаємо, що OpenAI вимикає кластер під час спадів і перепрофілює ці вузли для інших завдань, таких як відновлення навчання контрольних точок невеликих тестових моделей або експериментування з різними новими методами. Це допомагає зберегти низькі витрати на логічний висновок, інакше використання OpenAI може бути навіть нижчим, тобто більш ніж у 2 рази вище оціненої вартості.

Відновіть навчання контрольних точок невеликої тестової моделі, як правило, під час навчання моделі глибокого навчання перезапустіть навчання меншої моделі (наприклад, підмножини, використовуючи лише підмножину), щоб швидко протестувати нові структури моделі або алгоритми за короткий період часу . Цей підхід може допомогти дослідникам швидко повторювати дизайн моделі та знаходити оптимальні структури та параметри моделі.

09. Механізм звернення уваги на багато запитів

Використання Multi-Query Attention досить поширене, але ми хочемо підкреслити, що OpenAI робить те саме. Загалом, необхідна лише 1 головка уваги, а обсяг пам’яті може бути значно зменшений для кешування KV. Незважаючи на це, GPT-4 із контекстами 32 Кб точно не може працювати на 40 ГБ A100, а максимальний розмір пакету 8 Кб уже обмежено. Якщо немає MQA, максимальний розмір партії 8 КБ буде значно обмежений, а економічні вигоди значно зменшаться.

• Multi-Query Attention (MQA): Швидке трансформаційне декодування: одна головка запису — все, що вам потрібно. У цій статті в 2019 році запропоновано концепцію MQA, яка пізніше стала часто використовуваним механізмом звернення уваги в обробці природної мови.

У традиційному механізмі звернення уваги запит (запит) зіставляється з набором пар ключ-значення для отримання зваженого представлення для кожного ключа. У той час як у мультизапитовій увазі існує кілька запитів, і кожен запит зіставляється з парами ключ-значення, щоб отримати різне зважене представлення для кожного ключа. Цей процес можна розглядати як кодування вхідних даних під кількома різними «поглядами», що призводить до більш повного та точного представлення.

• Attention Head (Head): у моделі глибокого навчання вона зазвичай містить кілька шарів (layers) і голову (head), яка використовується для відображення виходу моделі в потрібний вихідний простір. Рівень заголовка зазвичай додається до моделі для вирішення конкретних завдань. Наприклад, у завданнях обробки природної мови заголовок зазвичай використовується для перетворення виводу моделі в текст для класифікації тексту та інших завдань. У моделі глибокого навчання за головою зазвичай слідує останній шар, який використовується для перетворення результату останнього шару в потрібну вихідну форму.

10. Безперервна пакетна обробка

Щоб дозволити деяку ступінь максимальної затримки та оптимізувати вартість висновків, OpenAI використовує як змінний розмір пакету, так і методи безперервного пакетування. Цей підхід може покращити використання обчислювальних ресурсів без шкоди для продуктивності моделі та досягти меншої затримки та більш високої пропускної здатності під час процесу висновку моделі. Якщо ви не розумієте концепції безперервної пакетної обробки, варто прочитати офіційну статтю AnyScale «Як безперервне пакетування забезпечує 23-кратне збільшення пропускної здатності в висновках LLM, одночасно зменшуючи затримку p50». (Примітка Pickup: структура розподілених обчислень Ray, розроблена Anyscale, використовується OpenAI в інфрапроводі моделі. Pickup публікував дослідження цієї компанії раніше.)

Безперервне пакетування: техніка, яка використовується під час глибокого навчання для підвищення ефективності навчання та використання ресурсів за допомогою апаратного забезпечення. Традиційний метод пакетної обробки полягає в одночасному завантаженні певної кількості навчальних даних у пам’ять і подальшому навчанні на цих даних. Цей метод може підвищити ефективність навчання, але також може витрачати простір пам’яті.

Безперервна пакетна обробка полягає в тому, щоб розділити навчальні дані на кілька невеликих пакетів і завантажувати лише один невеликий пакет для навчання кожного разу, а потім завантажувати наступний невеликий пакет після завершення навчання, і так далі, до завершення всього навчальний процес навчання набору даних. Використання методів безперервного пакетування може підвищити ефективність навчання, одночасно зменшуючи використання пам’яті, а також покращити стабільність і узагальнення моделі.

Джерело: Anyscale

11. Умоглядне декодування

Ходять чутки, що OpenAI використовує технологію Speculative Decoding у задачі логічного висновку моделі GPT-4. Хоча ми не можемо бути впевнені в точності цього повідомлення, загальні варіації затримки та дисперсії від одного маркера до іншого як для простих завдань пошуку, так і для більш складних завдань, здається, припускають, що ця техніка можлива. Однак, оскільки існує забагато змінних, ми не можемо підтвердити, чи ця техніка дійсно використовується.

Щоб уникнути суперечок щодо вмісту, тут цитується деякий вміст у статті Accelerating LLM Infeferencewith Staged Speculative Decoding, а ключовий вміст виділено жирним шрифтом.

Використання LLM зазвичай поділяється на два етапи:

1. Етап попереднього заповнення

На цій фазі спочатку дається підказка () як вхідні дані та запускається через модель для генерації кешу KV і перших вихідних логів. Серед них логіти — це вектор розподілу ймовірностей, виведений LLM на кожному часовому кроці, який використовується для представлення можливості кожного маркера. Цей етап попереднього заповнення зазвичай швидкий через паралельні обчислення.

2. Етап декодування

На цьому етапі маркер вибирається з вихідних логів і повертається в модель для генерації логів для наступного маркера. Це повторюється, доки не буде згенеровано потрібну кількість токенів. Оскільки кожне декодування має обчислюватися послідовно, щоб отримати маркер, арифметична інтенсивність цього другого етапу (тобто обчислені FLOP/байти пропускної здатності пам’яті) є дуже низькою під час виконання малими партіями, що призводить до недостатнього використання обчислювальної потужності.) Тому декодування є зазвичай найдорожча частина авторегресійної генерації.

Ось чому набагато дешевше вводити маркери, ніж виводити маркери у викликах API OpenAI.

Основна ідея спекулятивного декодування полягає у використанні меншої, швидшої чорнової моделі для декодування кількох токенів наперед і введення їх у модель оракула як пакет. Якщо прогнози чорної моделі правильні (тобто узгоджуються з прогнозами моделі оракула), одну партію можна використовувати для декодування кількох маркерів, заощаджуючи значну пропускну здатність пам’яті та час на маркер.

Модель Oracle відноситься до більшої, повільнішої моделі LLM, яка використовується в спекулятивному методі декодування для перевірки передбачень чорної моделі. Модель Oracle обчислить розподіл ймовірностей наступного токена на основі результатів прогнозування чорнової моделі та попередньо згенерованих токенів, а потім поверне цей розподіл ймовірностей у чорнову модель як результат.

Використовуючи модель Oracle для перевірки результатів прогнозування чорнової моделі, можна уникнути помилок і відхилень у подальшому процесі декодування чорнової моделі, тим самим покращуючи точність і стабільність моделі. У той же час модель Oracle також може допомогти чернетці моделі краще вивчити та зрозуміти контекстну інформацію в мовній моделі, тим самим покращуючи здатність генерації та ефект моделі.

Однак, якщо більша модель відхиляє маркер, передбачений чорновою моделлю, решта пакету відкидається, а алгоритм повертається до стандартного декодування маркер за маркером. Спекулятивне декодування також можна поєднати зі схемою вибірки відхилення для вибірки маркерів з оригінального розподілу. Зауважте, що цей підхід працює лише в невеликих пакетних налаштуваннях, де пропускна здатність є вузьким місцем.

Коротше кажучи, спекулятивне декодування обмінює обчислення на пропускну здатність, і є дві ключові причини, чому це приваблива ціль оптимізації продуктивності. По-перше, спекулятивне декодування зовсім не погіршує якість моделі, оскільки воно лише покращує швидкість логічного висновку та пропускну здатність моделі шляхом модифікації процесу обчислення на етапі декодування. По-друге, переваги, які він надає, загалом не залежать від інших методів, оскільки його перевага полягає в перетворенні послідовних обчислень у паралельне виконання, тоді як інші методи в основному починаються зі структури моделі, параметрів, навчання тощо для оптимізації.

Сучасні методи висновку передбачають одну послідовність для кожної партії. Однак** цей метод погано масштабується у випадку великих партій або чорнових моделей низької точності. **Інтуїтивно зрозуміло, що для довгих безперервних послідовностей токенів ймовірність того, що дві моделі прогнозують згоду, експоненціально зменшується, а це означає, що зі збільшенням потужності алгоритму віддача спекулятивного декодування швидко зменшуватиметься.

Ми вважаємо, що якщо OpenAI використовує спекулятивне декодування, вони, швидше за все, використовують його лише для коротких послідовностей довжиною близько 4 токенів. Крім того, деякі люди вважають, що зниження продуктивності моделі GPT-4 пов’язане з тим, що OpenAI додав послідовності з низькою ймовірністю з спекулятивної моделі декодування до попереднього навчання моделі, що може бути неправдою.

Крім того. Деякі люди вважають, що модель Барда також використовує спекулятивне декодування, оскільки Google чекає, поки буде згенерована повна послідовність, перш ніж надіслати її користувачеві, але ми не віримо, що це припущення правдиве.

12. Візуальний мультимодальний

Vision Multi-Modal є, мабуть, найменш переконливою частиною GPT-4, принаймні порівняно з іншими дослідженнями. Поки що ніхто не досліджував комерціалізацію мультимодальних LLM досліджень.

Багатомодальне бачення: це стосується спільної обробки та аналізу інформації з різних модальностей (таких як зображення, тексти, голоси тощо). Зазвичай інформація цих різних модальностей семантично пов’язана, тому їх поєднання може надати багатшу інформацію та точніші результати висновків.

Візуальна мультимодальна здатність GPT-4 досягається за допомогою візуального кодувальника, незалежного від текстового кодувальника, і має механізм перехресного звернення уваги (Cross-Attention) із текстовим кодувальником. Кажуть, що його архітектура схожа на модель Flamingo. Кодер зору був налаштований на моделі GPT-4 з 1,8 трильйонами параметрів, однак він був попередньо навчений лише з додатковими ~2 трильйонами токенів текстових даних, а не даних зору.

Перехресна увага: це механізм для встановлення зв’язків між кількома даними послідовності, який широко використовується в обробці природної мови та комп’ютерного зору. У завданнях послідовності до послідовності, таких як машинний переклад і резюмування тексту, механізм перехресного звернення уваги використовується для обчислення кореляції між вихідною та цільовою послідовностями, щоб інформація у вихідній послідовності використовувалася під час генерації цільової послідовності.

У завданнях комп’ютерного зору механізми перехресної уваги використовуються для зв’язку зображень і тексту для використання в таких завданнях, як створення опису зображення та візуальна відповідь на запитання.

OpenAI планує навчити модель бачення з нуля, але технологія ще не зріла, тому вони сподіваються зменшити ризик шляхом навчання з тексту.

**Ходять чутки, GPT-5 від OpenAI тренуватиме моделі бачення з нуля та матиме можливість автоматично генерувати обробку зображень і звуку. **

Основна мета візуальної мультимодальної технології — дозволити автономним агентам читати веб-сторінки та транскрибувати їх зображення та відеовміст. Дані, які використовує OpenAI для навчання цієї моделі, включають спільні дані (включно з візуалізованим LaTeX/текстом), знімки екрана веб-сторінок і зразки кадрів відео Youtube тощо, а також використовують технологію Whisper для транскрипції.

Одна цікава річ у проблемі надмірної оптимізації LLM полягає в тому, що вартість IO візуальної моделі відрізняється від вартості IO моделі звичайного тексту. Вартість IO текстової моделі дуже дешева, але в моделі vision вартість IO завантаження даних приблизно в 150 разів більша, ніж у текстовій моделі. Розмір кожного токена становить 600 байт, тоді як текстова модель має лише 4 байти. В даний час йде багато роботи з дослідження стиснення зображень. (Примітка Xianxiang: текстову інформацію легше стиснути, а токенізація зображень/відео є напрямком, який заслуговує на увагу в мультимодальній сфері.)

Вартість IO: вартість IO стосується часу, ресурсів і витрат енергії, необхідних для виконання операції введення/виведення в комп’ютерній системі. Ці витрати включають такі аспекти, як передача, зберігання та обробка даних. У сфері машинного та глибокого навчання вартість введення-виведення зазвичай стосується вартості читання та запису даних із носіїв даних (таких як жорсткий диск, пам’ять, мережа тощо). Під час навчання моделі та висновків вартість введення-виведення може стати вузьким місцем, що впливає на продуктивність і ефективність системи. Тому, щоб підвищити продуктивність і ефективність комп’ютерних систем, необхідно враховувати та оптимізувати вартість вводу/виводу.

Це дуже важливо для постачальників, які оптимізують своє обладнання через 2-3 роки, щоб врахувати потужні візуальні та аудіо можливості кожної моделі. Вони можуть виявити, що їхня архітектура погано підходить. Загалом, майбутні архітектури LLM, безумовно, розвиватимуться за межі скорочених текстових щільних моделей та/або моделей MoE, які ми бачимо сьогодні.

Довідка

Переглянути оригінал
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Нагородити
  • Прокоментувати
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити