Якщо ви хочете, щоб велика модель вивчала більше прикладів у _, цей метод дозволяє вводити більше символів

Ми знаємо, що при використанні великих мовних моделей, таких як GPT і LLaMA, існує обмеження на вхідні символи.Наприклад, поточне обмеження на вхідні символи для ChatGPT становить 4096 символів. Це обмежує сферу застосування таких технологій, як контекстне навчання та ланцюжок думок, оскільки користувачі можуть надавати лише обмежену кількість прикладів. Нещодавно дослідницька група Nous Research, EleutherAI та Женевського університету запропонувала YaRN, рішення для розширення контекстного вікна, і досягла кращих результатів, ніж усі інші методи в експериментах, а також випустила LLaMA 2, налаштований за допомогою YaRN 7B/ Модель 13B з контекстними вікнами 64k і 128k.

Джерело зображення: створено Unbounded AI

Великі мовні моделі (LLM) на основі трансформаторів продемонстрували потужну здатність виконувати контекстне навчання (ICL) і майже стали єдиним вибором для багатьох завдань обробки природної мови (NLP). Механізм самоуважності Transformer дозволяє розпаралелювати навчання, дозволяючи обробляти довгі послідовності розподіленим способом. Довжина послідовності, яка використовується для навчання LLM, називається її контекстним вікном.

Контекстне вікно Transformer безпосередньо визначає обсяг простору, який може надати приклади, таким чином обмежуючи його можливості ICL.

Якщо вікно контексту моделі обмежене, залишається менше місця для забезпечення моделі надійними прикладами, на яких можна виконувати ICL. Крім того, інші завдання, такі як підсумовування, також серйозно ускладнені, коли контекстне вікно моделі особливо коротке.

Через природу самої мови розташування токенів має вирішальне значення для ефективного моделювання, а самоувага безпосередньо не кодує інформацію про місцезнаходження через її паралелізм. Для вирішення цієї проблеми архітектура Transformer вводить позиційне кодування.

Оригінальна архітектура Transformer використовувала кодування абсолютного синусоїдального положення, яке пізніше було вдосконалено до кодування абсолютного положення, яке можна вивчати. Відтоді схеми кодування відносного положення ще більше покращили продуктивність Transformer. Зараз найпопулярнішими кодуваннями відносного положення є T5 Relative Bias, RoPE, XPos і ALiBi.

Позиційне кодування має постійне обмеження: неможливість узагальнити контекстне вікно, яке спостерігається під час навчання. Хоча деякі методи, такі як ALiBi, мають здатність виконувати деяке обмежене узагальнення, жоден метод ще не узагальнив послідовності, значно довші, ніж їх попередньо навчена довжина.

Було проведено кілька досліджень, які намагаються подолати ці обмеження. Наприклад, деякі дослідження пропонують трохи змінити RoPE за допомогою позиційної інтерполяції (PI) і точно налаштувати невелику кількість даних, щоб збільшити довжину контексту.

Два місяці тому Боуен Пен з Nous Research поділився рішенням на Reddit, яке полягає в реалізації «інтерполяції з урахуванням NTK» шляхом включення високочастотних втрат. NTK тут відноситься до ядра Neural Tangent.

У ньому стверджується, що розширений RoPE з підтримкою NTK може значно розширити контекстне вікно моделі LLaMA (більше 8k) без будь-яких тонких налаштувань і з мінімальним впливом на здивування.

Нещодавно була опублікована відповідна стаття, написана ним та трьома іншими співробітниками!

* папір:

  • Модель:

У цій статті вони зробили два вдосконалення інтерполяції з урахуванням NTK, які зосереджені на різних аспектах:

  • Метод динамічної інтерполяції NTK можна використовувати для попередньо навчених моделей без тонкого налаштування.
  • Метод часткової інтерполяції NTK, модель може досягти найкращої продуктивності при точному налаштуванні з невеликою кількістю довших контекстних даних.

Дослідник сказав, що до появи цієї статті дослідники вже використовували інтерполяцію з урахуванням NTK та динамічну інтерполяцію NTK у деяких моделях з відкритим кодом. Приклади включають Code Llama (з використанням інтерполяції з урахуванням NTK) і Qwen 7B (з використанням динамічної інтерполяції NTK).

У цьому документі, ґрунтуючись на результатах попередніх досліджень інтерполяції з урахуванням NTK, динамічної інтерполяції NTK та часткової інтерполяції NTK, дослідники запропонували YaRN (Yet another RoPE extensioN method), метод, який може ефективно розширити використання вбудованої позиції обертання (Rotary Position Embeddings / RoPE) метод контекстного вікна моделі, можна використовувати для моделей серій LLaMA, GPT-NeoX і PaLM. Дослідження виявило, що YaRN може досягти найкращої продуктивності розширення контекстного вікна наразі, використовуючи лише репрезентативні вибірки розміром приблизно 0,1% від розміру даних початкової моделі перед навчанням для тонкого налаштування.

метод

Rotary Position Embeddings (RoPE) вперше було представлено в документі «RoFormer: Enhanced transformer with rotary position embedding» і також є основою YaRN.

Простіше кажучи, RoPE можна записати так:

Для LLM, попередньо навченого з фіксованою довжиною контексту, якщо для збільшення довжини контексту використовується позиційна інтерполяція (PI), це можна виразити як:

Можна побачити, що PI однаково розширить усі розміри RoPE. Дослідники виявили, що теоретичні межі інтерполяції, описані в документі PI, були недостатніми для прогнозування складної динаміки між внутрішнім вбудовуванням RoPE і LLM. Далі буде описано основні проблеми PI, виявлені та вирішені дослідниками, щоб читачі могли зрозуміти передумови, причини та причини вирішення різних нових методів у YaRN.

Втрата високочастотної інформації - інтерполяція з урахуванням NTK

Якщо ми подивимося на RoPE лише з точки зору кодування інформації, відповідно до теорії нейронного дотичного ядра (NTK), якщо вхідна розмірність низька, а відповідне вбудовування не має високочастотних компонентів, то глибокій нейронній мережі буде важко вивчати високочастотну інформацію.

Щоб вирішити проблему втрати високочастотної інформації під час вбудовування інтерполяції для RoPE, Боуен Пен запропонував інтерполяцію з урахуванням NTK у вищезгаданій публікації на Reddit. Цей підхід не розширює кожен вимір RoPE однаково, але розподіляє інтерполяційний тиск між кількома вимірами, розширюючи високі частоти менше, а низькі частоти більше.

Під час тестування дослідники виявили, що цей підхід перевершив PI у масштабуванні розміру контексту неналаштованої моделі. Однак у цього методу є серйозний недолік: оскільки це не просто схема інтерполяції, деякі розміри будуть екстрапольовані на деякі «зовнішні» значення, тому точне налаштування за допомогою інтерполяції з урахуванням NTK не таке ефективне, як PI.

Крім того, через існування «зовнішніх» значень, теоретичний коефіцієнт розширення не може точно описати справжній ступінь розширення контексту. На практиці для заданого розширення довжини контексту значення розширення s має бути встановлено трохи вище, ніж очікуване значення розширення.

Втрата відносної локальної відстані - часткова інтерполяція NTK

Для вбудовування RoPE є цікаве спостереження: заданий розмір контексту L, є деякі виміри d, де довжина хвилі λ є довшою за максимальну довжину контексту, яка спостерігається на етапі попереднього навчання (λ > L), що ілюструє вбудовування деяких розмірів. Можливо, нерівномірний розподіл у обертовій області.

Інтерполяція з урахуванням PI та NTK однаково обробляє всі приховані розміри RoPE (так ніби вони однаково впливають на мережу). Але в ході експериментів дослідники виявили, що Інтернет розглядає деякі виміри інакше, ніж інші. Як згадувалося раніше, враховуючи контекстну довжину L, довжина хвилі λ деяких розмірів більша або дорівнює L. Оскільки коли довжина хвилі прихованого виміру більша або дорівнює L, усі пари позицій кодуватимуть певну відстань, тому дослідники припускають, що інформація про абсолютне положення зберігається; коли довжина хвилі коротша, мережа може отримати лише відносну позиція.інформація.

Під час розтягування всіх розмірів RoPE за допомогою коефіцієнта розширення s або базового значення зміни b' усі маркери стають ближчими один до одного, оскільки скалярний добуток двох векторів, повернутих на меншу величину, буде більшим. Це розширення може серйозно погіршити здатність LLM розуміти невеликі локальні зв’язки між його внутрішніми вбудованими компонентами. Дослідники припускають, що це стиснення призведе до того, що модель заплутається щодо порядку розташування сусідніх токенів, тим самим зашкодивши здатності моделі.

Щоб вирішити цю проблему, виходячи з того, що спостерігали дослідники, вони вирішили взагалі не інтерполювати виміри з вищою частотою.

Вони також запропонували, щоб для всіх розмірів d розміри з r < α лінійно інтерполювалися відповідно до ступеня розширення s (подібно до PI, екстраполяції уникали); розміри з r > β не інтерполювали взагалі (завжди екстраполювали).

Використовуючи техніку, описану в цьому розділі, народився метод під назвою часткова інтерполяція NTK. Цей покращений метод перевершує попередні методи інтерполяції з урахуванням PI та NTK і працює як на неналаштованих, так і на точно налаштованих моделях. Оскільки цей метод уникає екстраполяції розмірів, де область обертання розподілена нерівномірно, усі проблеми тонкого налаштування попередніх методів уникають.

Динамічне масштабування - динамічна інтерполяція NTK

Під час масштабування розміру контексту без точного налаштування за допомогою методу інтерполяції RoPE ми очікуємо, що модель повільно погіршуватиметься на більших розмірах контексту, а не повністю погіршуватиметься на всьому розмірі контексту, коли ступінь масштабування s перевищує бажане значення.

У динамічному методі NTK ступінь розширення s обчислюється динамічно.

Під час висновку, коли розмір контексту перевищено, ступінь розширення s динамічно змінюється, що дозволяє всім моделям повільно погіршуватися замість раптового збою при досягненні обмеження навчального контексту L.

Додано подібність середнього мінімального косинуса для великих відстаней - YaRN

Навіть якщо проблема локальної відстані, описана раніше, вирішена, більша відстань повинна бути інтерпольована на пороговому значенні α, щоб уникнути екстраполяції. Інтуїтивно це не здається проблемою, оскільки глобальна відстань не вимагає високої точності для розрізнення позицій маркерів (тобто мережі потрібно лише приблизно знати, чи знаходиться маркер на початку, в середині чи в кінці послідовності).

Однак дослідники виявили, що оскільки середня мінімальна відстань стає ближчою зі збільшенням кількості токенів, це зробить розподіл м’якого максимуму уваги гострішим (тобто зменшить середню ентропію м’якого максимуму уваги). Іншими словами, оскільки вплив загасання на великій відстані зменшується інтерполяцією, мережа буде «приділяти більше уваги» більшій кількості токенів. Цей зсув у розподілі може призвести до погіршення якості результату LLM, що є ще однією проблемою, не пов’язаною з попередньою.

Оскільки ентропія у розподілі softmax уваги зменшується, коли вбудовування RoPE інтерполюються до більших розмірів контексту, ми прагнемо змінити це зменшення ентропії (тобто збільшити «температуру» logit уваги). Це можна зробити шляхом множення матриці проміжної уваги на температуру t > 1 перед застосуванням softmax, але оскільки вбудовування RoPE закодовано як матриця обертання, можна просто збільшити довжину вбудовування RoPE на постійний коефіцієнт √t . Ця техніка «розширення довжини» дозволяє досліджувати без модифікації коду уваги, що може значно спростити інтеграцію з існуючими процесами навчання та висновків, а часова складність становить лише O(1).

Оскільки ця схема інтерполяції RoPE нерівномірно інтерполює розміри RoPE, важко розрахувати аналітичне рішення для необхідного відношення температур t щодо ступеня розширення s. На щастя, в ході експериментів дослідники виявили, що завдяки мінімізації здивування всі моделі LLaMA дотримуються приблизно однакової кривої підгонки:

Дослідники виявили цю формулу на LLaMA 7B, 13B, 33B і 65B. Вони виявили, що ця формула також добре працює для моделей LLaMA 2 (7B, 13B і 70B) з незначними відмінностями. Це свідчить про те, що ця властивість збільшення ентропії є загальною та узагальнюється для різних моделей і навчальних даних.

Результатом цієї остаточної модифікації став метод YaRN. Новий метод перевершує всі попередні методи як у точно налаштованих, так і в неналаштованих сценаріях, не вимагаючи жодних змін у коді висновку. Лише алгоритм, який спочатку використовується для генерації вбудовування RoPE, потребує зміни. YaRN настільки простий, що його можна легко застосувати в усіх бібліотеках висновків і навчальних бібліотек, включаючи сумісність із Flash Attention 2.

експеримент

Експерименти показують, що YaRN може успішно розширити контекстне вікно LLM. Крім того, вони досягли цього результату після тренування всього 400 кроків, що становить приблизно 0,1% від оригінального корпусу моделі перед тренуванням, що є значним зниженням порівняно з результатами попередніх досліджень. Це показує, що новий метод має високу обчислювальну ефективність і не має додаткових витрат на висновки.

Щоб оцінити отриману модель, дослідники обчислили складність довгих документів і оцінили їх за існуючими тестами, і виявили, що новий метод перевершує всі інші методи розширення контекстного вікна.

Спочатку дослідники оцінили продуктивність моделі при збільшенні контекстного вікна. Таблиця 1 підсумовує експериментальні результати.

У таблиці 2 показано остаточне здивування 50 нецензурованих документів GovReport (довжиною принаймні 16 тисяч токенів).

Щоб перевірити погіршення продуктивності моделі під час використання контекстних розширень, ми оцінили модель за допомогою набору лідерів Hugging Face Open LLM і порівняли її з існуючими показниками базової моделі LLaMA 2 і загальнодоступними моделями з підтримкою PI та NTK. Таблиця 3 підсумовує експериментальні результати.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити