Если вы хотите, чтобы большая модель выучила больше примеров в _, этот метод позволяет ввести больше символов.

Мы знаем, что при использовании больших языковых моделей, таких как GPT и LLaMA, существует ограничение на ввод символов. Например, текущий предел ввода символов для ChatGPT составляет 4096 символов. Это ограничивает сферу применения таких технологий, как контекстное обучение и цепочка мыслей, поскольку пользователи могут предоставить только ограниченное количество примеров. Недавно исследовательская группа из Nous Research, EleutherAI и Женевского университета предложила YaRN, решение для расширения контекстного окна, и добилась лучших результатов, чем все другие методы в экспериментах, а также выпустила LLaMA 2, настроенную с использованием YaRN 7B/ Модель 13B с контекстными окнами 64 КБ и 128 КБ.

Источник изображения: Создано Unbounded AI

Модели большого языка на основе преобразователей (LLM) продемонстрировали мощные возможности контекстного обучения (ICL) и стали почти единственным выбором для многих задач обработки естественного языка (NLP). Механизм самообслуживания Transformer обеспечивает высокую степень распараллеливания обучения, позволяя обрабатывать длинные последовательности распределенным образом. Длина последовательности, используемой для обучения LLM, называется ее контекстным окном.

Контекстное окно Transformer напрямую определяет объем пространства, которое может содержать примеры, тем самым ограничивая его возможности ICL.

Если контекстное окно модели ограничено, у нее меньше места для предоставления модели надежных примеров для выполнения ICL. Более того, выполнение других задач, таких как обобщение, также серьезно затруднено, если контекстное окно модели особенно короткое.

Из-за природы самого языка расположение токенов имеет решающее значение для эффективного моделирования, а самовнимание не кодирует информацию о местоположении напрямую из-за его параллелизма. Архитектура Transformer вводит позиционное кодирование для решения этой проблемы.

В исходной архитектуре Transformer использовалось кодирование абсолютного синусоидального положения, которое позже было улучшено до обучаемого кодирования абсолютного положения. С тех пор схемы кодирования относительного положения еще больше улучшили производительность Transformer. В настоящее время наиболее популярными кодировками относительного положения являются T5 Relative Bias, RoPE, XPos и ALiBi.

Позиционное кодирование имеет постоянное ограничение: невозможность обобщения контекстного окна, видимого во время обучения. Хотя некоторые методы, такие как ALiBi, обладают способностью выполнять некоторое ограниченное обобщение, ни один метод еще не обобщался для последовательностей, значительно длиннее, чем их предварительно обученная длина.

Было предпринято несколько исследовательских усилий, направленных на преодоление этих ограничений. Например, в некоторых исследованиях предлагается немного изменить RoPE с помощью позиционной интерполяции (PI) и точно настроить небольшой объем данных для увеличения длины контекста.

Два месяца назад Боуэн Пэн из Nous Research поделился на Reddit решением, которое заключается в реализации «интерполяции с учетом NTK» за счет учета высокочастотных потерь. NTK здесь относится к нейронному касательному ядру.

В нем утверждается, что расширенный RoPE с поддержкой NTK может значительно расширить контекстное окно модели LLaMA (более 8 КБ) без какой-либо тонкой настройки и с минимальным влиянием на недоумение.

Недавно была опубликована соответствующая статья, написанная им и тремя другими сотрудниками!

* бумага:

  • Модель:

В этой статье они внесли два улучшения в интерполяцию с поддержкой NTK, которые фокусируются на различных аспектах:

  • Метод динамической интерполяции NTK можно использовать для предварительно обученных моделей без тонкой настройки.
  • Метод частичной интерполяции NTK: модель может достичь наилучшей производительности при точной настройке с небольшим количеством более длинных контекстных данных.

Исследователь сказал, что до появления этой статьи исследователи уже использовали интерполяцию с поддержкой NTK и динамическую интерполяцию NTK в некоторых моделях с открытым исходным кодом. Примеры включают Code Llama (с использованием интерполяции с поддержкой NTK) и Qwen 7B (с использованием динамической интерполяции NTK).

В этой статье, основываясь на результатах предыдущих исследований интерполяции с поддержкой NTK, динамической интерполяции NTK и частичной интерполяции NTK, исследователи предложили YaRN (еще один метод расширения RoPE), метод, который может эффективно расширить использование встраивания положения вращения (Rotary Position). Метод контекстного окна модели Embeddings/RoPE) может использоваться для моделей серий LLaMA, GPT-NeoX и PaLM. Исследование показало, что YaRN может достичь наилучшей производительности расширения контекстного окна в настоящее время, используя только репрезентативные выборки размером примерно 0,1% от размера данных предварительного обучения исходной модели для точной настройки.

метод

Встраивание поворотных позиций (RoPE) было впервые представлено в статье «RoFormer: Расширенный преобразователь с встраиванием поворотных позиций» и также является основой YaRN.

Проще говоря, RoPE можно записать следующим образом:

Для LLM, предварительно обученного с фиксированной длиной контекста, если для увеличения длины контекста используется позиционная интерполяция (PI), это можно выразить как:

Видно, что PI одинаково расширит все измерения RoPE. Исследователи обнаружили, что теоретические границы интерполяции, описанные в статье PI, недостаточны для прогнозирования сложной динамики между внутренним внедрением RoPE и LLM. Ниже будут описаны основные проблемы ПИ, обнаруженные и решенные исследователями, чтобы читатели могли понять предысторию, причины и причины решения различных новых методов в ЯРН.

Высокочастотная потеря информации — интерполяция с учетом NTK

Если мы посмотрим на RoPE только с точки зрения кодирования информации, согласно теории нейронного касательного ядра (NTK), если входная размерность мала и соответствующее внедрение не имеет высокочастотных компонентов, то глубокой нейронной сети будет трудно усваивать высокочастотную информацию.

Чтобы решить проблему потери высокочастотной информации при внедрении интерполяции для RoPE, Боуэн Пэн в вышеупомянутом посте на Reddit предложил интерполяцию с поддержкой NTK. Этот подход не расширяет каждое измерение RoPE в равной степени, но распределяет интерполяционное давление по нескольким измерениям за счет меньшего расширения высоких частот и большего расширения низких частот.

В ходе испытаний исследователи обнаружили, что этот подход превосходит PI в масштабировании размера контекста ненастроенной модели. Однако у этого метода есть серьезный недостаток: поскольку это не просто схема интерполяции, некоторые измерения будут экстраполированы на некоторые «внешние» значения, поэтому точная настройка с использованием интерполяции с поддержкой NTK не так эффективна, как PI.

Более того, из-за существования «внешних» значений теоретический коэффициент расширения не может точно описать истинную степень расширения контекста. На практике для заданного расширения длины контекста значение расширения s должно быть установлено немного выше ожидаемого значения расширения.

Потеря относительного локального расстояния – частичная интерполяция NTK

Что касается встраивания RoPE, есть интересное наблюдение: учитывая размер контекста L, существуют некоторые измерения d, где длина волны λ длиннее, чем максимальная длина контекста, наблюдаемая на этапе предварительного обучения (λ > L), что иллюстрирует встраивание некоторых размеров. Возможно неравномерное распределение во вращающейся области.

Интерполяция с учетом PI и NTK одинаково обрабатывает все скрытые измерения RoPE (как будто они одинаково влияют на сеть). Но исследователи в ходе экспериментов обнаружили, что Интернет трактует некоторые измерения иначе, чем другие измерения. Как упоминалось ранее, учитывая длину контекста L, длина волны λ некоторых измерений больше или равна L. Поскольку, когда длина волны скрытого измерения больше или равна L, все пары позиций будут кодировать определенное расстояние, поэтому исследователи предполагают, что информация об абсолютном положении сохраняется; когда длина волны короче, сеть может получить только относительную информацию. позиция.информация.

Когда все измерения RoPE растягиваются с использованием коэффициента расширения s или значения базового изменения b', все токены становятся ближе друг к другу, поскольку скалярное произведение двух векторов, повернутых на меньшую величину, будет больше. Это расширение может серьезно ухудшить способность LLM понимать небольшие локальные отношения между его внутренними вложениями. Исследователи предполагают, что это сжатие заставит модель запутаться в порядке расположения соседних токенов, тем самым нанеся вред возможностям модели.

Чтобы решить эту проблему, основываясь на наблюдениях исследователей, они решили вообще не интерполировать более высокочастотные измерения.

Они также предположили, что для всех измерений d измерения с r < α линейно интерполируются в соответствии со степенью расширения s (как и PI, экстраполяция избегается); измерения с r > β вообще не интерполируются (всегда экстраполируются).

Используя технику, описанную в этом разделе, родился метод, называемый частичной интерполяцией NTK. Этот улучшенный метод превосходит предыдущие методы интерполяции с поддержкой PI и NTK и работает как с ненастроенными, так и с точно настроенными моделями. Поскольку этот метод позволяет избежать экстраполяции измерений, в которых область вращения распределена неравномерно, можно избежать всех проблем точной настройки предыдущих методов.

Динамическое масштабирование — динамическая интерполяция NTK

При масштабировании размера контекста без точной настройки с использованием метода интерполяции RoPE мы ожидаем, что модель будет медленно ухудшаться при более длинных размерах контекста, а не полностью ухудшаться по всему размеру контекста, когда степень масштабирования s превышает желаемое значение.

В динамическом методе NTK степень расширения s рассчитывается динамически.

Во время вывода, когда размер контекста превышен, степень расширения s динамически изменяется, что позволяет всем моделям медленно ухудшаться, а не внезапно разрушаться при достижении предела обучающего контекста L.

Добавлено среднее минимальное косинусное подобие для больших расстояний - ЯРН

Даже если проблема локального расстояния, описанная ранее, решена, большее расстояние должно быть интерполировано на пороге α, чтобы избежать экстраполяции. Интуитивно это не кажется проблемой, поскольку глобальное расстояние не требует высокой точности для различения позиций токена (т. е. сети нужно лишь примерно знать, находится ли токен в начале, середине или конце последовательности).

Однако исследователи обнаружили, что, поскольку среднее минимальное расстояние становится ближе по мере увеличения количества токенов, это сделает распределение softmax внимания более резким (т. е. уменьшит среднюю энтропию softmax внимания). Другими словами, поскольку влияние затухания на больших расстояниях снижается за счет интерполяции, сеть будет «обращать больше внимания» большему количеству токенов. Этот сдвиг в распределении может привести к ухудшению качества результатов LLM, что является еще одной проблемой, не связанной с предыдущей.

Поскольку энтропия в мягкомаксном распределении внимания уменьшается, когда вложения RoPE интерполируются до более длинных размеров контекста, мы стремимся обратить вспять это уменьшение энтропии (т. е. увеличить «температуру» логита внимания). Это можно сделать, умножив промежуточную матрицу внимания на температуру t > 1 перед применением softmax, но поскольку вложение RoPE кодируется как матрица вращения, можно просто увеличить длину вложения RoPE на постоянный коэффициент √t . Этот метод «расширения длины» позволяет проводить исследования без изменения кода внимания, что может значительно упростить интеграцию с существующими процессами обучения и вывода, а временная сложность составляет всего O (1).

Поскольку эта схема интерполяции RoPE неравномерно интерполирует размеры RoPE, трудно вычислить аналитическое решение для требуемого температурного соотношения t в зависимости от степени расширения s. К счастью, в ходе экспериментов исследователи обнаружили, что, сводя к минимуму недоумение, все модели LLaMA следуют примерно одной и той же кривой аппроксимации:

Исследователи обнаружили эту формулу на LLaMA 7B, 13B, 33B и 65B. Они обнаружили, что эта формула также хорошо работает для моделей LLaMA 2 (7B, 13B и 70B), с небольшими различиями. Это говорит о том, что это свойство увеличения энтропии является общим и распространяется на различные модели и обучающие данные.

Эта последняя модификация привела к созданию метода YaRN. Новый метод превосходит все предыдущие методы как в точно настроенных, так и в ненастроенных сценариях, не требуя каких-либо изменений в коде вывода. В первую очередь необходимо изменить только алгоритм, используемый для генерации вложений RoPE. YaRN настолько прост, что его можно легко реализовать во всех библиотеках вывода и обучения, включая совместимость с Flash Attention 2.

эксперимент

Эксперименты показывают, что YaRN может успешно расширять контекстное окно LLM. Более того, они достигли этого результата после обучения всего за 400 шагов, что составляет примерно 0,1% от исходного предварительного обучающего корпуса модели, что является значительным снижением по сравнению с результатами предыдущих исследований. Это показывает, что новый метод обладает высокой вычислительной эффективностью и не требует дополнительных затрат на вывод.

Чтобы оценить полученную модель, исследователи рассчитали сложность длинных документов, оценили их по существующим критериям и обнаружили, что новый метод превосходит все другие методы расширения контекстных окон.

Сначала исследователи оценили производительность модели при увеличении контекстного окна. В таблице 1 суммированы результаты экспериментов.

В таблице 2 показано окончательное недоумение по 50 не прошедшим цензуру документам GovReport (объемом не менее 16 тыс. токенов).

Чтобы проверить снижение производительности модели при использовании расширений контекста, мы оценили модель с помощью пакета лидеров Hugging Face Open LLM и сравнили ее с существующими оценками базовой модели LLaMA 2 и общедоступных моделей с поддержкой PI и NTK. В таблице 3 суммированы экспериментальные результаты.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить