Каково окончательное решение для моделей с длинным контекстом LLM?
Решение, недавно предложенное исследователями из Принстонского университета и Meta AI, заключается в том, чтобы думать о LLM как об интерактивном агенте, который позволяет ему решать, как читать текст с помощью итеративных подсказок.
Адрес доклада:
Они разработали систему под названием MemWalker, которая может обрабатывать длинные контексты в дерево сводных узлов.
При получении запроса модель может извлечь это дерево узлов, чтобы найти соответствующую информацию и ответить, когда она соберет достаточно информации. В задачах ответов на вопросы с длинным текстом этот метод значительно лучше, чем базовый метод, использующий длинные контекстные окна, рекурсию и извлечение.
Лекун также написал в Твиттере в поддержку их исследования.
MemWalker состоит из двух основных частей:
Для начала нужно построить дерево памяти:
Разрезание длинного текста на узлы сводки. Узлы объединения далее суммируются в узлы более высокого уровня и, наконец, достигают корня.
Вторая часть - Навигация:
Приняв запрос, LLM перемещается по дереву, чтобы найти нужную информацию и ответить соответствующим образом. LLM осуществляет этот процесс с помощью рассуждений – возможно, работая над поиском ответа, выбирая дальше по одному пути или обнаруживая, что заблуждается и отступает тем же путем.
Этот процесс навигации может быть реализован с помощью подсказок без выборки и легко адаптируется к любой из указанных больших языковых моделей.
Исследовательская группа показала, что при интерактивном чтении дерева памяти, построенного этой моделью, MemWalker превзошел другие длинные базовые линии контекста, а также варианты извлечения и цикла, особенно для более длинных примеров.
Эффективность MemWalker зависит от двух ключевых составляющих:
Размер рабочей памяти – LLM имеет лучшие возможности глобального контекста, позволяя LLM получать больше информации по пути, который он извлекает.
2) Способность к рассуждению LLM - Когда LLM достигает порога вывода, MemWalker эффективен. Если возможность логического вывода ниже порогового значения, частота ошибок во время навигации высока.
MEMWALKER: ИНТЕРАКТИВНАЯ ПРОГРАММА ДЛЯ ЧТЕНИЯ**
Исследовательская группа исследует задачи, связанные с длинными контекстными ответами на вопросы — при наличии длинного текста x и запроса q целью модели является генерация ответа r.
MEMWALKER ВЫПОЛНЯЕТ ДВА ЭТАПА:
Построение дерева памяти, где длинные контексты разбиваются на древовидные структуры данных. Эта конструкция не зависит от запросов, поэтому при наличии данных последовательности заранее, их можно вычислить заранее.
Навигация, при которой модель перемещается по этой структуре при получении запроса, собирая информацию для формулирования соответствующего ответа.
MEMWALKER берет на себя доступ к базовому LLM и реализует сборку и навигацию путем итерации по приглашениям LLM.
Навигация
После получения запроса Q языковая модель удаляется из корневого узла
Начните навигацию по дереву, чтобы создать ответ.
Пройденный узел в LLM
, он наблюдает за следующим уровнем узлов
Резюме .
LLM решил в
+ Выберите одно из 1 действий - Выбрать дочерний узел для дальнейшей проверки, или вернуться к родительскому узлу.
В листовом узле
LLM может выбрать одно из двух действий: отправить конечный узел и ответить на запрос, или если конечный узел содержит информацию
(т.е.
) недостаточно, вернитесь к родительскому узлу
。
Для принятия навигационных решений исследовательская группа также может попросить LLM сначала сгенерировать обоснование на естественном языке, предложив действие, а затем сам выбор действия.
В частности, в каждом узле модель генерирует ответ r ∼ LLM(r | s, q), где ответ представляет собой один из двух кортежей: 1) r = (рассуждение, действие, ответ), когда LLM находится в конечном узле, или 2) r = (рассуждение, действие), когда LLM находится в неконечном узле.
Дизайн навигационных подсказок
Исследовательская группа включила навигацию LLM с подсказками с нулевой выборкой. Есть два типа советов, которые вам нужны:
Советы по сортировке и 2) кончики листьев (выделены в таблице ниже).
Запрос на рассмотрение содержит запрос, сводную информацию о дочерних узлах и инструкции, которым должен следовать LLM. Советы по сортировке используются для неконечных узлов.
Конечная подсказка содержит содержимое абзаца, запросы (и параметры) и инструкции, требующие от LLM создания ответа или возврата к родительскому узлу.
Как советы по рассмотрению, так и конечные подсказки определяют формат вывода, которому должен следовать LLM. Несоблюдение формата приводит к недействительным действиям, и LLM необходимо создать заново. Если LLM не удается выдать разрешимый вывод три раза подряд, навигация завершается и возвращает «Нет ответа».
Рабочая память
Когда LLM завершает извлечение дерева, он может сохранить информацию в навигационном маршруте и добавить ее в контекст.
Если быть точным, LLM генерирует ответ r ∼ LLM(r | s, q, m) с дополнительной рабочей памятью
Либо пустой, либо содержит содержимое из ранее посещенных узлов.
Исследовательская группа урезала рабочую память, чтобы она могла поместиться в контекстное окно LLM.
В ПРИВЕДЕННОЙ ВЫШЕ ТАБЛИЦЕ ТАКЖЕ ПОКАЗАНО, КАК ДОБАВИТЬ РАБОЧУЮ ПАМЯТЬ В ПРИГЛАШЕНИЕ ЧЕРЕЗ РАБОЧУЮ ПАМЯТЬ.
Экспериментальная конфигурация
Наборы данных и оценки
Исследовательская группа использовала три набора данных: QuALITY, SummScreenFD и GovReport, которые были взяты из бенчмарка SCROLLS. Исследовательская группа продемонстрировала точность всех наборов данных.
Качество
QuALITY — это набор данных вопросов и ответов с несколькими вариантами ответов.
Набор данных содержит длинные истории из Project Gutenberg и вопросы, аннотированные людьми-аннотаторами. Исследовательская группа экспериментировала, используя подмножество из 187 примеров.
SummScreenFD
SummScreenFD — это набор данных сценариев телепередач и фильмов, изначально предназначенный для суммирования.
Эти сценарии представлены в виде диалогов между актерами. Исследовательская группа преобразовала этот набор данных в задачу вопросов и ответов, в которой исходный предоставленный основной правдивый сводный текст использовался для генерации вопроса «кто» с помощью Stable Beluga 2, который затем проверялся экспертом-человеком.
Вопрос в паре с исходным длинным текстом превратился в 306 примеров перепозиционированных QA-задач.
Правительственный отчет
Набор данных GovReport объединяет документы Исследовательской службы Конгресса и Счетной палаты США, а также резюме, предоставленные экспертами.
Исследовательская группа преобразовала этот набор данных в набор вопросов и ответов со 101 примером так же, как и SummScreenFD.
Все три набора данных характеризуются длинными контекстами разной длины, короткими примерами и более длинными последовательностями.
Таким образом, исследовательская группа представила результаты как на исходном наборе данных, так и на подмножестве более длинных последовательностей, содержащихся в каждой задаче, чтобы лучше оценить доступ к памяти в более сложных и длительных контекстных ситуациях.
Исследовательская группа использовала Stable Beluga 2 в качестве базового LLM в большинстве своих экспериментов, потому что он предлагает современную производительность по сравнению с несколькими другими вариантами LLM, которые исследовательская группа продемонстрирует.
Stable Beluga 2 — это модель настройки инструкций на основе 70B LLaMA-2, в которой тонкая настройка не пересекается с задачей оценки исследовательской группы.
Максимальная длина контекста составляет 4 096 токенов. Исследовательская группа использовала модель без дополнительной тонкой настройки или предоставления небольшого количества примеров задачи исследовательской группы в контексте.
Исследовательская группа использовала верхнюю p-выборку для построения дерева памяти, а также действий и выводов для создания навигации.
Исследовательская группа установила максимальное количество узлов для QuALITY, SummScreenFD и GovReport, maxt Mt = 8, 5, 8 и segment size|c| соответственно = 1000, 1000, 1200。
Репер
Исследовательская группа сравнила три технологии памяти, основанные на одном и том же базовом LLM, со стабильной Beluga 2:
Полное контекстное окно
Рекурсия
Извлечение
Базовый план полного контекстного окна использует все 4 096 маркеров для обработки длинного входного текста и генерации. Поскольку экземпляры в наборе данных часто выходят за пределы контекста, исследовательская группа усекла длину, взяв в качестве входных данных либо правую (ближайшую), либо левую (наименее близкую) часть текста, и оценила оба метода.
Для поиска исследовательская группа использовала Contriever (Izacard et al., 2022) для выбора абзацев из длинных контекстов на основе запросов. Отрывки с наивысшими баллами объединяются во входной контекст LLM до тех пор, пока они не заполнят контекст.
Наконец, исследовательская группа реализовала базовую линию, которая циклически проходит через дайджест к текущему абзацу информации из токенов предыдущего абзаца, где каждый абзац составляет 2 500 токенов, а максимальный размер аннотации — 500 токенов.
Результаты и анализ
Основные результаты
В таблице 2 ниже приведено сравнение MEMWALKER с другими базовыми показателями.
MEMWALKER ЗНАЧИТЕЛЬНО ПРЕВЫСИЛ РЕКУРСИВНЫЙ БАЗОВЫЙ УРОВЕНЬ ВО ВСЕХ ЗАДАЧАХ.
Это показывает ограничение рекурсии, когда важная информация для запроса теряется после нескольких шагов.
МЕМУОКЕР ТАКЖЕ ВЫХОДИТ ЗА РАМКИ ПОИСКА, ГДЕ ОТРЫВКИ БЕРУТСЯ ИЗ СВЯЗНОЙ ДЛИННОЙ ИСТОРИИ, А НЕ ИЗ ОТДЕЛЬНОГО ДОКУМЕНТА.
В этих задачах базовый план полного контекста может хорошо работать в «сырой» задаче, которая может содержать относительно короткие последовательности, хотя выбор левого или правого усечения для наилучшей производительности, по-видимому, зависит от набора данных.
Однако, за исключением переменной hold-right в QuALITY и переменной hold-left в GovReport, MEMWALKER достигает более высокой производительности в исходной настройке, чем базовый план полного контекста, что может быть связано с позиционным смещением в наборе данных, где соответствующие абзацы обычно появляются в начале или в конце текста.
ТЕМ НЕ МЕНЕЕ, НА ДЛИННЫХ ВЕРСИЯХ ВСЕХ ТРЕХ ЗАДАЧ MEMWALKER ПРЕВЗОШЕЛ ВСЕ БАЗОВЫЕ ПОКАЗАТЕЛИ, Т.Е. ПОКАЗАЛ ВЫСОКУЮ ПРОИЗВОДИТЕЛЬНОСТЬ, ПОСКОЛЬКУ ДОСТУП К ПАМЯТИ СТАЛ БОЛЕЕ КРИТИЧНЫМ.
MEMWALKER также превосходит другие общедоступные модели, включая LongChat и MPT.
MEMWALKER повышает производительность при работе с длинными последовательностями. Исследовательская группа предоставила разбивку производительности длины входной последовательности для каждой задачи на рисунке 2 выше.
ПРИ МЕНЬШЕЙ ДЛИНЕ ТЕКСТА MEMWALKER УСТУПАЕТ БАЗОВОМУ ПЛАНУ ПОЛНОГО КОНТЕКСТА (УСЕЧЕНИЕ СЛЕВА ИЛИ СПРАВА), НО ПРЕВОСХОДИТ ОБА ТИПА УСЕЧЕНИЯ В БОЛЕЕ ДЛИННЫХ ПОСЛЕДОВАТЕЛЬНОСТЯХ ДЛЯ ВСЕХ ЗАДАЧ.
Преимущество интерактивного чтения заключается в том, что соответствующее увеличение длины текста становится очевидным, т.е. более высокая производительность демонстрируется, когда длина последовательности значительно превышает длину контекста 4 096 LLM.
Логический вывод необходим для навигации по дереву памяти.
ЭФФЕКТИВНОСТЬ MEMWALKER В ЗНАЧИТЕЛЬНОЙ СТЕПЕНИ ЗАВИСИТ ОТ МЫСЛИТЕЛЬНЫХ СПОСОБНОСТЕЙ ЛЕЖАЩЕГО В ОСНОВЕ LLM. Для каждого навигационного решения исследовательская группа использовала подсказку LLM, которая просила LLM сначала сгенерировать обоснование на естественном языке, чтобы обосновать следующее прогнозируемое действие, как показано в таблице 1 ниже.
В таблице 3 исследовательская группа показывает, как рассуждения влияют на производительность, сравнивая Llama 2 Chat (варианты параметров 13B и 70B) со стабильной Beluga 2 (70B) и удаляя строку «Аргументируйте перед принятием решения...» из приглашения.
Для меньших по размеру и менее функциональных моделей (13B) производительность значительно отстает от моделей 70B из-за невозможности следовать инструкциям. На самом деле, требование обоснования вывода для более слабых моделей может привести к снижению производительности, возможно, потому, что они не могут генерировать и использовать эти обоснования.
Stable Beluga 2 превзошла Llama 2 Chat того же размера, а также показала улучшенные возможности рассуждения.
Для Stable Beluga 2 требование обоснования аргументов во всех задачах повышает производительность. ЭТО ПОДЧЕРКИВАЕТ ГЛАВНУЮ ОСОБЕННОСТЬ MEMWALKER: ЕСЛИ LLM ПРЕОДОЛЕВАЕТ ПОРОГ КРИТИЧЕСКОЙ СПОСОБНОСТИ К РАССУЖДЕНИЮ, ОН МОЖЕТ РАССУЖДАТЬ О ДЛИННЫХ ВХОДНЫХ ДАННЫХ В НЕСКОЛЬКИХ РАУНДАХ, НЕ ГЕНЕРИРУЯ БЫСТРО ОШИБКИ МЕЖДУ РАУНДАМИ.
Для слабых LLM, которые не могут принимать правильные навигационные решения, могут накапливаться ошибки и ухудшаться общая производительность.
ПО МЕРЕ ТОГО, КАК В БЛИЖАЙШИЕ ГОДЫ СПОСОБНОСТИ LLM К РАССУЖДЕНИЮ ПРОДОЛЖАТ СОВЕРШЕНСТВОВАТЬСЯ, ИССЛЕДОВАТЕЛЬСКАЯ ГРУППА ОЖИДАЕТ, ЧТО ТАКИЕ МЕТОДЫ, КАК MEMWALKER, СТАНУТ БОЛЕЕ ЭФФЕКТИВНЫМИ.
Рабочая память необходима для навигации по дереву памяти. КОГДА MEMWALKER ПРИНИМАЕТ РЕШЕНИЕ О ПРОХОЖДЕНИИ ПО ДЕРЕВУ ПАМЯТИ И ЧТЕНИИ СВЯЗАННЫХ АБЗАЦЕВ, ОН МОЖЕТ ПОТЕРЯТЬ ИНФОРМАЦИЮ ОБ ОБЩЕМ КОНТЕКСТЕ.
Таким образом, модель переносит информацию из узла вдоль навигационного пути в виде рабочей памяти, где содержимое рабочей памяти обновляется, когда модель выбирает следующий путь.
ИССЛЕДОВАТЕЛЬСКАЯ ГРУППА ОЦЕНИЛА ПРОИЗВОДИТЕЛЬНОСТЬ MEMWALKER С РАБОЧЕЙ ПАМЯТЬЮ ИЛИ БЕЗ НЕЕ, И РЕЗУЛЬТАТЫ ПОКАЗАНЫ НА РИСУНКЕ 3 НИЖЕ.
Исследовательская группа обнаружила, что истощение рабочей памяти привело к значительному снижению производительности во всех задачах с падением точности на 5-13%, что свидетельствует о важности этого компонента.
MEMWALKER может восстановиться с неверного пути.
КОГДА MEMWALKER ПЕРЕМЕЩАЕТСЯ ПО ДЕРЕВУ ПАМЯТИ, ЕМУ НУЖНО НЕ ТОЛЬКО НАЙТИ ПУТЬ К НАИБОЛЕЕ РЕЛЕВАНТНЫМ ПАРАГРАФАМ, НО И ВОССТАНОВИТЬ ВСЕ ОШИБКИ ИЗВЛЕЧЕНИЯ.
Исследовательская группа представляет статистику восстановления в таблице 4 ниже. MEMWALKER выполняет навигационные операции восстановления (и, следовательно, изменяет пути) примерно на 15% - 20% образцов, но в этих примерах их можно восстановить и правильно получить в QuALITY, 60% для SummScreenFD и ∼ 80% для GovReport.
MEMWALKER обеспечивает эффективное чтение. ПОСКОЛЬКУ MEMWALKER ОПРЕДЕЛЯЕТ, КАКИЕ ЧАСТИ ДЛИННОГО ТЕКСТА НЕОБХОДИМО ПРОЧИТАТЬ, ПОЛЕЗНАЯ НАГРУЗКА, КОТОРУЮ НЕОБХОДИМО ПРОЧИТАТЬ, МОЖЕТ БЫТЬ МЕНЬШЕ, ЧЕМ ВСЯ ПОСЛЕДОВАТЕЛЬНОСТЬ.
Исследовательская группа показывает среднее значение процента длинных контекстных чтений для всех примеров, как показано на рисунке 4 ниже для каждой из трех задач. Исследовательская группа обнаружила, что в среднем для ответа на вопросы нужно прочитать только 63-69% текста, включая содержимое узлов дерева.
На пути к успеху требуемое значение снижается до 59% – 64%.
Компромиссы при построении дерева памяти
Когда исследовательская группа строит дерево памяти, возникает фундаментальный компромисс — суммирование больших абзацев в узлы, чтобы уменьшить глубину дерева, но потенциально потерять точность содержания.
Аналогичным образом, соединение множества узлов более низкого уровня с узлами выше может помочь сгладить дерево, но может усложнить задачи навигации LLM на каждом узле.
На рисунке 5 ниже показана производительность различных конфигураций дерева памяти в QuALITY. Суммирование больших абзацев часто бывает более выгодным, чем суммирование меньших абзацев и подключение большего количества дочерних узлов к родительскому узлу.
Однако производительность стабилизировалась по мере увеличения максимального числа узлов, демонстрируя компромисс между тем, сколько информации может быть упаковано в узлы во время построения дерева памяти.
Ресурсы:
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
Meta Princeton предлагает идеальное решение для контекста LLM! Пусть модель станет автономным агентом и сама считывает дерево узлов контекста
Первоисточник: Shin Ji Yuan
Каково окончательное решение для моделей с длинным контекстом LLM?
Решение, недавно предложенное исследователями из Принстонского университета и Meta AI, заключается в том, чтобы думать о LLM как об интерактивном агенте, который позволяет ему решать, как читать текст с помощью итеративных подсказок.
Они разработали систему под названием MemWalker, которая может обрабатывать длинные контексты в дерево сводных узлов.
При получении запроса модель может извлечь это дерево узлов, чтобы найти соответствующую информацию и ответить, когда она соберет достаточно информации. В задачах ответов на вопросы с длинным текстом этот метод значительно лучше, чем базовый метод, использующий длинные контекстные окна, рекурсию и извлечение.
Лекун также написал в Твиттере в поддержку их исследования.
Для начала нужно построить дерево памяти:
Разрезание длинного текста на узлы сводки. Узлы объединения далее суммируются в узлы более высокого уровня и, наконец, достигают корня.
Приняв запрос, LLM перемещается по дереву, чтобы найти нужную информацию и ответить соответствующим образом. LLM осуществляет этот процесс с помощью рассуждений – возможно, работая над поиском ответа, выбирая дальше по одному пути или обнаруживая, что заблуждается и отступает тем же путем.
Эффективность MemWalker зависит от двух ключевых составляющих:
Исследовательская группа исследует задачи, связанные с длинными контекстными ответами на вопросы — при наличии длинного текста x и запроса q целью модели является генерация ответа r.
MEMWALKER ВЫПОЛНЯЕТ ДВА ЭТАПА:
Построение дерева памяти, где длинные контексты разбиваются на древовидные структуры данных. Эта конструкция не зависит от запросов, поэтому при наличии данных последовательности заранее, их можно вычислить заранее.
Навигация, при которой модель перемещается по этой структуре при получении запроса, собирая информацию для формулирования соответствующего ответа.
MEMWALKER берет на себя доступ к базовому LLM и реализует сборку и навигацию путем итерации по приглашениям LLM.
Навигация
После получения запроса Q языковая модель удаляется из корневого узла
Пройденный узел в LLM
LLM решил в
В листовом узле
(т.е.
Для принятия навигационных решений исследовательская группа также может попросить LLM сначала сгенерировать обоснование на естественном языке, предложив действие, а затем сам выбор действия.
В частности, в каждом узле модель генерирует ответ r ∼ LLM(r | s, q), где ответ представляет собой один из двух кортежей: 1) r = (рассуждение, действие, ответ), когда LLM находится в конечном узле, или 2) r = (рассуждение, действие), когда LLM находится в неконечном узле.
Дизайн навигационных подсказок
Исследовательская группа включила навигацию LLM с подсказками с нулевой выборкой. Есть два типа советов, которые вам нужны:
Конечная подсказка содержит содержимое абзаца, запросы (и параметры) и инструкции, требующие от LLM создания ответа или возврата к родительскому узлу.
Как советы по рассмотрению, так и конечные подсказки определяют формат вывода, которому должен следовать LLM. Несоблюдение формата приводит к недействительным действиям, и LLM необходимо создать заново. Если LLM не удается выдать разрешимый вывод три раза подряд, навигация завершается и возвращает «Нет ответа».
Рабочая память
Когда LLM завершает извлечение дерева, он может сохранить информацию в навигационном маршруте и добавить ее в контекст.
Если быть точным, LLM генерирует ответ r ∼ LLM(r | s, q, m) с дополнительной рабочей памятью
Исследовательская группа урезала рабочую память, чтобы она могла поместиться в контекстное окно LLM.
В ПРИВЕДЕННОЙ ВЫШЕ ТАБЛИЦЕ ТАКЖЕ ПОКАЗАНО, КАК ДОБАВИТЬ РАБОЧУЮ ПАМЯТЬ В ПРИГЛАШЕНИЕ ЧЕРЕЗ РАБОЧУЮ ПАМЯТЬ.
Экспериментальная конфигурация
Наборы данных и оценки
Исследовательская группа использовала три набора данных: QuALITY, SummScreenFD и GovReport, которые были взяты из бенчмарка SCROLLS. Исследовательская группа продемонстрировала точность всех наборов данных.
Качество
QuALITY — это набор данных вопросов и ответов с несколькими вариантами ответов.
Набор данных содержит длинные истории из Project Gutenberg и вопросы, аннотированные людьми-аннотаторами. Исследовательская группа экспериментировала, используя подмножество из 187 примеров.
SummScreenFD
SummScreenFD — это набор данных сценариев телепередач и фильмов, изначально предназначенный для суммирования.
Эти сценарии представлены в виде диалогов между актерами. Исследовательская группа преобразовала этот набор данных в задачу вопросов и ответов, в которой исходный предоставленный основной правдивый сводный текст использовался для генерации вопроса «кто» с помощью Stable Beluga 2, который затем проверялся экспертом-человеком.
Вопрос в паре с исходным длинным текстом превратился в 306 примеров перепозиционированных QA-задач.
Правительственный отчет
Набор данных GovReport объединяет документы Исследовательской службы Конгресса и Счетной палаты США, а также резюме, предоставленные экспертами.
Исследовательская группа преобразовала этот набор данных в набор вопросов и ответов со 101 примером так же, как и SummScreenFD.
Все три набора данных характеризуются длинными контекстами разной длины, короткими примерами и более длинными последовательностями.
Таким образом, исследовательская группа представила результаты как на исходном наборе данных, так и на подмножестве более длинных последовательностей, содержащихся в каждой задаче, чтобы лучше оценить доступ к памяти в более сложных и длительных контекстных ситуациях.
Пороговые значения: 8 000 токенов QuALITY, 6 000 токенов SummScreenFD и 12 000 токенов GovReport.
Модель
Исследовательская группа использовала Stable Beluga 2 в качестве базового LLM в большинстве своих экспериментов, потому что он предлагает современную производительность по сравнению с несколькими другими вариантами LLM, которые исследовательская группа продемонстрирует.
Stable Beluga 2 — это модель настройки инструкций на основе 70B LLaMA-2, в которой тонкая настройка не пересекается с задачей оценки исследовательской группы.
Максимальная длина контекста составляет 4 096 токенов. Исследовательская группа использовала модель без дополнительной тонкой настройки или предоставления небольшого количества примеров задачи исследовательской группы в контексте.
Исследовательская группа использовала верхнюю p-выборку для построения дерева памяти, а также действий и выводов для создания навигации.
Исследовательская группа установила максимальное количество узлов для QuALITY, SummScreenFD и GovReport, maxt Mt = 8, 5, 8 и segment size|c| соответственно = 1000, 1000, 1200。
Репер
Исследовательская группа сравнила три технологии памяти, основанные на одном и том же базовом LLM, со стабильной Beluga 2:
Полное контекстное окно
Рекурсия
Извлечение
Базовый план полного контекстного окна использует все 4 096 маркеров для обработки длинного входного текста и генерации. Поскольку экземпляры в наборе данных часто выходят за пределы контекста, исследовательская группа усекла длину, взяв в качестве входных данных либо правую (ближайшую), либо левую (наименее близкую) часть текста, и оценила оба метода.
Для поиска исследовательская группа использовала Contriever (Izacard et al., 2022) для выбора абзацев из длинных контекстов на основе запросов. Отрывки с наивысшими баллами объединяются во входной контекст LLM до тех пор, пока они не заполнят контекст.
Наконец, исследовательская группа реализовала базовую линию, которая циклически проходит через дайджест к текущему абзацу информации из токенов предыдущего абзаца, где каждый абзац составляет 2 500 токенов, а максимальный размер аннотации — 500 токенов.
Результаты и анализ
Основные результаты
В таблице 2 ниже приведено сравнение MEMWALKER с другими базовыми показателями.
Это показывает ограничение рекурсии, когда важная информация для запроса теряется после нескольких шагов.
МЕМУОКЕР ТАКЖЕ ВЫХОДИТ ЗА РАМКИ ПОИСКА, ГДЕ ОТРЫВКИ БЕРУТСЯ ИЗ СВЯЗНОЙ ДЛИННОЙ ИСТОРИИ, А НЕ ИЗ ОТДЕЛЬНОГО ДОКУМЕНТА.
В этих задачах базовый план полного контекста может хорошо работать в «сырой» задаче, которая может содержать относительно короткие последовательности, хотя выбор левого или правого усечения для наилучшей производительности, по-видимому, зависит от набора данных.
Однако, за исключением переменной hold-right в QuALITY и переменной hold-left в GovReport, MEMWALKER достигает более высокой производительности в исходной настройке, чем базовый план полного контекста, что может быть связано с позиционным смещением в наборе данных, где соответствующие абзацы обычно появляются в начале или в конце текста.
ТЕМ НЕ МЕНЕЕ, НА ДЛИННЫХ ВЕРСИЯХ ВСЕХ ТРЕХ ЗАДАЧ MEMWALKER ПРЕВЗОШЕЛ ВСЕ БАЗОВЫЕ ПОКАЗАТЕЛИ, Т.Е. ПОКАЗАЛ ВЫСОКУЮ ПРОИЗВОДИТЕЛЬНОСТЬ, ПОСКОЛЬКУ ДОСТУП К ПАМЯТИ СТАЛ БОЛЕЕ КРИТИЧНЫМ.
MEMWALKER также превосходит другие общедоступные модели, включая LongChat и MPT.
ПРИ МЕНЬШЕЙ ДЛИНЕ ТЕКСТА MEMWALKER УСТУПАЕТ БАЗОВОМУ ПЛАНУ ПОЛНОГО КОНТЕКСТА (УСЕЧЕНИЕ СЛЕВА ИЛИ СПРАВА), НО ПРЕВОСХОДИТ ОБА ТИПА УСЕЧЕНИЯ В БОЛЕЕ ДЛИННЫХ ПОСЛЕДОВАТЕЛЬНОСТЯХ ДЛЯ ВСЕХ ЗАДАЧ.
Преимущество интерактивного чтения заключается в том, что соответствующее увеличение длины текста становится очевидным, т.е. более высокая производительность демонстрируется, когда длина последовательности значительно превышает длину контекста 4 096 LLM.
Логический вывод необходим для навигации по дереву памяти.
ЭФФЕКТИВНОСТЬ MEMWALKER В ЗНАЧИТЕЛЬНОЙ СТЕПЕНИ ЗАВИСИТ ОТ МЫСЛИТЕЛЬНЫХ СПОСОБНОСТЕЙ ЛЕЖАЩЕГО В ОСНОВЕ LLM. Для каждого навигационного решения исследовательская группа использовала подсказку LLM, которая просила LLM сначала сгенерировать обоснование на естественном языке, чтобы обосновать следующее прогнозируемое действие, как показано в таблице 1 ниже.
Stable Beluga 2 превзошла Llama 2 Chat того же размера, а также показала улучшенные возможности рассуждения.
Для Stable Beluga 2 требование обоснования аргументов во всех задачах повышает производительность. ЭТО ПОДЧЕРКИВАЕТ ГЛАВНУЮ ОСОБЕННОСТЬ MEMWALKER: ЕСЛИ LLM ПРЕОДОЛЕВАЕТ ПОРОГ КРИТИЧЕСКОЙ СПОСОБНОСТИ К РАССУЖДЕНИЮ, ОН МОЖЕТ РАССУЖДАТЬ О ДЛИННЫХ ВХОДНЫХ ДАННЫХ В НЕСКОЛЬКИХ РАУНДАХ, НЕ ГЕНЕРИРУЯ БЫСТРО ОШИБКИ МЕЖДУ РАУНДАМИ.
Для слабых LLM, которые не могут принимать правильные навигационные решения, могут накапливаться ошибки и ухудшаться общая производительность.
ПО МЕРЕ ТОГО, КАК В БЛИЖАЙШИЕ ГОДЫ СПОСОБНОСТИ LLM К РАССУЖДЕНИЮ ПРОДОЛЖАТ СОВЕРШЕНСТВОВАТЬСЯ, ИССЛЕДОВАТЕЛЬСКАЯ ГРУППА ОЖИДАЕТ, ЧТО ТАКИЕ МЕТОДЫ, КАК MEMWALKER, СТАНУТ БОЛЕЕ ЭФФЕКТИВНЫМИ.
Рабочая память необходима для навигации по дереву памяти. КОГДА MEMWALKER ПРИНИМАЕТ РЕШЕНИЕ О ПРОХОЖДЕНИИ ПО ДЕРЕВУ ПАМЯТИ И ЧТЕНИИ СВЯЗАННЫХ АБЗАЦЕВ, ОН МОЖЕТ ПОТЕРЯТЬ ИНФОРМАЦИЮ ОБ ОБЩЕМ КОНТЕКСТЕ.
Таким образом, модель переносит информацию из узла вдоль навигационного пути в виде рабочей памяти, где содержимое рабочей памяти обновляется, когда модель выбирает следующий путь.
ИССЛЕДОВАТЕЛЬСКАЯ ГРУППА ОЦЕНИЛА ПРОИЗВОДИТЕЛЬНОСТЬ MEMWALKER С РАБОЧЕЙ ПАМЯТЬЮ ИЛИ БЕЗ НЕЕ, И РЕЗУЛЬТАТЫ ПОКАЗАНЫ НА РИСУНКЕ 3 НИЖЕ.
MEMWALKER может восстановиться с неверного пути.
КОГДА MEMWALKER ПЕРЕМЕЩАЕТСЯ ПО ДЕРЕВУ ПАМЯТИ, ЕМУ НУЖНО НЕ ТОЛЬКО НАЙТИ ПУТЬ К НАИБОЛЕЕ РЕЛЕВАНТНЫМ ПАРАГРАФАМ, НО И ВОССТАНОВИТЬ ВСЕ ОШИБКИ ИЗВЛЕЧЕНИЯ.
Исследовательская группа представляет статистику восстановления в таблице 4 ниже. MEMWALKER выполняет навигационные операции восстановления (и, следовательно, изменяет пути) примерно на 15% - 20% образцов, но в этих примерах их можно восстановить и правильно получить в QuALITY, 60% для SummScreenFD и ∼ 80% для GovReport.
Исследовательская группа показывает среднее значение процента длинных контекстных чтений для всех примеров, как показано на рисунке 4 ниже для каждой из трех задач. Исследовательская группа обнаружила, что в среднем для ответа на вопросы нужно прочитать только 63-69% текста, включая содержимое узлов дерева.
Компромиссы при построении дерева памяти
Когда исследовательская группа строит дерево памяти, возникает фундаментальный компромисс — суммирование больших абзацев в узлы, чтобы уменьшить глубину дерева, но потенциально потерять точность содержания.
Аналогичным образом, соединение множества узлов более низкого уровня с узлами выше может помочь сгладить дерево, но может усложнить задачи навигации LLM на каждом узле.
На рисунке 5 ниже показана производительность различных конфигураций дерева памяти в QuALITY. Суммирование больших абзацев часто бывает более выгодным, чем суммирование меньших абзацев и подключение большего количества дочерних узлов к родительскому узлу.
Однако производительность стабилизировалась по мере увеличения максимального числа узлов, демонстрируя компромисс между тем, сколько информации может быть упаковано в узлы во время построения дерева памяти.