Meta Princeton пропонує найкраще рішення для контексту LLM! Нехай модель стає автономним агентом і самостійно зчитує дерево контекстних вузлів

2023-10-24 03:12:43

Першоджерело: Shin Ji Yuan

Джерело зображення: Створено Unbounded AI

Яке найкраще рішення для моделей довгого контексту LLM?

Рішення, нещодавно запропоноване дослідниками з Прінстонського університету та Meta AI, полягає в тому, щоб думати про LLM як про інтерактивний агент, який дозволяє йому вирішувати, як читати текст за допомогою ітеративних підказок.

Паперова адреса:

Вони розробили систему під назвою MemWalker, яка може обробляти довгі контексти в дерево вузлів резюме.

Коли запит отримано, модель може отримати це дерево вузлів, щоб знайти відповідну інформацію та відповісти, коли вона збере достатньо інформації. У завданнях, що відповідають на запитання з довгим текстом, цей метод значно кращий, ніж базовий метод, що використовує довгі контекстні вікна, рекурсію та пошук.

ЛеКун також написав у Твіттері на підтримку свого дослідження.

MemWalker складається з двох основних частин:

Для початку потрібно побудувати дерево пам'яті:

Поділіть довгий текст на вузли резюме. Вузли зведення далі об'єднуються в вузли вищого рівня і, нарешті, досягають кореня.

Друга частина – «Навігація»:

Після прийняття запиту LLM переміщається по дереву, щоб знайти відповідну інформацію та відповісти належним чином. LLM здійснює цей процес за допомогою міркувань – можливо, працюючи над пошуком відповіді, вибираючи йти далі одним шляхом, або виявляючи, що він помиляється і повертається назад тим самим шляхом.

Цей процес навігації може бути реалізований за допомогою підказок з нульовою вибіркою і легко адаптований до будь-якої із зазначених великих мовних моделей.

Дослідницька група показала, що завдяки інтерактивному читанню дерева пам'яті, побудованого цією моделлю, MemWalker перевершив інші довгі базові лінії контексту та варіанти пошуку та циклу, особливо для довших прикладів.

Ефективність MemWalker залежить від двох ключових складових:

Розмір робочої пам'яті – LLM має кращі можливості глобального контексту, що дозволяє LLM отримувати більше інформації на шляху, який вона отримує.

2) Здатність міркувати LLM - Коли LLM досягає порогу умовиводу, MemWalker є ефективним. Коли здатність до висновків нижча за порогову, рівень помилок під час навігації високий.

MEMWALKER: ІНТЕРАКТИВНА ЧИТАЛКА**

Дослідницька група досліджує завдання, пов'язані з відповіддю на запитання з довгим контекстом — враховуючи довгий текст x і запит q, мета моделі полягає в тому, щоб згенерувати відповідь r.

MEMWALKER ВИКОНУЄ ДВА КРОКИ:

Побудова дерева пам'яті, де довгі контексти розбиваються на деревоподібні структури даних. Ця конструкція не спирається на запити, тому, якщо є дані послідовності заздалегідь, їх можна обчислити заздалегідь.
Навігаційна, коли модель орієнтується в цій структурі, коли отримує запит, збираючи інформацію для формулювання відповідної відповіді.

MEMWALKER бере на себе доступ до базового LLM і реалізує збірку та навігацію, перебираючи підказки LLM.

Навігації

Після отримання запиту Q мовна модель видаляється з кореневого вузла

Почніть переміщатися по дереву, щоб згенерувати відповідь.

Вузол, пройдений в LLM

, він спостерігає за наступним рівнем вузлів

Короткий зміст .

LLM вирішив у

+ Виберіть одну з 1 дій - Виберіть дочірній вузол для подальшої перевірки або поверніться до батьківського вузла.

У листовому вузлі

LLM може прийняти рішення про одну з двох дій: відправити листовий вузол і відповісти на запит, або якщо листовий вузол містить інформацію

(тобто

) недостатньо, поверніться до батьківського вузла

。

Щоб прийняти навігаційні рішення, дослідницька група також може попросити LLM спочатку згенерувати обґрунтування природною мовою, спонукаючи до дії, а потім сам вибір дії.

Зокрема, на кожному вузлі модель генерує відповідь r ∼ LLM(r | s, q), де відповідь є одним із двох кортежів: 1) r = (міркування, дія, відповідь), коли LLM знаходиться в листовому вузлі або 2) r = (міркування, дія), коли LLM знаходиться в нелистовому вузлі.

Дизайн навігаційних порад

Дослідницька група ввімкнула навігацію LLM за допомогою підказок з нульовою вибіркою. Є два типи порад, які вам потрібні:

Сортувальні наконечники та 2) кінчики листя (виділені в таблиці нижче).

Запит сортування містить запит, резюме дочірніх вузлів та інструкції, яких має дотримуватися LLM. Наконечники для сортування використовуються для нелистових вузлів.

Листовий запит містить вміст абзацу, запити (і параметри) та інструкції, які вимагають від LLM згенерувати відповідь або повернутися до батьківського вузла.

Як наконечники сортування, так і наконечники листів визначають формат виводу, якого має дотримуватися LLM. Недотримання формату призводить до недійсних дій, і LLM потрібно повторно створити. Якщо LLM тричі поспіль не може видати розв'язуваний результат, навігація завершується і повертає «Немає відповіді».

Робоча пам'ять

Коли LLM завершує отримання дерева, він може зберігати інформацію в навігаційному маршруті та додавати її до контексту.

Якщо бути точним, то LLM генерує відгук r ∼ LLM(r | s, q, m) з додатковою робочою пам'яттю

Порожній або містить вміст раніше відвіданих вузлів.

Дослідницька група скоротила робочу пам'ять, щоб вона могла поміститися в контекстне вікно LLM.

У НАВЕДЕНІЙ ВИЩЕ ТАБЛИЦІ ТАКОЖ ПОКАЗАНО, ЯК ДОДАТИ РОБОЧУ ПАМ'ЯТЬ ДО ЗАПИТУ ЗА ДОПОМОГОЮ РОБОЧОЇ ПАМ'ЯТІ.

Експериментальна конфігурація

Набори даних та оцінки

Дослідницька група використовувала три набори даних: QuALITY, SummScreenFD і GovReport, які були отримані з бенчмарку SCROLLS. Дослідницька група продемонструвала точність усіх наборів даних.

Якість

QuALITY — це набір даних із кількома варіантами відповідей із запитаннями та відповідями.

Набір даних містить розлогі історії з проекту «Гутенберг» та запитання, анотовані анотаторами-людьми. Дослідницька група експериментувала, використовуючи підмножину з 187 прикладів.

SummScreenFD

SummScreenFD — це набір даних сценаріїв теле- та кінофільмів, спочатку розроблений для узагальнення.

Ці сценарії представлені у вигляді діалогів між акторами. Дослідницька група перетворила цей набір даних на завдання «запитання-відповідь», у якому необроблений наданий базовий правдивий підсумковий текст використовувався для створення запитання «хто» за допомогою Stable Beluga 2, яке потім було перевірено експертом-людиною.

Запитання в парі з оригінальним довгим текстом стало 306 прикладами репозиціонованих завдань QA.

GovReport

Набір даних GovReport об'єднує документи Дослідницької служби Конгресу та Рахункової палати уряду США, а також резюме, надані експертами.

Дослідницька група перетворила цей набір даних на набір даних із запитаннями та відповідями зі 101 прикладом так само, як і SummScreenFD.

Усі три набори даних характеризуються довгими контекстами різної довжини, деякими коротшими прикладами та довшими послідовностями.

Тому дослідницька група представила результати як на вихідному наборі даних, так і на підмножині довших послідовностей, що містяться в кожному завданні, щоб краще оцінити доступ до пам'яті в більш складних і тривалих контекстних ситуаціях.

Пороговими значеннями є 8 000 токенів QuALITY, 6 000 токенів SummScreenFD та 12 000 токенів GovReport.

Модель

Дослідницька група використовувала Stable Beluga 2 як базову LLM у більшості своїх експериментів, оскільки вона пропонує найсучаснішу продуктивність у порівнянні з кількома іншими варіантами LLM, які продемонструє дослідницька група.

Stable Beluga 2 — це модель налаштування інструкцій на основі 70B LLaMA-2, в якій тонке налаштування не перетинається із завданням оцінки дослідницької групи.

Максимальна довжина контексту становить 4 096 токенів. Дослідницька група використовувала модель методом нульового пострілу без подальших уточнень або надання невеликої кількості прикладів завдання дослідницької групи в контексті.

Дослідницька група використовувала верхню p-вибірку для побудови дерева пам'яті, а також дії та висновки для генерації навігації.

Дослідницька група встановила максимальну кількість вузлів для QuALITY, SummScreenFD та GovReport, maxt Mt = 8, 5, 8 та розмір сегмента|c| відповідно = 1000, 1000, 1200。

Еталоном

Дослідницька група порівняла три технології пам'яті, засновані на тому ж базовому LLM, зі стабільною Beluga 2:

Повне контекстне вікно
Рекурсія
Вилучення

Базовий план повного контекстного вікна використовує всі 4 096 токенів для обробки довгого вхідного тексту та генерації. Оскільки екземпляри в наборі даних часто перевищують межі контексту, дослідницька група скоротила довжину, взявши на вхідні дані праву (найближчу) або ліву (найменш близьку) частину тексту, і оцінила обидва методи.

Для пошуку дослідницька група використовувала Contriever (Izacard et al., 2022) для вибору абзаців із довгих контекстів на основі запитів. Уривки з найвищими балами об'єднуються у вхідний контекст LLM, доки вони не заповнять контекст.

Нарешті, дослідницька група реалізувала базову лінію, яка циклічно переходить через дайджест до поточного абзацу інформації з токенів попереднього абзацу, де кожен абзац становить 2 500 токенів, а максимальний розмір абстракту становить 500 токенів.

Результати та аналіз

Основні результати

У таблиці 2 нижче наведено порівняння між MEMWALKER та іншими базовими рівнями.

МЕМВОЛКЕР ЗНАЧНО ПЕРЕВИЩИВ РЕКУРСИВНИЙ БАЗОВИЙ РІВЕНЬ У ВСІХ ЗАВДАННЯХ.

Це показує обмеження рекурсії, коли релевантна інформація для запиту втрачається після кількох кроків.

МЕМВОКЕР ТАКОЖ ВИХОДИТЬ ЗА РАМКИ ПОШУКУ, ДЕ УРИВКИ ПОХОДЯТЬ ІЗ ЗВ'ЯЗНОЇ ДОВГОЇ ІСТОРІЇ, А НЕ З ОКРЕМОГО ДОКУМЕНТА.

У цих завданнях повна базова лінія контексту може добре працювати в «сирому» налаштуванні завдання, яке може містити відносно короткі послідовності, хоча вибір лівого або правого обрізання для найкращої продуктивності, здається, залежить від набору даних.

Однак, за винятком змінної hold-right у QuALITY та змінної hold-left у GovReport, MEMWALKER досягає вищої продуктивності в оригінальному налаштуванні, ніж базовий рівень повного контексту, що може бути пов'язано з позиційним зміщенням у наборі даних, де відповідні абзаци зазвичай з'являються на початку або в кінці тексту.

ОДНАК НА ДОВГИХ ВЕРСІЯХ ВСІХ ТРЬОХ ЗАВДАНЬ MEMWALKER ПЕРЕВИЩИВ УСІ БАЗОВІ ПОКАЗНИКИ, ТОБТО ПОКАЗАВ ВИСОКУ ПРОДУКТИВНІСТЬ, ОСКІЛЬКИ ДОСТУП ДО ПАМ'ЯТІ СТАВ БІЛЬШ КРИТИЧНИМ.

MEMWALKER також перевершує інші загальнодоступні моделі, включаючи LongChat і MPT.

MEMWALKER покращує продуктивність на довгих секвенціях. Дослідницька група надала розбивку продуктивності довжини вхідної послідовності для кожного завдання на малюнку 2 вище.

КОЛИ ДОВЖИНА ТЕКСТУ КОРОТША, MEMWALKER ПОСТУПАЄТЬСЯ БАЗОВІЙ ЛІНІЇ З ПОВНИМ КОНТЕКСТОМ (ЛІВЕ АБО ПРАВЕ УСІЧЕННЯ), АЛЕ ПЕРЕВЕРШУЄ ОБИДВА ТИПИ УСІЧЕННЯ НА ДОВШИХ ПОСЛІДОВНОСТЯХ ДЛЯ ВСІХ ЗАВДАНЬ.

Перевага інтерактивного читання полягає в тому, що стає очевидним відповідне збільшення довжини тексту, тобто краща продуктивність демонструється, коли довжина послідовності значно перевищує довжину контексту 4,096 LLM.

Умовивід необхідний для навігації по дереву пам'яті.

ЕФЕКТИВНІСТЬ MEMWALKER СИЛЬНО ЗАЛЕЖИТЬ ВІД МОЖЛИВОСТЕЙ МІРКУВАННЯ БАЗОВОГО LLM. Для кожного навігаційного рішення дослідницька група використовувала підказку LLM, яка просила LLM спочатку згенерувати обґрунтування природною мовою, щоб обґрунтувати наступну передбачувану дію, як показано в таблиці 1 нижче.

Дослідницька група показує в таблиці 3 нижче, як міркування впливає на продуктивність, порівнюючи Llama 2 Chat (варіанти параметрів 13B і 70B) зі стабільною Beluga 2 (70B) і видаляючи рядок «Надайте аргументацію перед прийняттям рішення...» з підказки.

Для менших, менш потужних моделей (13B) продуктивність значно відстає від моделей 70B через неможливість слідувати інструкціям. Насправді, вимога обґрунтування висновків для слабших моделей може погіршити продуктивність, можливо, тому, що вони не можуть генерувати та використовувати ці обґрунтування.

Stable Beluga 2 перевершила Llama 2 Chat того ж розміру LLM, а також продемонструвала розширені можливості міркування.

Для Stable Beluga 2 вимога обґрунтування міркувань у всіх завданнях покращує продуктивність. ЦЕ ПІДКРЕСЛЮЄ ГОЛОВНУ ОСОБЛИВІСТЬ MEMWALKER: ЯКЩО LLM ПЕРЕХОДИТЬ ПОРІГ КРИТИЧНИХ МІРКУВАНЬ, ВІН МОЖЕ МІРКУВАТИ ПРО ДОВГІ ВХОДИ ПРОТЯГОМ КІЛЬКОХ РАУНДІВ, НЕ ГЕНЕРУЮЧИ ШВИДКО ПОМИЛОК МІЖ РАУНДАМИ.

Для слабких LLM, які не можуть приймати правильні навігаційні рішення, можуть накопичуватися помилки та погіршуватися загальна продуктивність.

ОСКІЛЬКИ МОЖЛИВОСТІ МІРКУВАННЯ LLM ПРОДОВЖУЮТЬ ВДОСКОНАЛЮВАТИСЯ В НАЙБЛИЖЧІ РОКИ, ДОСЛІДНИЦЬКА ГРУПА ОЧІКУЄ, ЩО ТАКІ МЕТОДИ, ЯК MEMWALKER, СТАНУТЬ БІЛЬШ ЕФЕКТИВНИМИ.

Робоча пам'ять необхідна для навігації по дереву пам'яті. КОЛИ MEMWALKER ПРИЙМАЄ РІШЕННЯ ОБІЙТИ ДЕРЕВО ПАМ'ЯТІ ТА ПРОЧИТАТИ ПОВ'ЯЗАНІ АБЗАЦИ, ВІН МОЖЕ ВТРАТИТИ ЗНАННЯ ЗАГАЛЬНОГО КОНТЕКСТУ.

Тому модель несе інформацію від вузла по навігаційному шляху як робочу пам'ять, де оновлюється вміст робочої пам'яті при виборі моделлю наступного шляху.

ДОСЛІДНИЦЬКА ГРУПА ОЦІНИЛА ПРОДУКТИВНІСТЬ MEMWALKER З РОБОЧОЮ ПАМ'ЯТТЮ АБО БЕЗ НЕЇ, І РЕЗУЛЬТАТИ ПОКАЗАНІ НА МАЛЮНКУ 3 НИЖЧЕ.

Дослідницька група виявила, що виснаження робочої пам'яті призвело до значного зниження продуктивності у всіх завданнях, з падінням точності на 5-13%, демонструючи важливість цього компонента.

MEMWALKER може оговтатися від неправильного шляху.

КОЛИ MEMWALKER ПЕРЕМІЩАЄТЬСЯ ПО ДЕРЕВУ ПАМ'ЯТІ, ЙОМУ ПОТРІБНО НЕ ТІЛЬКИ ЗНАЙТИ СВІЙ ШЛЯХ ДО НАЙБІЛЬШ РЕЛЕВАНТНИХ АБЗАЦІВ, АЛЕ Й, МОЖЛИВО, ДОВЕДЕТЬСЯ ВІДНОВИТИСЯ ПІСЛЯ ВСІХ ПОМИЛОК ПОШУКУ.

Дослідницька група представляє статистику відновлення в таблиці 4 нижче. MEMWALKER виконує навігаційні операції відновлення (і, отже, змінює шляхи) приблизно на 15% - 20% зразків, але в цих прикладах можна відновити і отримати їх правильно в QuALITY, 60% для SummScreenFD і ∼ 80% для GovReport.

MEMWALKER забезпечує ефективне читання. ОСКІЛЬКИ MEMWALKER ВИЗНАЧАЄ, ЯКІ ЧАСТИНИ ДОВГОГО ТЕКСТУ ПОТРІБНО ПРОЧИТАТИ, КОРИСНЕ НАВАНТАЖЕННЯ, ЯКЕ ПОТРІБНО ПРОЧИТАТИ, МОЖЕ БУТИ МЕНШИМ, НІЖ УСЯ ПОСЛІДОВНІСТЬ.

Дослідницька група показує середнє значення відсотка довгого читання контексту для всіх прикладів, як показано на рисунку 4 нижче для кожного з трьох завдань. Дослідницька група виявила, що в середньому лише 63-69% тексту потрібно було прочитати, щоб відповісти на запитання, включаючи вміст деревоподібних вузлів.

На шляху до успіху необхідний показник ще більше знижується до 59% – 64%.

Компроміси при побудові дерева пам'яті

Коли дослідницька група будує дерево пам'яті, виникає фундаментальний компроміс – узагальнення більших абзаців у вузли, щоб зменшити глибину дерева, але потенційна втрата точності вмісту.

Аналогічно, з'єднання багатьох вузлів нижчого рівня з вузлами вище може допомогти згладити дерево, але може ускладнити завдання навігації LLM на кожному вузлі.

На рисунку 5 нижче показана продуктивність різних конфігурацій дерева пам'яті на QuALITY. Підсумовування більших абзаців часто є більш корисним, ніж підсумовування менших абзаців і підключення більшої кількості дочірніх вузлів до батьківського вузла.

Однак продуктивність вийшла на плато, оскільки максимальна кількість вузлів збільшилася, показавши компроміс щодо того, скільки інформації може бути упаковано у вузли під час побудови дерева пам'яті.

Ресурси:

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

Нагородити
подобається
Прокоментувати
Поділіться

Прокоментувати

0/400

Немає коментарів

Тема
1/3
1Alpha Points System Opens
24k Популярність
2Crypto Market Rebound
151k Популярність
3SEC Crypto Project
7k Популярність
4CandyDrop Airdrop Event 6.0
98k Популярність
5White House Crypto Report
83k Популярність

Закріпити

карта сайту