Почему большая модель такая медленная?Оказывается, я слишком много думаю: новое направление — тот же алгоритм мышления, что и человек.

Question

![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-c2cea925b5-dd1a6f-6d2ef1) Источник изображения: Создано Unbounded AIЧеловеческая интуиция — это способность, которую исследователи ИИ часто упускают из виду, но она настолько тонка, что даже мы сами не понимаем ее до конца. Исследовательская группа из Технологического института Вирджинии и Microsoft в недавней статье предложила алгоритм мышления (AoT), который сочетает в себе интуицию и упорядоченность алгоритмических методов, что позволяет значительно сэкономить затраты и одновременно обеспечить производительность LLM.В последнее время крупномасштабные языковые модели развиваются быстрыми темпами, демонстрируя замечательные возможности в решении общих задач, генерации кода и следовании инструкциям.В то время как ранние модели полагались на стратегии прямого ответа, текущие исследования перешли к линейному пути рассуждения, разлагая проблему на подзадачи для поиска решений или изменяя контекст для использования внешних механизмов для изменения генерации токенов.Подобно человеческому познанию, ранние стратегии LLM, казалось, имитировали немедленную реакцию 1 (быстрые реакции), характеризующуюся импульсивным принятием решений. Напротив, новые методы, такие как «Цепочка мыслей» (ЦП) и «От меньшего к большему» (L2M), отражают интроспективную природу 2 (медленное мышление). Стоит отметить, что способность LLM к арифметическим рассуждениям можно улучшить за счет интеграции промежуточных этапов рассуждения.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-569cc3c2cd-dd1a6f-6d2ef1) Однако если задача требует более глубокого планирования и более широкого умственного исследования, ограничения этих методов становятся очевидными. Хотя интегрированный самосогласованный CoT (CoT-SC) может использовать несколько выходных данных LLM для достижения консенсусных результатов, отсутствие детальной оценки может привести к тому, что модель пойдет в неправильном направлении. «Древо мышления» (ToT), появившееся в 2023 году, является заслуживающим внимания решением. Один LLM используется для генерации идей, а другой LLM используется для оценки достоинств этих идей, после чего следует цикл «пауза-оценка-продолжение». Этот итерационный процесс, основанный на поиске по дереву, явно эффективен, особенно для задач с длительным продолжением. Исследователи полагают, что это развитие представляет собой использование внешних инструментов для улучшения LLM, аналогично тому, как люди используют инструменты для обхода ограничений своей собственной рабочей памяти.С другой стороны, этот усовершенствованный метод LLM не лишен недостатков. Одним из очевидных недостатков является то, что количество запросов и вычислительных требований может резко возрасти. Каждый запрос к онлайн-API LLM, такому как GPT-4, требует значительных денежных затрат и увеличивает задержку — ограничение, которое особенно важно для приложений реального времени. Накопленная задержка этих запросов может снизить общую эффективность сценария. С точки зрения инфраструктуры, постоянные взаимодействия могут создать нагрузку на систему, что может ограничить пропускную способность и снизить доступность модели. Кроме того, нельзя игнорировать влияние на окружающую среду.Исходя из этих соображений, цель оптимизации исследователей состоит в том, чтобы значительно сократить количество запросов, используемых современными методами многозапросного вывода, сохраняя при этом достаточную производительность, позволяющую модели справляться с задачами, требующими квалифицированного использования мировых знаний, тем самым направляя людей. стать более ответственным и опытным. Эффективно использовать ресурсы ИИ.Размышляя об эволюции LLM от 1 к 2, можно увидеть появление ключевого фактора: алгоритмов. Алгоритмы структурированы и позволяют людям исследовать проблемные области, разрабатывать стратегии и находить решения. Хотя большая часть основной литературы рассматривает алгоритмы как внешние инструменты по отношению к LLM, учитывая присущую LLM генеративную воспроизводимость, можем ли мы использовать эту итеративную логику для интернализации алгоритма в LLM?Исследовательская группа из Технологического института Вирджинии и Microsoft объединила сложность человеческого мышления и методическую точность алгоритмических методов в попытке улучшить мышление в рамках LLM путем объединения этих двух аспектов.Существующие исследования подчеркивают, что люди инстинктивно опираются на прошлый опыт при решении сложных проблем, чтобы мыслить целостно, а не узко концентрироваться на одной детали. Диапазон генерации LLM ограничен только пределом его символов, и кажется, что ему суждено преодолеть препятствия человеческой рабочей памяти.Вдохновленные этим наблюдением, исследователи выяснили, может ли LLM обеспечить подобное иерархическое исследование идей, отфильтровывая неосуществимые варианты, обращаясь к предыдущим промежуточным шагам — и все это в рамках цикла генерации LLM. В то время как люди хороши в интуиции и сообразительности, алгоритмы хороши в организованном и систематическом исследовании. Современные технологии, такие как CoT, склонны уклоняться от этого синергетического потенциала и слишком много внимания уделять полевой точности LLM. Используя рекурсивные возможности LLM, исследователи создали гибридный подход человека и алгоритма. Это делается за счет использования алгоритмических примеров, отражающих суть исследования — от первоначальных кандидатов до проверенных решений.На основе этих наблюдений исследователи предложили Алгоритм мышления (АоТ).![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-5a6502b539-dd1a6f-6d2ef1) бумага:![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-6c579d7634-dd1a6f-6d2ef1)  ![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-ff36193be5-dd1a6f-6d2ef1) Ожидается, что в более широком масштабе этот новый подход откроет новую парадигму контекстуального обучения. Вместо использования традиционной модели обучения с учителем [вопрос, ответ] или [вопрос, последующие шаги для получения ответа] этот новый подход использует новую модель [вопрос, процесс поиска, ответ]. Естественно, когда мы говорим LLM использовать алгоритм с помощью инструкций, мы обычно ожидаем, что LLM просто имитирует итеративное мышление алгоритма. Однако интересно то, что LLM обладает способностью внедрять собственную «интуицию», даже делая поиск более эффективным, чем сам алгоритм.**Алгоритм мышления**Исследователи говорят, что суть их исследовательской стратегии заключается в признании основных недостатков нынешней парадигмы контекстного обучения. Хотя CoT может улучшить последовательность мысленных связей, иногда он может пойти не так и дать неправильные промежуточные шаги.Чтобы проиллюстрировать это явление, исследователи разработали эксперимент. При запросе text-davinci-003 с арифметической задачей (например, 11 - 2 =) исследователь добавит впереди несколько контекстных уравнений, которые получат одинаковый выходной результат (например, 15 - 5 = 10, 8 + 2 = 10). ).![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-0a05333aae-dd1a6f-6d2ef1) Было обнаружено, что точность резко падает, что позволяет предположить, что простое предоставление правильных рассуждений в контексте может непреднамеренно ухудшить основные арифметические способности LLM.Чтобы уменьшить эту предвзятость, можно было бы сделать примеры более разнообразными, но это может немного изменить распределение результатов. Простое добавление нескольких неудачных попыток (например, случайный поиск) может непреднамеренно побудить модель повторить попытку, фактически не решая проблему. Понимая истинную природу алгоритмического поведения (где важны неудачные поиски и последующие восстановления, а также обучение на этих попытках), исследователи используют контекстные примеры, следуя шаблону поисковых алгоритмов, особенно поиска в глубину (DFS) и Поиск в ширину (BFS). На рисунке 1 приведен пример.Данная статья посвящена большому классу задач, аналогичных задачам поиска в дереве.Задачи такого типа требуют разбивки основной проблемы, построения возможного решения для каждой части и принятия решения о выборе или отказе от определенных путей с возможностью переоценки частей с большим потенциалом.Вместо того чтобы задавать отдельные запросы для каждого подмножества, исследователи воспользовались итеративными возможностями LLM для их решения в рамках единого генеративного сканирования. Ограничиваясь только одним или двумя взаимодействиями LLM, этот подход может естественным образом интегрировать идеи предыдущих контекстуальных кандидатов и решать сложные проблемы, требующие глубокого исследования области решения. Исследователи также поделились собственным мнением о том, насколько масштабными должны быть эти мысли и какие контекстные примеры следует предоставить LLM для повышения эффективности токенов. Ключевые компоненты алгоритма поиска по дереву и их представление в новой структуре приведены ниже.**1. Разбейте задачу на подзадачи. **При наличии проблемы построение дерева поиска, описывающего возможные пути рассуждения, уже является сложной задачей, даже без рассмотрения фактического аспекта решения проблемы. Любая декомпозиция должна учитывать не только взаимосвязи между подзадачами, но и простоту решения каждой проблемы.Возьмем, к примеру, простое сложение нескольких цифр: хотя компьютеры эффективно преобразуют числовые значения в двоичные числа, люди часто находят десятичные числа более интуитивно понятными. Более того, даже если подзадачи одинаковы, методы выполнения могут быть разными. Интуиция может найти кратчайшие пути к решению, а без интуиции могут потребоваться более подробные шаги.Для создания правильных (т. е. примеров контекстных алгоритмов) эти тонкости важны и определяют минимальное количество токенов, необходимое LLM для надежной работы. Это не только удовлетворяет ограничениям LLM на контекст, но также важно для возможностей LLM, поскольку мы надеемся, что LLM сможет использовать такое же количество токенов для решения проблем, которые резонируют с его контекстом.**2. Предложите решение подзадачи. **Один из нынешних основных методов предполагает непосредственную выборку вероятности вывода токена LLM. Хотя этот метод эффективен для одноразовых ответов (с некоторыми ограничениями), он также не может справиться с некоторыми сценариями, например, когда последовательность образцов необходимо интегрировать в последующее наблюдение или оценить в ходе последующего наблюдения. Чтобы свести к минимуму количество запросов к модели, исследователи использовали непрерывный процесс создания решения. То есть напрямую и непрерывно генерировать решения основных подзадач без каких-либо пауз в генерации.У этого подхода есть много преимуществ. Во-первых, все сгенерированные решения находятся в одном и том же общем контексте, что устраняет необходимость создания отдельных запросов модели для оценки каждого решения. Во-вторых, хотя на первый взгляд это может показаться нелогичным, изолированные токены или вероятности группировки токенов не всегда могут привести к осмысленному выбору. На рисунке 4 представлена простая схематическая диаграмма.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-e87682e4df-dd1a6f-6d2ef1) **3. Измерьте перспективность подзадач. **Как упоминалось выше, существующие методы основаны на дополнительных признаках для определения потенциала узлов дерева и принятия решений о направлениях разведки. Наши наблюдения показывают, что LLM по своей сути имеет тенденцию отдавать приоритет перспективным кандидатам, если их можно инкапсулировать в контекстуальные примеры. Это снижает потребность в сложном проектировании и позволяет интегрировать сложную эвристику, будь то интуитивно понятную или основанную на знаниях. Аналогичным образом, в новом подходе нет разрывов, что позволяет немедленно оценить осуществимость кандидата в рамках тех же результатов.**4. Вернитесь к лучшему узлу. **Решение, какой узел исследовать следующим (включая возврат к предыдущим узлам), по существу зависит от выбранного алгоритма поиска в дереве. Хотя в предыдущих исследованиях для процесса поиска использовались внешние методы, такие как механизмы кодирования, это ограничило бы его более широкую привлекательность и потребовало бы дополнительной настройки. Новый дизайн, предложенный в этой статье, в основном использует метод DFS, дополненный обрезкой. Цель состоит в том, чтобы поддерживать близость между дочерними узлами с одним и тем же родительским узлом, тем самым поощряя LLM отдавать приоритет локальным функциям над удаленными функциями. Кроме того, исследователи также предложили показатели эффективности метода AoT на основе BFS. Исследователи говорят, что необходимость в дополнительных механизмах настройки можно устранить, используя присущую модели способность извлекать информацию из контекстуальных примеров.**эксперимент**Исследователи провели эксперименты с мини-кроссвордами на 24 пункта и 5x5, и результаты показали превосходство метода AoT – его эффективность была обусловлена единственным методом (таким как стандартный метод, CoT, CoT-SC), а также сравнимо с использованием методов внешних механизмов (таких как ToT).Из таблицы 1 видно, что стандартный метод проектирования, включающий CoT/CoT-SC, явно отстает от метода поиска по дереву, используемого через LLM.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-2f46ee4604-dd1a6f-6d2ef1) В Таблице 3 показана эффективность AoT при выполнении мини-задачи по заполнению слов: показатель успешности заполнения слов превышает предыдущие методы с использованием различных техник.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-c490f77b42-dd1a6f-6d2ef1) Однако это хуже, чем ToT. Важным наблюдением является то, что объем запросов, используемых ToT, огромен и превышает AoT более чем в сто раз. Еще одним фактором, который делает AoT уступающим ToT, является то, что возможности обратного отслеживания, присущие примерам алгоритмов, не активированы полностью. Если бы эту способность можно было полностью разблокировать, это привело бы к значительно более длительной фазе генерации. Напротив, ToT имеет преимущество использования внешней памяти для возврата.**обсуждать**Может ли AoT превзойти DFS, которую он имитирует?Как показано на рисунке 5, AoT в целом использует меньше узлов, чем версия DFS. DFS применяет единую стратегию при выборе поддеревьев для последующего исследования, а LLM AoT интегрирует присущие ей эвристики. Это расширение базового алгоритма отражает преимущество возможностей рекурсивного рассуждения LLM.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-302cd9f9ad-dd1a6f-6d2ef1) Как выбор алгоритма влияет на производительность AoT?В таблице 5 представлены экспериментальные результаты, и видно, что все три варианта AoT превосходят CoT с одним запросом.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-e30f8a1d4e-dd1a6f-6d2ef1) Такой результат ожидаем, поскольку каким бы ни был алгоритм, он ищет и повторно посещает потенциальные ошибки — либо посредством случайных попыток в варианте случайного поиска, либо путём возврата в конфигурациях DFS или BFS. Стоит отметить, что обе версии структурированного поиска, AoT (DFS) и AoT (BFS), более эффективны, чем AoT (Random), что подчеркивает преимущества алгоритмического анализа при поиске решений. Однако AoT (BFS) отстает от AoT (DFS). Путем дальнейшего анализа ошибок AoT (BFS) исследователи обнаружили, что по сравнению с AoT (DFS), в AoT (BFS) сложнее определить оптимальные операции.Итак, как количество шагов поиска в примере алгоритма влияет на поведение AoT?На рисунке 6 показано влияние общего количества шагов поиска. Среди них AoT (длинный) и AoT (короткий) представляют собой соответственно более длинную и более короткую версии сгенерированных результатов по сравнению с исходным AoT.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-31f2582910-dd1a6f-6d2ef1) Результаты показывают, что количество шагов поиска вносит неявное смещение в скорость поиска LLM. Важно отметить, что даже если вы делаете неверные шаги, важно уделять особое внимание изучению потенциальных направлений.