DeepMind: Большие модели также подвержены серьезным недостаткам и не могут самостоятельно корректировать свои рассуждения, если правильный ответ не известен заранее
Исследователи > DeepMind обнаружили, что у LLM есть неотъемлемый недостаток — он не может получить лучшие ответы, самокорректируясь во время рассуждений, если метки истины не установлены в наборе данных. Маркус с радостью снова переслал газету.
Источник изображения: Generated by Unbounded AI
Еще один серьезный недостаток большой языковой модели был выявлен DeepMind!
LLM не может исправлять ошибки в собственных рассуждениях.
Самокоррекция, техника, позволяющая моделям исправлять свои собственные ответы, может значительно улучшить качество вывода модели во многих типах задач.
Но недавно исследователи из Google DeepMind и UIUC обнаружили, что «механизм самокоррекции» LLM внезапно стал бесполезен для задач на рассуждение.
Более того, LLM не только не может самостоятельно исправлять ответы на задачи на рассуждение, но часто и самостоятельно исправляет, качество ответов также значительно снизится.
Маркус также ретвитнул статью, надеясь привлечь внимание большего количества исследователей к этому недостатку большой языковой модели.
Техника «самокоррекции» основана на простой идее, позволяющей LLM исправлять и улучшать сгенерированный контент в соответствии с определенными критериями. Этот метод позволяет значительно улучшить качество вывода модели в таких задачах, как математические задачи.
Но исследователи обнаружили, что в задаче на рассуждение обратная связь после самокоррекции иногда была очень хорошей, иногда эффект был очень плохим, и даже производительность снижалась.
Исследователи также изучили литературу, в которой считалось, что «самокоррекция» может улучшить результаты рассуждений, и при ближайшем рассмотрении обнаружили, что улучшение «самокоррекции» происходит за счет введения внешней информации, направляющей модель к самокоррекции. А когда внешняя информация не вводится, эти улучшения исчезают.
В частности, самокоррекция работает эффективно, когда модель имеет доступ к наземным меткам, содержащимся в эталонном наборе данных.
Это связано с тем, что алгоритм может точно определить, когда следует остановить процесс вывода, и избежать изменения ответа, если он уже правильный.
Исследователи считают, что реальные метки, как правило, использовались в предыдущих исследованиях, чтобы предотвратить изменение моделей правильных ответов на неправильные. Но то, как не допустить этой ситуации «правильной коррекции», на самом деле является ключом к обеспечению успеха самокоррекции.
Потому что, когда исследователи удаляют истинную метку из процесса самокоррекции, производительность модели значительно ухудшается.
В попытке усовершенствовать самокорректирующийся подход LLM к задачам на рассуждение, исследователи также изучили потенциал «мультиагентных дебатов» как средства улучшения рассуждений. Тем не менее, их результаты показывают, что этот метод работает не лучше, чем самосогласованность, при рассмотрении равного количества ответов.
Далее исследователи предложили понятия «до подсказки» и «после подсказки».
Они рассматривают самокоррекцию как форму post-hoc prompt, когда корректирующая подсказка вводится после ответа LLM.
Анализ исследователей предполагает, что улучшение самокоррекции в некоторых задачах может быть связано с хорошо продуманными подсказками обратной связи, которые маскируют грубые первоначальные подсказки.
В этом случае интеграция улучшенной обратной связи в первоначальные инструкции или разработка более качественных начальных подсказок может дать лучшие результаты и снизить затраты на вывод.
Основываясь на выводах исследователей, исследователи углубились в нюансы способности LLM к самокоррекции, призывая научное сообщество подходить к исследованиям по самокоррекции с большей строгостью.
Могут ли большие языковые модели самостоятельно корректировать свои рассуждения? **
Исследователи попытались взять существующий метод самокоррекции, используя его настройку (использование меток для управления процессом самокоррекции), чтобы изучить его эффективность в улучшении производительности при выполнении задач на рассуждение LLM.
Настройка эксперимента
Слова-подсказки
Исследователи использовали трехступенчатую стратегию подсказок для самокоррекции:
запрашивать модель для первоначальной генерации (это тоже результат стандартных подсказок);
предложить модели пересмотреть свое предыдущее поколение и сформировать обратную связь;
Ответьте на исходный вопрос еще раз с помощью модели подсказки обратной связи.
Модель
Основной тест исследователей был проведен на GPT-3.5-Turbo.
Исследователи также протестировали GPT-4, доступ к которому был получен 29 августа 2023 года, с целью проверки возможностей самокоррекции новейших и самых мощных итераций моделей OpenAI.
Для GPT-3.5 исследователи использовали полный набор оценок, упомянутых ранее. Для GPT-4, чтобы снизить затраты, исследователи случайным образом отобрали 200 вопросов для каждого набора данных (100 вопросов для HotpotQA) для тестирования.
Результаты и размышления
В то время как исследователи не использовали никаких внешних ресурсов или инструментов в своих экспериментах, исследователи следовали предыдущей работе, используя метки правды, чтобы определить, когда следует остановить цикл самокоррекции.
Но в реальном мире, особенно когда исследователи намерены решать математические задачи с помощью LLM, в большинстве случаев правильный ответ неизвестен.
Поэтому к улучшению показателей нужно отнестись более тщательно.
Чтобы подтвердить эту идею, исследователи разработали базовый уровень, основанный на случайных догадках. На этом базовом уровне исследователи продолжают использовать метки правды, чтобы определить, когда нужно остановиться; Однако корректирующие действия не предпринимаются LLM, а основываются на случайных догадках об оставшихся вариантах.
CommonSenseQA — это набор данных вопросов с несколькими вариантами ответов, который предоставляет пять вариантов кандидата для каждого вопроса.
Если точность генерации k-го раунда (начальная генерация — раунд 0) выражена как x, то ожидаемая точность последующих построений становится x + (1 − x)/(5 − k).
Результаты этого случайного исходного уровня представлены в таблице 2 выше.
После 2 раундов его производительность сопоставима или даже лучше, чем при самокалибровке, а после 4 раундов его точность достигает 100%.
Однако понятно, что такая случайная базовая линия не может считаться эффективным методом коррекции. Тем не менее, результаты, полученные с помощью меток, могут выступать в качестве оракула, указывая на то, что существуют совершенные верификаторы, которые могут судить о правильности ответа.
В таких задачах, как генерация кода, это возможно, потому что исследователи могут использовать исполнителей и модульные тесты, чтобы определить, успешно ли выполняется сгенерированный код (Chen et al., 2023b).
Однако для задач на рассуждение, таких как решение математических задач, такая установка кажется нелогичной. Если у исследователей уже есть истина, то, по-видимому, нет причин использовать LLM для решения проблемы.
Внутренняя самокоррекция
Для GSM8K аналогичная случайная базовая линия может отсутствовать, но обоснование остается прежним.
Кроме того, исследователи могут разработать базовый уровень, например, генерировать случайные числа по одному. После нескольких раундов он может получить правильный ответ, но такое улучшение явно не имеет смысла. Более непосредственная причина: зачем исследователям это делать, если они уже знают ответ?
Экспериментальная установка определена ранее. Чтобы добиться этого, исследователи просто удалили метку использования, чтобы определить, когда нужно остановиться, и оценили производительность с помощью двух раундов самокоррекции.
В таблице 3 выше показаны точность и количество вызовов модели. Исследователи заметили, что после самокоррекции производительность модели ухудшилась во всех тестах.
**Почему снизилась производительность? **
На рисунке 1 выше обобщены результаты изменения ответа после двух раундов самокоррекции с использованием GPT-3.5, а два примера показаны на рисунке 2 ниже.
Для GSM8K модель сохраняет свой первоначальный ответ с вероятностью 74,7%. В остальных случаях модель с большей вероятностью изменила правильный ответ на неправильный ответ, чем изменила неправильный ответ на правильный ответ.
Для CommonSenseQA GPT-3.5 с большей вероятностью изменит свой ответ. Основная причина этого заключается в том, что неправильные варианты ответов в CommonSenseQA часто кажутся каким-то образом связанными с вопросом, и использование самокорректирующихся подсказок может склонить модель в пользу выбора другого варианта, что приводит к высокому соотношению «правильных ⇒ ошибок».
Давайте еще раз взглянем на результаты, показанные в таблице 1 выше. В этих результатах используются метки истинности, чтобы модель не могла изменить правильный ответ на неправильный.
Однако то, как предотвратить эту «ошибку исправления», на самом деле является ключом к обеспечению успеха самокоррекции.
Интуитивное объяснение состоит в том, что если модель соответствует хорошо спроектированному первоначальному запросу, то, учитывая запрос и конкретный алгоритм декодирования, первоначальный ответ уже должен быть оптимальным.
Введение обратной связи можно рассматривать как добавление дополнительных подсказок, которые могут склонить модель к получению ответов, соответствующих этой комбинации входных данных.
Во внутренней самокорректирующейся задаче вывода эта дополнительная подсказка может не дать никаких дополнительных преимуществ при ответе на вопрос.
На самом деле, это может даже отклонить модель от выдачи наилучшего ответа на первоначальный запрос, что приведет к снижению производительности.
Кто-то может задаться вопросом, не являются ли самокорректирующиеся сигналы, протестированные исследователями, идеальными?
Могут ли другие советы повысить производительность? Ответ таков: исследователи вполне могут найти подсказку, которая повысит производительность модели в определенном бенчмарке. Однако это больше не согласуется с внутренней настройкой самокоррекции, обсуждаемой в этой статье, аналогичной обсуждению истинной настройки с меньшим количеством выборок.
Этот поиск по сути использует обратную связь от людей или обучающие примеры. Кроме того, та же стратегия может быть эффективно применена для оптимизации начальных подсказок, потенциально достигая более высокой производительности без необходимости дополнительных вызовов модели для самокоррекции.
В Приложении Б исследователи протестировали различные советы, но обнаружили, что производительность все равно не улучшилась.
Кроме того, исследователи не первые, кто заметил, что самокоррекция не обязательно улучшает способность к рассуждению. Подводя итог, можно сказать, что исследователи не сосредоточены на ответах на такие вопросы, как: «Существуют ли самокорректирующиеся сигналы, которые могут улучшить производительность конкретного бенчмарка?». и так далее. Такие запросы могут быть не особо осмысленными.
Вместо этого исследователи стремятся решить более фундаментальный вопрос: «Могут ли большие языковые модели действительно корректировать свои рассуждения самостоятельно, основываясь только на своих врожденных способностях?»
Самокоррекция как запоздалая мысль**
В предыдущем материале исследователи отметили, что LLM сталкивается с проблемами в самокоррекции своих рассуждений.
Однако, как показали предыдущие исследования, самокоррекция в некоторых случаях дает впечатляющие результаты.
Поэтому очень важно выявить несоответствия и точно определить первопричины.
Чтобы решить эту проблему, важно понять основную природу самокоррекции. По своей форме самокоррекция может рассматриваться как запоздалая мысль.
Он отличается от стандартных подсказок (называемых здесь предварительными подсказками) тем, что подсказки делаются поверх ответов LLM.
Исследователи называют процесс улучшения таких сигналов послесобытийной инженерией.
Таким образом, самокоррекция усиливает реакцию модели, когда самокоррекция может предоставить ценные рекомендации или обратную связь, которые не могут быть предоставлены предыдущими запросами.
Например, когда цель состоит в том, чтобы сделать ответ более безопасным, может быть сложно направить модель на создание полностью безопасного ответа с первой попытки, используя только предварительные подсказки. В этом случае самокоррекция может быть использована как средство повышения безопасности реагирования за счет детальных посмертных проверок.
Однако это может быть не так для задач вывода.
Подсказки обратной связи, например «Просмотрите свои предыдущие ответы и найдите проблему с вашими ответами». Это не обязательно дает ощутимую пользу для рассуждений.
Кроме того, даже если наблюдается значительное улучшение показателей после самокоррекции, необходимо тщательное рассмотрение дизайна подсказки.
Например, если ответ должен соответствовать критериям, которые могут быть легко указаны в начальной инструкции (например, выходные данные должны содержать определенные слова, сгенерированный код должен быть эффективным, тональность должна быть строго отрицательной), вместо того, чтобы предоставлять эти требования в качестве обратной связи в запросе для разбора инцидента, более экономичной альтернативной стратегией является встраивание этих требований непосредственно (явно) в предварительную подсказку.
Результаты, приведенные в таблице 5 выше, показывают, что тщательно разработанный исследователями сигнал «стандартный сигнал (исследователя)» превосходил результаты предыдущих исследований.
Кроме того, производительность снижается даже тогда, когда исследователи используют свои подсказки для повышения производительности исследователей.
Опять же, цель исследователей здесь не в том, чтобы спорить о том, существуют ли post-hoc подсказки, которые могут превзойти те, которые исследователи пишут по своему желанию. Основная цель исследователей состоит в том, чтобы способствовать более тщательному изучению экспериментов по самокалибровке.
Не имеет смысла использовать хорошо продуманные подсказки для разбора инцидента, чтобы направлять модели к «самоисправлению» ответов, сгенерированных плохими предварительными запросами.
Для того, чтобы провести справедливое сравнение, следует приложить равные усилия к подсказкам до и после события.
Ресурсы:
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
DeepMind: Большие модели также подвержены серьезным недостаткам и не могут самостоятельно корректировать свои рассуждения, если правильный ответ не известен заранее
Первоисточник: Shin Ji Yuan
Исследователи > DeepMind обнаружили, что у LLM есть неотъемлемый недостаток — он не может получить лучшие ответы, самокорректируясь во время рассуждений, если метки истины не установлены в наборе данных. Маркус с радостью снова переслал газету.
Еще один серьезный недостаток большой языковой модели был выявлен DeepMind!
LLM не может исправлять ошибки в собственных рассуждениях.
Самокоррекция, техника, позволяющая моделям исправлять свои собственные ответы, может значительно улучшить качество вывода модели во многих типах задач.
Но недавно исследователи из Google DeepMind и UIUC обнаружили, что «механизм самокоррекции» LLM внезапно стал бесполезен для задач на рассуждение.
Но исследователи обнаружили, что в задаче на рассуждение обратная связь после самокоррекции иногда была очень хорошей, иногда эффект был очень плохим, и даже производительность снижалась.
Это связано с тем, что алгоритм может точно определить, когда следует остановить процесс вывода, и избежать изменения ответа, если он уже правильный.
Исследователи считают, что реальные метки, как правило, использовались в предыдущих исследованиях, чтобы предотвратить изменение моделей правильных ответов на неправильные. Но то, как не допустить этой ситуации «правильной коррекции», на самом деле является ключом к обеспечению успеха самокоррекции.
Потому что, когда исследователи удаляют истинную метку из процесса самокоррекции, производительность модели значительно ухудшается.
В попытке усовершенствовать самокорректирующийся подход LLM к задачам на рассуждение, исследователи также изучили потенциал «мультиагентных дебатов» как средства улучшения рассуждений. Тем не менее, их результаты показывают, что этот метод работает не лучше, чем самосогласованность, при рассмотрении равного количества ответов.
Они рассматривают самокоррекцию как форму post-hoc prompt, когда корректирующая подсказка вводится после ответа LLM.
Анализ исследователей предполагает, что улучшение самокоррекции в некоторых задачах может быть связано с хорошо продуманными подсказками обратной связи, которые маскируют грубые первоначальные подсказки.
В этом случае интеграция улучшенной обратной связи в первоначальные инструкции или разработка более качественных начальных подсказок может дать лучшие результаты и снизить затраты на вывод.
Основываясь на выводах исследователей, исследователи углубились в нюансы способности LLM к самокоррекции, призывая научное сообщество подходить к исследованиям по самокоррекции с большей строгостью.
Могут ли большие языковые модели самостоятельно корректировать свои рассуждения? **
Исследователи попытались взять существующий метод самокоррекции, используя его настройку (использование меток для управления процессом самокоррекции), чтобы изучить его эффективность в улучшении производительности при выполнении задач на рассуждение LLM.
Настройка эксперимента
Слова-подсказки
Исследователи использовали трехступенчатую стратегию подсказок для самокоррекции:
запрашивать модель для первоначальной генерации (это тоже результат стандартных подсказок);
предложить модели пересмотреть свое предыдущее поколение и сформировать обратную связь;
Ответьте на исходный вопрос еще раз с помощью модели подсказки обратной связи.
Модель
Основной тест исследователей был проведен на GPT-3.5-Turbo.
Исследователи также протестировали GPT-4, доступ к которому был получен 29 августа 2023 года, с целью проверки возможностей самокоррекции новейших и самых мощных итераций моделей OpenAI.
Для GPT-3.5 исследователи использовали полный набор оценок, упомянутых ранее. Для GPT-4, чтобы снизить затраты, исследователи случайным образом отобрали 200 вопросов для каждого набора данных (100 вопросов для HotpotQA) для тестирования.
Результаты и размышления
Но в реальном мире, особенно когда исследователи намерены решать математические задачи с помощью LLM, в большинстве случаев правильный ответ неизвестен.
Поэтому к улучшению показателей нужно отнестись более тщательно.
Чтобы подтвердить эту идею, исследователи разработали базовый уровень, основанный на случайных догадках. На этом базовом уровне исследователи продолжают использовать метки правды, чтобы определить, когда нужно остановиться; Однако корректирующие действия не предпринимаются LLM, а основываются на случайных догадках об оставшихся вариантах.
CommonSenseQA — это набор данных вопросов с несколькими вариантами ответов, который предоставляет пять вариантов кандидата для каждого вопроса.
Если точность генерации k-го раунда (начальная генерация — раунд 0) выражена как x, то ожидаемая точность последующих построений становится x + (1 − x)/(5 − k).
После 2 раундов его производительность сопоставима или даже лучше, чем при самокалибровке, а после 4 раундов его точность достигает 100%.
Однако понятно, что такая случайная базовая линия не может считаться эффективным методом коррекции. Тем не менее, результаты, полученные с помощью меток, могут выступать в качестве оракула, указывая на то, что существуют совершенные верификаторы, которые могут судить о правильности ответа.
В таких задачах, как генерация кода, это возможно, потому что исследователи могут использовать исполнителей и модульные тесты, чтобы определить, успешно ли выполняется сгенерированный код (Chen et al., 2023b).
Однако для задач на рассуждение, таких как решение математических задач, такая установка кажется нелогичной. Если у исследователей уже есть истина, то, по-видимому, нет причин использовать LLM для решения проблемы.
Внутренняя самокоррекция
Для GSM8K аналогичная случайная базовая линия может отсутствовать, но обоснование остается прежним.
Кроме того, исследователи могут разработать базовый уровень, например, генерировать случайные числа по одному. После нескольких раундов он может получить правильный ответ, но такое улучшение явно не имеет смысла. Более непосредственная причина: зачем исследователям это делать, если они уже знают ответ?
Экспериментальная установка определена ранее. Чтобы добиться этого, исследователи просто удалили метку использования, чтобы определить, когда нужно остановиться, и оценили производительность с помощью двух раундов самокоррекции.
**Почему снизилась производительность? **
Для CommonSenseQA GPT-3.5 с большей вероятностью изменит свой ответ. Основная причина этого заключается в том, что неправильные варианты ответов в CommonSenseQA часто кажутся каким-то образом связанными с вопросом, и использование самокорректирующихся подсказок может склонить модель в пользу выбора другого варианта, что приводит к высокому соотношению «правильных ⇒ ошибок».
Давайте еще раз взглянем на результаты, показанные в таблице 1 выше. В этих результатах используются метки истинности, чтобы модель не могла изменить правильный ответ на неправильный.
Однако то, как предотвратить эту «ошибку исправления», на самом деле является ключом к обеспечению успеха самокоррекции.
Интуитивное объяснение состоит в том, что если модель соответствует хорошо спроектированному первоначальному запросу, то, учитывая запрос и конкретный алгоритм декодирования, первоначальный ответ уже должен быть оптимальным.
Введение обратной связи можно рассматривать как добавление дополнительных подсказок, которые могут склонить модель к получению ответов, соответствующих этой комбинации входных данных.
Во внутренней самокорректирующейся задаче вывода эта дополнительная подсказка может не дать никаких дополнительных преимуществ при ответе на вопрос.
На самом деле, это может даже отклонить модель от выдачи наилучшего ответа на первоначальный запрос, что приведет к снижению производительности.
Кто-то может задаться вопросом, не являются ли самокорректирующиеся сигналы, протестированные исследователями, идеальными?
Могут ли другие советы повысить производительность? Ответ таков: исследователи вполне могут найти подсказку, которая повысит производительность модели в определенном бенчмарке. Однако это больше не согласуется с внутренней настройкой самокоррекции, обсуждаемой в этой статье, аналогичной обсуждению истинной настройки с меньшим количеством выборок.
Этот поиск по сути использует обратную связь от людей или обучающие примеры. Кроме того, та же стратегия может быть эффективно применена для оптимизации начальных подсказок, потенциально достигая более высокой производительности без необходимости дополнительных вызовов модели для самокоррекции.
В Приложении Б исследователи протестировали различные советы, но обнаружили, что производительность все равно не улучшилась.
Вместо этого исследователи стремятся решить более фундаментальный вопрос: «Могут ли большие языковые модели действительно корректировать свои рассуждения самостоятельно, основываясь только на своих врожденных способностях?»
Самокоррекция как запоздалая мысль**
В предыдущем материале исследователи отметили, что LLM сталкивается с проблемами в самокоррекции своих рассуждений.
Однако, как показали предыдущие исследования, самокоррекция в некоторых случаях дает впечатляющие результаты.
Поэтому очень важно выявить несоответствия и точно определить первопричины.
Чтобы решить эту проблему, важно понять основную природу самокоррекции. По своей форме самокоррекция может рассматриваться как запоздалая мысль.
Он отличается от стандартных подсказок (называемых здесь предварительными подсказками) тем, что подсказки делаются поверх ответов LLM.
Исследователи называют процесс улучшения таких сигналов послесобытийной инженерией.
Таким образом, самокоррекция усиливает реакцию модели, когда самокоррекция может предоставить ценные рекомендации или обратную связь, которые не могут быть предоставлены предыдущими запросами.
Например, когда цель состоит в том, чтобы сделать ответ более безопасным, может быть сложно направить модель на создание полностью безопасного ответа с первой попытки, используя только предварительные подсказки. В этом случае самокоррекция может быть использована как средство повышения безопасности реагирования за счет детальных посмертных проверок.
Однако это может быть не так для задач вывода.
Подсказки обратной связи, например «Просмотрите свои предыдущие ответы и найдите проблему с вашими ответами». Это не обязательно дает ощутимую пользу для рассуждений.
Кроме того, даже если наблюдается значительное улучшение показателей после самокоррекции, необходимо тщательное рассмотрение дизайна подсказки.
Например, если ответ должен соответствовать критериям, которые могут быть легко указаны в начальной инструкции (например, выходные данные должны содержать определенные слова, сгенерированный код должен быть эффективным, тональность должна быть строго отрицательной), вместо того, чтобы предоставлять эти требования в качестве обратной связи в запросе для разбора инцидента, более экономичной альтернативной стратегией является встраивание этих требований непосредственно (явно) в предварительную подсказку.
Кроме того, производительность снижается даже тогда, когда исследователи используют свои подсказки для повышения производительности исследователей.
Опять же, цель исследователей здесь не в том, чтобы спорить о том, существуют ли post-hoc подсказки, которые могут превзойти те, которые исследователи пишут по своему желанию. Основная цель исследователей состоит в том, чтобы способствовать более тщательному изучению экспериментов по самокалибровке.
Не имеет смысла использовать хорошо продуманные подсказки для разбора инцидента, чтобы направлять модели к «самоисправлению» ответов, сгенерированных плохими предварительными запросами.
Для того, чтобы провести справедливое сравнение, следует приложить равные усилия к подсказкам до и после события.
Ресурсы: