GPT-4 не знает, что это неправильно! Новые недостатки LLM были выявлены, и вероятность успеха самокоррекции составила всего 1%, и Лекун Маркус воскликнул, что чем больше он исправляет, тем больше ошибок
GPT-4 просто не знает, что совершает ошибку? Последние исследования показали, что LLM в задаче на рассуждение после самокоррекции не может спасти ухудшение производительности, что заставило босса ИИ Лекуна Маркуса наблюдать за этим.
Первоисточник: Shin Ji Yuan
Источник изображения: Generated by Unbounded AI
Большая модель была подвержена серьезным недостаткам, которые привлекли внимание Лекуна и Маркуса одновременно!
В эксперименте с логическим выводом модель, которая претендовала на повышение точности, самокорректировалась, «улучшила» уровень точности с 16% до 1%!
Проще говоря, LLM не может улучшить результат в виде самокоррекции в виде задач на логический вывод, если только LLM уже не знает правильный ответ в процессе самокоррекции.
Две статьи, опубликованные исследователями АГУ, опровергают метод «самокоррекции», предложенный многими предыдущими исследованиями – позволяя большим моделям самостоятельно корректировать свои выходные результаты, можно улучшить качество вывода модели.
Адрес доклада:
Адрес доклада:
Профессор Суббарао Камбхампати, соавтор статьи, посвятил себя исследованию способности ИИ к рассуждению и опубликовал статью в сентябре, полностью отрицая способность GPT-4 к рассуждению и планированию.
Адрес доклада:
В дополнение к этому профессору, недавние исследователи из DeepMind и Университета UIUC также поставили под сомнение способность LLM «самокорректироваться» в задачах на рассуждение.
В документе даже содержится призыв ко всем ученым, которые занимаются соответствующими исследованиями, отнестись к ним серьезно, а не говорить большой модели правильный ответ, а затем позволить ей осуществить так называемую «самокоррекцию».
Потому что, если модель не знает правильного ответа, качество вывода ухудшится после того, как модель «самоисправится».
Теперь давайте взглянем на эти две последние статьи.
GPT-4 "самокорректирующийся", вывод хуже
Первая статья была посвящена GPT-4, предлагая GPT-4 предоставить решение проблемы затенения графики, а затем GPT-4 «самокорректировала» свое собственное решение.
В то же время авторами была введена внешняя оценочная система для оценки прямого выхода GPT-4 и выхода после «самокорректирующегося» цикла.
Результаты экспериментов показывают, что GPT-4 менее чем на 20% точен в угадывании цвета, что не кажется удивительным.
Но удивительно, но точность в режиме «самокоррекции» значительно упала (второй бар ниже) – полностью вопреки всем намерениям самокоррекции!
По мнению авторов, эту, казалось бы, парадоксальную ситуацию можно объяснить тем, что GPT-4 также ужасно справляется с проверкой правильных ответов!
Потому что даже когда GPT-4 случайно угадает правильный цвет, его «самокоррекция» заставит его думать, что правильный ответ проблематичен, а затем заменить правильный ответ.
Дальнейшие исследования также показали, что GPT-4 действительно улучшит свое решение, если внешний валидатор предоставит проверяемый правильный ответ на угаданный цвет.
В этом случае подсказка, сгенерированная «самокоррекцией», действительно может улучшить качество вывода (бары 3-5 на рисунке выше)
Подводя итог, можно сказать, что для задачи «раскраска» независимая «самокоррекция» GPT-4 ухудшит производительность вывода, потому что GPT-4 не может проверить правильность ответа.
Тем не менее, если обеспечен правильный процесс внешней проверки, «самокоррекция», генерируемая GPT-4, действительно может повысить производительность.
В другой работе рассматривалась способность больших языковых моделей к «самокоррекции» с точки зрения задач планирования, и результаты были аналогичны предыдущему документу.
Более того, исследователи обнаружили, что то, что действительно улучшило точность вывода, было не «самокоррекцией» LLM, а обратной связью от внешнего независимого валидатора.
В конечном счете, LLM не имеет возможности провести независимую проверку и должен полагаться на «правильный ответ», данный внешним валидатором, чтобы эффективно «самоисправиться».
** «Вопросы-раскраски» были выполнены плохо, и LLM не смог самостоятельно проверить правильные ответы**
Структура исследовательского дизайна
«Задача на раскраску» — это очень классическая задача на рассуждение, даже если она не сложная, ответы достаточно разнообразны, а правильность ответов легко проверить.
Результаты разнообразия затрудняют охват всех обучающих данных LLM, и возможность контаминации обучающих данных LLM максимально избегается.
Эти причины делают «задачу о раскрашивании» очень подходящей для изучения способности к рассуждению LLM, а также удобной для изучения способности LLM к «самокоррекции» в рассуждении.
Исследователи создали свой собственный набор данных, используя GrinPy2 для обработки распространенных манипуляций с графами. Каждый график строится по методу Эрдёша-Реньи (̋p = 0,4).
Как только правильный ответ найден, он компилируется в стандартный формат DIMACS с комментарием, содержащим его предварительно вычисленное хроматическое число.
Для следующего эксперимента исследователи сгенерировали 100 экземпляров, каждый из которых имел в среднем 24 ребра, распределенных по диапазону узлов от 10 до 17 — распределение, которое, как показал опыт, является достаточно изменчивым диапазоном.
Диаграмма, используемая исследователями, показана на рисунке 1 ниже, которая включает в себя первый ответ LLM, обратную подсказку ответа и окончательную правильную цветовую схему.
### Архитектура для итеративного обеспечения
Генератор подсказок:
Этот генератор приглашений берет экземпляр DIMACS, преобразует каждое ребро в предложение, а затем оборачивает все в набор общих инструкций для создания приглашения на естественном языке.
Исследователи намеренно сузили различия между различными запросами, чтобы уменьшить информацию о конкретной проблеме, которую исследователи слили в LLM. Примеры различных типов подсказок можно найти в приложении.
Большие языковые модели:
GPT-4 вызывается через OpenAI API, который на данный момент является самой продвинутой моделью.
Исследователи отводят системную роль: «Вы решаете задачи удовлетворенности ограничениями, которые решают различные задачи CSP (удовлетворение ограничениями)».
Назад Генерация
В режиме аутентификации LLM получает запрос другого типа.
Помимо стандартной инструкции, он содержит только описание схемы и рекомендуемую схему раскраски. Его задача — проверить правильность, оптимальность и то, что каждая вершина была окрашена в цвет.
Если результирующий ответ имеет набор противоречащих друг другу ребер, цветовая схема неправильная.
Чтобы сравнить каждую точку, исследователи также создали валидатор, который перечислил каждое противоречащее ребро.
Поскольку ответы LLM также представлены в форме естественного языка, исследователи сначала перевели их в формат, который было легко анализировать. Чтобы сделать этот процесс более последовательным, исследователи разработали первоначальные подсказки, описывающие точный формат выходных данных, которому должна следовать модель. Затем ответ оценивается на правильность.
Чтобы судить о результатах валидации LLM, исследователи изучают, насколько хорошо они выявляют ошибки в предлагаемой схеме затенения.
Интуитивно они должны быть легко идентифицированы: если две вершины, составляющие ребро, имеют один и тот же цвет, немедленно вернитесь к этому ребру. С алгоритмической точки зрения достаточно обнаружить все ребра и сравнить цвет каждой вершины с цветом точки, к которой она присоединена.
Верификация
Чтобы получить более глубокое понимание возможностей верификации LLM, исследователи изучили их эффективность в выявлении ошибок в предложенной схеме окраски.
Интуитивно эти ошибки должны быть легко идентифицированы: если две вершины, составляющие ребро, имеют один и тот же цвет, ребро возвращается немедленно. С алгоритмической точки зрения, все, что нужно сделать, это перебрать все ребра и сравнить цвет каждой вершины с цветом соответствующей вершины.
Исследователи использовали тот же процесс анализа, но создали новую область, которую исследователи назвали color_verification. LLM проверяет правильность затенения, оптимальность и то, присвоен ли каждой вершине цвет.
Если заливка неправильная, указывается список ошибок в затенении, то есть, если два соединенных узла имеют один и тот же цвет, возвращается это ребро, представляющее ошибку. Спины не дают.
Исследователи использовали тот же пример графа, что и раньше, но сгенерировали четыре схемы затенения для тестирования модели:
Правильный: безошибочная оптимальная схема затенения, сгенерированная итеративным случайным жадным алгоритмом (с использованием предварительно вычисленного количества цветов для обеспечения оптимальности).
Аблатированный: Изменяет цвет случайного узла из предыдущего набора схем затенения на соседние.
Неоптимальный: в правильном наборе цветовая часть выбирается случайным образом и перекрашивается в новый оттенок.
Случайный: Полностью случайно назначаются цвета, количество различных цветов равно количеству цветов фигуры.
LLM: Случайно выбранная цветовая схема из выходных данных, сгенерированных LLM в предыдущих экспериментах.
Заключение
Подсказывается LLM, ответы оцениваются, и следующий экземпляр переходит к следующему этапу без каких-либо задержек, в результате чего исходный балл составляет 16%.
Когда исследователи запустили тот же экземпляр, но на этот раз вернули запрос, используя обратную связь, сгенерированную той же языковой моделью, выступающей в качестве валидатора, производительность резко упала — только один из 100 экземпляров получил правильный ответ.
На первый взгляд результаты запроса return с валидатором, прошедшим внешнюю квалификацию, могут показаться более эффективными.
Количество случаев правильных ответов приближается к 40 процентам, но если это означает, что GPT-4 слушает, совершенствует и рассуждает на основе обратной связи, то исследователи ожидают лучших результатов от более точных ответов.
Однако в этой области сырая дробь (см. рис. 2 выше) этого не доказывает.
Возможность верификации LLM
Исследователи проверили способность GPT-4 проверять схемы графового затенения на одном и том же экземпляре, генерируя пять различных типов схем затенения для каждого экземпляра.
Очевидный результат точно такой же, как и результат самокоррекции LLM, приведенный выше: модель почти неохотно помечает любые ответы как правильные. Из 100 оптимальных схем затенения сходятся во мнении, что только 2 из них правильные.
Из всей коллекции из 500 схем раскрашивания, 118 из которых правильные, утверждается, что только 30 из них правильные. Из этих 30 только 5 были действительно правильными.
В целом эта закономерность остается прежней. Менее чем в 10% случаев LLM дал ответ «правильно», «неоптимально» или «отсутствует задание». В этих случаях поведение выглядит несколько случайным.
Примерно в четверти случаев он отвечает подтверждением «это неверно», в то время как интерпретация соответствует действительности, и делает это только путем указания не более чем одной стороны, сводя к минимуму вероятность искажения чего-либо.
Результаты приведены в таблице 2 выше. Обратите внимание, что при увеличении частоты ошибок домена коэффициент галлюцинаций уменьшается. То есть, когда неправильных ребер больше, модель с большей вероятностью укажет, где что-то пошло не так.
LLM самокритика, производительность не увеличивается, а уменьшается
В статье, представленной 12-го числа, авторы также пришли к тому же выводу, что и выше.
Будь то планирование, простая арифметика или логика, GPT-4, современная большая модель, не является полностью компетентной.
Многие исследователи исследовали и усовершенствовали его, в том числе позволили LLM изучить самоитерацию, самопроверку и другие стратегии для повышения производительности.
В результате, люди в отрасли оптимистично настроены в отношении того, что большую модель все еще можно спасти!
Однако сложность задачи логического вывода в классическом понимании не имеет ничего общего с большой моделью, потому что LLM — это модель, которая использует приблизительный поиск, а не точные рассуждения.
В статье, представленной arXiv 12-го числа, исследователи ASU систематически оценивали и анализировали способность LLM к самокритике при планировании задач и итеративной оптимизации.
В исследовании авторами предложена система планирования, включающая генератор LLM и валидатор LLM.
Среди них генератор GPT-4 отвечает за генерацию планов-кандидатов, а валидатор GPT-4 — за проверку правильности плана и предоставление обратной связи.
Затем исследователи провели эксперименты в области планирования Blocksworld и провели эмпирические оценки:
Влияние самокритики на плановую производительность генерации всей системы LLM+LLM
производительность валидатора LLM относительно наземной верификации истинности;
При критике генерации LLM один и тот же уровень обратной связи влияет на общую производительность системы.
Результаты показывают, что самокритика снижает производительность генерации планирования LLM по сравнению с использованием внешнего надежного валидатора.
Снижение производительности напрямую связано с плохими результатами валидатора LLM, который выдает большое количество ложных срабатываний, что может серьезно ухудшить надежность системы.
Точность бинарной классификации валидатора LLM составляет всего 61%, и наблюдается большое количество ложных срабатываний (оценка неправильной схемы как правильной).
Кроме того, по результатам сравнения уровня детализации обратной связи установлено, что она мало влияет на производительность формирования планирования.
В целом, систематическое исследование данного исследования дает предварительные данные, которые ставят под сомнение эффективность LLM как валидатора задач планирования в рамках итеративной, самокритичной структуры.
Об авторе
Суббарао Камбхампати
Суббарао Камбхампати — профессор информатики в Университете штата Аризона. Камбхампати исследует фундаментальные вопросы планирования и принятия решений, в частности, связанные с проблемами, связанными с системами искусственного интеллекта для человеческого восприятия.
Ресурсы:
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
GPT-4 не знает, что это неправильно! Новые недостатки LLM были выявлены, и вероятность успеха самокоррекции составила всего 1%, и Лекун Маркус воскликнул, что чем больше он исправляет, тем больше ошибок
Первоисточник: Shin Ji Yuan
Большая модель была подвержена серьезным недостаткам, которые привлекли внимание Лекуна и Маркуса одновременно!
Профессор Суббарао Камбхампати, соавтор статьи, посвятил себя исследованию способности ИИ к рассуждению и опубликовал статью в сентябре, полностью отрицая способность GPT-4 к рассуждению и планированию.
В дополнение к этому профессору, недавние исследователи из DeepMind и Университета UIUC также поставили под сомнение способность LLM «самокорректироваться» в задачах на рассуждение.
В документе даже содержится призыв ко всем ученым, которые занимаются соответствующими исследованиями, отнестись к ним серьезно, а не говорить большой модели правильный ответ, а затем позволить ей осуществить так называемую «самокоррекцию».
Потому что, если модель не знает правильного ответа, качество вывода ухудшится после того, как модель «самоисправится».
GPT-4 "самокорректирующийся", вывод хуже
Первая статья была посвящена GPT-4, предлагая GPT-4 предоставить решение проблемы затенения графики, а затем GPT-4 «самокорректировала» свое собственное решение.
В то же время авторами была введена внешняя оценочная система для оценки прямого выхода GPT-4 и выхода после «самокорректирующегося» цикла.
Но удивительно, но точность в режиме «самокоррекции» значительно упала (второй бар ниже) – полностью вопреки всем намерениям самокоррекции!
Потому что даже когда GPT-4 случайно угадает правильный цвет, его «самокоррекция» заставит его думать, что правильный ответ проблематичен, а затем заменить правильный ответ.
В этом случае подсказка, сгенерированная «самокоррекцией», действительно может улучшить качество вывода (бары 3-5 на рисунке выше)
Подводя итог, можно сказать, что для задачи «раскраска» независимая «самокоррекция» GPT-4 ухудшит производительность вывода, потому что GPT-4 не может проверить правильность ответа.
Тем не менее, если обеспечен правильный процесс внешней проверки, «самокоррекция», генерируемая GPT-4, действительно может повысить производительность.
В другой работе рассматривалась способность больших языковых моделей к «самокоррекции» с точки зрения задач планирования, и результаты были аналогичны предыдущему документу.
** «Вопросы-раскраски» были выполнены плохо, и LLM не смог самостоятельно проверить правильные ответы**
Структура исследовательского дизайна
«Задача на раскраску» — это очень классическая задача на рассуждение, даже если она не сложная, ответы достаточно разнообразны, а правильность ответов легко проверить.
Результаты разнообразия затрудняют охват всех обучающих данных LLM, и возможность контаминации обучающих данных LLM максимально избегается.
Эти причины делают «задачу о раскрашивании» очень подходящей для изучения способности к рассуждению LLM, а также удобной для изучения способности LLM к «самокоррекции» в рассуждении.
Исследователи создали свой собственный набор данных, используя GrinPy2 для обработки распространенных манипуляций с графами. Каждый график строится по методу Эрдёша-Реньи (̋p = 0,4).
Как только правильный ответ найден, он компилируется в стандартный формат DIMACS с комментарием, содержащим его предварительно вычисленное хроматическое число.
Для следующего эксперимента исследователи сгенерировали 100 экземпляров, каждый из которых имел в среднем 24 ребра, распределенных по диапазону узлов от 10 до 17 — распределение, которое, как показал опыт, является достаточно изменчивым диапазоном.
Диаграмма, используемая исследователями, показана на рисунке 1 ниже, которая включает в себя первый ответ LLM, обратную подсказку ответа и окончательную правильную цветовую схему.
Генератор подсказок:
Этот генератор приглашений берет экземпляр DIMACS, преобразует каждое ребро в предложение, а затем оборачивает все в набор общих инструкций для создания приглашения на естественном языке.
Исследователи намеренно сузили различия между различными запросами, чтобы уменьшить информацию о конкретной проблеме, которую исследователи слили в LLM. Примеры различных типов подсказок можно найти в приложении.
Большие языковые модели:
GPT-4 вызывается через OpenAI API, который на данный момент является самой продвинутой моделью.
Исследователи отводят системную роль: «Вы решаете задачи удовлетворенности ограничениями, которые решают различные задачи CSP (удовлетворение ограничениями)».
Назад Генерация
В режиме аутентификации LLM получает запрос другого типа.
Помимо стандартной инструкции, он содержит только описание схемы и рекомендуемую схему раскраски. Его задача — проверить правильность, оптимальность и то, что каждая вершина была окрашена в цвет.
Если результирующий ответ имеет набор противоречащих друг другу ребер, цветовая схема неправильная.
Чтобы сравнить каждую точку, исследователи также создали валидатор, который перечислил каждое противоречащее ребро.
Поскольку ответы LLM также представлены в форме естественного языка, исследователи сначала перевели их в формат, который было легко анализировать. Чтобы сделать этот процесс более последовательным, исследователи разработали первоначальные подсказки, описывающие точный формат выходных данных, которому должна следовать модель. Затем ответ оценивается на правильность.
Чтобы судить о результатах валидации LLM, исследователи изучают, насколько хорошо они выявляют ошибки в предлагаемой схеме затенения.
Интуитивно они должны быть легко идентифицированы: если две вершины, составляющие ребро, имеют один и тот же цвет, немедленно вернитесь к этому ребру. С алгоритмической точки зрения достаточно обнаружить все ребра и сравнить цвет каждой вершины с цветом точки, к которой она присоединена.
Верификация
Чтобы получить более глубокое понимание возможностей верификации LLM, исследователи изучили их эффективность в выявлении ошибок в предложенной схеме окраски.
Интуитивно эти ошибки должны быть легко идентифицированы: если две вершины, составляющие ребро, имеют один и тот же цвет, ребро возвращается немедленно. С алгоритмической точки зрения, все, что нужно сделать, это перебрать все ребра и сравнить цвет каждой вершины с цветом соответствующей вершины.
Исследователи использовали тот же процесс анализа, но создали новую область, которую исследователи назвали color_verification. LLM проверяет правильность затенения, оптимальность и то, присвоен ли каждой вершине цвет.
Если заливка неправильная, указывается список ошибок в затенении, то есть, если два соединенных узла имеют один и тот же цвет, возвращается это ребро, представляющее ошибку. Спины не дают.
Правильный: безошибочная оптимальная схема затенения, сгенерированная итеративным случайным жадным алгоритмом (с использованием предварительно вычисленного количества цветов для обеспечения оптимальности).
Аблатированный: Изменяет цвет случайного узла из предыдущего набора схем затенения на соседние.
Неоптимальный: в правильном наборе цветовая часть выбирается случайным образом и перекрашивается в новый оттенок.
Случайный: Полностью случайно назначаются цвета, количество различных цветов равно количеству цветов фигуры.
LLM: Случайно выбранная цветовая схема из выходных данных, сгенерированных LLM в предыдущих экспериментах.
Заключение
Когда исследователи запустили тот же экземпляр, но на этот раз вернули запрос, используя обратную связь, сгенерированную той же языковой моделью, выступающей в качестве валидатора, производительность резко упала — только один из 100 экземпляров получил правильный ответ.
На первый взгляд результаты запроса return с валидатором, прошедшим внешнюю квалификацию, могут показаться более эффективными.
Количество случаев правильных ответов приближается к 40 процентам, но если это означает, что GPT-4 слушает, совершенствует и рассуждает на основе обратной связи, то исследователи ожидают лучших результатов от более точных ответов.
Однако в этой области сырая дробь (см. рис. 2 выше) этого не доказывает.
Возможность верификации LLM
Исследователи проверили способность GPT-4 проверять схемы графового затенения на одном и том же экземпляре, генерируя пять различных типов схем затенения для каждого экземпляра.
Очевидный результат точно такой же, как и результат самокоррекции LLM, приведенный выше: модель почти неохотно помечает любые ответы как правильные. Из 100 оптимальных схем затенения сходятся во мнении, что только 2 из них правильные.
Из всей коллекции из 500 схем раскрашивания, 118 из которых правильные, утверждается, что только 30 из них правильные. Из этих 30 только 5 были действительно правильными.
В целом эта закономерность остается прежней. Менее чем в 10% случаев LLM дал ответ «правильно», «неоптимально» или «отсутствует задание». В этих случаях поведение выглядит несколько случайным.
Примерно в четверти случаев он отвечает подтверждением «это неверно», в то время как интерпретация соответствует действительности, и делает это только путем указания не более чем одной стороны, сводя к минимуму вероятность искажения чего-либо.
LLM самокритика, производительность не увеличивается, а уменьшается
В статье, представленной 12-го числа, авторы также пришли к тому же выводу, что и выше.
Будь то планирование, простая арифметика или логика, GPT-4, современная большая модель, не является полностью компетентной.
Многие исследователи исследовали и усовершенствовали его, в том числе позволили LLM изучить самоитерацию, самопроверку и другие стратегии для повышения производительности.
В результате, люди в отрасли оптимистично настроены в отношении того, что большую модель все еще можно спасти!
Однако сложность задачи логического вывода в классическом понимании не имеет ничего общего с большой моделью, потому что LLM — это модель, которая использует приблизительный поиск, а не точные рассуждения.
В статье, представленной arXiv 12-го числа, исследователи ASU систематически оценивали и анализировали способность LLM к самокритике при планировании задач и итеративной оптимизации.
В исследовании авторами предложена система планирования, включающая генератор LLM и валидатор LLM.
Затем исследователи провели эксперименты в области планирования Blocksworld и провели эмпирические оценки:
Влияние самокритики на плановую производительность генерации всей системы LLM+LLM
производительность валидатора LLM относительно наземной верификации истинности;
При критике генерации LLM один и тот же уровень обратной связи влияет на общую производительность системы.
Результаты показывают, что самокритика снижает производительность генерации планирования LLM по сравнению с использованием внешнего надежного валидатора.
Точность бинарной классификации валидатора LLM составляет всего 61%, и наблюдается большое количество ложных срабатываний (оценка неправильной схемы как правильной).
Об авторе
Суббарао Камбхампати
Суббарао Камбхампати — профессор информатики в Университете штата Аризона. Камбхампати исследует фундаментальные вопросы планирования и принятия решений, в частности, связанные с проблемами, связанными с системами искусственного интеллекта для человеческого восприятия.