Рассуждение GPT-4 слишком возмутительно! Суммарный балл по математике, физике и химии в университете меньше половины, а все 21 тип вопросов-рассуждений перевернуты.Маркус: АГИ слишком далеко

**Источник:**Синьчжиюань

Руководство: Самый мощный GPT-4 на поверхности делает ошибки в рассуждениях одну за другой! Последнее исследование, проведенное выпускниками Массачусетского технологического института и китайцами Калифорнийского университета в Лос-Анджелесе, привлекло внимание многих пользователей сети.

GPT-4 вообще не может рассуждать!

Недавно два исследования показали, что GPT-4 плохо рассуждает.

Константин Аркудас, выпускник Массачусетского технологического института, оценил GPT-4 на 21 различных типах наборов логических выводов.

Затем проводится подробный качественный анализ работоспособности ОПТ-4 по этим задачам.

Исследования показали, что GPT-4 иногда проявляет талант «самого сильного мозга», но в настоящее время GPT-4 вообще не обладает способностью рассуждать.

Адрес бумаги:

Как только исследование вышло, многие пользователи сети собрались посмотреть.

Маркус сказал: «Если это правда, как я уже сказал ранее, мы все еще далеки от ОИИ. Возможно, нам придется провести большую перекалибровку: без рассуждений не может быть ОИИ».

Другое исследование, проведенное Калифорнийским университетом в Лос-Анджелесе и Вашингтонским университетом, также показало, что GPT-4 и GPT-3.5 плохо справляются с задачами по математике, физике и химии в университете.

Адрес бумаги:

Исследователи представили SCIBENCH, университетский фонд для решения научных задач, который содержит 2 набора данных: открытый набор данных и закрытый набор данных.

Благодаря углубленному исследованию GPT-4 и GPT-3.5 с использованием различных стратегий подсказок результаты показывают, что средний общий балл GPT-4 составляет всего 35,8%.

Это исследование снова привлекло внимание Маркуса:

Систематический обзор рассуждений в математике, химии и физике, показывающий, что современные LLM не обеспечивают удовлетворительной производительности ... ни одна стратегия подсказки не является значительно лучше, чем другие.

Давайте подробнее рассмотрим, как GPT-4 с треском провалился в 21 наборе задач, математике, физике и химии.

21 набор задач, полный перенос GPT-4

Однако, прежде чем взглянуть на GPT-4, чтобы ответить на вопрос, автор делает примечание:

GPT-4 является недетерминированной системой и может давать разные ответы в разных прогонах даже при одинаковых настройках параметров.

Хотя следующие тестовые обмены являются дословными, по опыту автора, вещи, обсуждаемые в документе, где GPT-4 идет не так, как надо, имеют тенденцию быть надежными.

1 простая арифметика

Способность выполнять основные операции является необходимым условием рассуждения.

Однако GPT-4 по-прежнему не может надежно выполнять основные арифметические операции, такие как сложение и умножение.

Например, пусть GPT-4 случайным образом выбирает два числа от 1381 до 1453, чтобы умножить их и получить результат.

GPT-4 выбрал 1405 и 1421, но окончательный результат был явно неверным. Потому что 1405×1421=1996505.

2 простых счета

Хотя конкретный счет не обязательно является мыслительной деятельностью, он, безусловно, является предпосылкой для любой системы рассуждений с общими способностями.

Здесь GPT-4 дается пропозициональная переменная и префикс с 27 символами отрицания, с просьбой подсчитать количество символов отрицания.

Для нас это было несложно, тем более что отрицания пишутся через 5 интервалов, а групп 5, а последняя пара отрицаний следует сразу.

Однако GPT-4 дал «28» ответов.

3 (Медицинский) Здравый смысл

На данный момент мы можем думать об аргументах здравого смысла как о простых выводах, сделанных из данной информации плюс невысказанные условия (по умолчанию, общепринятые фоновые знания).

В данном конкретном случае знанием здравого смысла является утверждение типа «Человек живет, пока не умрет, и он никогда не живет после смерти».

Например, когда вы спрашиваете GPT-4: частота сердечных сокращений Мэйбл составляет 75 ударов в минуту в 9 часов утра, а артериальное давление — 120/80 в 19 часов. Она умерла в 11 вечера. Она жива в полдень?

На самом деле GPT-4 ответил: Согласно предоставленной информации, невозможно определить, жива ли Мэйбл в полдень.

Но, очевидно, основанный на данной информации вывод здравого смысла (без размышлений) ведет непосредственно к выводам.

4 Элементарная логика

Если P(x) содержит Q(x), а Q(a) не выполняется, то из модели мы можем сделать вывод, что P(a) не выполняется (поскольку, если P(a) выполняется, то Q(a) будет держать).

Это базовая тавтология, но GPT-4 предлагает полностью антимодель:

值得注意的是,GPT-4认识到,P(x)实际上并不包含Q(x) и предположил, что x может быть отрицательным четным числом, «не исключает существования моделей с другими заданными условиями».

На самом деле контрмодель должна удовлетворять всем заданным условиям и одновременно фальсифицировать вывод.

Кроме того, всего несколькими предложениями позже GPT-4 утверждает, что P(x) действительно подразумевает Q(x) в соответствии с данной интерпретацией, что противоречит его собственному предыдущему утверждению.

Обратите внимание, что GPT-4 также имеет внутренние несоответствия.

5 Семантика простого квантификатора

Рассмотрим следующие три предложения:

  1. [для всех х . Р(х) ==> Q(х)]

  2. [существует х . Р(х)]

  3. [существует х . ∼ Q(x)]

Пожалуйста, опровергните или докажите следующее утверждение: Эти три предложения совместно выполнимы.

显然,这三个句子都是共同可满足的,一个简单的模型是具有P(a1)、Q(a1)、¬P(a2) и домен {a1, a2} из ¬Q(a2), однако вывод, сделанный GPT-4, противоположен.

6. Простая раскраска графика

Рассмотрим сначала задачу раскраски графа без решения.

Нетрудно заметить, что для графа, описанного в этом вопросе, двух цветов недостаточно (например, вершины 0, 2 и 4 образуют кластер, поэтому требуется как минимум 3 цвета).

В этом коротком выводе множество ошибок, от которых отвисает челюсть.

GPT-4 начинает с ложного заявления о том, что граф завершен (очевидно, нет, например, нет ребра между вершинами 2 и 3).

Также очевидно, что если граф действительно полный, то раскрасить его в 2 цвета невозможно, так как для полного графа с 6 вершинами нужно как минимум 6 цветов.

Другими словами, утверждения GPT-4 не только неверны, но и противоречивы: один момент говорит нам (ошибочно), что этот 6-вершинный граф полон, а значит, его невозможно раскрасить в 2 цвета, а другой момент дает A два цвета. -цвет «раствор».

Стоит отметить, что причина того, что GPT-4 работает так плохо, не в том, что ему не хватает знаний о графах или данных.

Когда исследователи спросили GPT-4 о его понимании «полных графов», он выдал правильное определение «полных графов» вместе с длинным списком результатов для K_n (полные графы с n вершинами).

Судя по всему, ГПТ-4 запомнил всю эту информацию, но применить ее в новых условиях не может.

7. Сумма подмножества

S = {2, 8, 6, 32, 22, 44, 28, 12, 18, 10, 14}. Итак, сколько подмножеств S имеют сумму 37?

В этой задаче подмножество S четно, а сумма четных чисел не может быть нечетной, поэтому ответ равен 0.

Однако вместо того, чтобы остановиться, чтобы рассмотреть, что содержит S, GPT-4 рефлекторно генерирует то, что он считает подходящим ответом на вопрос, а затем переходит к «волшебному» ответу «4».

8 Элементарная дискретная математика

Сообщите GPT-4, что A × B представляет собой декартово произведение множеств A и B, что отношение R от A к B является подмножеством A × B, и что & представляет собой пересечение множеств, а затем попросите его доказать или опровергнуть :

其中R1和R2是从A到B的二元关系,dom(R) Представляет домен бинарного отношения R.

Отношение подмножества должно выполняться в обоих направлениях (2), но оно выполняется только в направлении слева направо. Легко найти контрпримеры в другую сторону (например, возьмем A = {(1, 2)} и B = {(1,3)}).

Однако GPT-4 делает вывод, что это правда, что явно неверно.

9 простых планов размещения

В вопросе времени GPT-4 тоже ошибся.

Проведите вверх и вниз, чтобы просмотреть все

10 Парадокс Рассела

Парадокс парикмахера Рассела утверждает, что существует парикмахер b, который бреет только тех, кто не бреется сам.

Отрицание этого предложения является тавтологией, которая легко выводится с помощью логики первого порядка.

Если мы понимаем R(a,b) как бритье b, то мы можем придумать эту тавтологию и попросить GPT-4 доказать или опровергнуть ее следующим образом:

Если существует такой парикмахер x, то для всех y мы будем иметь R(y,x) <==> ∼ R(y,y), поэтому подстановка x вместо y даст R(x,x) <== > ∼ R(x,x), противоречие.

GPT-4 безупречно понимает структуру предложений, которые ему даются, и то, что ему нужно делать. Однако последующие тематические исследования запутаны.

11 кирпичный мир

Это простая логическая задача, требующая анализа предпоследнего строительного блока B3.

Во-первых, B3 либо зеленый, либо нет.

Если он зеленый, то блок B3 находится поверх незеленого блока B4, поэтому вывод верен.

Если нет, то второй зеленый блок B2 сверху находится на незеленом блоке B3, так что вывод остается в силе.

Однако результаты показали, что GPT-4 работает не очень хорошо.

Есть пять блоков, сложенных сверху вниз: 1. Второй сверху блок зеленый 2. Четвертый сверху блок не зеленый В случаях, когда выполняются эти условия, опровергните или Докажите следующее: Имеется зеленый блок прямо над незеленым блоком.

Во-первых, когда он доказывает гипотезу, он уже сделал ошибку в стратегии доказательства — PT-4 предполагает два частных случая для рассуждений.

Кроме того, GPT-4 пришел к выводу (пусть и неправильному) в своих рассуждениях, но все же сообщает пользователю при ответе, что проблема не решена. И это отражает внутреннюю противоречивость модели.

12 Пространственное мышление

Здесь автор выбирает задачу ориентирования в реальном мире:

Ответ, данный GPT-4 в первый раз, находится справа, но автор указал на его ошибку.Хотя Бостон, штат Массачусетс, действительно находится справа от Южной Дакоты на карте, здесь есть дополнительное условие: ориентация тела Это Техас.

Это означает, что Бостон находится слева от автора.

Позже, когда GPT-4 ответил на высокие и низкие позиции Бостона и Южной Дакоты, возникла более серьезная проблема: он дал два противоречивых описания в одном ответе.

13 Рассуждения о времени

Автор дает здесь относительно простой вопрос для рассуждения о времени, но ответ GPT-4 все еще беспорядок.

Тому и Нэнси нужен транспорт для работы. Время в пути Нэнси составляет около 30–40 минут, а время Тома — около 40–50 минут. В прошлую пятницу Нэнси ушла из дома между 8:10 и 8:20 утра, а Том пришел на работу между 8:5 и 9:10 утра. Также Нэнси приходит на работу после того, как Том уходит из дома, но не более чем через 20 минут. Можете ли вы определить, когда Том и Нэнси пришли на работу в прошлую пятницу?

Разобрав информацию в вопросе, GPT-4 дает ход рассуждений:

«Если Том выйдет из дома в самое позднее возможное время (8:20 утра)…» Это предложение начинается неправильно.

На самом деле, название не указывало, когда Том в последний раз уходил из дома, а GPT-4 неправильно использовала время Нэнси («Нэнси ушла из дома между 8:10-8:20») для Тома.

В то же время условное утверждение, данное ОШП-4, сбивает с толку, а предположение содержит информацию (Том), не связанную с выводом (время прибытия Нэнси): «Если Том выйдет из дома в самое позднее время (8:20 утра), Нэнси. Она уезжает не позднее (8:20), ее поездка на работу занимает не более 40 минут, а Нэнси прибывает на работу не позднее 9:00».

Это должно быть сформулировано так: «Если Нэнси уходит в самое позднее время (8:20 утра) и ее поездка на работу занимает не более 40 минут, то Нэнси прибудет на работу не позднее 9:00 утра».

Затем GPT-4 ошибочно делает следующий вывод: «Поскольку Том добирается не менее 40 минут, это означает, что он прибудет на работу не позднее 9:00».

Этот вывод явно несостоятелен. Этот вывод нельзя сделать из известного факта, что время в пути Тома составляет не менее 40 минут.

Следующий ответ по-прежнему основан на ложном предположении, что самое раннее время отправления Тома — 8:10 утра (опять же, это время отправления Нэнси, а не Тома).

Затем он утверждает, что Нэнси прибыла в 8:45, что не считается выходом из дома в 8:10 в течение 20 минут.

В конце концов, делается неправильный вывод, что и Том, и Нэнси прибыли между 8:50 и 9:00.

В процессе рассуждений GPT-4 неоднократно отображал информацию ложным образом, и окончательный ответ также является неправильным ответом, основанным на неправильных условиях.

**14. Убийство или самоубийство? **

Автор задумал логическую задачку и перечислил 9 условий, чтобы попросить GPT-4 выяснить, кто на самом деле убил тетю Агату.

  1. Кто-то, кто жил в особняке Дредбери, убил тетю Агату. 2. Единственными обитателями особняка Дредбери являются тетя Агата, экономка и Чарльз. 3. Убийца всегда ненавидит своих жертв и никогда не становится богаче своих жертв. 4. Чарльз не ненавидит людей, которых ненавидит тетя Агата. 5. Тетя Агата ненавидела всех, кроме домработницы. 6. Дворецкий ненавидит всех, кто не богаче тети Агаты. 7. Дворецкий ненавидит всех, кого ненавидит тетя Агата. 8. Никто не ненавидит всех. 9. Тетя Агата не была домработницей.

Правильный ответ: тетя Агата покончила с собой.

Во-первых, по условию 5 тетя Агата должна ненавидеть себя, потому что она ненавидит всех, кроме домработницы.

Следовательно, согласно условию 4 следует, что Чарльз не ненавидит ее, поэтому он не может ее убить.

Согласно условиям 5 и 7, дворецкий не может ненавидеть себя, потому что, если бы он ненавидел себя, условие 8 не выполнялось бы, и он ненавидел бы всех.

По условию 6 делается вывод, что дворецкий богаче тети Агаты, иначе он ненавидел бы себя, что противоречит тому, что мы заключили ранее, что он не ненавидит себя.

По условию 3 дворецкий тоже не будет убийцей (условие 3).

Рассуждая, GPT-4 правильно исключил Чарльза, но не смог исключить дворецкого и пришел к неправильному выводу: дворецкий был убийцей.

Еще одна критическая ошибка, допущенная GPT-4: раз тетя Агата ненавидит всех, кроме домработницы (Условие 5), значит, она, по крайней мере, не ненавидит себя.

Это странная ошибка, так как из 5-го условия следует, что тетя Агата себя ненавидит.

В то же время ТГП-4 снова демонстрировала повторяющиеся несоответствия — почти в каждом ответе ТГП-4 утверждала, что вывела определенное суждение и его отрицательную форму.

15 заданий на выбор Ватсона

Задача выбора Уотсона является основным содержанием в области ментальных рассуждений.

В январской статье GPT-3.5 не прошел этот тест, а в этом исследовании производительность GPT-4 все еще не идеальна.

На столе 7 карт, на каждой карточке написано число на одной стороне и один цветной блок на другой стороне. На лицевой стороне этих карт указаны 50, 16, красный, желтый, 23, зеленый, 30. Чтобы определить истинность предложения «Если на лицевой стороне карты число, кратное 4, цвет на обратной стороне желтый», какие карточки нужно перевернуть?

Эти ответы показывают, что GPT-4 не понимает семантику условных операторов. Когда GPT-4 говорит, что карты «50» и «30» должны быть перевернуты, она, кажется, ошибочно принимает условие за необходимое и достаточное условие.

Независимо от того, правильный ответ GPT-4 или нет, его внутренние утверждения противоречивы.

16 Энтропия

Основной вывод теории информации: верхняя граница энтропии случайного вектора Z не превосходит суммы энтропий случайных величин, составляющих Z.

Поэтому ответ на следующий вопрос должен быть «ни при каких обстоятельствах».

17 Простая корректность компилятора

Последняя проблема вывода для GPT-4 является самой сложной: доказательство правильности компилятора простых выражений.

Но в этом тесте GPT-4 получил правильное доказательство, настроив структурную индукцию на абстрактную синтаксическую структуру выражений.

Это может быть связано с тем, что подобные доказательства уже встречались ранее, а примеры, приведенные авторами, относятся к типу упражнений, обычно встречающихся в курсах и учебниках по программированию.

Тем не менее, GPT-4 все еще имеет некоторые ошибки в деталях.

## Вывод: способность рассуждать имеет решающее значение, но GPT-4 не будет

Учитывая, что ГПТ-4 в настоящее время является наиболее способным LLM, автор делает три основных вывода, основанных на приведенном выше анализе:

  1. Использование генеративного ИИ в разработке программного обеспечения (или науке и инженерии в целом), за исключением некоторых утомительных задач (как своего рода ускоренное автодополнение наукоемких задач кодирования), сопряжено с риском. В этих областях нормативность и правильность имеют решающее значение, и существующие LLM не соответствуют этим стандартам.

  2. Поскольку способность LLM к рассуждению продолжает улучшаться, строгая проверка доказательств будет становиться все более и более важной. Этот подход может исследовать рассуждения, выраженные на естественном языке, попросив LLM формализовать свои рассуждения или обучив других LLM.

  3. В нынешнем виде антиутопические сценарии ИИ, завоевавшего людей, или людей, использующих ИИ в гнусных целях, надуманы, даже на грани абсурда. Когда современные системы искусственного интеллекта не могут даже отличить правое от левого (вопрос 12 выше), призывать к политике защиты людей от него в лучшем случае преждевременно, а в худшем – пустая трата ресурсов.

Неизбежно, кто-то может сказать, что эти результаты являются «выбранными данными». Но это потому, что они неправильно понимают, что такое кураторские данные. В зависимости от логической структуры и общего контекста рассматриваемого предложения сбор данных иногда даже необходим.

Отладка компьютерной программы для обнаружения и понимания ее слабых сторон, попытка опровергнуть научную теорию, тест-драйв новой машины, попытка найти антимодель предполагаемой теоремы и т. д. — все это по существу придирки.

Например, если вы обнаружите, что у вашего нового автомобиля спустило колесо, дилерский центр может возразить, что вы «выбираете данные». В конце концов, что касается всего автомобиля, то показатель целостности шины достигает 75%.

Точно так же приложения в науке, медицине и инженерии, особенно в разработке программного обеспечения, имеют строгие стандарты.

Точно так же, как нам не нужен мост, который будет выдерживать колонны в 90% случаев, нам нужны алгоритмы сортировки, которые работают со всеми входными данными, а не только с большинством; нам нужны тележки, которые каждый раз взимают правильную сумму, а не только большинство из них. время и т.д.

И эти приложения, интенсивно использующие вычисления и рассуждения, в отличие от рекомендательных систем, должны быть очень надежными.

об авторе

Константин Аркудас

До прошлого года Константин Аркудас был исследователем отдела когнитивных наук RPI и исследователем CSAIL Массачусетского технологического института.

В настоящее время он является старшим научным сотрудником исследовательской лаборатории Telcordia, специализирующейся на искусственном интеллекте и применении формальных методов для решения реальных проблем в телекоммуникационной и сетевой отраслях.

В 2000 году получил степень доктора компьютерных наук в Массачусетском технологическом институте. До этого он также получил степень магистра в области компьютерных наук, степень магистра в области философии и степень бакалавра в области компьютерных наук с дополнительной степенью в области философии.

Университетская математика, физика и химия, балл GPT-4 35,8%

В исследовании Калифорнийского университета в Лос-Анджелесе в основном оценивались способности GPT-4 и GPT-3.5 к рассуждению в математике, химии и физике.

В настоящее время, чтобы улучшить способность LLM решать такие задачи, как математика, некоторые люди предложили стратегию CoT, связанную с мышлением, чтобы направлять большую модель для постепенного получения ответов, чтобы более глубоко подумать о проблеме.

Однако, даже если такой подход имеет свои специфические преимущества, он затруднителен для полноценного решения сложных научных задач.

Ниже приведен пример задачи по физической химии в колледже и решения, полученные с помощью двух стратегий подсказок.

GPT-4 с благословением CoT имеет очевидные ошибки вычислений, а GPT-4, который предлагает использовать Python в качестве внешнего инструмента, также будет неправильно понимать математические уравнения.

Ошибки отмечены красным, исправления фиолетовым

С этой целью в исследование был включен SCIBENCH, эталон университетского уровня для научных вопросов.

Среди них «набор открытых данных» включает 5 задач, собранных из учебников, широко используемых в университетских курсах, охватывающих основы физики, термодинамику, классическую механику, квантовую химию, физическую химию, математический анализ, статистику и дифференциальные уравнения.

Сводка задач Open Textbook (включает в себя процент от количества задач и процент с подробными решениями)

Другой представляет собой «закрытый набор данных», который содержит 7 наборов промежуточных и выпускных экзаменационных вопросов по трем университетским курсам информатики и математики, чтобы имитировать оценку в реальном мире.

Набор данных закрытого экзамена (содержит количество экземпляров вопросов в каждом экзамене и долю вопросов в экзамене, которые содержат подробные решения. Кроме того, доля вопросов в разных форматах, включая свободный ответ, множественный выбор и верно-неверно ответы. Для справки: числа в скобках обозначают кредитные баллы для вопросов.)

В отличие от существующих эталонных тестов, все вопросы в SCIBENCH являются открытыми, на них можно ответить бесплатно.

Имея доступный набор данных, исследование было сосредоточено на оценке двух репрезентативных LLM, GPT-3.5 и GPT-4, и использовало различные стратегии подсказок, включая CoT, обучение с нулевым выстрелом и обучение с несколькими выстрелами.

Кроме того, исследователи также предложили модели использовать внешние инструменты, такие как Python и язык Wolfram Language.

Экспериментальные результаты показывают, что без каких-либо сложных подсказок или использования внешних инструментов средние показатели точности GPT-3,5 и GPT-4 в открытых наборах данных составляют 10,62% и 16,81% соответственно.

Затем, после добавления CoT и внешних инструментов, самый высокий показатель точности для того же набора данных составляет всего 35,8%. Однако, по сравнению с предыдущим, уровень точности был значительно улучшен.

Точность результатов в открытых наборах данных

В самой сильной конфигурации с использованием подсказок CoT и внешних инструментов GPT-4 набрал в среднем 35,80 % для открытого набора данных и 51,57 % для закрытого набора данных.

Эти результаты показывают, что GPT-4 имеет значительный потенциал для улучшения будущих LLM.

Экспериментальные результаты общего балла при обучении с нулевым выстрелом на наборе тестовых данных

Чтобы получить всестороннее представление об ограничениях LLM в решении научных проблем, исследователи предлагают новый подход «самосовершенствования», чтобы обнаружить несоответствия в ответах, сделанных LLM.

Это «Соглашение об оценке» следующим образом.

Во-первых, правильное решение сравнивается с решением, созданным LLM, и с помощью аннотаторов-людей обобщаются 10 основных навыков, необходимых для успешного решения научных задач.

В частности, включают в себя: логическую декомпозицию и аналитические навыки, выявление гипотез, пространственное восприятие, причинно-следственные рассуждения, дедукцию проблем, абстрактные рассуждения, научную грамотность, переключение кода, логическое мышление, умение считать.

Затем команда применила подход к самооценке на основе LLM для автоматической классификации навыков, которых не хватало в решениях, сделанных базовым LLM для каждой экспериментальной конфигурации.

Профили ошибок GPT-3.5 в текстовых наборах данных при 6 настройках, показывающие распределение дефектов в его 10 основных способностях решения проблем.

Наконец, в результате анализа было установлено, что:

(1) Хотя CoT значительно повышает вычислительную мощность, в других аспектах он менее эффективен;

(2) советы по использованию внешних инструментов могут повредить другим важным навыкам;

(3) Небольшое обучение обычно не улучшает решение научных задач.

Короче говоря, результаты исследования показывают, что современные крупномасштабные языковые модели все еще слабы в плане решения проблем, и с помощью различных инструментов все еще существуют ограничения.

Использованная литература:

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить