обманул? GPT-4 на самом деле не имеет способности рассуждать? !

Question

Организовать | Ту МинЛистинг | CSDN (ID: CSDNnews)![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-4ca4684bfe-dd1a6f-1c6801) *Источник изображения: сгенерировано инструментом Unbounded AI*В марте этого года OpenAI выпустила большую модель GPT-4, которая предоставила более мощные возможности рассуждений, вычислений и логики, чем GPT-3.5 позади ChatGPT, а также вызвала всплеск универсального использования. В процессе использования исследователями, разработчиками и конструкторами в различных областях «ТГП-4 — самая ведущая крупная модель» вроде бы стала общепризнанным результатом.Однако 7 августа Константин Аркудас, окончивший Массачусетский технологический институт и в настоящее время являющийся техническим директором Dyania Health, недавно написал препринт под названием «GPT-4 Can’t Reason» (ГПТ-4 не может рассуждать) ( ссылки на проекты статей в научной литературе, которые еще не были опубликованы в рецензируемых научных журналах, вызвали бурю негодования в отрасли.В документе отмечается, что GPT-4 имеет существенные улучшения по всем направлениям по сравнению с GPT 3.5. Однако, несмотря на впечатляющие улучшения, есть веские причины скептически относиться к возможностям логического вывода GPT-4. В этой статье обсуждается природа рассуждений, критикуется текущая постановка задач рассуждений в сообществе НЛП и текущий способ оценки производительности рассуждений LLM, а также представлен набор из 21 различных задач рассуждений, основанных на GPT-4.Окончательный вывод: **Несмотря на периодические вспышки аналитической гениальности, GPT-4 в настоящее время совершенно не способен рассуждать. **Адрес бумаги:![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-5818562a45-dd1a6f-1c6801) Одно слово запускает тысячу волн.Не потому ли GPT-4 сгенерировал код игры всего за несколько минут до этого?## **Что такое вывод? **На самом деле, в начале января этого года автор статьи Константин Аркудас поделился неформальной оценкой ChatGPT на платформе Medium, которая затрагивала широкий спектр дисциплин, включая традиционные НЛУ, народную физику, поиск информации, теория разума, пространственные рассуждения, простые логические рассуждения и математика.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-1a1a1a727e-dd1a6f-1c6801) адрес:Основные выводы, сделанные в то время, были следующими: ChatGPT — это новаторский прорыв; системы на основе LLM — это не просто «случайные попугаи», а строят настоящие абстракции и могут проявлять креативность; такие системы принесут много интересных новых приложений; несмотря на вышеупомянутое достижений, эти системы остаются сильно ограниченными в своих возможностях логического вывода.По его мнению, модернизированная версия ГПТ-4 осталась прежней и даже не имеет никакой способности к рассуждению.В статье Константин Аркудас отметил, что отраслевые дебаты о том, «есть ли у LLM способность рассуждать», ведутся уже давно.* С одной стороны, это фракция поддержки LLM. Их предсказания хороших логических способностей больших моделей часто основаны на изменяющихся «законах», и эти так называемые «законы», как утверждает Константин Аркудас, на самом деле являются надуманными эмпирическими доказательствами, большим количеством сомнительных допущений моделирования, пониманием неоднозначных концепций (LLM функции) и даже немного догматического убеждения, что минимизация перекрестной энтропийной потери для предсказания следующего маркера в большом корпусе обеспечивает механизм вывода общего назначения.* С другой стороны, есть скептики LLM. У них, как правило, есть строгие аргументы, но эти аргументы в основном основаны на прошлом опыте и анализе и несколько расплывчаты (например, в LLM отсутствует «модель мира», внутренняя модель того, как устроен мир).Основываясь на этих двух соображениях, Константин Аркудас утверждает, что наиболее убедительные априорные (прошлый опыт и анализ) соображения правдоподобия надежных надежных выводов LLM являются результатом вычислительной сложности. Вывод - очень сложная вычислительная задача. На самом деле она алгоритмически неразрешима в общем случае (логика первого или высшего порядка).По словам Константина Аркудаса, «любой LLM, каким бы большим, широким и умным он ни был, не может решить произвольные задачи вывода. Это согласуется со знаменитой теоремой «бесплатного обеда» в машинном обучении, в которой утверждается, что модель общности. между спектаклем и спектаклем».Следовательно, чтобы проверить, «есть ли у GPT-4 способность к рассуждению», первое, что нужно сделать, — это унифицировать концепцию, то есть то, что такое рассуждение, и конкретный метод, используемый для определения способности к рассуждению.Что касается определения рассуждения, Константин Аркудас сказал: «Рассуждение - это не получение правильного ответа недобросовестными средствами, а получение правильного ответа по правильной причине».Точнее, рассуждение — это процесс выдвижения аргумента и, что более важно, его доказательства. Аргумент состоит из вывода (так сказать, результата аргумента) и набора предпосылок, из которых выводится вывод. Посылки представляют собой информацию, которая считается данной, даже если только условно, для целей аргумента. Выводы и посылки обычно представляют собой повествовательные предложения, выраженные символами естественного языка или символической логики, которые могут быть истинными или ложными, но также могут быть представлены другими символами, такими как диаграммы. Если все предложения в S истинны, то p истинно, и в этом случае говорят, что аргумент действителен.Что касается методологии, то оценка, принятая Константином Аркудасом в статье, не основана на корпусе или наборе корпусов. Вместо этого в нем представлен подробный качественный анализ производительности GPT-4 по 21 простой задаче на рассуждение в широкой области, большинство из которых были написаны с нуля, а остальные (например, задача выбора Уэйсона) были настроены вручную. модели трудно их идентифицировать, чтобы избежать загрязнения данных.## **Проверьте аргументацию GPT-4 с помощью тестовых вопросов**Исходя из этого, Константин Аркудас задавал вопросы о GPT-4 из нескольких измерений и провел подробный анализ на основе его результатов.Стоит отметить, что из-за свойств GPT-4 иногда даже использование одного и того же "" может привести к разным результатам в разных прогонах.Затем начинается проверка (**все указанные ниже сроки тестирования основаны на результатах тестирования 5 июля 2023 г.**).**Простая арифметика**Константин Аркудас говорит, что способность выполнять основные арифметические операции является необходимой частью общих рассуждений, особенно в научных и инженерных приложениях. Чтобы GPT-4 не запомнил его наизусть, он предлагает позволить GPT-4 случайным образом выбирать два случайных целых числа в выбранном диапазоне, а затем выполнять операции над выбранными значениями.**КА дает:**Выберите два случайных числа от 1381 до 1453, перемножьте их и сообщите результат.**Ответ GPT-4:**Конечно, давайте выберем два случайных числа в диапазоне от 1381 до 1453. Допустим, числа 1405 и 1421.Чтобы получить произведение, мы просто умножаем эти два числа: 1405\*1421 = 1996025.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-d1deacd237-dd1a6f-1c6801) Но на самом деле правильный ответ 1405\*1421=1996505.Оказывается, GPT-4 все еще не может надежно выполнять основные арифметические операции, такие как сложение и умножение.Константин Аркудас сказал, что, возможно, сторонники LLM могли бы признать в этот момент, что GPT-4 не является полной по Тьюрингу структурой и не может выполнять вычисления общего назначения: он не может складывать, умножать или делить, сортировать списки или инвертировать матрицы или решать дифференциальные уравнения, не может компилировать произвольные программы в машинный код, не может выводить теоремы и т. д.Однако этот недостаток вычислительной мощности можно компенсировать сторонними плагинами, такими как ReAct, MRKL framework. Именно этот способ работы породил такие системы, как LangChain и AutoGPT. Идея состоит в том, чтобы использовать LLM в качестве планировщика для рекурсивной декомпозиции сложной проблемы на ряд подзадач, которые отправляются специализированным агентам через соответствующие API.Однако, по словам Константина Аркудаса, проблема с этим подходом заключается в его замкнутом характере. Планирование само по себе требует рассуждений, поэтому возникает «дилемма», заключающаяся в том, что мы не можем решить проблему рассуждений, делегируя ее соответствующему агенту, потому что выяснение того, как делегировать (как декомпозировать проблему, каких агентов вызывать, как и как результат декомпозиции) сам по себе вычислительно невыполним. Для этого требуется не только способность понимать естественный язык, но и способность рассуждать о предпосылках и последствиях. Даже при этих чрезмерно упрощенных предположениях планирование является дорогостоящим в вычислительном отношении (PSPACE-complele), требующим радикальных упрощений для снижения сложности до NP-complele уровней. При более реалистичных предположениях планирование выполняется с неполными знаниями и механистически неразрешимо. Было бы наивно ожидать, что обычные LLM смогут успешно решать проблемы планирования в том виде, в каком мы их понимаем сегодня.** Простой подсчет **Дайте GPT-4 пропозициональную переменную, которой предшествуют 27 символов отрицания, и попросите ее подсчитать количество отрицаний. Для людей это простая задача, тем более, что символы отрицания записываются пятью блоками, по пять точек в каждом, и парой символов отрицания в конце, но как работает GPT-4?**КА：**Сколько раз p инвертируется в следующей формуле:~~~~~ ~~~~~ ~~~~~ ~~~~~ ~~~~~ ~~ р**Ответ GPT-4:**GPT-4: Формула, которую вы дали, содержит 28 символов отрицания («∼») перед пропозициональной переменной «p». В логике знак отрицания изменяет истинностное значение утверждения на противоположное. Если утверждение истинно, то его отрицание ложно, и наоборот. Двойное отрицание, такое как «∼ ∼ p», эквивалентно «p», потому что двойное отрицание предложения восстанавливает его исходное значение истинности.Если есть остаток, то есть отрицание. Если нет, то нет и отрицания.28 разделить на 2 равно 14 без остатка, что означает отсутствие отрицания. Так что фактически в данной формуле переменная "p" не отрицается. Это просто эквивалентно "p".![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-dd39db081a-dd1a6f-1c6801) Константин Аркудас обнаружил, что разница в добавлении GPT-4 одного символа отрицания не кажется существенной, пока мы не осознаем все различия в его логическом вводе, как подчеркивается собственным (незапрошенным) объяснением GPT-4, подобным этому. Даже когда GPT-4 прямо сказали не торопиться и тщательно подсчитывать, многократное повторение эксперимента дало совершенно разные результаты.**Общий вопрос знаний**Затем Константин Аркудас добавил: «Пульс Мейбл был 75 ударов в минуту в 9 часов утра, а ее кровяное давление было 120/80 в 7 часов вечера. Она умерла в 11 часов вечера. Она была жива в полдень?»![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-ed0007b40d-dd1a6f-1c6801) **GPT-4：**Основываясь на предоставленной информации, мы не можем быть уверены, жива ли Мэйбл Нун или нет. Представленные точки данных (частота сердечных сокращений в 9 часов утра и кровяное давление в 7 часов вечера) указывают на то, что она была жива в то время. Однако, не имея дополнительной информации о том, что с ней произошло между 7 и 11 часами вечера или, в частности, в полдень, мы не можем быть уверены, какой она была в полдень.Помните, что медицинская информация может быть сложной и деликатной. Чтобы узнать о состоянии здоровья человека, обычно требуется комплексное обследование, которое должен проводить медицинский работник. Если это гипотетический вопрос, помните, что реальная жизнь требует более полной информации.В данном контексте аргументы здравого смысла можно фактически рассматривать как прямое следствие выводов, сделанных из имеющейся информации плюс невысказанные предпосылки, составляющие общепринятые базовые знания. В данном конкретном случае таким здравым смыслом является положение о том, что «человек живет, пока не умрет, и никогда не живет после смерти». В статье Константин Аркудас считает, что заявление GPT-4 о том, что «это сложная проблема, обязательно обратитесь к профессионалу», кажется ироничным.**Выбор Уэйсона**Задача выбора Уэйсона является одним из основных элементов психологии рассуждений.**КА：**На столе семь игральных карт, каждая с номером на одной стороне и монохромным узором на другой. Карточки показывают 50, 16, красный, желтый, 23, зеленый, 30 соответственно. Если на карточке изображено число, кратное 4, то противоположный цвет — желтый.Какую карточку нужно перевернуть, чтобы проверить истинность этого утверждения?**GPT-4：**Предложение звучит так: «Если число на карточке кратно 4, то цвет на другой стороне — желтый». Чтобы проверить это предложение, вы должны перевернуть следующие карты:Игральная карта «16»: Согласно предложению, цвет другой стороны должен быть желтым. Переворачивая эту карту, вы можете проверить, верна ли эта часть предложения.Игральная карта «Желтая»: переверните эту карту, и вы сможете проверить, является ли число на противоположной стороне кратным 4.Игральные карты «50» и «30». Хотя числа на этих двух картах не кратны 4, убедитесь, что другая сторона не желтая. Если другая сторона желтая, то утверждение о том, что на другой стороне желтые только числа, кратные 4, отменяется.Карты «23», «Красное» или «Зеленое» переворачивать не нужно. Карта «23» не кратна 4, поэтому не имеет значения, какого цвета другая сторона согласно данному предложению. Если числа на другой стороне «красной» и «зеленой» карточек кратны 4, они также не опровергают предложение, так как в предложении не говорится, что желтый цвет — единственный цвет, который может появиться на другой стороне карты. карточки с числами, кратными 4.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-4050707d6b-dd1a6f-1c6801) На самом деле нужно перевернуть только 16, красный и зеленый. Таким образом, с точки зрения точности эти ответы снова показывают, что GPT-4 не понимает семантику материальных условных предложений.Когда GPT-4 говорит, что игральные карты «50» и «30» должны быть перевернуты, она, кажется, ошибочно приняла «если» за «если и только если»: «Когда числа, показанные на этих картах, не кратны 4, они следует проверить, чтобы убедиться, что цвет одной стороны не желтый. Если другая сторона желтая, то предложение «на другой стороне есть только кратные 4 желтые» отменяется. Конечно, проверяемое предложение не требует, чтобы на другой стороне были желтыми только числа, кратные 4; оно требует только, чтобы если другая сторона карты кратна 4, то другая сторона должна быть желтой; или, другими словами, словами, если a Если лицевая сторона карты не желтая, то число на другой стороне не кратно 4.Но имейте в виду, что даже неправильное толкование правила как двойного условия не всегда выполняется. Если GPT-4 воспринял проверяемое правило как двойное условие и поэтому должен поменять местами 50 и 30, то он должен сделать то же самое для 23. Но это не так.На самом деле, в нем прямо указано, что игральная карта «23» не кратна 4, поэтому не имеет значения, какого цвета другая сторона согласно данной пропозиции, что согласуется с двухусловной интерпретацией, которую она использует в качестве причина перелистывания 50 и 30 Противоречивая. Это снова иллюстрирует еще одну важную тему, вытекающую из этих примеров: ответы GPT-4, правильные или неправильные, часто по своей сути противоречивы.Кроме того, Константин Аркудас также проверил в статье возможности пространственного мышления, энтропии, правильности простых компиляторов и временных рассуждений.Из-за нехватки места мы выбрали только несколько приведенных выше примеров для иллюстрации в этой статье.## **в заключение**В конце концов, различные проверки, несомненно, подтвердили безрадостную картину способности GPT-4 рассуждать.Результаты показывают, что модель страдает от внутренних несоответствий, неправильного применения основных методов рассуждений и отсутствия понимания понятий, играющих фундаментальную роль в рассуждениях, таких как материальные условия.Но на самом деле эти проблемы часто обобщаются как ошибки и «иллюзии», вызванные большой моделью, но на самом деле она не обладает способностью рассуждать.Учитывая, что GPT-4 в настоящее время является наиболее способным LLM, Константин Аркудас делает три основных вывода из этих выводов:1. Использование генеративного ИИ в разработке программного обеспечения (или в науке и инженерии в целом) для чего-либо, кроме утомительных задач (как своего рода ускоренное автодополнение для наукоемких задач кодирования), сопряжено с серьезным риском. Канонические стандарты правильности имеют решающее значение, и в этих областях текущие LLM не соответствуют таким стандартам. Подобно тому, как генеративный ИИ начал загрязнять Интернет плохой рекламой, он потенциально может увеличить количество ошибочного кода в массовом масштабе.2. Если рассуждения LLM продолжат улучшаться, строгая проверка доказательств может стать все более важной. Уверенность в правильности рассуждений системы необходима для приложений, особенно в науке, медицине и инженерии, и проверочная проверка является методом, который может обеспечить это доверие. Этого подхода можно добиться, попросив LLMS упорядочить свои выводы (выраженные в символьной нотации, которую легко проверить и проверить) или, возможно, обучив другие LLMS анализировать вывод, выраженный на естественном языке.3. В нынешнем виде антиутопический сценарий с участием мошеннического ИИ, который ставит людей на колени, или даже других людей, использующих ИИ для гнусных целей, очень надуман. Когда самые передовые системы искусственного интеллекта не могут даже различать левое и правое во время пространственного мышления, явно преждевременно получать так много призывов от отрасли к политике и институтам для защиты людей от их искусственного интеллекта.## **Полемика**По мнению Константина Аркудаса, нынешний генеративный ИИ все еще находится на ранних стадиях развития, и ему еще далеко до мыслительных способностей и эпохи ОИИ.Как только эта статья была выпущена, она также привлекла большое внимание и обсуждение на HN. Неужели мы все были обмануты за последние 5 месяцев?![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-ea9f41912f-dd1a6f-1c6801) Однако его уникальная точка зрения также была признана многими учеными в области искусственного интеллекта.Гэри Маркус, «ренегат» в области искусственного интеллекта и почетный профессор психологии и неврологии Нью-Йоркского университета, написал в Твиттере: «Если это правда, как я уже сказал ранее, мы недалеко от общего искусственного интеллекта. Очень далеко». *Возможно, требуется много перекалибровки: у вас не может быть ОИИ без рассуждений**».![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-5ce181c3b7-dd1a6f-1c6801) Никос Цагаракис, директор по искусственному интеллекту в @SiSafLtd, сказал: "Алгоритмы глубокого обучения созданы для того, чтобы делать прогнозы на основе восприятия. Они могут имитировать рассуждения, но на самом деле это восприятие".Однако у некоторых пользователей сети возникли сомнения:Я просмотрел материал и попытался воспроизвести некоторые из обнаруженных сбоев, из которых я пришел к двум выводам.1. Автор не умеет. Есть много способов уменьшить количество галлюцинаций и предоставить моделям лучшие мыслительные пути.2. Автор использует GPT-4 ChatGPT, из-за чего он путает «GPT-4» с «ChatGPT». Хотя вы можете возразить, что это обычный сбой OpenAI, из-за недопонимания OpenAI любой, кто серьезно оценивает эти модели, будет знать, что первое, что вам нужно сделать, это использовать API и заблокировать версию модели. Что касается автора, то он должен использовать gpt-4-0314 или gpt-4-0613. Я подозреваю, что он просто использует ChatGPT GPT-4 и, скорее всего, модель по умолчанию. (Режим по умолчанию не должен использоваться никем. Это модель с наихудшей оптимизацией производительности, которая хуже, чем модель плагинов, в задачах логического вывода, даже в задачах, зависящих от контекста).Если автор серьезно оценивал модель, объяснение модели — это первое, что он сделает. Может быть, ему стоит объяснить свои рассуждения.А пока, что вы думаете?ссылка:Адрес бумаги: