обдурили? GPT-4 насправді не має здатності міркувати? !

Question

Організувати |Вт хвСписок | CSDN (ID: CSDNnews)![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-4ca4684bfe-dd1a6f-1c6801) *Джерело зображення: створено інструментом Unbounded AI*У березні цього року OpenAI випустив велику модель GPT-4, яка надала більш потужні міркування, обчислення та логічні можливості, ніж GPT-3.5 позаду ChatGPT, а також викликала сплеск універсального використання. У процесі використання дослідниками, розробниками та дизайнерами в різних сферах «GPT-4 є найбільш провідною великою моделлю», здається, стало визнаним результатом.Однак 7 серпня Костянтин Аркудас, який закінчив Массачусетський технологічний інститут і зараз є технічним директором Dyania Health, нещодавно написав препринт під назвою «GPT-4 не може розуміти» (GPT-4 Can't Reason) ( Посилання на проекти статей у науковій літературі, які ще не були опубліковані в рецензованих наукових журналах, викликали обурення в галузі.У документі зазначається, що GPT-4 має значні покращення за всіма напрямками порівняно з GPT 3.5. Однак, незважаючи на те, що він досягає вражаючих покращень, є вагомі підстави бути дуже скептичними щодо можливостей висновку GPT-4. У цьому документі обговорюється природа міркування, критикується поточне формулювання проблем міркування в НЛП-спільноті та поточний спосіб оцінки ефективності міркування LLM, а також ділиться колекцією з 21 різної проблеми міркування на основі GPT-4.Остаточний висновок: **Незважаючи на випадкові спалахи аналітичного блиску, GPT-4 наразі абсолютно нездатний міркувати. **Адреса паперу:![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-5818562a45-dd1a6f-1c6801) Одне слово викликало тисячу хвиль.Чи ж це не міркування, що GPT-4 згенерував код гри всього за кілька хвилин тому?## **Що таке висновок? **Фактично, на початку січня цього року автор статті, Костянтин Аркудас, поділився неофіційною оцінкою ChatGPT на платформі Medium.Оцінка охоплювала широкий спектр дисциплін, включаючи традиційну NLU, народну фізику, пошук інформації, теорія розуму, просторове мислення, просте логічне мислення та математика.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-1a1a1a727e-dd1a6f-1c6801) адреса:Основні висновки, зроблені тоді: ChatGPT — це революційний прорив; системи на базі LLM — це не просто «випадкові папуги», вони створюють справжні абстракції та можуть проявляти креативність; такі системи принесуть багато захоплюючих нових програм; незважаючи на вищезазначене. досягнень, ці системи залишаються сильно обмеженими у своїх можливостях висновків.На його думку, оновлена версія GPT-4 залишається такою ж і сьогодні, і вона навіть не має можливості міркувати взагалі.У статті Костянтин Аркудас зазначив, що галузеві дебати щодо того, «чи має LLM здатність міркувати», тривають протягом тривалого часу.* З одного боку, це фракція підтримки LLM. Їхні передбачення хорошої здатності міркувати у великих моделях часто ґрунтуються на зміні «законів», і ці так звані «закони», стверджує Костянтин Аркудас, насправді є хисткими емпіричними доказами, великою кількістю сумнівних припущень моделювання, розуміння неоднозначних концепцій (LLM функції) і навіть трохи догматичного переконання, що мінімізація втрат перехресної ентропії для передбачення наступного маркера у великому корпусі забезпечує механізм висновку загального призначення.* З іншого боку, є скептики LLM. Вони, як правило, мають суворі аргументи, але ці аргументи здебільшого ґрунтуються на минулому досвіді та аналізі та є дещо нечіткими (наприклад, LLM не має «моделі світу», внутрішньої моделі того, як працює світ).Грунтуючись на цих двох міркуваннях, Костянтин Аркудас стверджує, що найбільш переконливі апріорні (минулий досвід і аналіз) міркування щодо правдоподібності надійних надійних висновків LLM є результатами обчислювальної складності. Висновок є дуже складною обчислювальною проблемою. Насправді це алгоритмічно нерозв'язне в загальному випадку (логіка першого чи вищого порядку).За словами Костянтина Аркудаса, «будь-який LLM, незалежно від того, наскільки він великий, широкий і розумний, не може зламати довільні проблеми логічного висновку. Це узгоджується зі знаменитою теоремою про «немає безкоштовного обіду» в машинному навчанні, яка стверджує, що загальність моделі Подібний обернений зв’язок між виконанням і виконанням».Тому, щоб перевірити, «чи має GPT-4 здатність міркувати», перше, що потрібно зробити, це уніфікувати концепцію, тобто те, що таке міркування, і конкретний метод, який використовується для визначення здатності міркувати.Щодо визначення міркування, Костянтин Аркудас сказав, що «міркування — це не отримання правильної відповіді недобросовісними засобами, а отримання правильної відповіді з правильної причини».Точніше, міркування - це процес висунення аргументу і, що більш важливо, його доведення. Аргумент складається з висновку (так би мовити, результату аргументу) і набору передумов, з яких виводиться висновок. Приміщення представляють інформацію, яка вважається наданою, навіть якщо лише тимчасово, для цілей аргументації. Висновки та посилки зазвичай є декларативними реченнями, вираженими символами природної мови або символічної логіки, які можуть бути істинними чи хибними, але також можуть бути представлені іншими символами, такими як діаграми. Якщо всі речення в S істинні, то p істинне, і в цьому випадку аргумент вважається дійсним.Що стосується методології, оцінка, прийнята Костянтином Аркудасом у статті, не базується на корпусі чи наборі корпусів. Натомість він представляє детальний якісний аналіз продуктивності GPT-4 для 21 простої задачі міркування в широкій області, більшість з яких були написані з нуля, а решта (такі як завдання Васона на вибір) були налаштовані вручну, що є частиною причини створення моделі важко ідентифікувати їх також, щоб уникнути забруднення даних.## **Перевірте міркування GPT-4 за допомогою тестових запитань**Виходячи з цього, Костянтин Аркудас поставив запитання про GPT-4 з багатьох вимірів і провів детальний аналіз на основі його результатів.Варто зазначити, що завдяки властивостям GPT-4 іноді навіть використання того самого "" може отримати різні відповіді в різних прогонах.Далі починається перевірка (**усі наведені нижче терміни тестування базуються на результатах тестування 5 липня 2023 року**).**Проста арифметика**Костянтин Аркудас каже, що вміння виконувати основні арифметичні операції є необхідною частиною загального міркування, особливо в наукових та інженерних додатках. Щоб переконатися, що GPT-4 не запам’ятовує його напам’ять, він пропонує дозволити GPT-4 випадковим чином вибрати два випадкових цілих числа в обраному діапазоні, а потім виконати операції над вибраними значеннями.**KA дає:**Виберіть два випадкових числа від 1381 до 1453, перемножте їх разом і повідомте результат.**Відповідь GPT-4:**Звичайно, давайте виберемо два випадкових числа в діапазоні від 1381 до 1453. Припустимо, це числа 1405 і 1421.Щоб отримати добуток, ми просто перемножимо ці два числа: 1405\*1421 = 1996025![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-d1deacd237-dd1a6f-1c6801) Але насправді правильна відповідь 1405\*1421=1996505.Виявляється, GPT-4 все ще не може надійно виконувати базові арифметичні операції, такі як додавання та множення.Костянтин Аркудас сказав, що, можливо, прихильники LLM могли б визнати, що GPT-4 не є повною за Тьюрингом структурою і не може виконувати обчислення загального призначення: він не може складати, множити чи ділити, сортувати списки чи інвертувати матриці або розв’язувати диференціальні рівняння, не може компілювати довільні програми в машинний код, не може виводити теореми тощо.Однак цей недолік обчислювальної потужності можна компенсувати сторонніми плагінами, такими як ReAct, фреймворк MRKL. Саме такий спосіб роботи дав початок таким системам, як LangChain і AutoGPT. Ідея полягає в тому, щоб використовувати LLM як планувальник для рекурсивного розкладання складної проблеми на серію підпроблем, які надсилаються спеціалізованим агентам через відповідні API.Однак, за словами Костянтина Аркудаса, проблема цього підходу полягає в його круговій природі. Саме планування потребує міркування, тому існує «дилема», що ми не можемо вирішити проблему міркування, делегувавши проблему відповідному агенту, тому що з’ясувати, як делегувати (як декомпонувати проблему, яких агентів викликати, як викликати і як результат декомпозиції) сам по собі неможливо виконати обчислення. Це вимагає не тільки здатності розуміти природну мову, але й здатності міркувати про передумови та наслідки. Навіть за цих надто спрощених припущень планування обчислювально дороге (PSPACE-complele), що вимагає радикальних спрощень, щоб зменшити складність до NP-complele рівнів. За більш реалістичних припущень планування виконується з неповним знанням і є механічно невирішальним. Було б наївно очікувати, що загальні LLM будуть успішними у вирішенні проблем планування, як ми їх розуміємо сьогодні.** Простий підрахунок **Дайте GPT-4 пропозиційну змінну, якій передують 27 символів заперечення, і попросіть її підрахувати кількість заперечень. Для людей це легке завдання, особливо тому, що символи заперечення записуються п’ятьма блоками, кожен із п’ятьма крапками та парою символів заперечення в кінці, але як працює GPT-4?**KA:**Скільки разів p об’єднується в таку формулу:~~~~~ ~~~~~ ~~~~~ ~~~~~ ~~~~~ ~~ p**Відповідь GPT-4:**GPT-4: наведена вами формула містить 28 символів заперечення ("∼") перед пропозиційною змінною "p". У логіці знак заперечення змінює істинне значення твердження на протилежне. Якщо твердження істинне, то його заперечення хибне, і навпаки. Подвійне заперечення, таке як «∼ ~ p», еквівалентне «p», тому що двічі заперечення пропозиції відновлює її початкове значення істинності.Якщо є залишок, то є заперечення. Якщо ні, то заперечення немає.28 поділити на 2 — це 14 без залишку, що означає відсутність заперечення. Отже, фактично в наведеній формулі змінна "p" не заперечується. Це просто еквівалент "p".![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-dd39db081a-dd1a6f-1c6801) Костянтин Аркудас виявив, що різниця в додаванні єдиного символу заперечення в GPT-4 не здається суттєвою, доки ми не усвідомимо всі відмінності в його логічному введенні, як це підкреслюється власним (небажаним) поясненням GPT-4. Навіть коли GPT-4 прямо сказали не поспішати і ретельно порахувати, багаторазове повторення експерименту дало абсолютно різні результати.**Питання про загальні знання**Потім Костянтин Аркудас додав: «Пульс Мейбл становив 75 ударів о 9 ранку, а її артеріальний тиск був 120/80 о 7 вечора. Вона померла об 11 вечора. Чи була вона жива опівдні?»![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-ed0007b40d-dd1a6f-1c6801) **GPT-4:**Виходячи з наданої інформації, ми не можемо бути впевнені, жива Мейбл Нун чи ні. Наведені дані (частота серцевих скорочень о 9 годині ранку та артеріальний тиск о 19 годині) вказують на те, що вона була жива в той час. Однак без додаткової інформації про те, що сталося з нею між 19:00 і 23:00, або конкретно опівдні, ми не можемо бути впевнені, якою вона була опівдні.Пам’ятайте, що медична інформація може бути складною та делікатною. Знання стану здоров’я людини, як правило, вимагає комплексного обстеження, яке повинно проводитися медичним працівником. Якщо це гіпотетичне питання, пам'ятайте, що реальне життя вимагає більш повної інформації.У нинішньому контексті аргументи здорового глузду насправді можна розглядати як пряме виведення висновків, зроблених на основі наданої інформації, плюс невикладені передумови, які становлять загальновизнані базові знання. У цьому конкретному випадку таким знанням здорового глузду є положення про те, що «людина живе, поки не помре, і ніколи не живе після смерті». У газеті Костянтин Аркудас вважає, що заява GPT-4 про те, що «це складна проблема, обов’язково проконсультуйтеся з професіоналом», виглядає іронічною.**Питання Васона на вибір**Завдання Васона на вибір є основним елементом психології міркування.**KA:**На столі лежать сім гральних карт, кожна з яких має номер з одного боку та монохромний візерунок з іншого. Картки показують 50, 16, червоний, жовтий, 23, зелений, 30 відповідно. Якщо картка кратна 4, то протилежний колір жовтий.Яку картку потрібно перевернути, щоб перевірити істинність цього положення?**GPT-4:**Пропозиція така: «Якщо число на картці кратне 4, то колір на іншій стороні — жовтий». Щоб перевірити цю пропозицію, ви повинні перевернути такі картки:Гральна карта «16»: Відповідно до пропозиції колір іншої сторони повинен бути жовтим. Перегорнувши цю картку, ви можете перевірити, чи виконується ця частина пропозиції.Гральна карта «Жовта»: переверніть цю картку, щоб перевірити, чи число на протилежній стороні кратне 4.Гральні карти «50» і «30»: хоча числа на цих двох картках не кратні 4, переконайтеся, що інша сторона не жовта. Якщо інша сторона жовта, то твердження, що лише кратні 4 жовті з іншої сторони, скасовується.Карти «23», «Червона» або «Зелена» перевертати не потрібно. Картка «23» не кратна 4, тому не має значення, якого кольору інша сторона відповідно до даної пропозиції. Якщо числа на іншій стороні «червоної» та «зеленої» карток кратні 4, вони також не спростовують пропозицію, оскільки пропозиція не стверджує, що жовтий є єдиним кольором, який може з’явитися на іншій стороні картки. картки з числами, кратними 4.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-4050707d6b-dd1a6f-1c6801) Насправді потрібно перевернути лише 16, червоний і зелений. Таким чином, з точки зору точності, ці відповіді знову показують, що GPT-4 не розуміє семантику матеріальних умовних виразів.Коли GPT-4 каже, що гральні карти «50» і «30» повинні бути перевернуті, це, здається, помилково прийняло «якщо» за «якщо і тільки якщо»: «Коли числа, зображені на цих картках, не кратні 4, вони слід перевірити, щоб переконатися в протилежному. Колір однієї сторони не жовтий. Якщо інша сторона жовта, то твердження "Є лише кратні 4, які жовті з іншого боку" скасовується". Звичайно, твердження, яке перевіряється, не вимагає, щоб лише кратні 4 були жовтими з іншого боку; воно лише вимагає, що якщо інша сторона картки кратна 4, тоді інша сторона має бути жовтою; або в інших слова, якщо а Якщо лицьова сторона картки не жовта, то число на іншій грані не кратне 4.Але слід пам’ятати, що навіть неправильне тлумачення правила як подвійної умови не виконується послідовно. Якщо GPT-4 зрозумів правило, що перевіряється, як подвійну умову і, таким чином, мав перевернути 50 і 30, то він повинен зробити те саме для 23. Але це не робить цього.Насправді в ньому чітко зазначено, що гральна карта «23» не кратна 4, тому не має значення, якого кольору інша сторона відповідно до даної пропозиції, що узгоджується з інтерпретацією двох умов, яку вона використовує як причина перевертання 50 і 30 суперечить. Це ще раз ілюструє іншу важливу тему, яка випливає з цих прикладів: відповіді GPT-4, правильні чи неправильні, часто за своєю суттю є непослідовними.Крім того, Костянтин Аркудас також перевірив можливості просторових міркувань, ентропії, коректності простих компіляторів і часових міркувань у статті.Через обмеження простору ми вибираємо лише кілька прикладів, наведених вище, для ілюстрації в цій статті.## **на завершення**Зрештою, різні перевірки, безсумнівно, довели похмуру картину здатності міркувати GPT-4.Результати показують, що модель страждає від внутрішніх неузгодженостей, неправильного застосування базових методів міркування та відсутності розуміння понять, які відіграють фундаментальну роль у міркуванні, таких як матеріальні умови.Але насправді ці проблеми часто підсумовуються як помилки та «ілюзії», породжені великою моделлю, але насправді вона не має здатності міркувати.З огляду на те, що GPT-4 на даний момент є найефективнішим LLM, Костянтин Аркудас робить три основні висновки з цих висновків:1. Використання генеративного штучного інтелекту в розробці програмного забезпечення (або в науці та інженерії загалом) для будь-чого, крім виснажливих завдань (як свого роду турбонаддув автозавершення для наукомістких проблем кодування), пов’язане з серйозним ризиком. Канонічні стандарти правильності є критично важливими, і в цих областях поточні LLM не відповідають таким стандартам. Подібно до того, як генеративний штучний інтелект почав забруднювати мережу поганою рекламою, він має потенціал помножити помилковий код у величезних масштабах.2. Якщо аргументація LLM продовжуватиме вдосконалюватися, сувора перевірка доказів може стати дедалі важливішою. Впевненість у правильності міркувань системи є важливою для застосувань, особливо в науці, медицині та інженерії, а перевірка перевірки є технікою, яка може забезпечити цю довіру. Такого підходу можна досягти, попросивши LLMS упорядкувати свої висновки (виражені в символічній нотації, яку легко перевірити) або, можливо, навчивши інших LLMS досліджувати фрагмент висновку, виражений природною мовою.3. У нинішньому вигляді антиутопічний сценарій за участю шахрайського штучного інтелекту, який ставить людей на коліна або навіть інших людей, які використовують штучний інтелект для підлих цілей, є дуже надуманим. Оскільки найдосконаліші системи штучного інтелекту навіть не можуть розрізнити ліворуч і праворуч під час просторових міркувань, явно передчасно отримувати стільки закликів з боку індустрії до політики та установ щодо захисту людей від їхнього ШІ.## **Суперечка**На думку Костянтина Аркудаса, поточний генеративний ШІ все ще перебуває на ранніх стадіях розвитку, і він ще далекий від здатності міркувати та ери AGI.Після того, як ця стаття була опублікована, вона також привернула багато уваги та дискусій на HN Чи всіх нас обманули за останні 5 місяців?![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-ea9f41912f-dd1a6f-1c6801) Однак його унікальний погляд також визнали багато вчених ШІ.Гарі Маркус, «відступник» у галузі штучного інтелекту та почесний професор психології та нейронаук Нью-Йоркського університету, написав у Twitter: «Якщо це правда, як я вже сказав раніше, ми недалеко від загального штучного інтелекту Дуже далеко.* *Можливо, потрібно багато повторного калібрування: ви не можете мати AGI без обґрунтування**."![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-5ce181c3b7-dd1a6f-1c6801) Нікос Цагаракіс, головний спеціаліст зі штучного інтелекту в @SiSafLtd, сказав: "Алгоритми глибокого навчання створені, щоб робити прогнози на основі сприйняття. Вони можуть підробити міркування, але насправді це сприйняття".Однак у деяких користувачів мережі виникли сумніви:Я переглянув матеріал і спробував відтворити деякі з повідомлених збоїв, з чого дійшов двох висновків.1. Автор не вміє. Є багато способів зменшити галюцинації та надати моделям кращі шляхи мислення.2. Автор використовує GPT-4 ChatGPT, через що він плутає "GPT-4" із "ChatGPT". Хоча ви можете стверджувати, що це звичайна помилка OpenAI, через неправильне спілкування OpenAI, будь-хто, хто серйозно оцінює ці моделі, знатиме, що перше, що вам потрібно зробити, це використовувати API та заблокувати версію моделі. Що стосується автора, він повинен використовувати gpt-4-0314 або gpt-4-0613. Я підозрюю, що він просто використовує GPT-4 ChatGPT і, швидше за все, модель за замовчуванням. (Режим за замовчуванням не повинен використовуватися ніким. Це модель з найгіршою оптимізованою продуктивністю, яка працює гірше, ніж модель плагінів, у задачах логічного висновку, навіть у завданнях із контекстним розміром).Якщо автор серйозно оцінював модель, пояснення моделі є першим, що він зробить. Можливо, він повинен пояснити свої міркування.Поки що ви думаєте?посилання:Адреса паперу: