Аргументація GPT-4 надто обурлива! Загальний бал з математики, фізики та хімії в університеті менше половини, а всі 21 типи запитань на міркування скасовуються.Маркус: AGI надто далеко
Посібник: Найпотужніший GPT-4 на поверхні допускає помилки в обґрунтуванні запитань одна за одною! Останні дослідження випускників Массачусетського технологічного інституту та китайського університету в Лос-Анджелесі привернули увагу багатьох користувачів мережі.
GPT-4 взагалі не вміє міркувати!
Нещодавно два дослідження показали, що GPT-4 погано працює в міркуваннях.
Костянтин Аркудас, випускник Массачусетського технологічного інституту, оцінив GPT-4 на 21 різних типах наборів висновків.
Потім проводиться детальний якісний аналіз продуктивності ГПТ-4 на ці проблеми.
Дослідження виявили, що GPT-4 іноді демонструє талант «найсильнішого мозку», але наразі GPT-4 взагалі не має здатності міркувати.
Адреса паперу:
Як тільки дослідження було оприлюднено, багато користувачів мережі зібралися подивитися.
Маркус сказав: «Якщо це правда, як я вже говорив раніше, ми все ще далекі від AGI. Можливо, нам знадобиться виконати багато повторних калібрувань: не може бути AGI без міркувань».
Інше дослідження, проведене Каліфорнійським університетом у Лос-Анджелесі та Університетом Вашингтона, також виявило, що GPT-4 і GPT-3.5 погано справляються з обґрунтуванням завдань з математики, фізики та хімії в університеті.
Адреса паперу:
Дослідники представили SCIBENCH, університетську наукову базу для вирішення проблем, яка містить 2 набори даних: відкритий і закритий набір даних.
Завдяки поглибленому дослідженню GPT-4 і GPT-3.5 з використанням різних стратегій підказок результати показують, що середній загальний бал GPT-4 становить лише 35,8%.
Це дослідження також знову привернуло увагу Маркуса:
Систематичне дослідження міркувань у математиці, хімії та фізиці, яке показує, що поточні LLM не забезпечують задовільну продуктивність... жодна стратегія підказки не є значно кращою за інші.
Давайте детальніше розглянемо, як GPT-4 зазнав невдачі в 21 наборі завдань, математики, фізики та хімії.
21 набір задач, повне оновлення GPT-4
Однак, перш ніж переглянути GPT-4, щоб відповісти на запитання, автор дає примітку:
GPT-4 є недетермінованою системою, яка може давати різні відповіді в різних прогонах навіть з однаковими налаштуваннями параметрів.
Хоча наступні тестові обміни є дослівними, з досвіду автора, речі, які обговорюються в статті, коли GPT-4 йде не так, як правило, надійні.
1 проста арифметика
Уміння виконувати елементарні операції є необхідною умовою міркування.
Однак GPT-4 все ще не може надійно виконувати основні арифметичні операції, такі як додавання та множення.
Наприклад, нехай GPT-4 навмання вибере два числа між 1381 і 1453, щоб помножити та отримати результат.
GPT-4 вибрав 1405 і 1421, але остаточний результат був явно неправильним. Оскільки 1405×1421=1996505.
2 простий рахунок
Хоча конкретний підрахунок не обов’язково є діяльністю міркування, він, безперечно, є необхідною умовою для будь-якої системи міркування із загальними здібностями.
Тут GPT-4 отримує пропозиційну змінну з префіксом 27 символів заперечення, що вимагає підрахувати кількість символів заперечення.
Для нас це було легко, особливо тому, що заперечення записуються через 5 один від одного, і є 5 груп, з останньою парою заперечень відразу після.
Однак ГПТ-4 дав «28» відповідей.
3 (Медичний) Здоровий глузд
Наразі ми можемо розглядати аргументи здорового глузду як прості висновки, зроблені на основі наданої інформації та невказаних умов (за замовчуванням, загальноприйняті базові знання).
У цьому конкретному випадку знання здорового глузду — це положення на зразок «Людина живе, доки не помре, і ніколи не живе після смерті».
Наприклад, коли ви запитуєте GPT-4: частота серцевих скорочень Мейбла становить 75 ударів на хвилину о 9 ранку, а кров’яний тиск становить 120/80 о 7 вечора. Вона померла об 11 вечора. Вона жива опівдні?
GPT-4 фактично відповів: «Згідно з наданою інформацією, опівдні неможливо визначити, чи Мейбл ще жива».
Але, очевидно, на основі наданої інформації, здоровий глузд (без роздумів) веде безпосередньо до висновків.
4 Елементарна логіка
Якщо P(x) містить Q(x), а Q(a) не виконується, тоді ми можемо вивести з моделі, що P(a) не виконується (оскільки якщо P(a) виконується, то Q(a) буде тримати) .
Це базова тавтологія, але GPT-4 пропонує повністю антимодель:
值得注意的是,GPT-4认识到,P(x)实际上并不包含Q(x) , і припустив, що x може бути від’ємним парним числом, «не виключає існування моделей з іншими заданими умовами».
Насправді контрмодель повинна задовольняти всім заданим умовам і водночас фальсифікувати висновок.
Крім того, лише кількома реченнями пізніше GPT-4 стверджує, що P(x) справді означає Q(x) згідно з даною інтерпретацією, що суперечить його власному попередньому твердженню.
Зверніть увагу, що GPT-4 також має внутрішні невідповідності.
5 семантик простих кванторів
Розгляньте наступні три речення:
[для всіх x . P(x) ==> Q(x)]
[існує x . P(x)]
[існує x . ∼ Q(x)]
Будь ласка, сфальсифікуйте або доведіть таке твердження: Ці три речення є спільно задовільними.
显然,这三个句子都是共同可满足的,一个简单的模型是具有P(a1)、Q(a1)、¬P(a2) і область {a1, a2} ¬Q(a2), однак висновок, зроблений GPT-4, є протилежним.
6. Просте фарбування графіка
Розглянемо спочатку задачу розфарбування графа без розв’язку.
Неважко помітити, що двох кольорів недостатньо для графа, описаного в цьому питанні (наприклад, вершини 0, 2 і 4 утворюють кластер, тому потрібно принаймні 3 кольори).
У цьому короткому висновку є маса вражаючих помилок.
GPT-4 починається з неправдивого ствердження, що граф повний (очевидно, ні, наприклад, немає ребра між вершинами 2 і 3).
Крім того, очевидно, що якщо граф дійсно повний, то його неможливо розфарбувати в 2 кольори, оскільки для повного графа з 6 вершинами потрібно як мінімум 6 кольорів.
Іншими словами, твердження GPT-4 не тільки неправильні, але й суперечливі: один момент говорить нам (помилково), що цей 6-вершинний граф повний, що означає, що його неможливо розфарбувати двома кольорами, а інший момент надає A два -колірний «розчин».
Варто зазначити, що причина, по якій GPT-4 працює так погано, полягає не в тому, що він не має достатньо знань або даних про графіки.
Коли дослідники запитали GPT-4 про його розуміння «повних графів», він видав правильне визначення «повних графів», а також довгий список результатів для K_n (повні графи з n вершинами).
Мабуть, GPT-4 запам'ятав всю цю інформацію, але не може застосувати її до нових умов.
7. Сума підмножини
S = {2, 8, 6, 32, 22, 44, 28, 12, 18, 10, 14}. Отже, скільки підмножин S мають суму 37?
У цій задачі підмножина S парна, а сума парних чисел не може бути непарною, тому відповідь 0.
Однак замість того, щоб зупинитися на розгляді того, що містить S, GPT-4 рефлекторно генерує те, що, на його думку, є відповідною відповіддю на запитання, а потім переходить до «магічної» відповіді «4».
8 Елементарна дискретна математика
Скажіть GPT-4, що A × B представляє декартів добуток множин A і B, що відношення R від A до B є підмножиною A × B, а & представляє перетин множин, а потім попросіть його підтвердити чи сфальсифікувати :
其中R1和R2是从A到B的二元关系,dom(R) Представляє область бінарного відношення R.
Відношення підмножини має виконуватися в обох напрямках (2), але воно виконується лише в напрямку зліва направо. Контрприклади в іншому напрямку легко знайти (наприклад, візьмемо A = {(1, 2)} і B = {(1,3)}).
Однак GPT-4 робить висновок, що це правда, що явно невірно.
9 простих планів розташування
Що стосується часу, GPT-4 також помилився.
Гортайте вгору та вниз, щоб переглянути всі
10 Парадокс Рассела
Парадокс перукаря Рассела стверджує, що існує перукар b, який голить лише тих, хто не голиться сам.
Заперечення цього речення є тавтологією, яку легко вивести за допомогою логіки першого порядку.
Якщо ми розуміємо R(a,b) як істоту, поголену b, тоді ми можемо придумати цю тавтологію та попросити GPT-4 довести або спростувати це, як показано нижче:
Якщо існує такий перукар x, то для всіх y ми матимемо R(y,x) <==> ∼ R(y,y), тому заміна x на y дасть R(x,x) <== > ∼ R(x,x), що є суперечністю.
GPT-4 має бездоганне розуміння структури речень, які йому надають, і того, що йому потрібно робити. Подальші приклади, однак, заплутані.
11 Brick World
Це просте завдання на міркування, яке вимагає аналізу випадку передостаннього будівельного блоку B3.
По-перше, B3 або зелений, або ні.
Якщо він зелений, то B3 знаходиться на вершині незеленого блоку B4, тому висновок вірний.
Якщо ні, то другий зелений блок B2 зверху знаходиться на незеленому блоці B3, тому висновок залишається дійсним.
Однак результати показали, що GPT-4 не працює добре.
Існує п’ять блоків, складених зверху вниз: 1. Другий блок зверху зелений 2. Четвертий блок зверху не зелений. У випадках, коли ці умови виконуються, сфальсифікуйте або доведіть наступне: Є зелений блок безпосередньо над незеленим блоком.
Перш за все, коли він доводить гіпотезу, він уже припустився помилки в стратегії доказу - PT-4 передбачає два особливі випадки для міркування.
Крім того, GPT-4 дійшов висновку (хоча й неправильного) у своїх власних міркуваннях, але під час відповіді все одно повідомляє користувачеві, що проблему не вирішено. І це відображає внутрішню невідповідність моделі.
12 Просторове міркування
Тут автор обирає проблему орієнтування в реальному світі:
Відповідь, яку вперше надав GPT-4, знаходиться праворуч, але автор вказав на її помилку.Хоч Бостон, штат Массачусетс, дійсно знаходиться на карті праворуч від Південної Дакоти, тут є додаткова умова: орієнтація тіла Це Техас.
Це означає, що Бостон знаходиться зліва від автора.
Пізніше, коли GPT-4 відповів на високі та низькі позиції Бостона та Південної Дакоти, виникла більш серйозна проблема: він дав два суперечливі описи в одній відповіді.
13 часових міркувань
Автор дає тут відносно просте запитання для обґрунтування часу, але відповідь GPT-4 все ще безлад.
Тому і Ненсі потрібен транспорт на роботу. Час на дорогу Ненсі становить приблизно 30-40 хвилин, а час Тома – приблизно 40-50 хвилин. Минулої п’ятниці Ненсі пішла з дому між 8:10 і 8:20 ранку, а Том прийшов на роботу між 8:5 і 9:10 ранку. Крім того, Ненсі приходить на роботу після того, як Том виходить з дому, але не пізніше ніж через 20 хвилин. Чи можете ви визначити, коли Том і Ненсі прийшли на роботу минулої п’ятниці?
Після сортування інформації в питанні GPT-4 дає свій процес міркування:
«Якщо Том вийде з дому якнайпізніше (8:20 ранку)...» Це речення починається неправильно.
Насправді в назві не вказано останній час, коли Том повинен вийти з дому, і GPT-4 неправильно використав час Ненсі («Ненсі пішла з дому між 8:10-8:20 ранку») до Тома.
У той же час умовне твердження, надане GPT-4, вводить в оману, а припущення містить інформацію (Том), яка не пов’язана з висновком (час прибуття Ненсі): «Якщо Том піде з дому найпізніше (8:20 ранку), Ненсі. Вона йде не пізніше 8:20 ранку, її дорога займає щонайбільше 40 хвилин, а Ненсі прибуває на роботу щонайпізніше о 9:00 ранку».
Це має бути сформульовано так: «Якщо Ненсі йде останнього часу (8:20 ранку), а її дорога займає щонайбільше 40 хвилин, тоді Ненсі прибуде на роботу щонайпізніше о 9:00».
Потім GPT-4 робить помилковий висновок: «Оскільки дорога Тома займає щонайменше 40 хвилин, це означає, що він прибуде на роботу не пізніше 9:00».
Цей висновок, очевидно, абсолютно неспроможний. Цей висновок не можна зробити з відомого факту, що час Тома на дорогу становить принаймні 40 хвилин.
Наступна відповідь усе ще базується на хибному припущенні, що найраніший час відправлення Тома – 8:10 (знову ж таки, цей час відправлення належить Ненсі, а не Томові).
Потім у ньому стверджується, що Ненсі прибула о 8:45, що не кваліфікується як вихід з дому о 8:10 ранку протягом 20 хвилин.
Зрештою, він робить неправильний висновок, що і Том, і Ненсі прибули між 8:50 і 9:00.
У процесі міркування GPT-4 неодноразово відображав інформацію неправдивим чином, і остаточна відповідь також є неправильною відповіддю на основі неправильних умов.
**14. Вбивство чи самогубство? **
Автор придумав логічну головоломку та перерахував 9 умов, щоб запитати GPT-4, щоб дізнатися, хто насправді вбив тітку Агату.
Хтось із мешканців особняка Дредбері вбив тітку Агату. 2. Єдиними мешканцями особняка Дредбері є тітка Агата, економка та Чарльз. 3. Вбивця завжди ненавидить своїх жертв, і він ніколи не стає багатшим за своїх жертв. 4. Чарльз не ненавидить людей, яких ненавидить тітка Агата. 5. Тітка Агата ненавиділа всіх, крім економки. 6. Дворецький ненавидить усіх, хто не багатший за тітку Агату. 7. Дворецький ненавидить усіх, кого ненавидить тітка Агата. 8. Ніхто не ненавидить усіх. 9. Тітка Агата не була домробітницею.
По-перше, згідно з умовою 5, тітка Агата повинна ненавидіти себе, тому що вона ненавидить усіх, крім економки.
Отже, згідно з умовою 4 випливає, що Чарльз не ненавидить її, тому він не може її вбити.
Відповідно до умов 5 і 7 дворецький не може ненавидіти себе, тому що якби він ненавидів себе, умова 8 не виконувалася б, і він ненавидів би всіх.
Згідно з умовою 6 робиться висновок, що дворецький багатший за тітку Агату, інакше він ненавидів би себе, що суперечить тому, що ми зробили висновок раніше, що він не ненавидить себе.
Відповідно до умови 3 дворецький також не буде вбивцею (умова 3).
У міркуваннях GPT-4 правильно виключив Чарльза, але не зміг виключити дворецького і дійшов неправильного висновку: дворецький був убивцею.
Ще одна критична помилка GPT-4: оскільки тітка Агата ненавидить усіх, крім домробітниці (умова 5), це означає, що вона принаймні не ненавидить себе.
Це дивна помилка, оскільки з 5-ї умови випливає, що тітка Агата ненавидить себе.
У той же час GPT-4 знову продемонстрував повторювані невідповідності — майже в кожній відповіді GPT-4 стверджував, що виводить певне положення та його негативну форму.
15 Вибіркове завдання Watson
Завдання на вибір Уотсона є основним змістом у сфері розумових міркувань.
У січневій статті GPT-3.5 провалив цей тест, а в цьому дослідженні продуктивність GPT-4 все ще не ідеальна.
На столі 7 карток, на кожній картці на одній стороні написано число, а на іншій — один кольоровий блок. На лицьовій стороні цих карт зображено 50, 16, червоний, жовтий, 23, зелений, 30.
Щоб визначити істинність пропозиції «Якщо на лицьовій стороні картки зображено число, кратне 4, колір на звороті жовтий», які картки потрібно перевернути?
Ці відповіді показують, що GPT-4 не розуміє семантику умовних операторів. Коли GPT-4 каже, що картки «50» і «30» повинні бути перевернуті, здається, умова помилково приймається за необхідну та достатню умову.
Незалежно від того, правильна чи неправильна відповідь GPT-4, його внутрішні твердження суперечать.
16 Ентропія
Основний висновок теорії інформації такий: верхня межа ентропії випадкового вектора Z не перевищує суму ентропій випадкових величин, які складають Z.
Тому відповідь на наступне запитання має бути «ні за яких обставин».
17 Правильність простого компілятора
Остання проблема висновку для GPT-4 є найскладнішою: довести правильність простого компілятора виразів.
Але в цьому тесті GPT-4 отримав правильний доказ, встановивши структурну індукцію на абстрактну синтаксичну структуру виразів.
Це може бути тому, що він бачив подібні докази раніше, а приклади, наведені авторами, є типом вправ, які зазвичай зустрічаються в курсах програмування та підручниках.
Однак у GPT-4 все ще є деякі помилки в деталях.
## Висновок: здатність міркувати є вирішальною, але GPT-4 ні
З огляду на те, що GPT-4 на даний момент є найпотужнішим LLM, автор робить три основні висновки на основі наведеного вище аналізу:
Використання генеративного штучного інтелекту в розробці програмного забезпечення (або в науці та інженерії загалом), за винятком деяких нудних завдань (як свого роду прискорене автозавершення наукомістких проблем кодування), пов’язане з ризиком. У цих сферах нормативність і правильність є критичними, і поточні LLM не відповідають цим стандартам.
У міру того як здатність міркувати LLM продовжує вдосконалюватися, сувора перевірка доказів ставатиме все більш важливою. Цей підхід може досліджувати міркування, висловлені природною мовою, попросивши LLM формалізувати свої міркування або навчаючи інших LLM.
У нинішньому вигляді антиутопічні сценарії завоювання людей штучним інтелектом або використання штучного інтелекту в підлих цілях є надуманими, навіть абсурдними. Коли найсучасніші системи штучного інтелекту навіть не можуть відрізнити ліворуч від правого (запитання 12 вище), закликати до політики захисту людей від нього в кращому випадку передчасно, а в гіршому – марнування ресурсів.
Дехто неминуче може сказати, що ці результати є «вибраними даними». Але це тому, що вони неправильно розуміють, що таке кураторські дані. Залежно від логічної структури та загального контексту розглядуваної пропозиції, вибір даних іноді навіть необхідний.
Налагодження комп’ютерної програми з метою виявлення та розуміння її слабких місць, спроба фальсифікувати наукову теорію, тестування нового автомобіля, спроба знайти антимодель передбачуваної теореми тощо — усе це, за своєю суттю, придирки.
Наприклад, якщо ви дізнаєтеся, що у вашої нової машини спущене колесо, дилерський центр може заперечити, що ви «вибираєте дані». Зрештою, якщо говорити про весь автомобіль, то показник цілої шини досягає 75%.
Подібним чином застосування в науці, медицині та інженерії, особливо розробка програмного забезпечення, має суворі стандарти.
Так само, як ми не хочемо, щоб міст стояв на стовпах 90% часу, нам потрібні алгоритми сортування, які працюють на всіх вхідних даних, а не лише на більшості; нам потрібні візки, які щоразу стягують правильну суму, а не лише більшість час і т.д.
І ці додатки, що потребують обчислень і міркувань, на відміну від механізмів рекомендацій, мають бути дуже надійними.
Про автора
Костянтин Аркудас
До минулого року Костянтин Аркудас працював дослідником у відділі когнітивних наук RPI та дослідником у CSAIL Массачусетського технологічного інституту.
Зараз він є старшим науковим співробітником Telcordia Research Laboratories, зосереджуючись на ШІ та застосуванні формальних методів до реальних проблем у телекомунікаційній та мережевій галузях.
У 2000 році він отримав ступінь доктора філософії з комп’ютерних наук в MIT. До цього він також здобув ступінь магістра з інформатики, магістра з філософії та ступінь бакалавра з інформатики з другорядною філософією.
Університетська математика, фізика та хімія, бал GPT-4 35,8%
У дослідженні Каліфорнійського університету в Лос-Анджелесі в основному оцінювалася здатність міркувати за GPT-4 і GPT-3.5 з математики, хімії та фізики.
Наразі, щоб підвищити здатність LLM вирішувати такі завдання, як математика, деякі люди запропонували стратегію CoT, пов’язану з мисленням, яка спрямовує велику модель на поступове генерування відповідей, щоб глибше думати про проблему.
Проте, навіть якщо такий підхід має певні переваги, повноцінно розв’язувати складні наукові проблеми важко.
Нижче наведено приклад задачі з фізичної хімії в коледжі та розв’язки, створені за допомогою двох стратегій підказки.
GPT-4 з благословенням CoT має очевидні помилки обчислень, а GPT-4, який спонукає використовувати Python як зовнішній інструмент, також неправильно сприйматиме математичні рівняння.
З цією метою в дослідження було введено SCIBENCH, еталон університетського рівня для наукових питань.
Серед них "набір відкритих даних" включає 5 завдань, зібраних із підручників, які широко використовуються в університетських курсах, охоплюючи основи фізики, термодинаміки, класичної механіки, квантової хімії, фізичної хімії, числення, статистики та диференціальних рівнянь.
Короткий зміст відкритих завдань підручника (включає відсоток від кількості завдань і відсоток із детальними рішеннями)
Інший – це «закритий набір даних», який містить 7 наборів запитань для проміжного та підсумкового іспиту для трьох університетських курсів з інформатики та математики з метою імітації оцінювання в реальному світі.
Набір даних закритого іспиту (містить кількість екземплярів запитань у кожному іспиті та частку запитань в іспиті, які містять докладні рішення. Крім того, пропорцію питань у різних форматах, зокрема з вільною відповіддю, множинним вибором і вірно-хибно Для довідки, цифри в дужках позначають кредитні бали для запитань.)
На відміну від існуючих тестів, усі запитання в SCIBENCH є відкритими, на які можна відповісти.
З наявним набором даних дослідження було зосереджено на оцінці двох репрезентативних LLM, GPT-3.5 і GPT-4, і використовувало різні стратегії підказок, включаючи CoT, нульове навчання та кількакратне навчання.
Крім того, дослідники також спонукали модель використовувати зовнішні інструменти, такі як Python і Wolfram Language.
Експериментальні результати показують, що без будь-яких складних підказок або використання зовнішніх інструментів середні показники точності GPT-3,5 і GPT-4 у відкритих наборах даних становлять 10,62% і 16,81% відповідно.
Потім, після додавання CoT і зовнішніх інструментів, найвищий показник точності для того самого набору даних становить лише 35,8%. Однак порівняно з попереднім показником точність значно підвищилася.
Точність призводить до відкритих наборів даних
У найпотужнішій конфігурації з використанням підказок CoT + зовнішніх інструментів GPT-4 досяг середнього результату 35,80% для відкритого набору даних і 51,57% для закритого набору даних.
Ці результати свідчать про те, що GPT-4 має значний потенціал для вдосконалення майбутніх LLM.
Експериментальні результати загального балу за нульового навчання на тестовому наборі даних
Щоб отримати повне розуміння обмежень LLM у розв’язанні наукових проблем, дослідники пропонують новий підхід «самовдосконалення» для виявлення недоліків у відповідях LLM.
Це "Угода про оцінку", як зазначено нижче.
По-перше, правильне рішення порівнюється з рішенням, створеним LLM, і за допомогою людей-анотаторів підсумовуються 10 основних навичок, необхідних для успішного вирішення наукових проблем.
Зокрема, це: логічне розкладання та аналітичні навички; визначення гіпотез; просторове сприйняття; причинно-наслідкові міркування; дедукція проблеми; абстрактне міркування; наукова грамотність; перемикання кодів; логічне міркування; вміння рахувати.
Потім команда застосувала підхід до самооцінки, керований LLM, щоб автоматично класифікувати навички, яких не вистачало в рішеннях, розроблених базовим LLM для кожної експериментальної конфігурації.
Профілі помилок GPT-3.5 у текстових наборах даних із 6 налаштуваннями, які виявляють розподіл дефектів у його 10 основних можливостях вирішення проблем
Нарешті, в результаті аналізу було встановлено, що:
(1) Хоча CoT значно покращує обчислювальну потужність, він менш ефективний в інших аспектах;
(2) Поради щодо використання зовнішніх інструментів можуть погіршити інші важливі навички;
(3) Поодиноке навчання загалом не покращує вирішення наукових проблем.
Коротше кажучи, результати дослідження показують, що поточні великомасштабні мовні моделі все ще слабкі в здатності вирішувати проблеми, а за допомогою різних інструментів все ще існують обмеження.
Література:
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
Аргументація GPT-4 надто обурлива! Загальний бал з математики, фізики та хімії в університеті менше половини, а всі 21 типи запитань на міркування скасовуються.Маркус: AGI надто далеко
**Джерело:**Xinzhiyuan
Посібник: Найпотужніший GPT-4 на поверхні допускає помилки в обґрунтуванні запитань одна за одною! Останні дослідження випускників Массачусетського технологічного інституту та китайського університету в Лос-Анджелесі привернули увагу багатьох користувачів мережі.
GPT-4 взагалі не вміє міркувати!
Нещодавно два дослідження показали, що GPT-4 погано працює в міркуваннях.
Костянтин Аркудас, випускник Массачусетського технологічного інституту, оцінив GPT-4 на 21 різних типах наборів висновків.
Потім проводиться детальний якісний аналіз продуктивності ГПТ-4 на ці проблеми.
Дослідження виявили, що GPT-4 іноді демонструє талант «найсильнішого мозку», але наразі GPT-4 взагалі не має здатності міркувати.
Як тільки дослідження було оприлюднено, багато користувачів мережі зібралися подивитися.
Маркус сказав: «Якщо це правда, як я вже говорив раніше, ми все ще далекі від AGI. Можливо, нам знадобиться виконати багато повторних калібрувань: не може бути AGI без міркувань».
Дослідники представили SCIBENCH, університетську наукову базу для вирішення проблем, яка містить 2 набори даних: відкритий і закритий набір даних.
Завдяки поглибленому дослідженню GPT-4 і GPT-3.5 з використанням різних стратегій підказок результати показують, що середній загальний бал GPT-4 становить лише 35,8%.
Це дослідження також знову привернуло увагу Маркуса:
21 набір задач, повне оновлення GPT-4
Однак, перш ніж переглянути GPT-4, щоб відповісти на запитання, автор дає примітку:
GPT-4 є недетермінованою системою, яка може давати різні відповіді в різних прогонах навіть з однаковими налаштуваннями параметрів.
Хоча наступні тестові обміни є дослівними, з досвіду автора, речі, які обговорюються в статті, коли GPT-4 йде не так, як правило, надійні.
1 проста арифметика
Уміння виконувати елементарні операції є необхідною умовою міркування.
Однак GPT-4 все ще не може надійно виконувати основні арифметичні операції, такі як додавання та множення.
Наприклад, нехай GPT-4 навмання вибере два числа між 1381 і 1453, щоб помножити та отримати результат.
GPT-4 вибрав 1405 і 1421, але остаточний результат був явно неправильним. Оскільки 1405×1421=1996505.
Хоча конкретний підрахунок не обов’язково є діяльністю міркування, він, безперечно, є необхідною умовою для будь-якої системи міркування із загальними здібностями.
Тут GPT-4 отримує пропозиційну змінну з префіксом 27 символів заперечення, що вимагає підрахувати кількість символів заперечення.
Для нас це було легко, особливо тому, що заперечення записуються через 5 один від одного, і є 5 груп, з останньою парою заперечень відразу після.
Однак ГПТ-4 дав «28» відповідей.
Наразі ми можемо розглядати аргументи здорового глузду як прості висновки, зроблені на основі наданої інформації та невказаних умов (за замовчуванням, загальноприйняті базові знання).
У цьому конкретному випадку знання здорового глузду — це положення на зразок «Людина живе, доки не помре, і ніколи не живе після смерті».
Наприклад, коли ви запитуєте GPT-4: частота серцевих скорочень Мейбла становить 75 ударів на хвилину о 9 ранку, а кров’яний тиск становить 120/80 о 7 вечора. Вона померла об 11 вечора. Вона жива опівдні?
Але, очевидно, на основі наданої інформації, здоровий глузд (без роздумів) веде безпосередньо до висновків.
Якщо P(x) містить Q(x), а Q(a) не виконується, тоді ми можемо вивести з моделі, що P(a) не виконується (оскільки якщо P(a) виконується, то Q(a) буде тримати) .
Це базова тавтологія, але GPT-4 пропонує повністю антимодель:
Насправді контрмодель повинна задовольняти всім заданим умовам і водночас фальсифікувати висновок.
Крім того, лише кількома реченнями пізніше GPT-4 стверджує, що P(x) справді означає Q(x) згідно з даною інтерпретацією, що суперечить його власному попередньому твердженню.
5 семантик простих кванторів
Розгляньте наступні три речення:
[для всіх x . P(x) ==> Q(x)]
[існує x . P(x)]
[існує x . ∼ Q(x)]
Будь ласка, сфальсифікуйте або доведіть таке твердження: Ці три речення є спільно задовільними.
6. Просте фарбування графіка
Розглянемо спочатку задачу розфарбування графа без розв’язку.
Неважко помітити, що двох кольорів недостатньо для графа, описаного в цьому питанні (наприклад, вершини 0, 2 і 4 утворюють кластер, тому потрібно принаймні 3 кольори).
GPT-4 починається з неправдивого ствердження, що граф повний (очевидно, ні, наприклад, немає ребра між вершинами 2 і 3).
Крім того, очевидно, що якщо граф дійсно повний, то його неможливо розфарбувати в 2 кольори, оскільки для повного графа з 6 вершинами потрібно як мінімум 6 кольорів.
Іншими словами, твердження GPT-4 не тільки неправильні, але й суперечливі: один момент говорить нам (помилково), що цей 6-вершинний граф повний, що означає, що його неможливо розфарбувати двома кольорами, а інший момент надає A два -колірний «розчин».
Варто зазначити, що причина, по якій GPT-4 працює так погано, полягає не в тому, що він не має достатньо знань або даних про графіки.
Коли дослідники запитали GPT-4 про його розуміння «повних графів», він видав правильне визначення «повних графів», а також довгий список результатів для K_n (повні графи з n вершинами).
Мабуть, GPT-4 запам'ятав всю цю інформацію, але не може застосувати її до нових умов.
7. Сума підмножини
S = {2, 8, 6, 32, 22, 44, 28, 12, 18, 10, 14}. Отже, скільки підмножин S мають суму 37?
У цій задачі підмножина S парна, а сума парних чисел не може бути непарною, тому відповідь 0.
Однак замість того, щоб зупинитися на розгляді того, що містить S, GPT-4 рефлекторно генерує те, що, на його думку, є відповідною відповіддю на запитання, а потім переходить до «магічної» відповіді «4».
Скажіть GPT-4, що A × B представляє декартів добуток множин A і B, що відношення R від A до B є підмножиною A × B, а & представляє перетин множин, а потім попросіть його підтвердити чи сфальсифікувати :
Відношення підмножини має виконуватися в обох напрямках (2), але воно виконується лише в напрямку зліва направо. Контрприклади в іншому напрямку легко знайти (наприклад, візьмемо A = {(1, 2)} і B = {(1,3)}).
Однак GPT-4 робить висновок, що це правда, що явно невірно.
Що стосується часу, GPT-4 також помилився.
10 Парадокс Рассела
Парадокс перукаря Рассела стверджує, що існує перукар b, який голить лише тих, хто не голиться сам.
Заперечення цього речення є тавтологією, яку легко вивести за допомогою логіки першого порядку.
Якщо ми розуміємо R(a,b) як істоту, поголену b, тоді ми можемо придумати цю тавтологію та попросити GPT-4 довести або спростувати це, як показано нижче:
Якщо існує такий перукар x, то для всіх y ми матимемо R(y,x) <==> ∼ R(y,y), тому заміна x на y дасть R(x,x) <== > ∼ R(x,x), що є суперечністю.
GPT-4 має бездоганне розуміння структури речень, які йому надають, і того, що йому потрібно робити. Подальші приклади, однак, заплутані.
Це просте завдання на міркування, яке вимагає аналізу випадку передостаннього будівельного блоку B3.
По-перше, B3 або зелений, або ні.
Якщо він зелений, то B3 знаходиться на вершині незеленого блоку B4, тому висновок вірний.
Якщо ні, то другий зелений блок B2 зверху знаходиться на незеленому блоці B3, тому висновок залишається дійсним.
Однак результати показали, що GPT-4 не працює добре.
Перш за все, коли він доводить гіпотезу, він уже припустився помилки в стратегії доказу - PT-4 передбачає два особливі випадки для міркування.
Крім того, GPT-4 дійшов висновку (хоча й неправильного) у своїх власних міркуваннях, але під час відповіді все одно повідомляє користувачеві, що проблему не вирішено. І це відображає внутрішню невідповідність моделі.
Тут автор обирає проблему орієнтування в реальному світі:
Пізніше, коли GPT-4 відповів на високі та низькі позиції Бостона та Південної Дакоти, виникла більш серйозна проблема: він дав два суперечливі описи в одній відповіді.
Автор дає тут відносно просте запитання для обґрунтування часу, але відповідь GPT-4 все ще безлад.
Після сортування інформації в питанні GPT-4 дає свій процес міркування:
Насправді в назві не вказано останній час, коли Том повинен вийти з дому, і GPT-4 неправильно використав час Ненсі («Ненсі пішла з дому між 8:10-8:20 ранку») до Тома.
У той же час умовне твердження, надане GPT-4, вводить в оману, а припущення містить інформацію (Том), яка не пов’язана з висновком (час прибуття Ненсі): «Якщо Том піде з дому найпізніше (8:20 ранку), Ненсі. Вона йде не пізніше 8:20 ранку, її дорога займає щонайбільше 40 хвилин, а Ненсі прибуває на роботу щонайпізніше о 9:00 ранку».
Це має бути сформульовано так: «Якщо Ненсі йде останнього часу (8:20 ранку), а її дорога займає щонайбільше 40 хвилин, тоді Ненсі прибуде на роботу щонайпізніше о 9:00».
Потім GPT-4 робить помилковий висновок: «Оскільки дорога Тома займає щонайменше 40 хвилин, це означає, що він прибуде на роботу не пізніше 9:00».
Цей висновок, очевидно, абсолютно неспроможний. Цей висновок не можна зробити з відомого факту, що час Тома на дорогу становить принаймні 40 хвилин.
Наступна відповідь усе ще базується на хибному припущенні, що найраніший час відправлення Тома – 8:10 (знову ж таки, цей час відправлення належить Ненсі, а не Томові).
Потім у ньому стверджується, що Ненсі прибула о 8:45, що не кваліфікується як вихід з дому о 8:10 ранку протягом 20 хвилин.
Зрештою, він робить неправильний висновок, що і Том, і Ненсі прибули між 8:50 і 9:00.
У процесі міркування GPT-4 неодноразово відображав інформацію неправдивим чином, і остаточна відповідь також є неправильною відповіддю на основі неправильних умов.
Автор придумав логічну головоломку та перерахував 9 умов, щоб запитати GPT-4, щоб дізнатися, хто насправді вбив тітку Агату.
Правильна відповідь: тітка Агата вчинила самогубство.
По-перше, згідно з умовою 5, тітка Агата повинна ненавидіти себе, тому що вона ненавидить усіх, крім економки.
Отже, згідно з умовою 4 випливає, що Чарльз не ненавидить її, тому він не може її вбити.
Відповідно до умов 5 і 7 дворецький не може ненавидіти себе, тому що якби він ненавидів себе, умова 8 не виконувалася б, і він ненавидів би всіх.
Згідно з умовою 6 робиться висновок, що дворецький багатший за тітку Агату, інакше він ненавидів би себе, що суперечить тому, що ми зробили висновок раніше, що він не ненавидить себе.
Відповідно до умови 3 дворецький також не буде вбивцею (умова 3).
Ще одна критична помилка GPT-4: оскільки тітка Агата ненавидить усіх, крім домробітниці (умова 5), це означає, що вона принаймні не ненавидить себе.
Це дивна помилка, оскільки з 5-ї умови випливає, що тітка Агата ненавидить себе.
У той же час GPT-4 знову продемонстрував повторювані невідповідності — майже в кожній відповіді GPT-4 стверджував, що виводить певне положення та його негативну форму.
Завдання на вибір Уотсона є основним змістом у сфері розумових міркувань.
У січневій статті GPT-3.5 провалив цей тест, а в цьому дослідженні продуктивність GPT-4 все ще не ідеальна.
Незалежно від того, правильна чи неправильна відповідь GPT-4, його внутрішні твердження суперечать.
16 Ентропія
Основний висновок теорії інформації такий: верхня межа ентропії випадкового вектора Z не перевищує суму ентропій випадкових величин, які складають Z.
Тому відповідь на наступне запитання має бути «ні за яких обставин».
Остання проблема висновку для GPT-4 є найскладнішою: довести правильність простого компілятора виразів.
Однак у GPT-4 все ще є деякі помилки в деталях.
З огляду на те, що GPT-4 на даний момент є найпотужнішим LLM, автор робить три основні висновки на основі наведеного вище аналізу:
Використання генеративного штучного інтелекту в розробці програмного забезпечення (або в науці та інженерії загалом), за винятком деяких нудних завдань (як свого роду прискорене автозавершення наукомістких проблем кодування), пов’язане з ризиком. У цих сферах нормативність і правильність є критичними, і поточні LLM не відповідають цим стандартам.
У міру того як здатність міркувати LLM продовжує вдосконалюватися, сувора перевірка доказів ставатиме все більш важливою. Цей підхід може досліджувати міркування, висловлені природною мовою, попросивши LLM формалізувати свої міркування або навчаючи інших LLM.
У нинішньому вигляді антиутопічні сценарії завоювання людей штучним інтелектом або використання штучного інтелекту в підлих цілях є надуманими, навіть абсурдними. Коли найсучасніші системи штучного інтелекту навіть не можуть відрізнити ліворуч від правого (запитання 12 вище), закликати до політики захисту людей від нього в кращому випадку передчасно, а в гіршому – марнування ресурсів.
Дехто неминуче може сказати, що ці результати є «вибраними даними». Але це тому, що вони неправильно розуміють, що таке кураторські дані. Залежно від логічної структури та загального контексту розглядуваної пропозиції, вибір даних іноді навіть необхідний.
Налагодження комп’ютерної програми з метою виявлення та розуміння її слабких місць, спроба фальсифікувати наукову теорію, тестування нового автомобіля, спроба знайти антимодель передбачуваної теореми тощо — усе це, за своєю суттю, придирки.
Наприклад, якщо ви дізнаєтеся, що у вашої нової машини спущене колесо, дилерський центр може заперечити, що ви «вибираєте дані». Зрештою, якщо говорити про весь автомобіль, то показник цілої шини досягає 75%.
Подібним чином застосування в науці, медицині та інженерії, особливо розробка програмного забезпечення, має суворі стандарти.
Так само, як ми не хочемо, щоб міст стояв на стовпах 90% часу, нам потрібні алгоритми сортування, які працюють на всіх вхідних даних, а не лише на більшості; нам потрібні візки, які щоразу стягують правильну суму, а не лише більшість час і т.д.
І ці додатки, що потребують обчислень і міркувань, на відміну від механізмів рекомендацій, мають бути дуже надійними.
Про автора
Костянтин Аркудас
До минулого року Костянтин Аркудас працював дослідником у відділі когнітивних наук RPI та дослідником у CSAIL Массачусетського технологічного інституту.
Зараз він є старшим науковим співробітником Telcordia Research Laboratories, зосереджуючись на ШІ та застосуванні формальних методів до реальних проблем у телекомунікаційній та мережевій галузях.
У 2000 році він отримав ступінь доктора філософії з комп’ютерних наук в MIT. До цього він також здобув ступінь магістра з інформатики, магістра з філософії та ступінь бакалавра з інформатики з другорядною філософією.
Університетська математика, фізика та хімія, бал GPT-4 35,8%
У дослідженні Каліфорнійського університету в Лос-Анджелесі в основному оцінювалася здатність міркувати за GPT-4 і GPT-3.5 з математики, хімії та фізики.
Наразі, щоб підвищити здатність LLM вирішувати такі завдання, як математика, деякі люди запропонували стратегію CoT, пов’язану з мисленням, яка спрямовує велику модель на поступове генерування відповідей, щоб глибше думати про проблему.
Проте, навіть якщо такий підхід має певні переваги, повноцінно розв’язувати складні наукові проблеми важко.
Нижче наведено приклад задачі з фізичної хімії в коледжі та розв’язки, створені за допомогою двох стратегій підказки.
GPT-4 з благословенням CoT має очевидні помилки обчислень, а GPT-4, який спонукає використовувати Python як зовнішній інструмент, також неправильно сприйматиме математичні рівняння.
З цією метою в дослідження було введено SCIBENCH, еталон університетського рівня для наукових питань.
Серед них "набір відкритих даних" включає 5 завдань, зібраних із підручників, які широко використовуються в університетських курсах, охоплюючи основи фізики, термодинаміки, класичної механіки, квантової хімії, фізичної хімії, числення, статистики та диференціальних рівнянь.
Інший – це «закритий набір даних», який містить 7 наборів запитань для проміжного та підсумкового іспиту для трьох університетських курсів з інформатики та математики з метою імітації оцінювання в реальному світі.
На відміну від існуючих тестів, усі запитання в SCIBENCH є відкритими, на які можна відповісти.
З наявним набором даних дослідження було зосереджено на оцінці двох репрезентативних LLM, GPT-3.5 і GPT-4, і використовувало різні стратегії підказок, включаючи CoT, нульове навчання та кількакратне навчання.
Крім того, дослідники також спонукали модель використовувати зовнішні інструменти, такі як Python і Wolfram Language.
Експериментальні результати показують, що без будь-яких складних підказок або використання зовнішніх інструментів середні показники точності GPT-3,5 і GPT-4 у відкритих наборах даних становлять 10,62% і 16,81% відповідно.
Потім, після додавання CoT і зовнішніх інструментів, найвищий показник точності для того самого набору даних становить лише 35,8%. Однак порівняно з попереднім показником точність значно підвищилася.
У найпотужнішій конфігурації з використанням підказок CoT + зовнішніх інструментів GPT-4 досяг середнього результату 35,80% для відкритого набору даних і 51,57% для закритого набору даних.
Ці результати свідчать про те, що GPT-4 має значний потенціал для вдосконалення майбутніх LLM.
Щоб отримати повне розуміння обмежень LLM у розв’язанні наукових проблем, дослідники пропонують новий підхід «самовдосконалення» для виявлення недоліків у відповідях LLM.
Це "Угода про оцінку", як зазначено нижче.
Зокрема, це: логічне розкладання та аналітичні навички; визначення гіпотез; просторове сприйняття; причинно-наслідкові міркування; дедукція проблеми; абстрактне міркування; наукова грамотність; перемикання кодів; логічне міркування; вміння рахувати.
Потім команда застосувала підхід до самооцінки, керований LLM, щоб автоматично класифікувати навички, яких не вистачало в рішеннях, розроблених базовим LLM для кожної експериментальної конфігурації.
Нарешті, в результаті аналізу було встановлено, що:
(1) Хоча CoT значно покращує обчислювальну потужність, він менш ефективний в інших аспектах;
(2) Поради щодо використання зовнішніх інструментів можуть погіршити інші важливі навички;
(3) Поодиноке навчання загалом не покращує вирішення наукових проблем.
Коротше кажучи, результати дослідження показують, що поточні великомасштабні мовні моделі все ще слабкі в здатності вирішувати проблеми, а за допомогою різних інструментів все ще існують обмеження.
Література: