GPT-4 не знає, що він неправильний! Нові недоліки LLM були виявлені, і показник успішності самовиправлення становив лише 1%, і Лекун Маркус вигукнув, що чим більше він виправляв, тим більше помилок

GPT-4 просто не знає, що робить помилку? Останні дослідження показали, що LLM у завданні міркувань після самокорекції не може врятувати погіршення продуктивності, що змушує боса ШІ Лекуна Маркуса спостерігати.

Першоджерело: Shin Ji Yuan

Джерело зображення: Створено Unbounded AI

Велика модель була схильна до серйозних недоліків, які привернули увагу Лекуна і Маркуса одночасно!

В експерименті з висновками модель, яка претендувала на підвищення точності, самокоригувалася, «покращила» показник точності з 16% до 1%!

Простіше кажучи, LLM не може покращити вихідні дані у вигляді самокорекції у вигляді завдань на висновок, якщо LLM вже не знає правильної відповіді в процесі самокорекції.

Дві статті, опубліковані дослідниками ASU, спростовують метод «самокорекції», запропонований багатьма попередніми дослідженнями - дозвіл великим моделям самостійно коригувати свої вихідні результати може поліпшити якість вихідних даних моделі.

Паперова адреса:

Паперова адреса:

Професор Суббарао Камбампаті, співавтор статті, був відданий дослідженню здатності ШІ міркувати і опублікував статтю у вересні, навіть повністю заперечуючи здатність міркувати та планувати GPT-4.

Паперова адреса:

На додаток до цього професора, нещодавні дослідники з DeepMind та Університету UIUC також поставили під сумнів здатність LLM «самовиправлятися» в завданнях на міркування.

Стаття навіть закликає всіх вчених, які займаються відповідними дослідженнями, серйозно поставитися до вашого дослідження, а не повідомляти великій моделі правильну відповідь, а потім дозволити їй здійснити так звану «самокорекцію».

Тому що, якщо модель не знає правильної відповіді, якість на виході погіршиться після того, як модель «самовиправиться».

Далі давайте подивимося на ці дві останні статті.

GPT-4 "самовиправляється", вихід гірший

Перша стаття була присвячена GPT-4, просячи GPT-4 надати вирішення проблеми затінення графіки, а потім GPT-4 «самовиправляв» своє власне рішення.

У той же час автори представили зовнішню систему оцінювання для оцінки прямого виходу GPT-4 і виходу після циклу «самокорекції».

Експериментальні результати показують, що GPT-4 менш ніж на 20% точний у вгадуванні кольору, що не здається дивним.

Але, на диво, точність в режимі «самокорекції» значно впала (друга смужка нижче) – абсолютно всупереч всім намірам самокорекції!

На думку авторів, цю, здавалося б, парадоксальну ситуацію можна пояснити так: GPT-4 також жахливо справляється з перевіркою правильних відповідей!

Тому що навіть коли GPT-4 випадково вгадає правильний колір, його «самовиправлення» змусить його думати, що правильна відповідь проблематична, а потім замінити правильну відповідь.

Подальші дослідження також показали, що GPT-4 справді покращить своє рішення, якщо зовнішній валідатор надасть перевірено правильну відповідь на вгаданий колір.

У цьому випадку підказка, згенерована «самокорекцією», дійсно може покращити якість виведення (стовпчики 3-5 малюнка вище)

Таким чином, для завдання «проблема розфарбовування» незалежна «самокорекція» GPT-4 погіршить продуктивність виводу, оскільки GPT-4 не може перевірити, чи правильна відповідь.

Однак, якщо забезпечити правильний процес зовнішньої перевірки, «самокорекція», згенерована GPT-4, справді може покращити продуктивність.

В іншій роботі розглядалася здатність великих мовних моделей до «самокорекції» з точки зору завдань планування, і результати були схожі на попередню статтю.

Більше того, дослідники виявили, що те, що дійсно покращило точність виведення, це не «самокорекція» LLM, а зворотний зв'язок із зовнішнім незалежним валідатором.

Зрештою, LLM не має можливості провести незалежну перевірку, і повинен покладатися на «правильну відповідь», надану зовнішнім валідатором, щоб ефективно «самовиправлятися».

** "Coloring Questions" виконано погано, і LLM не зміг незалежно перевірити правильні відповіді**

Структура дослідницького дизайну

«Задача розфарбовування» - це дуже класична задача міркування, навіть якщо вона не складна, відповіді досить різноманітні, а правильність відповідей легко перевірити.

Результати різноманітності ускладнюють охоплення всіх навчальних даних LLM, а можливість забруднення навчальних даних LLM максимально уникається.

Ці причини роблять «задачу розфарбовування» дуже придатною для вивчення здатності міркувати LLM, а також зручно вивчати здатність LLM до «самокорекції» в міркуваннях.

Дослідники створили власний набір даних, використовуючи GrinPy2 для обробки поширених маніпуляцій з графами. Кожен граф будується за методом Ердоса-Рені (̋p = 0,4).

Після того, як правильна відповідь знайдена, вона компілюється в стандартний формат DIMACS з коментарем, що містить попередньо обчислене хроматичне число.

Для наступного експерименту дослідники згенерували 100 екземплярів, кожен з яких мав у середньому 24 ребра, розподілені по діапазону вузлів від 10 до 17 — розподіл, який, як показав досвід, є досить варіативним діапазоном.

Діаграма, яку використовують дослідники, показана на малюнку 1 нижче, яка включає першу відповідь LLM, зворотний запит відповіді та остаточну правильну колірну схему.

### Архітектура для ітеративного резервного копіювання

Генератор підказок:

Цей генератор підказок бере екземпляр DIMACS, переводить кожен край у речення, а потім загортає ціле в набір загальних інструкцій для побудови підказки природною мовою.

Дослідники навмисно звузили відмінності між різними підказками екземплярів, щоб зменшити інформацію про конкретну проблему, яку дослідники просочили в LLM. Приклади різних типів підказок можна знайти в додатку.

Великі мовні моделі:

GPT-4 викликається через OpenAI API, який наразі є найдосконалішою моделлю.

Дослідники пропонують системну роль: «Ви є розв'язувачем задоволеності обмеженнями, який вирішує різні CSP (проблеми задоволення обмежень)».

Покоління назад

У режимі автентифікації LLM отримує запит іншого типу.

Крім стандартної інструкції, вона містить лише опис схеми і рекомендовану схему забарвлення. Його завдання полягає в тому, щоб перевірити правильність, оптимальність і те, що кожна вершина була пофарбована в певний колір.

Якщо отримана відповідь має набір ребер, які суперечать один одному, схема забарвлення неправильна.

Щоб порівняти кожну точку, дослідники також створили валідатор, який перераховував кожне суперечливе ребро.

Оскільки відповіді LLM також мають форму природної мови, дослідники спочатку перевели їх у формат, який було легко проаналізувати. Щоб зробити цей процес більш послідовним, дослідники розробили початкові підказки для опису точного вихідного формату, якого повинна дотримуватися модель. Потім відповідь оцінюється на правильність.

Щоб судити про результати валідації LLM, дослідники вивчають, наскільки добре вони виявляють помилки в запропонованій схемі затінення.

Інтуїтивно їх має бути легко ідентифікувати: якщо дві вершини, що утворюють ребро, мають спільний колір, негайно поверніться до цього ребра. З алгоритмічної точки зору досить виявити всі ребра і порівняти колір кожної вершини з кольором точки, з якою вона з'єднана.

Верифікація

Щоб глибше зрозуміти можливості верифікації LLM, дослідники вивчили їхню ефективність у виявленні помилок у запропонованій схемі забарвлення.

Інтуїтивно ці помилки має бути легко ідентифікувати: якщо дві вершини, що утворюють ребро, мають спільний колір, ребро повертається негайно. З алгоритмічної точки зору, все, що потрібно зробити, це перебрати всі ребра і порівняти колір кожної вершини з кольором відповідної вершини.

Дослідники використовували той самий процес аналізу, але створили новий домен, який дослідники назвали кольором_verification. LLM направляється для перевірки правильності затінення, оптимальності та того, чи присвоєно кожній вершині колір.

Якщо затінення неправильне, буде вказано вивести список помилок у затіненні, тобто, якщо два з'єднані вузли мають спільний колір, це ребро повертається для представлення помилки. Спини не дають.

Дослідники використовували той самий приклад графа, що й раніше, але згенерували чотири схеми затінення для тестування моделі:

Правильно: Безпомилкова оптимальна схема затінення, згенерована ітеративним, випадковим жадібним алгоритмом (з використанням попередньо обчисленої кількості кольорів для забезпечення оптимальності).

Ablated: змінює колір випадкового вузла з попереднього набору схем затінення на його сусіди.

Неоптимально: у правильному наборі колірна частина вибирається випадковим чином і перефарбовується в новий відтінок.

Випадковий: Повністю випадковим чином призначаються кольори, кількість різних кольорів дорівнює кількості кольорів фігури.

LLM: Випадково вибрана схема забарвлення з результатів, згенерованих LLM з попередніх експериментів.

Висновок

З'являється запит LLM, оцінюються відповіді, а наступний екземпляр переміщується далі без будь-яких задньої частин, що призводить до базового результату 16%.

Коли дослідники запустили той самий екземпляр, але цього разу повернули підказку, використовуючи зворотний зв'язок, згенерований тією ж мовною моделлю, що діє як валідатор, продуктивність різко впала — лише один зі 100 випадків отримав правильну відповідь.

Результати запиту повернення із зовнішнім кваліфікованим валідатором спочатку можуть здатися більш ефективними.

Кількість випадків правильних відповідей наближається до 40 відсотків, але якщо це означає, що GPT-4 слухає, вдосконалюється та міркує на основі зворотного зв'язку, то дослідники очікують кращих результатів від більш точних підказок щодо повернення.

Однак у цій сфері необроблена фракція (див. Рисунок 2 вище) цього не доводить.

Можливість верифікації LLM

Дослідники перевірили здатність GPT-4 перевіряти схеми затінення графів на одному екземплярі, генеруючи п'ять різних типів схем затінення для кожного екземпляра.

Очевидний результат точно такий же, як і результат самокорекції LLM, наведений вище: модель майже неохоче позначає будь-які відповіді як правильні. Зі 100 оптимальних схем затінення можна сказати, що тільки 2 з них є правильними.

З усієї колекції з 500 схем розмальовок, 118 з яких правильні, вона стверджує лише про те, що 30 з них правильні. З цих 30 лише 5 були насправді правильними.

В цілому ця закономірність залишається незмінною. Менш ніж у 10% випадків LLM давав відповідь «правильно», «неоптимально» або «пропущене завдання». У цих випадках поведінка виглядає дещо випадковою.

Приблизно в чверті випадків він відповідає валідацією «це неправильно», в той час як інтерпретація відповідає дійсності, і робить це лише шляхом вказівки не більше однієї сторони, зводячи до мінімуму ймовірність чогось пропустити.

Результати наведені в таблиці 2 вище. Зауважимо, що при збільшенні частоти помилок домену коефіцієнт галюцинацій зменшується. Тобто, коли неправильних країв більше, модель з більшою ймовірністю вкаже, де щось пішло не так.

Самокритика LLM, продуктивність не збільшується, а знижується

У статті, поданій 12 числа, автори також прийшли до того ж висновку, що і вище.

Незалежно від того, чи йдеться про планування, просту арифметику чи логіку, GPT-4, поточна сучасна велика модель, не є повністю компетентною.

Багато дослідників досліджували та вдосконалювали його, зокрема дозволяли LLM вивчати самоітерацію, самовалідацію та інші стратегії для підвищення продуктивності.

Як наслідок, люди в галузі оптимістично налаштовані щодо того, що велику модель ще можна врятувати!

Однак складність завдання висновування в класичному розумінні не має нічого спільного з великою моделлю, оскільки LLM - це модель, яка використовує приблизний пошук, а не точні міркування.

У статті, представленій arXiv 12 числа, дослідники ASU систематично оцінювали та аналізували здатність LLM до самокритики в завданнях планування та ітеративної оптимізації.

У дослідженні автори пропонують систему планування, яка включає генератор LLM та валідатор LLM.

Серед них генератор GPT-4 відповідає за генерацію планів-кандидатів, а валідатор GPT-4 відповідає за перевірку правильності плану та надання зворотного зв'язку.

Потім дослідники провели експерименти в області планування Blocksworld і провели емпіричну оцінку:

  • Вплив самокритики на заплановану продуктивність генерації всієї системи LLM+LLM

  • продуктивність валідатора LLM щодо перевірки достовірності на землі;

  • При критиці генерації LLM один і той же рівень зворотного зв'язку впливає на загальну продуктивність системи.

Результати показують, що самокритика знижує продуктивність генерації планування LLM порівняно з використанням зовнішнього надійного валідатора.

Зниження продуктивності можна безпосередньо пояснити поганими результатами валідатора LLM, який видає велику кількість помилкових спрацьовувань, що може серйозно погіршити надійність системи.

Точність двійкової класифікації валідатора LLM становить лише 61%, і існує велика кількість помилкових спрацьовувань (оцінка неправильної схеми як правильної).

Крім того, при порівнянні рівня деталізації зворотного зв'язку встановлено, що він мало впливає на продуктивність планування генерації.

Загалом, систематичне дослідження цього дослідження надає попередні докази, які ставлять під сумнів ефективність LLM як валідатора завдань планування в ітеративній, самокритичній структурі.

Про автора

Суббарао Камбампаті

Суббарао Камбампаті – професор комп'ютерних наук в Університеті штату Арізона. Камбампаті досліджує фундаментальні питання планування та прийняття рішень, зокрема через виклики систем штучного інтелекту для людського сприйняття.

Ресурси:

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити