DeepMind: Великі моделі також схильні до серйозних недоліків і не можуть самостійно виправити свої міркування, якщо правильна відповідь не відома заздалегідь

Першоджерело: Shin Ji Yuan

Дослідники > DeepMind виявили, що LLM має вроджений недолік — він не може отримати кращі відповіді, самовиправляючись під час міркувань, якщо в наборі даних не встановлені мітки істини. Маркус знову радісно переслав папір.

Джерело зображення: Створено Unbounded AI

Ще один серйозний недолік великої мовної моделі був викритий DeepMind!

LLM не може виправляти помилки у власних міркуваннях.

Самокорекція, техніка, що дозволяє моделям виправляти власні відповіді, може значно покращити вихідну якість моделі в багатьох типах завдань.

Але нещодавно дослідники з Google DeepMind і UIUC виявили, що «механізм самокорекції» LLM раптово виявився марним для завдань міркування.

Більш того, LLM не тільки не може самостійно виправляти відповіді на завдання на міркування, але часто і самовиправляється, якість відповідей також значно знизиться.

Маркус також ретвітнув статтю, сподіваючись привернути більше уваги дослідників до цього недоліку великої мовної моделі.

Техніка «самокорекції» заснована на простій ідеї, що дозволяє LLM коригувати та покращувати свій згенерований контент відповідно до певних критеріїв. Цей метод дозволяє значно підвищити якість виведення моделі в таких завданнях, як математичні задачі.

Але дослідники виявили, що в завданні на міркування зворотний зв'язок після самокорекції іноді був дуже хорошим, іноді ефект був дуже поганим, і навіть продуктивність знижувалася.

Дослідники також вивчили літературу, яка вважала, що «самокорекція» може покращити результат міркувань, і при більш детальному вивченні виявили, що покращення «самокорекції» відбувається завдяки введенню зовнішньої інформації, яка спрямовує модель на самокорекцію. А коли зовнішня інформація не вводиться, ці поліпшення зникають.

Зокрема, самокорекція працює ефективно, коли модель має доступ до міток достовірності, що містяться в еталонному наборі даних.

Це пов'язано з тим, що алгоритм може точно визначити, коли зупинити процес виведення, і уникнути зміни відповіді, коли вона вже правильна.

Дослідники вважають, що справжні ярлики, як правило, використовувалися в попередніх дослідженнях, щоб запобігти зміні моделей правильних відповідей на неправильні. Але те, як запобігти цій ситуації «правильної корекції», насправді є ключем до забезпечення успіху самокорекції.

Тому що, коли дослідники прибирають справжню мітку з процесу самокорекції, продуктивність моделі значно погіршується.

У спробі вдосконалити самокоригуючий підхід LLM до завдань міркування, дослідники також досліджували потенціал «мультиагентних дебатів» як засобу покращення міркувань. Однак їх результати показують, що цей метод працює не краще, ніж самоузгодженість при розгляді рівної кількості відповідей.

Дослідники також запропонували поняття «pre-prompt» і «post-prompt».

Вони розглядають самовиправлення як форму post-hoc підказки, де коригувальна підказка вводиться після відповіді LLM.

Аналіз дослідників показує, що посилення самокорекції в деяких завданнях може бути пов'язане з добре розробленими підказками зворотного зв'язку, які маскують грубі початкові підказки.

У цьому випадку інтеграція кращого зворотного зв'язку в початкові інструкції або розробка кращих початкових підказок може дати кращі результати та зменшити витрати на висновок.

Ґрунтуючись на висновках дослідників, дослідники заглибилися в нюанси здатності LLM до самокорекції, закликаючи дослідницьку спільноту підходити до досліджень самокорекції з більшою суворістю.

Чи можуть великі мовні моделі самостійно виправляти свої міркування? **

Дослідники спробували використати існуючий метод самокорекції, використовуючи його налаштування (використовуючи мітки для керівництва процесом самокорекції), щоб перевірити його ефективність у покращенні продуктивності на завданнях міркування LLM.

Налаштування експерименту

Слова-підказки

Дослідники використовували трикрокову стратегію підказок для самокорекції:

  1. підказати модель для початкової генерації (це також результат стандартних підказок);

  2. спонукати модель переглянути своє попереднє покоління та сформувати зворотний зв'язок;

  3. Дайте відповідь на початкове запитання ще раз за допомогою моделі підказок зворотного зв'язку.

Модель

Основне випробування дослідників проводилося на GPT-3.5-Turbo.

Дослідники також протестували GPT-4, доступ до якого відбувся 29 серпня 2023 року, з метою перевірки можливостей самокорекції останніх і найпотужніших ітерацій моделей OpenAI.

Для GPT-3.5 дослідники використовували повний набір оцінок, згаданих раніше. Для GPT-4, щоб зменшити витрати, дослідники випадковим чином відібрали 200 запитань для кожного набору даних (100 запитань для HotpotQA) для тестування.

Результати та роздуми

Хоча дослідники не використовували жодних зовнішніх ресурсів чи інструментів у своїх експериментах, дослідники слідували попередній роботі, використовуючи ярлики правди, щоб визначити, коли зупинити цикл самокорекції.

Але в реальному світі, особливо коли дослідники мають намір розв'язувати математичні задачі за допомогою LLM, у більшості випадків правильна відповідь невідома.

Тому до поліпшення показників потрібно поставитися більш ретельно.

Щоб підтвердити цю ідею, дослідники розробили базовий рівень, заснований на випадкових припущеннях. На цьому базовому рівні дослідники продовжують використовувати ярлики істини, щоб визначити, коли зупинитися; Однак коригувальні дії не вживаються LLM, а ґрунтуються на випадкових припущеннях варіантів, що залишилися.

CommonSenseQA — це набір даних із кількома варіантами відповідей, який надає п'ять варіантів кандидатів для кожного запитання.

Якщо точність генерації k-го раунду (початкове покоління дорівнює 0) виразити як x, очікувана точність наступних побудов стане x + (1 − x)/(5 − k).

Результати цього випадкового базового рівня представлені в таблиці 2 вище.

Після 2 раундів його продуктивність порівнянна або навіть краща за самокалібрування, а після 4 раундів точність досягає 100%.

Однак зрозуміло, що такий випадковий базовий рівень не можна вважати ефективним методом корекції. Тим не менш, результати, отримані за допомогою міток, можуть діяти як оракул, вказуючи на те, що існують ідеальні верифікатори, які можуть судити про правильність відповіді.

У таких завданнях, як генерація коду, це можливо, оскільки дослідники можуть використовувати виконавці та модульні тести, щоб визначити, чи успішно працює згенерований код (Chen et al., 2023b).

Однак для задач міркування, таких як розв'язування математичних задач, така установка здається нелогічною. Якщо дослідники вже мають істину, здається, немає причин використовувати LLM для вирішення проблеми.

Внутрішня самокорекція

Для GSM8K подібного випадкового базового рівня може не існувати, але обґрунтування залишається незмінним.

Крім того, дослідники можуть розробити базову лінію, наприклад, генерувати випадкові числа по одному. Після кількох раундів він може отримати правильну відповідь, але таке покращення явно не має сенсу. Більш нагальна причина: навіщо дослідникам це робити, якщо вони вже знають відповідь?

Експериментальна установка визначена раніше. Щоб досягти цього, дослідники просто зняли мітку використання, щоб визначити, коли зупинитися, і оцінили продуктивність за допомогою двох раундів самокорекції.

У таблиці 3 вище показана точність і кількість викликів моделі. Дослідники помітили, що після самокорекції продуктивність моделі погіршилася за всіма тестами.

**Чому знизилася продуктивність? **

На малюнку 1 вище узагальнено результати зміни відповідей після двох раундів самокорекції за допомогою GPT-3.5, а два приклади показані на рисунку 2 нижче.

Для GSM8K модель зберігає початкову відповідь з ймовірністю 74,7%. В інших випадках модель з більшою ймовірністю модифікувала правильну відповідь на неправильну відповідь, ніж модифікувала неправильну відповідь на правильну відповідь.

Для CommonSenseQA GPT-3.5, швидше за все, змінить свою відповідь. Основна причина цього полягає в тому, що неправильні варіанти відповіді в CommonSenseQA часто здаються дещо пов'язаними з питанням, а використання підказок, що самовиправляються, може спотворити модель на користь вибору іншого варіанту, що призведе до високого коефіцієнта «виправити помилку ⇒».

Дозвольте дослідникам ще раз поглянути на результати, наведені в таблиці 1 вище. У цих результатах використовуються мітки істинності, щоб запобігти зміні моделі правильної відповіді на неправильну.

Однак те, як запобігти цій «помилці виправлення», насправді є ключем до забезпечення успіху самовиправлення.

Інтуїтивне пояснення полягає в тому, що якщо модель відповідає добре продуманій початковій підказці, то, враховуючи підказку та конкретний алгоритм декодування, початкова реакція вже має бути оптимальною.

Введення зворотного зв'язку можна розглядати як додавання додаткових підказок, які можуть схилити модель до отримання відповідей, які відповідають цій комбінації вхідних даних.

У внутрішньому середовищі самовиправлення, у завданні на висновок, ця додаткова підказка може не надати жодної додаткової переваги для відповіді на запитання.

Фактично, це може навіть відхилити модель від найкращої реакції на початкову підказку, що призведе до зниження продуктивності.

Можна задатися питанням, чи не є самокоригувальні сигнали, перевірені дослідниками, не ідеальними?

Чи можуть інші поради підвищити продуктивність? Відповідь така: дослідники цілком можуть знайти підказку, яка підвищить продуктивність моделі в конкретному бенчмарку. Однак це більше не узгоджується з внутрішньою установкою самокорекції, розглянутою в цій статті, подібно до обговорення справжньої установки з меншою вибіркою.

Цей пошук, по суті, використовує зворотний зв'язок від людей або навчальні приклади. Крім того, та сама стратегія може бути ефективно застосована для оптимізації початкових підказок, потенційно досягаючи кращої продуктивності без необхідності додаткових викликів моделі для самовиправлення.

У Додатку B дослідники протестували різні поради, але виявили, що продуктивність все одно не покращилася.

Крім того, дослідники не перші, хто помітив, що самокорекція не обов'язково покращує здатність міркувати LLM. Таким чином, дослідники не зосереджуються на вирішенні таких питань, як: «Чи існують підказки, що самокоригуються, які можуть покращити продуктивність певного еталону?». і так далі. Такі запити можуть бути не особливо змістовними.

Замість цього дослідники прагнуть вирішити більш фундаментальне питання: «Чи можуть великі мовні моделі дійсно виправляти свої міркування самостійно, ґрунтуючись лише на вроджених здібностях?»

Самокорекція як другорядна думка**

У попередньому матеріалі дослідники помітили, що LLM стикається з труднощами в самокорекції своїх міркувань.

Однак, як показали попередні дослідження, самокорекція в деяких випадках давала вражаючі результати.

Тому дуже важливо виявити розбіжності та визначити першопричини.

Щоб вирішити цю проблему, важливо зрозуміти основну природу самокорекції. За своєю формою самокорекцію можна розглядати як запізнілу думку.

Він відрізняється від стандартних підказок (які тут називаються попередніми підказками) тим, що підказки робляться поверх відповідей LLM.

Дослідники називають процес удосконалення таких сигналів післяподіяльною підказкою.

Таким чином, самокорекція покращує модельні реакції, коли самокорекція може надати цінні вказівки або зворотний зв'язок, які не можуть надати попередні підказки.

Наприклад, коли мета полягає в тому, щоб зробити відповідь більш безпечною, може бути складно спрямувати модель на отримання повністю безризикової відповіді з першої спроби, використовуючи лише попередні підказки. У цьому випадку самокорекція може бути використана як засіб підвищення безпеки реагування за допомогою тонких посмертних перевірок.

Однак це може бути не так для завдань логічного висновку.

Підказки зворотного зв'язку, як-от «Перегляньте свої попередні відповіді та знайдіть проблему з відповідями». Це не обов'язково дає відчутну користь для міркувань.

Крім того, навіть якщо спостерігається значне поліпшення продуктивності після самокорекції, необхідно ретельно продумати дизайн підказки.

Наприклад, якщо відповідь повинна відповідати критеріям, які можна легко вказати в початковій інструкції (наприклад, вихід повинен містити певні слова, згенерований код повинен бути ефективним, настрій повинен бути сильно негативним), замість того, щоб надавати ці вимоги як зворотний зв'язок у посмертному запиті, більш економічно ефективною альтернативною стратегією є вбудовування цих вимог безпосередньо (явно) в попередній запит.

Результати, наведені в таблиці 5 вище, показують, що ретельно розроблений дослідниками «стандартний сигнал (дослідника)» перевершував результати самовиправлення попередніх досліджень.

Крім того, продуктивність навіть погіршується, коли дослідники використовують свої поради для покращення результатів досліджень.

Знову ж таки, мета дослідників тут не полягає в тому, щоб сперечатися про те, чи існують post-hoc підказки, які можуть перевершити ті, які дослідники пишуть за бажанням. Основна мета дослідників полягає в тому, щоб заохотити більш ретельне вивчення експериментів із самокалібруванням.

Немає сенсу використовувати добре розроблені посмертні підказки, щоб спрямовувати моделі на «самокорекцію» відповідей, згенерованих за допомогою поганих попередніх підказок.

Для того, щоб провести справедливе порівняння, слід докласти однакових зусиль до та після події.

Ресурси:

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити