DeepMind дозволяє великим моделям вивчати індукцію та дедукцію, а точність GPT-4 покращується на 13,7%

Джерело зображення: Створено Unbounded AI

В даний час великі мовні моделі (LLM) демонструють вражаючі можливості в завданнях логічного висновку, особливо при наведенні прикладів і проміжних кроків. Однак методи часто покладаються на мовчазні знання в LLM, і LLM дає неправильні відповіді, коли мовчазні знання неправильні або не узгоджуються із завданням.

Тепер дослідники з Google, Інституту Міла та інших дослідницьких установ спільно дослідили новий спосіб дозволити LLM вивчати правила висновків і запропонували нову структуру під назвою Hypotheses-to-Theories (HtT). Цей новий підхід не тільки покращує багатокрокове міркування, але й має переваги інтерпретації, переносності тощо.

Паперова адреса:

Експерименти з числовими і реляційними задачами міркувань показують, що HtT покращує існуючі методи з 11-27% більшою точністю. Вивчені правила також можуть бути перенесені на різні моделі або різні форми однієї і тієї ж задачі.

Вступ до методу

Таким чином, структура HtT складається з двох фаз – індуктивної фази та дедуктивної фази, подібно до навчання та тестування в традиційному машинному навчанні.

На етапі індукції LLM спочатку просять згенерувати та перевірити правила для набору навчальних прикладів. Дослідження використовує CoT для оголошення правил і отримання відповідей, оцінки частоти та точності правил, а також збору правил, які часто з'являються та призводять до правильних відповідей, щоб сформувати базу правил.

Маючи хорошу базу правил, наступним кроком буде вивчення того, як застосувати ці правила для вирішення проблеми. З цією метою, на дедуктивній фазі, дослідження додає базу правил і просить LLM отримати правила з бази правил для дедукції, перетворюючи неявний висновок в явний.

Однак дослідження показало, що навіть дуже потужні LLM, такі як GPT-4, намагаються отримати правильні правила на кожному кроці. З цією метою дослідники розробили трюк XML-тегів, щоб розширити можливості пошуку контексту LLM.

Результати експерименту

Для оцінки HtT дослідження було проведено в порівнянні з двома багатоступеневими задачами висновування. Результати експериментів показують, що HtT покращує метод меншої вибірки. Автори також провели великі абляційні дослідження, щоб забезпечити більш повне розуміння HtT.

Вони оцінюють нові підходи до задач чисельного та реляційного міркування. У числових міркуваннях вони спостерігали покращення точності на 21,0% за допомогою GPT-4. У реляційному висновуванні GPT-4 покращив точність на 13,7%, тоді як GPT-3,5 приніс ще більше користі, подвоївши продуктивність. Приріст продуктивності відбувається в основному за рахунок зменшення ілюзії регулярності.

Зокрема, у таблиці 1 нижче наведено результати за арифметичними наборами даних з основою 16, основою 11 та основою 9. З усіх базових систем 0-shot CoT показує найгірші результати в обох LLM.

У ТАБЛИЦІ 2 ПРЕДСТАВЛЕНІ РЕЗУЛЬТАТИ ПОРІВНЯННЯ РІЗНИХ МЕТОДІВ НА CLUTRR. Можна помітити, що 0-shot CoT має найгірші показники в GPT3.5 і GPT4. Для методу підказок з кількома пострілами продуктивність CoT і LtM схожа. За середньою точністю HtT стабільно перевершує метод cue обох моделей на 11,1-27,2%. Варто зазначити, що GPT3.5 непогано отримує правила CLUTRR і виграє від HtT більше, ніж від GPT4, ймовірно, тому, що в CLUTRR правил менше, ніж в арифметиці.

Варто зазначити, що використовуючи правила GPT4, продуктивність CoT на GPT3.5 покращується на 27,2%, що більш ніж удвічі перевищує продуктивність CoT і близька до продуктивності CoT на GPT4. Тому автори вважають, що HtT може служити новою формою дистиляції знань від сильного LLM до слабкого LLM.

З таблиці 3 видно, що HtT значно покращує продуктивність GPT-4 (текстова версія). Для GPT3.5 це покращення не є суттєвим, оскільки воно часто призводить до помилок, відмінних від ілюзії правил при обробці введеного тексту.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити