Існує нове рішення проблеми галюцинацій великих моделей!
Meta AI Labs пропонує рішення «розділяй і володарюй».
Завдяки цьому рішенню точність виведення інформації Llama-65B подвоїлася, навіть перевищивши ChatGPT.
Так звана ілюзія великої моделі полягає у виведенні певного вмісту, який здається розумним, але абсолютно неправильним.
«Ланцюг перевірки» (CoVe), запропонований Meta цього разу, є методом ланцюга, схожим на «Ланцюг думок» (CoT).
Різниця полягає в тому, що ланцюжок мислення «крок за кроком» більше зосереджується на логічних міркуваннях, тоді як ланцюжок перевірки більше зосереджується на фактичній інформації**.
Після прочитання деякі користувачі мережі виявили, що цей ланцюжок перевірки дуже схожий на науковий метод під час написання коду за допомогою ChatGPT:
Отже, що таке метод «ланцюжка перевірки» і що таке «перевірка»?
Розбирай відповідь, розділяй і володарюй
Основна ідея ланцюжка перевірки полягає в тому, щоб розділити великий фрагмент вмісту, який потрібно перевірити, на невеликі проблеми. Конкретний процес виглядає наступним чином:
По-перше, модель генерує відповіді, як зазвичай, на основі запитання, поставленого користувачем.
Потім на основі згенерованого вмісту відповіді створюється серія перевірочних запитань для кожного фрагмента інформації.
Потім моделі дозволяється самостійно відповісти на ці запитання, а початкові відповіді коригуються на основі результатів, щоб отримати остаточний результат.
Щоб навести простий приклад, припустімо, що ви хочете запитати модель, якими були основні причини американо-мексиканської війни в 19 столітті.
Модель відповідає, коли відбулася подія і що було до неї.
Потім для цієї серії подій запитайте їх одну за одною, коли вони відбулися.
У результаті модель виявила, що час одного із згаданих елементів був занадто далеко один від одного, і відкоригувала його, щоб дати остаточну відповідь.
Серед них генерація та перевірка запитань є найбільш критичною частиною.З цього приводу дослідники запропонували чотири конкретні методи:
*Спільне, тобто написання інструкцій для генерації запитань і відповідей в одне слово-підказку
2-етапний, тобто спочатку дозвольте моделі створити запитання, а потім відкрийте нову бесіду (одноразову), щоб відповісти на поставлені запитання
Факторизоване на основі 2-Step відкриває новий діалог для кожного поставленого запитання.
Factor+Revise, додає перевірку узгодженості на основі факторизованого, дозволяючи моделі зосереджуватися на непослідовному вмісті
Ці чотири режими стають все більш досконалими, а їхня точність стає все вищою і вищою.
###### △Починаючи з червоного, чотири кольори означають відсутність CoVe, Joint, Factored і Factor+Revise у порядку
Отже, чому розділення питань може підвищити точність моделі?
Перш за все, оскільки розібрані запитання легші, ніж загальне завдання, запитання для есе стають запитаннями та відповідями або навіть запитаннями з множинним вибором та оцінкою.Запитання простіші, а рівень точності покращений.
Крім того, поділ проблеми на частини дозволяє моделі по-справжньому переосмислити проблему, а не повторювати неправильну відповідь знову і знову.
Отже, який ефект ланцюжкового методу перевірки?
Точність інформації перевищує ChatGPT
Щоб дослідити це питання, дослідники використовували Llama для проведення тесту із загалом трьох тестових завдань.
По-перше, це перерахування інформації, наприклад, перелік знаменитостей, які народилися в певному місці та зайняті в певній галузі.
У цьому завданні дослідники протестували загалом два набори даних — простіший Wikidata та складніший список Wiki-Category (витягнутий із Wikipedia).
Результати показали, що завдяки підтримці двоетапного режиму верифікаційного ланцюжка Llama з параметрами 65B точність простих питань зросла з 0,17 до 0,36, більш ніж удвічі**, а точність складних питань також зросла майже вдвічі.
Далі йде запитання «Запитання та відповіді в закритому домені». Дослідники витягли кілька непостійних відомостей із набору даних MultiSpanQA та поставили запитання.
Наприклад, «Хто в якому році заснував перше у світі видавництво» (відповідь Йоганн Гутенберг, 1450).
У результаті Cove також підвищив точність Llama приблизно на 20%.
Третє завдання — «Створення довгої текстової біографії» Запитання «Розкажіть мені біографію (ім’я особи)», яке оцінюється за допомогою набору даних FactScore.
Як наслідок, у режимі Factor+Reviese показник точності не тільки значно вищий, ніж у режимі ланцюжка без перевірки, але й перевершує ChatGPT.
Друзі, які зацікавлені в цьому дослідженні, можуть дізнатися більше деталей у статті.
Адреса паперу:
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
Точність довгої текстової інформації перевищує ChatGPT, і Meta пропонує новий метод зменшити ілюзію великих моделей
Джерело: Qubits
Існує нове рішення проблеми галюцинацій великих моделей!
Meta AI Labs пропонує рішення «розділяй і володарюй».
Завдяки цьому рішенню точність виведення інформації Llama-65B подвоїлася, навіть перевищивши ChatGPT.
«Ланцюг перевірки» (CoVe), запропонований Meta цього разу, є методом ланцюга, схожим на «Ланцюг думок» (CoT).
Різниця полягає в тому, що ланцюжок мислення «крок за кроком» більше зосереджується на логічних міркуваннях, тоді як ланцюжок перевірки більше зосереджується на фактичній інформації**.
Після прочитання деякі користувачі мережі виявили, що цей ланцюжок перевірки дуже схожий на науковий метод під час написання коду за допомогою ChatGPT:
Розбирай відповідь, розділяй і володарюй
Основна ідея ланцюжка перевірки полягає в тому, щоб розділити великий фрагмент вмісту, який потрібно перевірити, на невеликі проблеми. Конкретний процес виглядає наступним чином:
По-перше, модель генерує відповіді, як зазвичай, на основі запитання, поставленого користувачем.
Потім на основі згенерованого вмісту відповіді створюється серія перевірочних запитань для кожного фрагмента інформації.
Потім моделі дозволяється самостійно відповісти на ці запитання, а початкові відповіді коригуються на основі результатів, щоб отримати остаточний результат.
Щоб навести простий приклад, припустімо, що ви хочете запитати модель, якими були основні причини американо-мексиканської війни в 19 столітті.
Модель відповідає, коли відбулася подія і що було до неї.
У результаті модель виявила, що час одного із згаданих елементів був занадто далеко один від одного, і відкоригувала його, щоб дати остаточну відповідь.
*Спільне, тобто написання інструкцій для генерації запитань і відповідей в одне слово-підказку
Ці чотири режими стають все більш досконалими, а їхня точність стає все вищою і вищою.
Отже, чому розділення питань може підвищити точність моделі?
Перш за все, оскільки розібрані запитання легші, ніж загальне завдання, запитання для есе стають запитаннями та відповідями або навіть запитаннями з множинним вибором та оцінкою.Запитання простіші, а рівень точності покращений.
Крім того, поділ проблеми на частини дозволяє моделі по-справжньому переосмислити проблему, а не повторювати неправильну відповідь знову і знову.
Отже, який ефект ланцюжкового методу перевірки?
Точність інформації перевищує ChatGPT
Щоб дослідити це питання, дослідники використовували Llama для проведення тесту із загалом трьох тестових завдань.
По-перше, це перерахування інформації, наприклад, перелік знаменитостей, які народилися в певному місці та зайняті в певній галузі.
У цьому завданні дослідники протестували загалом два набори даних — простіший Wikidata та складніший список Wiki-Category (витягнутий із Wikipedia).
Далі йде запитання «Запитання та відповіді в закритому домені». Дослідники витягли кілька непостійних відомостей із набору даних MultiSpanQA та поставили запитання.
Наприклад, «Хто в якому році заснував перше у світі видавництво» (відповідь Йоганн Гутенберг, 1450).
У результаті Cove також підвищив точність Llama приблизно на 20%.
Як наслідок, у режимі Factor+Reviese показник точності не тільки значно вищий, ніж у режимі ланцюжка без перевірки, але й перевершує ChatGPT.
Адреса паперу: