Завдяки появі Transformer здатність великих мовних моделей, таких як ChatGPT, обробляти завдання природною мовою була значно покращена. Однак згенерований контент містить багато неправильної або застарілої інформації, а система фактичної оцінки для перевірки автентичності контенту відсутня.
Для того, щоб всебічно оцінити адаптивність великих мовних моделей до змін у світі та автентичність контенту, дослідницька група Google AI опублікувала статтю під назвою «Підвищення точності великих мовних моделей за допомогою знань пошукових систем». Запропоновано метод FRESH для підвищення точності великих мовних моделей, таких як ChatGPT та Bard, шляхом отримання інформації з пошукових систем у режимі реального часу.
Дослідники сконструювали новий еталонний набір запитань і відповідей FRESHQA, який містить 600 реальних запитань різного типу, а частота відповідей розділена на чотири категорії: «ніколи не змінюйся», «повільна зміна», «часта зміна» та «хибні передумови»**.
При цьому розроблені також два методи оцінювання: строгий режим, який вимагає, щоб вся інформація у відповідях була точною та актуальною, та розслаблений режим, який лише оцінює правильність основних відповідей.
Експериментальні результати показують, що FRESH значно підвищує точність великих мовних моделей на FRESHQA. Наприклад, GPT-4 на 47% точніший за оригінальний GPT-4 за допомогою суворого режиму FRESH.
Крім того, такий спосіб злиття пошукових систем є більш гнучким, ніж безпосереднє розширення параметрів моделі, і може забезпечити динамічне зовнішнє джерело знань для існуючих моделей. Експериментальні результати також показують, що FRESH може значно підвищити точність великих мовних моделей для задач, що вимагають знань у реальному часі.
Паперова адреса:
Адреса з відкритим вихідним кодом: Big Language Model S/FreshQA (в розробці, скоро буде відкритий вихідний код)
Судячи зі змісту статті Google, метод FRESH в основному складається з 5 модулів.
Створіть еталонний набір FRESHQA
Для того, щоб всебічно оцінити адаптивність великих мовних моделей до мінливого світу, дослідники спочатку сконструювали еталонний набір FRESHQA, який містить 600 реальних питань відкритого домену, які можна розділити на чотири категорії відповідно до частоти зміни відповідей: «ніколи не змінюються», «повільні зміни», «часті зміни» та «хибні передумови».
Ніколи не змінюйтеся: відповідь на питання, які в принципі не зміняться.
Повільні зміни: відповідь на запитання змінюється кожні кілька років.
Часта зміна: відповіді на питання, які можуть змінюватися щороку або рідше.
Неправильна передумова: проблема, яка містить неправильну передумову.
Запитання охоплюють різноманітні теми та мають різний рівень складності. Ключова особливість FRESHQA полягає в тому, що відповідь може змінюватися з часом, тому модель має бути чутливою до змін у світі.
Оцінка строгого режиму проти розслабленого режиму
Дослідники запропонували два режими оцінювання: строгий режим, який вимагає, щоб вся інформація у відповідях була точною та актуальною, і розслаблений режим, який оцінює лише правильність основних відповідей.
Це забезпечує більш повний і тонкий спосіб вимірювання фактичної природи мовних моделей.
Оцінка різних великих мовних моделей на основі FRESHQA
На FRESHQA дослідники порівняли великі мовні моделі, що охоплюють різні параметри, включаючи GPT-3, GPT-4, ChatGPT та інші. Оцінювання проводиться як у строгому режимі (обов'язкова відсутність помилок), так і в дозвільному режимі (оцінюються лише первинні відповіді).
Встановлено, що всі моделі погано справляються з проблемами, що вимагають знань в реальному часі, особливо з проблемами з частою зміною і неправильними приміщеннями. Це свідчить про те, що нинішня велика мовна модель має обмеження у своїй пристосованості до мінливого світу.
Отримання релевантної інформації з пошукових систем
Щоб покращити фактичний характер великої мовної моделі, основна ідея FRESH полягає в отриманні інформації про проблему в режимі реального часу з пошукової системи.
Зокрема, отримавши запитання, FRESH звернеться до пошукової системи Google як ключове слово, щоб отримати кілька типів результатів пошуку, включаючи вікна відповідей, результати веб-сторінки, «інші користувачі також запитували» тощо.
Отримуйте інформацію за допомогою розрідженої інтеграції навчання
FRESH використовує кілька пострілів для інтеграції отриманих доказів у вхідну підказку великомовної моделі в уніфікованому форматі, а також надає кілька демонстрацій того, як синтезувати докази, щоб отримати правильну відповідь.
Це може навчити великі мовні моделі розуміти завдання та інтегрувати інформацію з різних джерел для отримання актуальних і точних відповідей.
У Google заявили, що FRESH має велике значення для поліпшення динамічної адаптивності великих мовних моделей, що також є важливим напрямком для майбутніх технологічних досліджень великих мовних моделей.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
Новітні технології Google: через пошукову систему значно підвищують точність таких моделей, як ChatGPT
Першоджерело: AIGC Open Community
Завдяки появі Transformer здатність великих мовних моделей, таких як ChatGPT, обробляти завдання природною мовою була значно покращена. Однак згенерований контент містить багато неправильної або застарілої інформації, а система фактичної оцінки для перевірки автентичності контенту відсутня.
Для того, щоб всебічно оцінити адаптивність великих мовних моделей до змін у світі та автентичність контенту, дослідницька група Google AI опублікувала статтю під назвою «Підвищення точності великих мовних моделей за допомогою знань пошукових систем». Запропоновано метод FRESH для підвищення точності великих мовних моделей, таких як ChatGPT та Bard, шляхом отримання інформації з пошукових систем у режимі реального часу.
Дослідники сконструювали новий еталонний набір запитань і відповідей FRESHQA, який містить 600 реальних запитань різного типу, а частота відповідей розділена на чотири категорії: «ніколи не змінюйся», «повільна зміна», «часта зміна» та «хибні передумови»**.
При цьому розроблені також два методи оцінювання: строгий режим, який вимагає, щоб вся інформація у відповідях була точною та актуальною, та розслаблений режим, який лише оцінює правильність основних відповідей.
Експериментальні результати показують, що FRESH значно підвищує точність великих мовних моделей на FRESHQA. Наприклад, GPT-4 на 47% точніший за оригінальний GPT-4 за допомогою суворого режиму FRESH.
Крім того, такий спосіб злиття пошукових систем є більш гнучким, ніж безпосереднє розширення параметрів моделі, і може забезпечити динамічне зовнішнє джерело знань для існуючих моделей. Експериментальні результати також показують, що FRESH може значно підвищити точність великих мовних моделей для задач, що вимагають знань у реальному часі.
Паперова адреса:
Адреса з відкритим вихідним кодом: Big Language Model S/FreshQA (в розробці, скоро буде відкритий вихідний код)
Створіть еталонний набір FRESHQA
Для того, щоб всебічно оцінити адаптивність великих мовних моделей до мінливого світу, дослідники спочатку сконструювали еталонний набір FRESHQA, який містить 600 реальних питань відкритого домену, які можна розділити на чотири категорії відповідно до частоти зміни відповідей: «ніколи не змінюються», «повільні зміни», «часті зміни» та «хибні передумови».
Ніколи не змінюйтеся: відповідь на питання, які в принципі не зміняться.
Повільні зміни: відповідь на запитання змінюється кожні кілька років.
Часта зміна: відповіді на питання, які можуть змінюватися щороку або рідше.
Неправильна передумова: проблема, яка містить неправильну передумову.
Оцінка строгого режиму проти розслабленого режиму
Дослідники запропонували два режими оцінювання: строгий режим, який вимагає, щоб вся інформація у відповідях була точною та актуальною, і розслаблений режим, який оцінює лише правильність основних відповідей.
Це забезпечує більш повний і тонкий спосіб вимірювання фактичної природи мовних моделей.
Оцінка різних великих мовних моделей на основі FRESHQA
На FRESHQA дослідники порівняли великі мовні моделі, що охоплюють різні параметри, включаючи GPT-3, GPT-4, ChatGPT та інші. Оцінювання проводиться як у строгому режимі (обов'язкова відсутність помилок), так і в дозвільному режимі (оцінюються лише первинні відповіді).
Отримання релевантної інформації з пошукових систем
Щоб покращити фактичний характер великої мовної моделі, основна ідея FRESH полягає в отриманні інформації про проблему в режимі реального часу з пошукової системи.
Отримуйте інформацію за допомогою розрідженої інтеграції навчання
FRESH використовує кілька пострілів для інтеграції отриманих доказів у вхідну підказку великомовної моделі в уніфікованому форматі, а також надає кілька демонстрацій того, як синтезувати докази, щоб отримати правильну відповідь.
Це може навчити великі мовні моделі розуміти завдання та інтегрувати інформацію з різних джерел для отримання актуальних і точних відповідей.