Новітні технології Google: через пошукову систему значно підвищують точність таких моделей, як ChatGPT

巴比特_ · 2023-10-14T08:20:49+00:00

Першоджерело: AIGC Open Community![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-5df14fcd2e-dd1a6f-69ad2a) Джерело зображення: Створено Unbounded AIЗавдяки появі Transformer здатність великих мовних моделей, таких як ChatGPT, обробляти завдання природною мовою була значно покращена. Однак згенерований контент містить багато неправильної або застарілої інформації, а система фактичної оцінки для перевірки автентичності контенту відсутня.Для того, щоб всебічно оцінити адаптивність великих мовних моделей до змін у світі та автентичність контенту, дослідницька група Google AI опублікувала статтю під назвою «Підвищення точності великих мовних моделей за допомогою знань пошукових систем». Запропоновано метод FRESH для підвищення точності великих мовних моделей, таких як ChatGPT та Bard, шляхом отримання інформації з пошукових систем у режимі реального часу.Дослідники сконструювали новий еталонний набір запитань і відповідей FRESHQA, який містить 600 реальних запитань різного типу, а частота відповідей розділена на чотири категорії: «ніколи не змінюйся», «повільна зміна», «часта зміна» та «хибні передумови»**.При цьому розроблені також два методи оцінювання: строгий режим, який вимагає, щоб вся інформація у відповідях була точною та актуальною, та розслаблений режим, який лише оцінює правильність основних відповідей.Експериментальні результати показують, що FRESH значно підвищує точність великих мовних моделей на FRESHQA. **Наприклад, GPT-4 на 47% точніший за оригінальний GPT-4 за допомогою суворого режиму FRESH**.Крім того, такий спосіб злиття пошукових систем є більш гнучким, ніж безпосереднє розширення параметрів моделі, і може забезпечити динамічне зовнішнє джерело знань для існуючих моделей. Експериментальні результати також показують, що FRESH може значно підвищити точність великих мовних моделей для задач, що вимагають знань у реальному часі.Паперова адреса:Адреса з відкритим вихідним кодом: Big Language Model S/FreshQA (в розробці, скоро буде відкритий вихідний код)![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-5b9455dd07-dd1a6f-69ad2a) Судячи зі змісту статті Google, метод FRESH в основному складається з 5 модулів. ## **Створіть еталонний набір FRESHQA** Для того, щоб всебічно оцінити адаптивність великих мовних моделей до мінливого світу, дослідники спочатку сконструювали еталонний набір FRESHQA, який містить 600 реальних питань відкритого домену, які можна розділити на чотири категорії відповідно до частоти зміни відповідей: «ніколи не змінюються», «повільні зміни», «часті зміни» та «хибні передумови».1) Ніколи не змінюйтеся: відповідь на питання, які в принципі не зміняться.2) Повільні зміни: відповідь на запитання змінюється кожні кілька років.3) Часта зміна: відповіді на питання, які можуть змінюватися щороку або рідше.4) Неправильна передумова: проблема, яка містить неправильну передумову.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-3b6633aa55-dd1a6f-69ad2a) Запитання охоплюють різноманітні теми та мають різний рівень складності. Ключова особливість FRESHQA полягає в тому, що відповідь може змінюватися з часом, тому модель має бути чутливою до змін у світі. ## **Оцінка строгого режиму проти розслабленого режиму** Дослідники запропонували два режими оцінювання: строгий режим, який вимагає, щоб вся інформація у відповідях була точною та актуальною, і розслаблений режим, який оцінює лише правильність основних відповідей.Це забезпечує більш повний і тонкий спосіб вимірювання фактичної природи мовних моделей.Оцінка різних великих мовних моделей на основі FRESHQAНа FRESHQA дослідники порівняли великі мовні моделі, що охоплюють різні параметри, включаючи GPT-3, GPT-4, ChatGPT та інші. Оцінювання проводиться як у строгому режимі (обов'язкова відсутність помилок), так і в дозвільному режимі (оцінюються лише первинні відповіді).![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-2a291d2cf9-dd1a6f-69ad2a) Встановлено, що всі моделі погано справляються з проблемами, що вимагають знань в реальному часі, особливо з проблемами з частою зміною і неправильними приміщеннями. Це свідчить про те, що нинішня велика мовна модель має обмеження у своїй пристосованості до мінливого світу. ## **Отримання релевантної інформації з пошукових систем** Щоб покращити фактичний характер великої мовної моделі, основна ідея FRESH полягає в отриманні інформації про проблему в режимі реального часу з пошукової системи.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-25f047bd37-dd1a6f-69ad2a) Зокрема, отримавши запитання, FRESH звернеться до пошукової системи Google як ключове слово, щоб отримати кілька типів результатів пошуку, включаючи вікна відповідей, результати веб-сторінки, «інші користувачі також запитували» тощо. ## **Отримуйте інформацію за допомогою розрідженої інтеграції навчання** FRESH використовує кілька пострілів для інтеграції отриманих доказів у вхідну підказку великомовної моделі в уніфікованому форматі, а також надає кілька демонстрацій того, як синтезувати докази, щоб отримати правильну відповідь.Це може навчити великі мовні моделі розуміти завдання та інтегрувати інформацію з різних джерел для отримання актуальних і точних відповідей.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-6d4c929373-dd1a6f-69ad2a) У Google заявили, що FRESH має велике значення для поліпшення динамічної адаптивності великих мовних моделей, що також є важливим напрямком для майбутніх технологічних досліджень великих мовних моделей.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-e6a6640558-dd1a6f-69ad2a)

巴比特_

2023-10-14 08:20:49

Першоджерело: AIGC Open Community

Джерело зображення: Створено Unbounded AI

Завдяки появі Transformer здатність великих мовних моделей, таких як ChatGPT, обробляти завдання природною мовою була значно покращена. Однак згенерований контент містить багато неправильної або застарілої інформації, а система фактичної оцінки для перевірки автентичності контенту відсутня.

Для того, щоб всебічно оцінити адаптивність великих мовних моделей до змін у світі та автентичність контенту, дослідницька група Google AI опублікувала статтю під назвою «Підвищення точності великих мовних моделей за допомогою знань пошукових систем». Запропоновано метод FRESH для підвищення точності великих мовних моделей, таких як ChatGPT та Bard, шляхом отримання інформації з пошукових систем у режимі реального часу.

Дослідники сконструювали новий еталонний набір запитань і відповідей FRESHQA, який містить 600 реальних запитань різного типу, а частота відповідей розділена на чотири категорії: «ніколи не змінюйся», «повільна зміна», «часта зміна» та «хибні передумови»**.

При цьому розроблені також два методи оцінювання: строгий режим, який вимагає, щоб вся інформація у відповідях була точною та актуальною, та розслаблений режим, який лише оцінює правильність основних відповідей.

Експериментальні результати показують, що FRESH значно підвищує точність великих мовних моделей на FRESHQA. Наприклад, GPT-4 на 47% точніший за оригінальний GPT-4 за допомогою суворого режиму FRESH.

Крім того, такий спосіб злиття пошукових систем є більш гнучким, ніж безпосереднє розширення параметрів моделі, і може забезпечити динамічне зовнішнє джерело знань для існуючих моделей. Експериментальні результати також показують, що FRESH може значно підвищити точність великих мовних моделей для задач, що вимагають знань у реальному часі.

Паперова адреса:

Адреса з відкритим вихідним кодом: Big Language Model S/FreshQA (в розробці, скоро буде відкритий вихідний код)

Судячи зі змісту статті Google, метод FRESH в основному складається з 5 модулів.

Створіть еталонний набір FRESHQA

Для того, щоб всебічно оцінити адаптивність великих мовних моделей до мінливого світу, дослідники спочатку сконструювали еталонний набір FRESHQA, який містить 600 реальних питань відкритого домену, які можна розділити на чотири категорії відповідно до частоти зміни відповідей: «ніколи не змінюються», «повільні зміни», «часті зміни» та «хибні передумови».

Ніколи не змінюйтеся: відповідь на питання, які в принципі не зміняться.
Повільні зміни: відповідь на запитання змінюється кожні кілька років.
Часта зміна: відповіді на питання, які можуть змінюватися щороку або рідше.
Неправильна передумова: проблема, яка містить неправильну передумову.

Запитання охоплюють різноманітні теми та мають різний рівень складності. Ключова особливість FRESHQA полягає в тому, що відповідь може змінюватися з часом, тому модель має бути чутливою до змін у світі.

Оцінка строгого режиму проти розслабленого режиму

Дослідники запропонували два режими оцінювання: строгий режим, який вимагає, щоб вся інформація у відповідях була точною та актуальною, і розслаблений режим, який оцінює лише правильність основних відповідей.

Це забезпечує більш повний і тонкий спосіб вимірювання фактичної природи мовних моделей.

Оцінка різних великих мовних моделей на основі FRESHQA

На FRESHQA дослідники порівняли великі мовні моделі, що охоплюють різні параметри, включаючи GPT-3, GPT-4, ChatGPT та інші. Оцінювання проводиться як у строгому режимі (обов'язкова відсутність помилок), так і в дозвільному режимі (оцінюються лише первинні відповіді).

Встановлено, що всі моделі погано справляються з проблемами, що вимагають знань в реальному часі, особливо з проблемами з частою зміною і неправильними приміщеннями. Це свідчить про те, що нинішня велика мовна модель має обмеження у своїй пристосованості до мінливого світу.

Отримання релевантної інформації з пошукових систем

Щоб покращити фактичний характер великої мовної моделі, основна ідея FRESH полягає в отриманні інформації про проблему в режимі реального часу з пошукової системи.

Зокрема, отримавши запитання, FRESH звернеться до пошукової системи Google як ключове слово, щоб отримати кілька типів результатів пошуку, включаючи вікна відповідей, результати веб-сторінки, «інші користувачі також запитували» тощо.

Отримуйте інформацію за допомогою розрідженої інтеграції навчання

FRESH використовує кілька пострілів для інтеграції отриманих доказів у вхідну підказку великомовної моделі в уніфікованому форматі, а також надає кілька демонстрацій того, як синтезувати докази, щоб отримати правильну відповідь.

Це може навчити великі мовні моделі розуміти завдання та інтегрувати інформацію з різних джерел для отримання актуальних і точних відповідей.

У Google заявили, що FRESH має велике значення для поліпшення динамічної адаптивності великих мовних моделей, що також є важливим напрямком для майбутніх технологічних досліджень великих мовних моделей.

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

1 лайків

Нагородити
1
Прокоментувати
Поділіться

Прокоментувати

0/400

Немає коментарів

Тема
1/3
1CandyDrop Airdrop Event 6.0
16k Популярність
2White House Crypto Report
33k Популярність
3Join Alpha RION Airdrop to Earn $40
9k Популярність
4Fed Holds Rates Decision
8k Популярність
5July Spark Program TOP 10 Creators Announced
2k Популярність

Закріпити

карта сайту