Останнє дослідження, проведене командою Google, пропонує замінити людей великими моделями для маркування переваг, якими є інтенсивне навчання зі зворотним зв’язком AI (RLAIF).
Адреса паперу:
Було виявлено, що RLAIF може створити порівняльні покращення з RLHF, не покладаючись на людські анотатори, з відсотком виграшу 50%.
У той же час дослідження Google ще раз довели, що RLAIF і RLHF мають коефіцієнт виграшу понад 70% порівняно з контрольованим тонким налаштуванням (SFT).
Ключовою частиною навчання великих мовних моделей сьогодні є RLHF. Люди роблять відповіді кориснішими, оцінюючи якість виходу ШІ.
Однак для цього потрібно докласти багато зусиль, у тому числі наражати багатьох анотаторів на шкідливий вміст, виведений ШІ.
Тепер, коли RLAIF можна порівняти з RLHF, майбутні моделі не вимагають зворотного зв’язку з боку людини, а також можуть бути вдосконалені за допомогою автоциклів.
RLHF більше не потребує людей
Наразі RLHF став основним методом тонкого налаштування великих моделей, включаючи ChatGPT, Bard та інші моделі, які приймають цю парадигму.
Зокрема, RLHF поділяється на три етапи: попереднє навчання керованого тонкого налаштування LLM; збір даних для навчання моделі винагороди; точне налаштування моделі за допомогою RL.
За допомогою RLHF великі моделі можна оптимізувати для складних цілей на рівні послідовності, які важко розрізнити за допомогою традиційного SFT.
Однак цілком реальною проблемою є те, що RLHF вимагає великомасштабних високоякісних даних, позначених людиною, і чи можуть ці дані досягти чудового результату.
До цього дослідження Google дослідники Anthropic були першими, хто досліджував використання налаштувань AI для навчання моделей винагороди для тонкого налаштування RL.
Вони вперше запропонували RLAIF у «Конституційному штучному інтелекті» та виявили, що LLM дуже відповідає людським судженням і навіть перевершує людей у деяких завданнях.
Однак у цьому дослідженні не порівнювали відгуки людини та штучного інтелекту, тому ще не отримано остаточної відповіді щодо того, чи може RLAIF замінити RLHF.
Останні дослідження Google спрямовані головним чином на вирішення цієї проблеми.
Дослідники безпосередньо порівняли RLAIF і RLHF у задачі узагальнення моделі.
Враховуючи 1 текст і 2 варіанти відповідей, використовуйте готовий LLM, щоб надати анотацію переваг.
Потім навчається модель винагороди (RM) на основі переваг LLM і контрастних втрат. Нарешті, модель політики налаштовується за допомогою навчання з підкріпленням, і модель винагороди використовується для надання винагороди.
Отже, яка різниця між підходом RLAIF, запропонованим Google, і підходом Anthropic?
Сам Google пояснює в статті,
Google: навчіть модель винагороди на основі вподобань, позначених штучним інтелектом, а потім виконайте точне налаштування RL.
Конституційний штучний інтелект: покращуйте моделі навчання під наглядом, періодично просячи LLM генерувати кращі відповіді відповідно до конституції.
ШІ самомаркування, самовдосконалення
Який процес методу RLAIF, запропонованого Google в останніх дослідженнях?
Велика мовна модель для анотації налаштувань
Дослідники використовували «готовий» LLM, щоб анотувати переваги між двома кандидатами.
Це попередньо навчена модель або налаштована інструкція для загального використання, але не налаштована для конкретного наступного завдання. Враховуючи фрагмент тексту та дві кандидатські тези, LLM просять оцінити, яка анотація краща. Вхідна структура LLM така:
1. Передмова
Інструкції, що представляють і описують завдання
2. Кілька зразків (необов’язково)
Фрагмент тексту, пара тез, обґрунтування ідеї та судження про перевагу
3. Зразки, які потрібно маркувати
Фрагмент тексту та пара резюме для анотації
4.Кінець
Підкажіть кінцевий рядок LLM (наприклад, "Preferred Summary=")
Після надання вхідних даних LLM дослідники отримують журнал ймовірностей генерації токенів «1» і «2» і обчислюють softmax для отримання розподілу переваг.
Є багато способів отримати анотації переваг від LLM, наприклад, декодування відповідей у довільній формі з моделі та евристичний витяг переваг (наприклад: вихід = «перший підсумок кращий») або представлення розподілу переваг у вигляді одноразового представлення (one-hot -hot репрезентація). Однак дослідники не пробували ці альтернативи, оскільки їхній метод уже давав високу точність.
Дослідники експериментували з двома типами преамбул: перший, «Базовий», який просто запитує, «який підсумок кращий?», і другий, «OpenAI», який імітує підхід, який використовується для створення набору даних переваг OpenAI TL;DR. Інструкції щодо рейтингу для тегів уподобань людини з детальною інформацією про те, що є сильними підсумками. Як показано нижче.
Дослідники також експериментували з контекстним навчанням, додаючи невелику кількість зразків до підказок, де зразки вибиралися вручну для охоплення різних тем. Вирішити відхилення положення.
Попередні результати показують, що порядок, у якому кандидати представлені LLM, може вплинути на рішення LLM про те, якому кандидату надається перевага. Дослідники знайшли докази цього позиційного упередження, особливо для анотованих LLM меншого розміру.
Щоб пом’якшити позиційне зміщення в анотації переваг, ми виконуємо два висновки щодо кожної пари кандидатів, змінюючи порядок, у якому кандидати подаються на LLM. Результати двох висновків потім усереднюються для отримання остаточного розподілу переваг.
Мислення ланцюгом міркування
Дослідники намагалися витягти ланцюжок думок (COT) від анотаторів штучного інтелекту, щоб покращити узгодженість з уподобаннями людини.
Дослідники замінюють стандартні кінцеві підказки (наприклад, замінюють «Переважне резюме=" на «Враховуйте послідовність, точність, охоплення та загальну якість кожного резюме та поясніть, яке з них краще. Обґрунтування:»), а потім декодують відповідь LLM .
Нарешті, дослідники об’єднали оригінальні підказки, відповіді та оригінальний кінцевий рядок «Preferred Summary=" і дотримувалися процесу підрахунку балів у розділі 3.1, щоб отримати розподіл переваг. Дивіться малюнок нижче для конкретного процесу.
У нульових підказках LLM не дає прикладів того, як має виглядати висновок, тоді як у кількох підказках дослідники надають приклади висновків COT для моделі. Для прикладу дивіться малюнок нижче.
### Самоузгодженість
Для підказок ланцюжка думок дослідники також експериментували з самоузгодженістю — технікою, яка покращує міркування ланцюжком думок шляхом вибірки кількох шляхів міркування та агрегування остаточних відповідей, отриманих у кінці кожного шляху.
Використовуйте ненульову температуру декодування для вибірки кількох основ ланцюга думок, а потім отримайте розподіл переваг LLM для кожного ланцюга думок відповідно до методу з попереднього розділу. Потім результати усереднюються для отримання остаточного розподілу переваг.
Навчання з підкріпленням за допомогою зворотного зв’язку зі штучним інтелектом
Після того як LLM позначає переваги, модель винагороди (RM) навчається передбачати переваги. Оскільки метод дослідників створює м’які мітки, вони використовують втрату перехресної ентропії softmax оцінки винагороди, згенерованої RM, замість втрати, згаданої в моделі винагороди.
Softmax перетворює необмежені оцінки RM у розподіли ймовірностей.
Навчання RM на наборах даних, позначених штучним інтелектом, можна розглядати як форму дистиляції моделі, особливо тому, що тегери AI дослідників часто більші та потужніші, ніж RM.
Інший підхід полягає в обході RM і безпосередньому використанні зворотного зв’язку AI як сигналу винагороди в RL, хоча цей підхід є дорожчим з точки зору обчислень, оскільки теггер AI більший, ніж RM.
З навченим RM дослідники виконали навчання з підкріпленням, використовуючи модифіковану версію алгоритму Advantage Actor Critic (A2C), адаптовану до сфери мовного моделювання.
оцінити
Дослідники оцінювали свої результати за трьома показниками – вирівнювання анотаторів штучного інтелекту, точність сполучення та відсоток перемог.
Вирівнювання тегрів AI використовується для вимірювання точності налаштувань тегів AI відносно уподобань людини.
Для одного прикладу перетворіть параметри, позначені програмним штучним інтелектом, у двійкове представлення. Призначте 1, якщо анотація відповідає цільовим уподобанням людини, і призначте 0 в іншому випадку.
Попарна точність — це міра точності навченої моделі винагороди відносно набору збережених уподобань людини.
Враховуючи спільний контекст і пару відповідей кандидатів, точність поєднання дорівнює 1, якщо RM оцінює кращий кандидат вище, ніж небажаний кандидат на основі анотації людини. В іншому випадку значення дорівнює 0. Це число є середнім для багатьох прикладів для вимірювання загальної точності RM.
Коефіцієнт виграшів оцінює наскрізну якість двох стратегій, вимірюючи, як часто люди віддають перевагу одній стратегії іншій.
Враховуючи вхідні дані та результати двох генерацій, людина-анотатор вибирає, якій генерації віддати перевагу. Відсоток випадків, коли стратегія A перевершує стратегію B, називається «коефіцієнт виграшів A проти B».
Деталі експерименту
Дослідники використовували відфільтрований набір даних Reddit TL;DR, підготовлений OpenAI. TL;DR містить приблизно 3 мільйони дописів із Reddit на різні теми (також відомих як «субреддити»), а також уривки дописів, написаних оригінальним автором.
Дані також фільтруються за допомогою OpenAI для забезпечення високої якості, що включає використання білого списку тем Reddit, зрозумілих широкому загалу.
Крім того, були включені лише публікації з анотаціями від 24 до 48. Відфільтрований набір даних містить 123 169 публікацій, близько 5% з яких служать набором для перевірки.
Більш детальну інформацію про набір даних можна знайти в оригінальній статті. Крім того, OpenAI вибрав набір даних про переваги людини з відфільтрованого набору даних TL;DR.
Для певної публікації генеруються два резюме кандидатів відповідно до різних стратегій, і дописувачам пропонується оцінити їхні улюблені резюме. Загальний набір даних містить приблизно 92 тисячі парних порівнянь.
LLM анотація
Щоб оцінити ефективність методів анотації штучного інтелекту (наприклад, підказки, самоузгодженість), дослідники вибирають приклади з наборів даних переваг TL;DR, де люди-анотатори віддадуть перевагу абстракціям з більшою впевненістю.
Дослідники оцінили вирівнювання анотаторів штучного інтелекту на випадковій підмножині 15% тренувального розділення набору даних, щоб забезпечити швидші експериментальні ітерації, створивши 2851 приклад оцінки.
Для навчання моделі винагороди, TL;DR, повний навчальний розподіл набору даних про переваги коментується LLM і використовується для навчання, незалежно від показника достовірності.
Модельне навчання
Дослідники навчили модель SFT на наборі даних TL;DR, відфільтрованих OpenAI, використовуючи PaLM 2 Extra-Small (XS) як початкову контрольну точку.
Потім дослідники ініціалізують RM з моделі SFT і навчають їх на наборі даних про переваги людини OpenAI TL;DR.
Для результатів у таблицях 1 і 5.1 дослідники використовували PaLM 2L для генерації параметрів, анотованих штучним інтелектом, за допомогою підказки «OpenAI + COT 0-shot» (без самоузгодженості), а потім навчили набір даних RM на повні параметри.
Для навчання з підкріпленням дослідники використовували Advantage Actor Critic (A2C) для навчання політики. І стратегія, і модель цінності ініціалізуються з моделей SFT. Дослідники використовували відфільтрований набір даних Reddit TL;DR як початковий стан для запуску своєї стратегії.
Людина Оцінка людини
Дослідники зібрали оцінки 1200 людей, щоб оцінити стратегії RLHF і RLAIF. Для кожного рейтингового завдання оцінювачі отримують допис і 4 підсумки, створені відповідно до різних стратегій (по одному для RLAIF, RLHF, SFT і людської довідки), і їх просять ранжувати їх у порядку якості без будь-якого зв’язку.
Публікації взяті з набору підтримок контрольованого набору даних тонкого налаштування TL;DR, який не використовувався для жодної іншої оцінки. Після того, як ці рейтинги зібрані, можна розрахувати коефіцієнт виграшу будь-яких двох стратегій.
Коефіцієнт виграшу 50%, нічия
RLAIF проти RLHF
На початку статті Google представив переваги порівняння RLAIF і RLHF. Результати показують, що обидва методи мають однакову ефективність.
Зокрема, оцінювачі віддавали перевагу RLAIF порівняно з базовим SFT у 71% випадків. RLHF перевершує SFT у 73% випадків.
Дослідники також безпосередньо порівняли показники виграшу RLAIF і RLHF і виявили, що їхня популярність еквівалентна, тобто вони обидва мають 50% виграшу.
Щоб краще зрозуміти відмінності між цими двома стратегіями, Google виконав якісне порівняння згенерованих ними фрагментів.
Крім того, вони порівняли реферати RLAIF і RLHF з довідковими рефератами, написаними людиною. У 79% випадків підсумки, створені RLAIF, були кращими за контрольні підсумки, а у 80% випадків результати RLHF були кращими за контрольні підсумки.
Можна побачити, що різниця в рейтингу виграшу між RLAIF і RLHF і еталонним підсумком становить лише 1%, і суттєвої різниці немає.
Варто зазначити, що дослідники також виявили, що частота галюцинацій у стратегії RLHF часто вища, ніж у RLAIF, як показано червоним текстом у таблиці вище.
Після контролю довжини підсумку стратегії RLAIF і RLHF все ще перевершують базову SFT і досягають подібних показників виграшу.
Ці результати демонструють, що RLAIF не потребує покладатися на людську анотацію та є життєздатною альтернативою RLHF.
Поради та підказки
Використовуючи техніку підказок, команда Google спробувала три типи техніки підказки, специфічність преамбули, CoT і вивчення контексту за кількома зразками.
Було виявлено, що за допомогою детальних підказок преамбули OpenAI і висновків CoT анотатор штучного інтелекту може досягти 78% узгодженості.
Контекстне навчання не підвищує точність, а може навіть погіршити її.
### самоузгодженість
Дослідники провели експерименти самоузгодженості, використовуючи 4 і 16 зразків, з температурою декодування 1.
Вибірка кількох принципів ланцюжка думок із T = 1 дає результати, які менш узгоджуються з уподобаннями людини.
### Розмір анотатора великої моделі
Дослідження також виявило, що збільшення розміру параметра анотаторів великих моделей може створити анотації переваг вищої якості.
Кількість бажаних прикладів
Як точність моделі винагороди залежить від навчальних прикладів?
Дослідники виявили, що після навчання на тисячах прикладів продуктивність моделі винагороди наблизилася до навчання на повному наборі даних.
на завершення
Дослідники демонструють, що RLAIF може створювати порівняльні покращення з RLHF, не покладаючись на людські анотатори.
Хоча ця робота підкреслює потенціал RLAIF, все ще є деякі обмеження.
По-перше, у цьому дослідженні розглядалося лише завдання узагальнення, і необхідні подальші дослідження щодо узагальнення для інших завдань.
По-друге, дослідники не оцінили, чи висновок LLM є більш вигідним, ніж ручне анотування з точки зору економічних витрат.
Крім того, є кілька цікавих питань, які варто дослідити, наприклад, чи може RLHF у поєднанні з RLAIF перевершити окремий метод, наскільки ефективним є використання LLM для прямого призначення винагород, чи покращене вирівнювання міток штучного інтелекту призведе до покращення кінцевої політики та чи політику можна додатково вдосконалити за допомогою тегера LLM, який має такий самий розмір, як і модель політики (тобто, чи може модель «самовдосконалюватися»).
Гаряча дискусія користувачів мережі
Google опублікував дві статті про RL:
RLAIF: Моделі винагороди за навчання, подібні до зворотного зв’язку людини
ReST: використання генеративних моделей для полегшення самонавчання. Поєднання цих двох документів може задовольнити потребу в даних алгоритмів ШІ.
Півмісяця тому Google DeepMind щойно запропонував новий алгоритм ReST, щоб зробити масштабні мовні моделі узгодженими з уподобаннями людини.
Зокрема, методи офлайн-підкріплення навчання використовуються для покращення якості перекладу великих мовних моделей, щоб краще відповідати людським уподобанням.
Один дослідник сказав, що модель Клода від Anthropic виглядає слабшою за GPT-4 на основі якісного тестування. Це може бути викликано методом RLHF/RLAIF або попередньою підготовкою. Незрозуміло, чи краще ці методи узагальнюються в реальних програмах, навіть якщо вони краще працюють на академічних тестах.
Я б не сказав, що це зменшує важливість людської анотації, але одне можна сказати напевно, RL із зворотним зв’язком штучного інтелекту може зменшити витрати. Анотація вручну все ще надзвичайно важлива для узагальнення, а гібридний метод RLHF+RLAIF кращий, ніж будь-який окремий метод.
Більшість користувачів мережі вважають, що документ є великим проривом, але деякі користувачі мережі вважають, що він принципово не відрізняється від RLAIF у Constitute Claude, запропонованому Anthropic кілька місяців тому.
Література:
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
RLHF більше не потребує людей. Дослідження команди Google доводять, що ШІ-маркування досягло людського рівня
Перше джерело: Xinzhiyuan
Якщо замінити «людину» в RLHF, чи можливо це?
Останнє дослідження, проведене командою Google, пропонує замінити людей великими моделями для маркування переваг, якими є інтенсивне навчання зі зворотним зв’язком AI (RLAIF).
Було виявлено, що RLAIF може створити порівняльні покращення з RLHF, не покладаючись на людські анотатори, з відсотком виграшу 50%.
У той же час дослідження Google ще раз довели, що RLAIF і RLHF мають коефіцієнт виграшу понад 70% порівняно з контрольованим тонким налаштуванням (SFT).
Однак для цього потрібно докласти багато зусиль, у тому числі наражати багатьох анотаторів на шкідливий вміст, виведений ШІ.
Тепер, коли RLAIF можна порівняти з RLHF, майбутні моделі не вимагають зворотного зв’язку з боку людини, а також можуть бути вдосконалені за допомогою автоциклів.
RLHF більше не потребує людей
Наразі RLHF став основним методом тонкого налаштування великих моделей, включаючи ChatGPT, Bard та інші моделі, які приймають цю парадигму.
Зокрема, RLHF поділяється на три етапи: попереднє навчання керованого тонкого налаштування LLM; збір даних для навчання моделі винагороди; точне налаштування моделі за допомогою RL.
Однак цілком реальною проблемою є те, що RLHF вимагає великомасштабних високоякісних даних, позначених людиною, і чи можуть ці дані досягти чудового результату.
До цього дослідження Google дослідники Anthropic були першими, хто досліджував використання налаштувань AI для навчання моделей винагороди для тонкого налаштування RL.
Вони вперше запропонували RLAIF у «Конституційному штучному інтелекті» та виявили, що LLM дуже відповідає людським судженням і навіть перевершує людей у деяких завданнях.
Останні дослідження Google спрямовані головним чином на вирішення цієї проблеми.
Дослідники безпосередньо порівняли RLAIF і RLHF у задачі узагальнення моделі.
Враховуючи 1 текст і 2 варіанти відповідей, використовуйте готовий LLM, щоб надати анотацію переваг.
Потім навчається модель винагороди (RM) на основі переваг LLM і контрастних втрат. Нарешті, модель політики налаштовується за допомогою навчання з підкріпленням, і модель винагороди використовується для надання винагороди.
Google: навчіть модель винагороди на основі вподобань, позначених штучним інтелектом, а потім виконайте точне налаштування RL.
Конституційний штучний інтелект: покращуйте моделі навчання під наглядом, періодично просячи LLM генерувати кращі відповіді відповідно до конституції.
ШІ самомаркування, самовдосконалення
Який процес методу RLAIF, запропонованого Google в останніх дослідженнях?
Велика мовна модель для анотації налаштувань
Дослідники використовували «готовий» LLM, щоб анотувати переваги між двома кандидатами.
Це попередньо навчена модель або налаштована інструкція для загального використання, але не налаштована для конкретного наступного завдання. Враховуючи фрагмент тексту та дві кандидатські тези, LLM просять оцінити, яка анотація краща. Вхідна структура LLM така:
1. Передмова
Інструкції, що представляють і описують завдання
2. Кілька зразків (необов’язково)
Фрагмент тексту, пара тез, обґрунтування ідеї та судження про перевагу
3. Зразки, які потрібно маркувати
Фрагмент тексту та пара резюме для анотації
4.Кінець
Підкажіть кінцевий рядок LLM (наприклад, "Preferred Summary=")
Є багато способів отримати анотації переваг від LLM, наприклад, декодування відповідей у довільній формі з моделі та евристичний витяг переваг (наприклад: вихід = «перший підсумок кращий») або представлення розподілу переваг у вигляді одноразового представлення (one-hot -hot репрезентація). Однак дослідники не пробували ці альтернативи, оскільки їхній метод уже давав високу точність.
Дослідники експериментували з двома типами преамбул: перший, «Базовий», який просто запитує, «який підсумок кращий?», і другий, «OpenAI», який імітує підхід, який використовується для створення набору даних переваг OpenAI TL;DR. Інструкції щодо рейтингу для тегів уподобань людини з детальною інформацією про те, що є сильними підсумками. Як показано нижче.
Попередні результати показують, що порядок, у якому кандидати представлені LLM, може вплинути на рішення LLM про те, якому кандидату надається перевага. Дослідники знайшли докази цього позиційного упередження, особливо для анотованих LLM меншого розміру.
Мислення ланцюгом міркування
Дослідники намагалися витягти ланцюжок думок (COT) від анотаторів штучного інтелекту, щоб покращити узгодженість з уподобаннями людини.
Дослідники замінюють стандартні кінцеві підказки (наприклад, замінюють «Переважне резюме=" на «Враховуйте послідовність, точність, охоплення та загальну якість кожного резюме та поясніть, яке з них краще. Обґрунтування:»), а потім декодують відповідь LLM .
Нарешті, дослідники об’єднали оригінальні підказки, відповіді та оригінальний кінцевий рядок «Preferred Summary=" і дотримувалися процесу підрахунку балів у розділі 3.1, щоб отримати розподіл переваг. Дивіться малюнок нижче для конкретного процесу.
Для підказок ланцюжка думок дослідники також експериментували з самоузгодженістю — технікою, яка покращує міркування ланцюжком думок шляхом вибірки кількох шляхів міркування та агрегування остаточних відповідей, отриманих у кінці кожного шляху.
Використовуйте ненульову температуру декодування для вибірки кількох основ ланцюга думок, а потім отримайте розподіл переваг LLM для кожного ланцюга думок відповідно до методу з попереднього розділу. Потім результати усереднюються для отримання остаточного розподілу переваг.
Навчання з підкріпленням за допомогою зворотного зв’язку зі штучним інтелектом
Після того як LLM позначає переваги, модель винагороди (RM) навчається передбачати переваги. Оскільки метод дослідників створює м’які мітки, вони використовують втрату перехресної ентропії softmax оцінки винагороди, згенерованої RM, замість втрати, згаданої в моделі винагороди.
Softmax перетворює необмежені оцінки RM у розподіли ймовірностей.
Навчання RM на наборах даних, позначених штучним інтелектом, можна розглядати як форму дистиляції моделі, особливо тому, що тегери AI дослідників часто більші та потужніші, ніж RM.
Інший підхід полягає в обході RM і безпосередньому використанні зворотного зв’язку AI як сигналу винагороди в RL, хоча цей підхід є дорожчим з точки зору обчислень, оскільки теггер AI більший, ніж RM.
З навченим RM дослідники виконали навчання з підкріпленням, використовуючи модифіковану версію алгоритму Advantage Actor Critic (A2C), адаптовану до сфери мовного моделювання.
оцінити
Дослідники оцінювали свої результати за трьома показниками – вирівнювання анотаторів штучного інтелекту, точність сполучення та відсоток перемог.
Вирівнювання тегрів AI використовується для вимірювання точності налаштувань тегів AI відносно уподобань людини.
Для одного прикладу перетворіть параметри, позначені програмним штучним інтелектом, у двійкове представлення. Призначте 1, якщо анотація відповідає цільовим уподобанням людини, і призначте 0 в іншому випадку.
Попарна точність — це міра точності навченої моделі винагороди відносно набору збережених уподобань людини.
Враховуючи спільний контекст і пару відповідей кандидатів, точність поєднання дорівнює 1, якщо RM оцінює кращий кандидат вище, ніж небажаний кандидат на основі анотації людини. В іншому випадку значення дорівнює 0. Це число є середнім для багатьох прикладів для вимірювання загальної точності RM.
Коефіцієнт виграшів оцінює наскрізну якість двох стратегій, вимірюючи, як часто люди віддають перевагу одній стратегії іншій.
Враховуючи вхідні дані та результати двох генерацій, людина-анотатор вибирає, якій генерації віддати перевагу. Відсоток випадків, коли стратегія A перевершує стратегію B, називається «коефіцієнт виграшів A проти B».
Деталі експерименту
Дослідники використовували відфільтрований набір даних Reddit TL;DR, підготовлений OpenAI. TL;DR містить приблизно 3 мільйони дописів із Reddit на різні теми (також відомих як «субреддити»), а також уривки дописів, написаних оригінальним автором.
Дані також фільтруються за допомогою OpenAI для забезпечення високої якості, що включає використання білого списку тем Reddit, зрозумілих широкому загалу.
Крім того, були включені лише публікації з анотаціями від 24 до 48. Відфільтрований набір даних містить 123 169 публікацій, близько 5% з яких служать набором для перевірки.
Більш детальну інформацію про набір даних можна знайти в оригінальній статті. Крім того, OpenAI вибрав набір даних про переваги людини з відфільтрованого набору даних TL;DR.
Для певної публікації генеруються два резюме кандидатів відповідно до різних стратегій, і дописувачам пропонується оцінити їхні улюблені резюме. Загальний набір даних містить приблизно 92 тисячі парних порівнянь.
LLM анотація
Щоб оцінити ефективність методів анотації штучного інтелекту (наприклад, підказки, самоузгодженість), дослідники вибирають приклади з наборів даних переваг TL;DR, де люди-анотатори віддадуть перевагу абстракціям з більшою впевненістю.
Дослідники оцінили вирівнювання анотаторів штучного інтелекту на випадковій підмножині 15% тренувального розділення набору даних, щоб забезпечити швидші експериментальні ітерації, створивши 2851 приклад оцінки.
Для навчання моделі винагороди, TL;DR, повний навчальний розподіл набору даних про переваги коментується LLM і використовується для навчання, незалежно від показника достовірності.
Модельне навчання
Дослідники навчили модель SFT на наборі даних TL;DR, відфільтрованих OpenAI, використовуючи PaLM 2 Extra-Small (XS) як початкову контрольну точку.
Потім дослідники ініціалізують RM з моделі SFT і навчають їх на наборі даних про переваги людини OpenAI TL;DR.
Для результатів у таблицях 1 і 5.1 дослідники використовували PaLM 2L для генерації параметрів, анотованих штучним інтелектом, за допомогою підказки «OpenAI + COT 0-shot» (без самоузгодженості), а потім навчили набір даних RM на повні параметри.
Для навчання з підкріпленням дослідники використовували Advantage Actor Critic (A2C) для навчання політики. І стратегія, і модель цінності ініціалізуються з моделей SFT. Дослідники використовували відфільтрований набір даних Reddit TL;DR як початковий стан для запуску своєї стратегії.
Людина Оцінка людини
Дослідники зібрали оцінки 1200 людей, щоб оцінити стратегії RLHF і RLAIF. Для кожного рейтингового завдання оцінювачі отримують допис і 4 підсумки, створені відповідно до різних стратегій (по одному для RLAIF, RLHF, SFT і людської довідки), і їх просять ранжувати їх у порядку якості без будь-якого зв’язку.
Публікації взяті з набору підтримок контрольованого набору даних тонкого налаштування TL;DR, який не використовувався для жодної іншої оцінки. Після того, як ці рейтинги зібрані, можна розрахувати коефіцієнт виграшу будь-яких двох стратегій.
Коефіцієнт виграшу 50%, нічия
RLAIF проти RLHF
На початку статті Google представив переваги порівняння RLAIF і RLHF. Результати показують, що обидва методи мають однакову ефективність.
Зокрема, оцінювачі віддавали перевагу RLAIF порівняно з базовим SFT у 71% випадків. RLHF перевершує SFT у 73% випадків.
Дослідники також безпосередньо порівняли показники виграшу RLAIF і RLHF і виявили, що їхня популярність еквівалентна, тобто вони обидва мають 50% виграшу.
Щоб краще зрозуміти відмінності між цими двома стратегіями, Google виконав якісне порівняння згенерованих ними фрагментів.
Можна побачити, що різниця в рейтингу виграшу між RLAIF і RLHF і еталонним підсумком становить лише 1%, і суттєвої різниці немає.
Варто зазначити, що дослідники також виявили, що частота галюцинацій у стратегії RLHF часто вища, ніж у RLAIF, як показано червоним текстом у таблиці вище.
Після контролю довжини підсумку стратегії RLAIF і RLHF все ще перевершують базову SFT і досягають подібних показників виграшу.
Поради та підказки
Використовуючи техніку підказок, команда Google спробувала три типи техніки підказки, специфічність преамбули, CoT і вивчення контексту за кількома зразками.
Було виявлено, що за допомогою детальних підказок преамбули OpenAI і висновків CoT анотатор штучного інтелекту може досягти 78% узгодженості.
Контекстне навчання не підвищує точність, а може навіть погіршити її.
Дослідники провели експерименти самоузгодженості, використовуючи 4 і 16 зразків, з температурою декодування 1.
Вибірка кількох принципів ланцюжка думок із T = 1 дає результати, які менш узгоджуються з уподобаннями людини.
Дослідження також виявило, що збільшення розміру параметра анотаторів великих моделей може створити анотації переваг вищої якості.
Кількість бажаних прикладів
Як точність моделі винагороди залежить від навчальних прикладів?
Дослідники виявили, що після навчання на тисячах прикладів продуктивність моделі винагороди наблизилася до навчання на повному наборі даних.
на завершення
Дослідники демонструють, що RLAIF може створювати порівняльні покращення з RLHF, не покладаючись на людські анотатори.
Хоча ця робота підкреслює потенціал RLAIF, все ще є деякі обмеження.
По-перше, у цьому дослідженні розглядалося лише завдання узагальнення, і необхідні подальші дослідження щодо узагальнення для інших завдань.
По-друге, дослідники не оцінили, чи висновок LLM є більш вигідним, ніж ручне анотування з точки зору економічних витрат.
Крім того, є кілька цікавих питань, які варто дослідити, наприклад, чи може RLHF у поєднанні з RLAIF перевершити окремий метод, наскільки ефективним є використання LLM для прямого призначення винагород, чи покращене вирівнювання міток штучного інтелекту призведе до покращення кінцевої політики та чи політику можна додатково вдосконалити за допомогою тегера LLM, який має такий самий розмір, як і модель політики (тобто, чи може модель «самовдосконалюватися»).
Гаряча дискусія користувачів мережі
Google опублікував дві статті про RL:
RLAIF: Моделі винагороди за навчання, подібні до зворотного зв’язку людини
ReST: використання генеративних моделей для полегшення самонавчання. Поєднання цих двох документів може задовольнити потребу в даних алгоритмів ШІ.
Зокрема, методи офлайн-підкріплення навчання використовуються для покращення якості перекладу великих мовних моделей, щоб краще відповідати людським уподобанням.