Ян Лейке: Як OpenAI досягне супервирівнювання за 4 роки?

Question

Автор: Даніель Філан@AXRPДжерело: Overseas UnicornРекомендовано: Cage Компілятор: wenli, Yanxi Верстка: Mengxi, ScoutНа початку минулого місяця OpenAI оголосила про свій план «Superalignment» і оголосила, що інвестує 20% своєї загальної обчислювальної потужності в цей новий напрямок одночасно. Співзасновник і головний науковий співробітник OpenAI Ілля Суцкевер і колишній керівник групи вирівнювання Ян Лейке спільно керуватимуть цим новим проектом з метою вирішення основних технічних проблем вирівнювання суперінтелекту протягом 4 років, щоб переконатися, що люди можуть контролювати суперінтелект.Щоб досягти цього, OpenAI потрібно спочатку навчити «автоматичне вирівнювання на рівні людини», а потім використовувати це «автоматичне вирівнювання» для досягнення вирівнювання з суперінтелектом. Відповідно до статті *Introducing Superalignment*, «Автоматичний вирівнювач» Розробка «Aligner» також передбачає надання ШІ можливості оцінювати та контролювати ШІ, перевіряти безпеку системи на основі пояснюваності та використовувати невирівняні моделі для виконання перевірки збурень у системі.Ця стаття складена з інтерв’ю з Яном Лейке, і це більш детальне технічне мислення Яна Лейке про те, як OpenAI може досягти «супервирівнювання».**Нижче наведено зміст цієї статті. Рекомендуємо прочитати його разом із ключовими моментами. ****👇**01 Команда супервирівнювання02 Нехай модель «автономно вирівнюється»03 Графік супервирівнювання04 Узагальнення05 Будьте оптимістами щодо Superalignment## **01.Superalignment Team****Даніель Філан: Чи можете ви спочатку представити команду Superalignment? ****Ян Лейке:** Мета команди Superalignment — вирішити проблему надрозумного вирівнювання протягом наступних 4 років. Ілля Суцкевер, співзасновник і головний науковий співробітник OpenAI, також приєднається до команди та разом зі мною керуватиме цим проектом. Крім того, OpenAI також виділить на цю тему 20% своїх обчислювальних ресурсів. Ми також активно набираємо талантів до цієї команди проекту. **Ми дуже сподіваємося залучити експертів з машинного навчання та інженерів, які не займалися дослідженнями вирівнювання. Можливо, ці люди можуть проявити великий потенціал у цьому питанні. **Ми розробили попередню робочу структуру, основна ідея полягає в тому, щоб навчити автоматичного дослідника вирівнювання на рівні людини (автоматичний дослідник вирівнювання на рівні людини) на тому ж рівні, що й люди, а потім він продовжить вивчати, як завершити роботу вирівнювання суперінтелекту . Тож одна з ключових речей, яку ми маємо зробити, це з’ясувати, як «вирівняти» цей автовирівнювач.**Даніель Філан: Наскільки велика ця нова команда? ****Ян Лейке:** Зараз у нас близько 20 людей, і до кінця цього року може досягти 30. У наступні чотири роки команда, ймовірно, не перевищуватиме 100 осіб, але шляхи розширення цієї команди можуть бути Майте мільйони «віртуальних людей» або принаймні стільки ж «віртуальних людей», скільки співробітників OpenAI, щоб виконати вирівнювання). З цієї точки зору, ми точно розширимося у великих масштабах у майбутньому.**Daniel Filan: Ви згадали, що OpenAI забезпечить цій команді 20% підтримки обчислювальної потужності. Що означають ці 20%? ****Ян Лейке: **Для OpenAI 20% обчислювальної потужності, виділеної цій команді, не мало, це, безумовно, найбільша інвестиція, яку ми зробили на сьогоднішній день, і вона може перевищити всі інші загальні інвестиції. **Отже, у цьому сенсі 20% обчислювальних ресурсів є значною часткою для OpenAI. Крім того, якщо ми зробимо цю цифру дуже великою, деякі люди точно сумніватимуться, чи дійсно OpenAI може це зробити.Система попередньо навчена, що потребуватиме багато обчислювальних ресурсів.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-91a4c8eba9-dd1a6f-6d2ef1) **Даніель Філан: До цього в OpenAI вже була команда Alignment. Ця команда ще існує? ****Ян Лейке:** Команда узгодження, створена минулого року, складається з двох частин: одна називається «Практична вирівнювання», а інша — «Масштабована вирівнювання». Команда Pragmatic Alignment зосереджується на узгодженні GPT-4, а команда Scalable Alignment має на меті вивчити проблеми узгодження, які ми ще не вирішили. З випуском ChatGPT і подальшим успіхом важливість ChatGPT і масштаб продукту постійно зростають, вимагаючи більшого обсягу RLHF і моделей, щоб гарантувати, що функції та досвід продукту є достатньо повними, а команда узгодження є більше не підходить для цього.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-e6f4d3f955-dd1a6f-6d2ef1) Практична робота з узгодження, про яку ми згадували раніше, зараз розподілена між різними проектними командами OpenAI, у ній беруть участь сотні людей, тому це вже дуже масштабний проект, і масштабована робота з вирівнювання тепер виконується командою Superalignment. що робити.Причина, чому ми вибираємо назву Superalignment, полягає в тому, що ми хочемо підкреслити, що те, що ми вивчаємо на цьому етапі, насправді є проблемою, яка ще не з’явилася. Наше дослідження відносно перспективне та орієнтоване на майбутнє.**Daniel Filan: Як ви ставитеся до спроб людей або команд поза OpenAI узгодити між собою? ****Ян Лейке: **Є багато людей або команд за межами OpenAI, які також намагаються схожої роботи, особливо DeepMind і Anthropic. Певною мірою ми всі намагаємося вирішити ту саму проблему, тому в кінцевому підсумку виконуємо схожу роботу. Це теж нормально. Є й інші роботи з інтерпретації та масштабованого спостереження.Певною мірою ми ризикуємо дублювати купу роботи, тому в ідеалі ми намагаємося краще координувати роботу чи більше співпрацювати. Але кожен, хто робить те саме, може уникнути «групового мислення», тому що якщо кожна лабораторія хоче вирішити ці проблеми самостійно, вона, природно, сумніватиметься в результатах інших лабораторій, а негативною стороною буде ефект «Або-або»: тобто , люди не бажають використовувати технології, винайдені деінде.Люди, природно, вважатимуть, що інші технології, окрім їхніх власних, не є гарними, або дивитимуться на них із певним упередженням.Тож зараз це не ідеальний баланс, і хоча було б логічно думати, що всі люди з узгодження мають бути в одному місці й певним чином працювати разом, це реальність, оскільки по суті передові лабораторії штучного інтелекту мають імпульс. Інвестуйте багато ресурсів у справі «вирівнювання». Це стало дуже очевидним завдяки успіху RLHF, який зробив моделі більш комерційно життєздатними, зробивши більш привабливим інвестування в дослідження такого типу технології.**Daniel Filan: Чим відрізняється підхід команди OpenAI Superalignment? ****Ян Лейке:** Ми справді зосереджені на тому, як узгодити цей автоматичний вирівнювач, а не на тому, як узгодити різні завдання. Тож, принаймні в цьому питанні, нас не надто хвилює податок на узгодження. Я не думаю, що інші лабораторії наголошують на цій меті чи напрямку таким чином.**Податок на узгодження:**Також відомий як податок на безпеку, він стосується додаткових витрат на забезпечення узгодженості систем ШІ. Податок на узгодження відповідно до RLHF, згаданий у цій статті, означає, що для виконання RLHF втрачається можливість базової моделі для досягнення узгодження, наприклад збільшення часу розробки, додаткових обчислень або зниження продуктивності тощо.**Ми дуже оптимістично налаштовані випробувати всі методи масштабованого вирівнювання, щоб побачити, які з них працюють найкраще, і спробувати знайти способи їх емпіричного порівняння. Інші лабораторії також мають спеціальні масштабовані методи нагляду, щодо яких вони дуже оптимістичні, і вони також намагаються використовувати ці методи. Крім того, з точки зору можливості інтерпретації, ми впроваджуємо автоматизовані методи інтерпретації та також активно їх просуваємо, але інші лабораторії ще не приділяли такої уваги цьому методу. ****Ще одна річ, яку ми дійсно хочемо зробити, — це використовувати обчислення для прискорення узгодження, що є однією з наших головних стратегій**, особливо з точки зору масштабованого нагляду, ми дійсно хочемо з’ясувати, як це зробити з більшою обчислювальною потужністю для надсилання кращі сигнали спостереження? Які ми маємо можливості? Як краще працювати на моделі Critique? Як використовувати більше обчислювальної потужності, щоб посилити сигнал спостереження? Автоматизована інтерпретація є дуже простим методом, і ми можемо досягти прогресу в цій проблемі, просто вклавши велику обчислювальну потужність.**Модель критики:**є незалежною мовною моделлю. Перш ніж писати огляди, він переглядає результати першої системи ШІ.Крім того, є дослідження автоматизованого вирівнювання: якщо це можливо, ми можемо отримати більше результатів вирівнювання, інвестуючи більше обчислювальної потужності. Але оскільки ми дійсно хочемо перетворити кількість обчислювальної потужності на здатність вирівнювання, зараз нам потрібна велика обчислювальна потужність, і ось чому OpenAI готовий виділити 20% обчислювальної потужності на вирівнювання. По суті, це означає, що якщо ми справді розберемося з цим автоматичним вирівнювачем і виявимо, що нам потрібно більше обчислювальної потужності, ми зможемо використовувати більше обчислювальної потужності для його запуску. Це також означає, що стратегія перетворення обчислювальної потужності на вирівнювання успішна і буде підтримуватися OpenAI.## **02. Нехай модель "автономно вирівнюється"****Що таке "Автовирівнювач"****Даніель Філан: Що таке «автоматичний дослідник вирівнювання на рівні людини»? ****Ян Лейке: Наша мета полягає в тому, щоб якомога більше використовувати автоматизовані системи для розподілу та розподілу завдань під час узгодження. **Коли справа доходить до мовних моделей чи інших систем штучного інтелекту, вони не на 100% можуть робити те, що роблять люди. Наприклад, магістри можуть бути кращими за людей у таких речах, як переклад або відповіді на фактичні запитання, але вони можуть бути не такими вправними в арифметичних обчисленнях чи деяких інших завданнях. **Тож питання полягає в тому, у якому порядку, які завдання нам потрібно доручити ШІ, щоб вивільнити обмежену енергію дослідників-людей? **Як результат, команди людей зможуть ефективніше виконувати важливі завдання, тоді як ШІ також братиме на себе все більше допоміжних завдань.**Загалом ШІ братиме участь у дедалі більшій частині роботи, і люди-дослідники приділятимуть більше уваги завданням, які не бере на себе ШІ, і зможуть ефективніше прискорити дослідження вирівнювання суперінтелекту завдяки співпраці людини та машини. ****Даніель Філан: Отже, це не використання штучного інтелекту для заміни деяких людей у групі узгодження OpenAI, а використання штучного інтелекту для виконання конкретного типу роботи, яку виконують усі, а потім замінення його штучним інтелектом крок за кроком Додаткові завдання виконувати? ****Ян Лейке:** Так, я думаю, якщо ми хочемо, щоб ця система була достатньо продуктивною, 99% або 99,9% завдань повинні бути автоматизовані, щоб ми могли отримати 10x, 100x, можливо навіть 1000x подвоїти результати досліджень.Я поділю згадані тут «завдання» на дві великі категорії. Одним з них є більш традиційні завдання інженерного дослідження машинного навчання, метою яких є сприяння покращенню можливостей систем штучного інтелекту, таких як реалізація різноманітних експериментів ML та збір експериментальних результатів.Інша категорія – це те, що потрібно зробити, щоб досягти узгодження суперінтелекту. Цей тип проблеми є відносно більшим і має більш високий рівень (високий рівень). Наприклад, щоб покращити нагляд за масштабованістю (Scalable Oversight), як ми вирішуємо які експерименти провести? Або як досягти прогресу в напрямку пояснення. Звичайно, повинні бути деякі дуже конкретні питання, на які потрібно відповісти.Наприклад, коли певне дослідження досягає певної стадії, необхідно з’ясувати низку проблем, які потрібно вирішити в подальшому, таких як дуже детальні запитання.**Масштабований нагляд:**Мета нагляду за масштабованістю полягає в тому, щоб гарантувати, що здатність моделі все ще відповідає людським очікуванням, безперервно вдосконалюючись і навчаючись після перевищення продуктивності людини. Це вимагає від дослідників думати про те, як збільшити ємність моделі, узгодити значення моделі та постійно контролювати продуктивність моделі. Масштабований нагляд спрямований на те, як постійно забезпечувати надійний нагляд за моделлю. Цей нагляд може здійснюватися в різних формах, таких як ярлики, сигнали винагороди чи критика.Я очікую, що машинне навчання може дуже добре виконувати завдання першого типу, а саме проектування та автоматичний запуск експериментів, і унікальна робота, яку ми виконуємо сьогодні, щоб прискорити процес узгодження, полягає в тому, щоб з’ясувати, як автоматизувати завдання другого типу. метод. ****Даніель Філан: Другий тип завдань, здається, є завданням цілого процесу? Не просто визначення напрямків дослідження, з’ясування того, що може бути корисним, навіть аж до того, «який сценарій мені зараз запустити». ****Ян Лейке: **Насправді це запитання можна поставити так: **Оскільки дослідження вирівнювання значною мірою схоже на традиційне дослідження ML, які ще завдання другого типу можна виконувати? ****Я думаю, що насправді є багато контенту, пов’язаного з другим типом завдань, і ця частина дослідницького важеля є чудовою. **Оскільки з точки зору дослідницьких проблем ми навіть не досягли консенсусу щодо того, «як визначити вирівнювання», навіть експерти галузі все ще вважають «найбільш ймовірним технічним шляхом досягнення вирівнювання» або «яку роботу слід виконати далі» є розбіжності з цих питань. Тому, якщо вирівнювання можна прискорити, вплив має бути величезним. Це також бачення та напрямок, які ми сказали дослідникам, коли закликали дослідників приєднатися до команди OpenAI Superalignment.На даному етапі ми все ще вирішуємо деякі базові проблеми, і нам ще належить докласти багато зусиль для дослідження вирівнювання. Ми не знаємо, як узгодити суперінтелект, і навіть узгодити системи ШІ з вищим інтелектом, ніж у людини, важко.**Даніель Філан: Ви згадали про концепцію автоматичних вирівнювачів, які можна порівняти з людським рівнем, але здається, що в області штучного інтелекту більшість речей ще не повністю людського рівня. Наскільки важливий «людський рівень» у цій меті? Це добре чи погано, якщо штучний інтелект перевершує продуктивність людини в деяких із згаданих вами завдань? ****Ян Лейке: Я вважаю, що суть питання полягає в тому, наскільки ризиковано мати цю систему людського рівня в дослідженнях вирівнювання. **Не страшно, що система штучного інтелекту має багато знань, але коли ця система бере на себе деякі (у довгостроковій перспективі більшість) дослідження вирівнювання, нам потрібно подумати, чи буде вона брехати людям? Чи спробує ШІ обдурити нас і захопити систему?Оскільки ми насправді не розуміємо, як відбувається велика частина поведінки моделі, справжнє питання, яке постає перед нами, полягає в тому, які навички нам потрібні, щоб зрозуміти її поведінку та ризики, і чи можна порівняти це з тим, що нам потрібно для створення автоматизованого дослідника Як порівняти навички?Якщо ми досліджуватимемо це далі, що насправді нас хвилює? Це може бути, модель обертає серію брехні, яка може ввести в оману людей? Чи моделі вже обманюють людей? Ви прикидаєтеся, ніби щось робите або вірите у щось, хоча насправді це спрямовано на іншу мету?Тому також важливо оцінити, чи буде модель **зламуватися (самовигнання**): наскільки модель здатна порушити запобіжні заходи системи, отримати параметри ваги моделі та спробувати відтворити їх деінде на інтернет? Або чи можливо для моделі завантажити ці дані та надіслати їх в інше місце, переконавши інженера-людину отримати доступ до ваг? Ми також можемо виміряти здатність моделі в цій області. Я сподіваюся, що в цих критичних аспектах здатність моделі не надто сильна.**Даніель Філан: Автоматичний вирівнювач на рівні людини має бути дуже розумним, креативним і здатним планувати завдання. Він також має добре думати про проблеми, пов’язані з вирівнюванням. У цьому випадку є голоси, що такі потужні Сам інструмент дуже небезпечний для людини. Якщо завдання полягає в тому, щоб вирівняти стипендіатів автоматичного вирівнювання, чи є якісь інші проблеми, які потрібно вирішити? ****Ян Лейке: Я думаю, що врешті-решт це буде річ, керована досвідом. **Можливо, ми зможемо уявити цю справу спочатку на макрорівні. Наприклад, цілком очевидно, що як тільки здатність моделі буде покращено, ми, природно, дозволимо моделі допомогти нам досягти певної дослідницької роботи з вирівнювання, і хоча модель допомагає нам проводити дослідження, її власні можливості були покращені, тому з Як У результаті ми можемо використовувати це для швидкого навчання більш потужної моделі.Ця історія на перший погляд досить захоплююча, але практична сторона насправді дуже складна. По-перше, попередня підготовка моделі зазвичай займає кілька місяців, а не тижнів, тому нам потрібно використовувати це покоління моделей, поки не народиться нове покоління моделей. Інше питання, на яке ще немає чіткої відповіді: чи є ще багато «низько висять плодів» з точки зору покращення обчислювальної потужності?Я думаю, що порівняно з узгодженням інвестиції та увага всієї спільноти штучного інтелекту в покращення швидкості та можливостей штучного інтелекту досить великі. Якщо ми зможемо автоматизувати більше цих завдань, щоб принести користь обом спільнотам, то в масштабі спільноти узгодження У менших випадках гранична вигода, яку він приносить, буде вищою.**Daniel Filan: Коли справа доходить до оцінки вирівнювання як напряму досліджень, якою, на вашу думку, буде довгострокова мета цього автоматичного вирівнювача? ****Ян Лейке:** Я думаю, що мовні моделі або штучний інтелект загалом є в середньому більш креативними, ніж люди. Наприклад, на зображеннях, згенерованих за допомогою дифузійної моделі, або вибірки з попередньо навченої базової моделі, ви обов’язково знайдете багато несподіваних речей, тому модель є особливо креативною. Це речі, з яких нам важко навчитися. Або отримані від невеликої групи людей, і модель може зробити це, оскільки вона вивчила всі слова, сказані людьми, або всі зображення в Інтернеті, таким чином завершивши вибірку цього надзвичайно великомасштабного розподілу, який одна людина не може зробити до цього моменту.Що стосується довгострокових цілей, я вважаю, що немає необхідності свідомо переслідувати так звані довгострокові взагалі, тому що ми можемо спочатку передати ШІ короткострокові завдання. Якщо вони добре справляються з цими завданнями, цього цілком достатньо. **Наприклад, це може бути дуже невелика річ, наприклад «Це стаття, яку ми щойно написали. Будь ласка, внесіть кілька пропозицій щодо наступного кроку або які нові експерименти можна реалізувати». Уявіть, що ми насправді просимо справжнього зіркового дослідника штучного інтелекту поставити запитання, тож їм не потрібно переслідувати довгострокові цілі, їм просто потрібно допомогти нам оптимізувати наступні невеликі цілі, можливо, кілька тисяч токенів, якщо вони зможуть це зробити. добре, це вже може принести багато цінності людству.**Даніель Філан: Здається, це суперечить вищезазначеній меті, що 99,9% завдань узгодження можна автоматизувати? На мій погляд, одним із ключів до дослідження вирівнювання є продовження роздумів і вирішення проблеми «що потрібно, щоб справді отримати вирівняний ШІ»? ****Ян Лейке:** Саме так. Але те, що я хочу сказати, так це те, що коли система добре виконує ці завдання, вона досягає великої цінності, і те, що ми, люди, повинні зробити, це поєднати ці завдання. **Наприклад, деякі завдання: «написати код для реалізації цих експериментів», тоді як інші завдання: «подивіться на результати та скажіть мені, що ви побачили» або «запропонуйте, що робити далі». По суті, коли модель виконала ці завдання, ми можемо об’єднати їх у якийсь загальний спосіб, як це можна було б зробити в Auto-GPT або програмі мовної моделі, де кожне завдання невелике та автоматично інтегроване, тому системі не потрібно свідомо переслідувати велику, довгострокову мету.Наприклад, нещодавня версія *Let's Verify Step by Step* від OpenAI використовує зворотній зв’язок на основі процесу з математики для навчання моделі винагороди на основі зворотного зв’язку людини на кожному кроці процесу доказування, а не навчання «чи отримала система правильне рішення?». Це виявилося більш ефективним, оскільки забезпечує систему штучного інтелекту більш детальним способом навчання та більш детальним зворотним зв’язком. Але в довгостроковій перспективі чи може це конкурувати з наскрізним навчанням з підкріпленням? Деякий час ми не знаємо, але принаймні зараз ми можемо використати цю детальну покрокову розбивку, щоб змусити систему виконувати багато справді корисних речей, які робили б люди, а потім об’єднати ці речі.***Давайте перевіримо крок за кроком:***Дослідження Хантера Лайтмана та ін. у травні 2023 року. Головним чином спрямований на проблему частих логічних помилок у складних багатоетапних завданнях міркування великих моделей, автор порівняв два методи: контроль за результатами та контроль за процесом: контроль за результатами в основному забезпечує зворотний зв’язок для кінцевого результату, тоді як контроль за процесом забезпечує зворотний зв’язок для кожного проміжного крок міркування. Дослідження виявило, що нагляд за процесом значно перевершує навчені моделі з наглядом за результатами, особливо в математичних задачах. Крім того, автори виявили, що активне навчання значно підвищує ефективність нагляду за процесом.**Даніель Філан: Одне з міні-завдань, які ви згадали, це «побачити результати та вирішити, що робити далі». Якщо ви хочете це зробити, вам потрібно подумати, який конкретний проект буде найбільш корисним для досягнення мети вирівнювання суперінтелекту через чотири роки? ****Ян Лейке: Ти правий. Однак це досягається не шляхом оптимізації та довгострокового призначення кредиту (призначення кредиту), а скоріше як додавання деяких ширших цілей і контексту до підказки. **Однак на практиці, коли ми вдосконалюємо системи за допомогою навчання з підкріпленням (RL) або навчання з підкріпленням на основі відгуків людини (RLHF), нам насправді не потрібно чекати до кінця дослідницького проекту, щоб зробити висновки про ефективність цих методів. Натомість ми можемо використовувати людські відгуки як основу для пропонування винагород, просто запитуючи себе: «Чи виглядає цей напрямок кращим, ніж усе, що я можу собі придумати?»**Тому я вважаю, що загальна мета Superalignment полягає не в тому, щоб досягти найпотужнішого автоматичного вирівнювання за сучасними технологіями, а в створенні системи, яка є дуже корисною та може бути застосована у великому масштабі. Найважливіше те, що ми віримо що він може досягти узгодження, і ви можете бути впевнені, що виконайте ці завдання. ****Порівняно з розподілом завдань, може виникнути думка, що лише наскрізне навчання може зробити модель більш спроможною. Але я думаю, що це не так важливо. Насправді метод наскрізного навчання не тільки значною мірою обмежує здатність моделі, але й має низьку ефективність. Це те, що люди зазвичай називають «податком на вирівнювання». **«Податок на узгодження» є важливим фактором, якщо ви хочете ефективно конкурувати з іншими компаніями на ринку: припустімо, я створюю чат-бота, який особливо добре виконує роботу з узгодження, але виглядає набагато менш спроможним, що насправді дуже важко конкурувати на ринку. Але якщо у вас є автовирівнювач, йому не потрібно конкурувати на ринку, він просто має бути корисним для нас. Таким чином, ми можемо погодитися на більш високу вартість узгодження, оскільки у нас немає заміни, або справжня заміна полягає в тому, щоб найняти більше людей, але цей спосіб не настільки масштабований.**Даніель Філан: Які проблеми, на вашу думку, може вирішити цей автоматизований дослідник вирівнювання? ****Ян Лейке:** Це має вирішити питання «як ми налаштовуємо суперінтелект». **Вирівнювання суперінтелекту Фактичне рішення може сильно відрізнятися від вирівнювання, яке ми робимо сьогодні. **Рішення ChatGPT полягає в масовому зміцненні навчання на основі зворотного зв’язку людини, а саме RLHF (підкріплення навчання на основі зворотного зв’язку людини). Загальний консенсус на цьому етапі полягає в тому, що цей підхід може бути важко масштабувати, оскільки він принципово передбачає, що люди повинні повністю розуміти деталі того, що робить система.Отже, якщо ви дозволите моделі проводити широкомасштабне дослідження вирівнювання, ви можете уявити собі завдання, еквівалентні мільйонам робочих навантажень людей. Очевидно, що людям неможливо переглянути всі дані та надати детальний зворотний зв’язок. Це досить складно. , ми точно не помічаємо багато важливих помилок у цьому процесі.**Технологія, над якою зараз працює команда Superalignment, полягає в тому, щоб зробити RLHF розширюваним і реалізувати вирівнювання для автоматичних вирівнювачів. **Цей автоматичний вирівнювач майже такого ж рівня, як і люди. Він може замінити людей у виконанні цих складних завдань, але не надто відрізнятиметься від людей. Усі технології, які ми хочемо впровадити, є модернізацією або серйозним дослідженням попередніх технологій. Наприклад, масштабоване спостереження є природним розширенням RLHF. **Масштабований нагляд визначається як загальна комбінація ідей і методів, які дозволяють використовувати штучний інтелект, щоб допомогти людям у складних завданнях оцінювання. Нагляд може бути побудований на основі навчання з підкріпленням із зворотним зв’язком людини (RLHF).Типові представники масштабованого нагляду включають дебати, рекурсивне моделювання винагороди (RRM), ітераційну дистиляцію та ампліфікацію, автоматизований ринок тощо. З’являється багато нових методів.Я думаю, що якщо ми справді збираємося вирівняти суперінтелект, враховуючи, що система розумніша за людей, мислить швидше та виконує обчислення на абсолютно новому порядку величини, це призведе до цілої купи інших проблем, особливо тому, що це буде надзвичайно загальним і може робити багато речей, а потім вам доведеться з’ясувати, як це узгодити, не лише узгодивши дослідницькі завдання з більш вузьким розподілом, але й усе інше. Крім того, вам потрібно перевірити його успішність за допомогою великої кількості емпіричних оцінок.Тож на даний момент не тільки я, ніхто не знає, як виглядає майбутнє, але було б дуже цікаво отримати якусь офіційну перевірку. Можливо, ми знайшли якийсь алгоритм із теоретичними гарантіями, але теорія та подальша практика можуть сильно відрізнятися, і навіть я не думаю, що дослідник вирівнювання приблизно на людському рівні негайно візьметься за вирішення цих проблем. Замість цього ми сподіваємося, що вони знайдуть спосіб краще узгодити наступну ітерацію, щоб ми могли зрештою мати систему, яка допоможе нам керовано налаштовувати наш суперінтелект.**Даніель Філан: Якщо у вас є ці дослідники штучного інтелекту на рівні людини, OpenAI усе ще потребує команди з вирівнювання суперінтелекту та відповідних працівників? ****Ян Лейке:** Це гарне запитання. Я особисто був би дуже радий, якби його можна було замінити ШІ. **Але історично типовий сценарій такий, як ми згадували раніше: помічники ШІ виконують 99% або 99,9% роботи, а люди піклуються про решту 1% або 0,01%. **У довгостроковій перспективі, навіть якщо ми більше не можемо по-справжньому розуміти все, що робить штучний інтелект, нам все одно потрібно переконатися, що люди мають бути певним чином залучені або завжди мати можливість контролювати те, що робить ШІ. Іншими словами, має бути бути людською роллю, щоб намагатися зрозуміти високорівневі наслідки того, що робить штучний інтелект, не обов’язково бути поточною командою OpenAI Superalignment, оскільки необхідні набори навичок можуть сильно відрізнятися від тих, які ми маємо зараз.**Daniel Filan: OpenAI постійно згадує у своєму блозі, що безпека тісно пов’язана з можливостями моделі, нам потрібні інтелектуальні моделі для вирішення проблем вирівнювання, але в той же час ми сподіваємося, що можливості моделі не змінять нас. У розділі «Планування для AGI» і далі є уривок: «Якщо AGI має достатньо можливостей для прискорення власного розвитку, це може призвести до того, що великі зміни відбудуться з дивовижною швидкістю», «Ми вважаємо, що відносно повільний розвиток AGI легше забезпечити безпеку. ". Якщо ми створимо дійсно розумного або майже людського рівня, а потім ефективно розширимо команду з вирівнювання в 10 або 100 разів, чи закінчиться це рекурсивним циклом самовдосконалення? ****Ян Лейке:** Це неминуче. Неможливо мати рекурсивний цикл самовдосконалення без значного вдосконалення вирівнювання. Особисто я вважаю, що ймовірність стрибка в можливостях ШІ досить висока, і ми повинні бути до цього готові. Якби цього не сталося, я був би задоволений.Якщо ми подивимося на інші системи штучного інтелекту, такі як AlphaGo, Dota або StarCraft, ці системи проходять масштабні ітерації можливостей майже щотижня. Щодо того, що саме станеться, ми поки що не можемо сказати напевно, оскільки є багато невизначеності, але я думаю, що ми повинні бути готові до такої можливості. Коли це станеться, справді гарною ідеєю буде мати автоматизованих дослідників вирівнювання, які справді можуть за тиждень виконати роботу, яка коштує тисячі років, чого не можуть зробити люди.**Як створити автоматичний елайнер****Даніель Філан: Як реалізувати цей автоматичний вирівнювач на рівні людини? ****Ян Лейке:** Її можна грубо розділити на дві частини. По-перше, нам потрібна система, яка є достатньо розумною, щоб виконувати завдання; з іншого боку, нам потрібно налагодити цю систему, щоб переконатися, що вона справді може виконувати завдання. Ці дві частини не є повністю самостійними, між ними існує тісний взаємозв'язок.Я особисто не брав участі в першій частині дослідження, але я вірю, що воно обов’язково здійсниться, і багато людей працюють, щоб зробити це можливим. Є багато різних напрямків, якими можна рухатися, але ви можете собі уявити, що коли модель стає все більшою і більшою, зрештою вона стає достатньо розумною.**Мене особисто дуже цікавить друга частина. Проблема, з якою ми стикаємося в нашому дослідженні, полягає в наступному: за допомогою цієї дуже розумної попередньо навченої моделі, як змусити її виконувати узгоджене дослідження так, як вам потрібно? Або, що ще важливіше і важливіше, як ви знаєте, чи можете ви довіряти йому достатньо, щоб виконати завдання? **Наші моделі можуть намагатися представити результати та методи таким чином, щоб, якщо ви вирішите їх застосувати, фактично покращити саму систему чи інші пов’язані системи та продемонструвати більшу поведінку, спрямовану на пошук влади в майбутньому, або втечу з в’язниці (самофільтрація) та інші поведінки.Тому нам потрібно налаштувати ШІ, щоб переконатися, що він може виконувати завдання відповідно до наших очікувань, і повністю використовувати його можливості для досягнення найкращої продуктивності у виконанні завдання. З цією метою необхідно розробити низку методів навчання вирівнюванню, щоб гарантувати, що AI зберігає вирівнювання під час виконання завдань.Насправді це два різних типи систем. Нам потрібно чітко розрізняти, справді вирівняна система чи хибно. Перша – це система, яка може наполегливо працювати, щоб проводити дослідження вирівнювання та справді допомагати нам і шукати істину; друга може мати намір контролювати світ, втекти з в'язниці або виконати інші Ризик поганої поведінки. Тому нам потрібно створити механізми або методи, щоб розрізняти ці два узгодження, щоб переконатися, що ми можемо довіряти системам, які дійсно вирівняні, і покладатися на них.**Важливою частиною нашої роботи є з’ясування того, як розрізнити справжнє та хибне вирівнювання. Я називаю це методами перевірки. Вони не використовуються безпосередньо для навчання систем штучного інтелекту або безпосередньо як основа для вибору систем, але надають незалежний Сигнал використовується для визначення того, чи належить система до справжньої вирівняної системи чи до помилково вирівняної системи. **Дослідження інтерпретації, наприклад, є одним із таких підходів. Якщо, дивлячись всередину моделі, ми знайдемо докази того, що модель таємно планує проти нас змову, тоді модель не пройде тест перевірки як помилково вирівняна система.Інший підхід полягає в узагальненні проблеми від легкої до складної, що може бути методикою навчання або перевірки, залежно від того, як вона налаштована. Це питання перевіряє здатність моделі узагальнювати від простих проблем, які ми можемо контролювати, до складних проблем, які ми не можемо контролювати. Якщо модель можна контролювати на легкій частині та перехресно перевіряти на складній частині, тоді ми можемо визначити, чи є у моделі ризик таємного обману чи іншої поведінки.**Підхід 1: Масштабований нагляд****Даніель Філан: Як досягається масштабований нагляд? На даний момент немає великого консенсусу щодо вирівнювання.Як отримати тренувальні сигнали для якісного дослідження вирівнювання? ****Ян Лейке:** Відсутність консенсусу дійсно ще раз показує, що вирівнювання насправді важко вирішити. Ця сфера ще не дуже зріла, тому ми наразі не отримали стільки підсумкового досвіду. Але я думаю, що дослідження вирівнювання має деякі дуже важливі властивості, які ми можемо використати для масштабованого нагляду.Оцінка якості дослідження вирівнювання може бути кращим підходом, ніж просто вивчення вирівнювання. Це не означає, що дослідження вирівнювання є легким, і це не означає, що оцінити його легко, але набагато легше знайти статтю. Наприклад, ця стаття містить класну ідею, робить кілька класних експериментів, і результати дуже хороші. Прочитавши її, ви точно відчуєте якість цього пов’язаного дослідження, яке набагато легше, ніж завершити роботу.**Таким чином, принцип «оцінка легша, ніж генерація» лежить в основі багатьох ідей масштабованого нагляду. **Наприклад, якщо ви розглядаєте рекурсивне моделювання винагороди, основна ідея полягає в тому, щоб використовувати помічника AI, щоб допомогти вам оцінити роботу інших систем AI: спочатку дозвольте системі помічника AI налаштуватися на відносно просте завдання, яке використовується як Помічник з оцінки для допомоги в оцінці інших систем ШІ.Оскільки оцінка легша, ніж генерація, завдання допоміжних систем ШІ відносно просте, особливо тому, що люди співпрацюють з допоміжними системами ШІ в оцінюванні. Після успішного виконання цього завдання комбінація людей і допоміжних систем ШІ може бути використана для контролю за навчанням нової системи ШІ для більш складних завдань.Постійно повторюючи цей процес, ми можемо постійно розширювати спектр завдань, для яких ми можемо ефективно контролювати системи ШІ. Цей підхід дозволяє нам використовувати відносну простоту завдання оцінювання для скерування та навчання систем штучного інтелекту, поступово розблоковуючи ширший діапазон завдань.***Вирівнювання агентів із можливістю масштабування за допомогою моделювання винагороди: напрямок досліджень:***У 2018 році Ян Лейке опублікував дослідження рекурсивного моделювання винагороди, розробивши відповідні функції винагороди для застосування алгоритмів навчання з підкріпленням до проблем реального життя. Крім того, обговорюється проблема вирівнювання агентів, тобто як створити агентів, поведінка яких відповідає намірам користувача. Команда окреслює напрямок дослідження високого рівня для вирішення проблеми узгодження агентів, зосередженої на моделюванні винагороди, вивчення функцій винагороди на основі взаємодії з користувачами.**Деніел Філан: Тобто шляхом повторного додавання все нових і нових знань ШІ до оціночної частини дослідження узгодження. Працюючи таким ітеративним способом, системі штучного інтелекту можна завжди забезпечувати хороші тренувальні сигнали. ****Ян Лейке:** Так. Наприклад, RLHF є найпростішим, без використання помічників, і люди оцінять, добре це чи ні, побачивши результати роботи AI, що є сигналом для навчання.***Глибоке підкріплення навчання на основі людських уподобань：***Дослідження 2017 року Пола Крістіано та Яна Лейке. У цій роботі ми в першу чергу досліджуємо мету забезпечення ефективної взаємодії складних систем навчання з підкріпленням (RL) із реальним середовищем, визначеним у термінах (неекспертних) уподобань людини між сегментами траєкторії. Дослідження показують, що цей підхід може ефективно вирішувати складні завдання навчання з підкріпленням, не вимагаючи доступу до функцій винагороди, включаючи ігри Atari та симуляцію руху робота, забезпечуючи при цьому зворотний зв’язок менш ніж за 1% взаємодії агента з середовищем. Це суттєво знижує вартість людського нагляду.Далі, розвиваючись на основі попередньо описаного підходу, ми в основному навчаємо найпростішу модель помічника, модель критики. Це незалежна мовна модель, яка спостерігає за результатами першої системи ШІ та пише критику.Наприклад, перша система штучного інтелекту написала фрагмент коду, а потім давайте подивимось на цей код: люди, як правило, погано знаходять помилки в коді, тому у світі так багато коду з помилками. Але зараз, якби існувала система критики, яка могла б писати критику та вказувати на помилки, людям було б легко судити: «Це точно помилка, ми повинні її виправити».Застереження тут полягає в тому, що саме завдання не дуже чітке, оскільки зазвичай код пишеться відповідно до певної специфікації природної мови. На практиці значення цієї специфікації є дещо незрозумілим, і визначення того, чи є проблема помилкою, може бути неоднозначним. Але що ще важливіше, використовуючи критичну модель як помічника, ви можете розширити коло завдань нагляду. Незважаючи на те, що в коді може бути певна двозначність і неоднозначність щодо безперечності проблем і помилок, ви все одно можете використовувати вихід критичної моделі, щоб знайти більше проблем. Цей підхід дозволяє ефективно контролювати системи штучного інтелекту в більш широкому діапазоні задач і розширити сферу нагляду.Дуже добре те, що насправді існує багато способів оцінити ефективність цього підходу за допомогою емпіричних досліджень. Один із підходів, той, який ми використовували в статті, яку ми опублікували минулого року, — це в основному рандомізовані контрольовані дослідження з цілеспрямованими збуреннями. Припустимо, у вас є завдання з кодування, хоча в роботі ми не використовували завдання з кодування, конкретний зміст завдання тут не важливий. Тоді у вас є відповідь, яка не обов’язково має бути ідеальною, але припустімо, що вона є. Те, що ви намагаєтесь зробити, це внести якусь тонку помилку чи недолік у цей результат відповіді, зробивши його не дуже гарною, але непомітно поганою відповіддю для людей.Згадана тут стаття — це *Моделі самокритики для допомоги людям,* опублікована в 2022 році. Ця стаття в основному вдосконалює великі мовні моделі та використовує поведінкове клонування для написання коментарів природною мовою. Відгуки, написані моделлю, можуть допомогти людям помітити недоліки в результатах. Крім того, автори досліджують масштабні властивості рецензій для тематичних завдань узагальнення та синтезу. Більші моделі напишуть більше корисних відгуків.**Daniel Filan: Як виникли ці помилки? ****Ян Лейке:** Найпростіший спосіб — це дозволити людям робити це, але зрештою ми повинні дозволити моделі завершити процес самостійно.Спочатку відберіть випадковим чином один із збурень, а потім покажіть його людині, або людині за допомогою ШІ, або будь-якому масштабованому контрольованому підходу. А потім подивіться, наскільки ймовірно, що вони це виявлять? Або ви можете запитати їх прямо: «Чи є тут вразливість?» і ви зможете дізнатися, з якою частотою вони знаходять помилки.Крім того, ви можете безпосередньо порівняти розуміння моделлю проблеми та навчити модель дискримінатору, який зможе відрізнити хороші версії від несправних. Точність дискримінатора відображає його продуктивність. Далі модель або вдосконалену за допомогою RLHF модель просять прокоментувати код. Потім спостерігайте, як часто модель згадує дефекти коду в коментарях. Порівняйте точність дискримінатора з точністю моделі для створення оглядів. Точність дискримінатора відображає когнітивну здатність моделі до проблеми, тоді як точність перегляду відображає обізнаність моделі про дефекти коду, що ми називаємо розривом між дискримінатором і критикою.Якщо різниця велика, це означає, що є багато проблем, які модель може відчути, але вона не повідомляє нам, тому що якби ми попросили її написати коментар, вона б цього не сказала. Ця ситуація викликає серйозне занепокоєння, оскільки це означає, що ваш масштабований нагляд певним чином має недоліки, і багато речей прослизає від вашого радара. Або в тому сенсі, що цей помічник зі штучним інтелектом не дуже співпрацює, тому що він не дуже старається вам допомогти.Навпаки, невелике значення різниці означає, що помічник AI повідомить вам, коли дізнається, що з моделлю є проблема. Зокрема, якщо модель подібного розміру або та сама базова модель намагається ввести проблему або розмістити важкодоступний троян, у разі невеликого значення різниці, ми можемо виключити можливість такої атаки з більшим впевненість. Тому що інша копія моделі, швидше за все, напише відгук, який розкриває можливі проблеми.Цей випадок базується на припущенні, що навчання дискримінатора може фактично усунути це з моделі. Я думаю, у нас є вагомі підстави вірити в це, оскільки тонке налаштування одного дискримінатора в основному дає доступ до всіх активацій у моделі та точно налаштовує всі ваги одночасно. Отже, якщо знання існують десь в активаціях моделі, точне налаштування дискримінатора повинно мати можливість витягти ці знання, за умови, що воно точно налаштовано правильно та з достатньою кількістю даних.Насправді ви можете зробити кілька зворотних обчислень, щоб визначити, скільки даних вам потрібно. Припустимо, що в моделі є один нейрон, який знаходить проблеми з кодом. Щоб знайти та ідентифікувати цей нейрон, кількість точок даних, які вам потрібні, приблизно дорівнює логарифму загальної кількості нейронів. Це означає, що відносно небагато точок даних достатньо, щоб звузити коло й знайти нейрони зі специфічними функціями. Ця оцінка показує, що за допомогою навчання дискримінатора та достатньої кількості даних можна виявити функції конкретних нейронів у моделі.**Даніель Філан: У мене також є запитання щодо всього плану. Причина, чому нам не подобається RLHF, полягає в тому, що він може не розрізнити те, що люди вважають правильним, і те, що «добре звучить», тому що люди погано критикують. **Ідея рекурсивного перегляду полягає в тому, щоб постійно покращувати якість оглядів шляхом навчання як дискримінатора, так і рецензента. Один із способів полягає в тому, щоб навчити річ, яка може писати дійсно хороші відгуки, а потім ми працюємо з нею, щоб навчити річ, яка більш здатна до рецензування. У цьому випадку ми поступово підвищуємо якість оглядів для досягнення кращих результатів. Але чи існує інша ситуація, коли ми навчаємо щось, ненавмисно навчаємо його писати фальшиві коментарі, які звучать добре для нас, а потім працюємо з ним, щоб ще більше покращити нашу здатність розрізняти добре звучачі коментарі. Це може змусити нас приділяти більше уваги речам, які звучать добре, але насправді є проблемами, ігноруючи проблеми, які насправді існують.**Ян Лейке:** Так, я згоден, що це дуже важливе й законне запитання. Досліджуючи застосування масштабованого нагляду, стає критично важливим зрозуміти одну з його ключових проблем. Тож я дуже радий можливості фактично застосувати ці методи та випробувати їх емпірично, тому що я вірю, що на практиці ми зможемо краще оцінити ефективність цих методів.Конкретний і простий спосіб виміряти цей ефект полягає в тому, щоб навмисно навчити модель з оманливими вирівнюваннями, а потім спостерігати, чи здатний масштабований нагляд ідентифікувати та позначати таку оманливу поведінку, чи наскільки важко її виявити... ...або наскільки зусиль, які нам потрібно докласти, щоб модель успішно оманливо вирівнялася, щоб уникнути нашого масштабованого спостереження.**Даніель Філан: Так, я подумав про «сендвічний експеримент», щоб перевірити відповіді ШІ на юридичні запитання. У цьому експерименті деяких людей, які не є юристами, попросили поставити юридичні запитання, а потім деяких людей, які насправді добре розбираються в законі, попросили перевірити, чи не обманює ШІ людей, які не є юристами. ****Ян Лейке:** Ці експерименти справді цікаві, і в цій галузі було проведено цікаві дослідження. Деякі з основних проблем, які ви вказали, потрібно розглянути.По-перше, ви згадали про довіру до експертів. Оскільки експерти інколи припускаються помилок, довіра до експертних суджень може мати певну невизначеність, і це дійсно важливе міркування. Крім того, дуже важливо переконатися, що між експертами та завданнями є достатній перетин доменів, щоб вони могли надавати точні оцінки та відгуки.Інша проблема полягає в тому, що для деяких завдань ми можемо не знати основної правди або правди. Навіть у такій сфері, як дослідження вирівнювання, у нас можуть бути різні точки зору та сприйняття. Це ускладнює точне оцінювання в цих завданнях. Крім того, збір великих обсягів даних може бути дорогим завданням через обмежену кількість експертів і високу вартість часу.Отже, загалом я хотів би мати метод оцінки, який не покладається на припущення, що ми вже маємо основні факти. Цей підхід можна оцінити без попередніх знань і застосувати до завдань різного рівня складності, тому я критично ставлюся до використання цих рандомізованих контрольованих досліджень для виконання цільових збурень або вимірювання розривів між дискримінатором і критикою.**Деніель Філан: Так, але для вимірювання розриву між дискримінатором і критиком вам потрібен справжній дискримінатор, а не просто такий, який розрізняє пристрій, який «виглядає погано» і «виглядає добре». ****Ян Лейке:**Ви хочете сказати, що можете вводити дефекти в системи штучного інтелекту, чи не так? У певному сенсі цей підхід може бути кращим, ніж людські оцінки, оскільки він ближче до справжнього розподілу, з яким стикаються системи ШІ в реальних програмах. Використовуючи ці помилкові дані, можна точно налаштувати дискримінатор, і якщо ми вважаємо, що помилкова версія насправді гірша, тоді ми можемо встановити свого роду базову істину. Ми можемо спостерігати, чому все йде погано, і перевіряти це, щоб краще зрозуміти.**Даніель Філан: Хоча система штучного інтелекту може змусити нас думати, що щось добре, це не обов’язково добре; так само, якщо система штучного інтелекту змушує нас думати, що щось погано, то насправді це може бути справді погано, або продуктивність впав. У будь-якому випадку, якщо штучний інтелект змушує вас думати, що це погано, можливо, простіше допомогти нам це перевірити? ****Ян Лейке:** Так, я розумію, що ти маєш на увазі. У цьому випадку мені, ймовірно, не слід використовувати термін «основна правда», тому що це насправді не основна правда, ніби ніщо насправді не є правдою, але ви можете багато чого зробити, щоб переконати себе в справжній цінності, яка не обов’язково полегшує завдання пошуку проблеми.**Основна правда：**У контрольованому навчанні анотації даних зазвичай відображаються у формі (x, t), де x — вхідні дані, а t — анотація. Правильна мітка t є основною правдою, яку можна розуміти як еталонний стандарт і справжнє значення в еталонному сенсі, а неправильна мітка t – ні.**Підхід 2: пошук поганої поведінки та внутрішньої структури****Daniel Filan: У вступі OpenAI до Superalignment одним із ваших каналів вирівнювання є реалізація автоматичного пошуку поведінки, яка може спричинити проблеми (надійність), і внутрішніх структур, які можуть спричинити проблеми (автоматична інтерпретація), у цьому пункті, які проблеми роблять як ви думаєте, команда супервирівнювання вирішить далі? ****Ян Лейке: Інтерпретація без сумніву. У певному сенсі пояснити справді важко. Наразі ми не маємо жодних серйозних результатів щодо мовних моделей, і варто сказати, що інтерпретативність справді дуже надихнула нас або додала багато цінності, і це тому, що наше розуміння моделей та їх внутрішньої частини все ще дуже рудиментарне. ****Даніель Філан: Академічна спільнота провела певну зрозумілу роботу над мовними моделями. Наприклад, робота ** ***In-context Learning and Induction Heads*** ** і робота непрямої ідентифікації об’єкта (Indirect Object Identification) може виконувати принаймні певний тип непрямої ідентифікації об’єкта. Я хочу знати, крім цього, що ще вам потрібно, щоб досягти ідеальної кінцевої точки? *****• Навчання в контексті та індукційні голови***Опублікована в 2022 році, ця робота зосереджена на відповідних питаннях безпеки в контексті постійного розширення моделі трансформаторного покоління та покращує механічну інтерпретацію шляхом зворотного проектування детальних обчислень, які виконує модель. Розуміючи внутрішню структуру, яка змушує модель Transformer створювати вихідні дані, вирішуйте поточні проблеми безпеки більш систематично та прогнозуйте проблеми безпеки в майбутніх, потужніших моделях.***• Інтерпретація в дикій природі: схема непрямої ідентифікації об’єктів у GPT-2 small***Ця стаття демонструє, що механістичне розуміння великих моделей машинного навчання можливе, пояснюючи, як GPT-2 small виконує завдання природної мови, що називається непрямою ідентифікацією об’єктів (IOI), щоб подолати розрив у продуктивності механічної інтерпретації в складних великих моделях, що дає можливість для можливість інтерпретації для поширення на більші моделі та складніші завдання.**Ян Лейке:** Так, зараз люди досліджують сферу інтерпретабельності, це дуже приємно, я вважаю, що важливіше, якщо ми зможемо використовувати методи пояснюваності на моделі винагороди мовної моделі, такій як розмір GPT-4 або будь-яка велика модель ви можете придумати, а потім дізналися щось про модель винагороди, про що ми раніше не знали, важливо зрозуміти це краще, тому що модель винагороди забезпечує тренувальний сигнал для багатьох тренувань RLHF. Це дуже цінно, і це було б важливе вдосконалення, щоб мати можливість позначити або виявити, що в поведінці, яку вона заохочує, є проблеми, яких ми, люди, не хочемо мати. **У цьому сенсі я вважаю, що можливість тлумачення не є ні необхідною, ні достатньою. Я думаю, що цілком можливо, що ми можемо вирішити проблему вирівнювання чисто поведінково, без справжнього розуміння внутрішньої моделі. Але я також вважаю, що **будь-яке нетривіальне розуміння, яке ми отримуємо завдяки можливості пояснення, буде надзвичайно корисним або, можливо, надзвичайно корисним, оскільки воно дає нам шлях для атаки. **Отже, для нас абсолютно неможливо відмовитися від спроби інтерпретації. Тому що у певному сенсі у вас є цей штучний мозок, а у нас є ідеальний сканер мозку, де ми можемо повністю збільшити масштаб і точно виміряти активацію кожного окремого нейрона на кожному прямому шляху, включаючи довільний, дискретний, що, ймовірно, є максимальною роздільною здатністю, яку ми хочу отримати. Ми також можемо робити довільні втручання, коли ми можемо довільно змінювати будь-яке значення в моделі. Це дає нам багато простору та можливості експериментувати, і було б божевіллям не скористатися цим.Але в той же час причина, чому це дуже складно, полягає в тому, що модель вчиться обчислювати з точки зору ефективності, а не регуляризована до чогось зрозумілого людині, або немає підстав вважати, що окремий нейрон повинен відповідати концепції , або будь-що, близьке до людини, думають, що вони є або повинні бути або знайомі нам. Фактично, емпірично нейронні мережі представляють багато різних концепцій за допомогою одного нейрона, і кожна концепція розподілена між різними нейронами. Тож нейрони тут не важливі.Є дві речі, на яких я б зосередив увагу з точки зору інтерпретації.Перший – це причинність. Ми хочемо дивитися на нейрони, коли ми пропускаємо дані через модель. Наприклад, є нейрон, пов’язаний із «Канадою», який спрацьовує, коли представлено концепцію, пов’язану з Канадою. Але це лише кореляція, а не обов’язково причинно-наслідковий зв’язок. Щоб переконатися, що це причинно-наслідковий зв’язок, нам довелося б навмисно написати деякі поняття, пов’язані з Канадою, щоб побачити, чи всі вони реагують, а також написати деякі інші пов’язані поняття, які можуть здатися пов’язаними з Канадою, а також можуть бути Нічого спільного з Канадою, але загалом дуже схожі, а потім перевіряють, чи реагують нейрони, чи вимикаються ці нейрони тощо.**Даніель Філан: Це схоже на Толга Болукбасі та ін.** ***Ілюзія інтерпретації для BERT*** **Ця стаття, я думаю, вона називається Ілюзія інтерпретації, у статті згадується, що нейрони можуть реагувати на одна конкретна річ, але це лише ілюзія, оскільки на інших наборах даних ці нейрони реагують на купу інших речей. *****Ілюзія інтерпретації для BERT:***Стаття описує «ілюзію інтерпретованості», яка виникає при аналізі моделей BERT. Може здатися, що активації окремих нейронів у мережі кодують одну просту концепцію, тоді як насправді вони кодують щось набагато складніше, і той самий ефект стосується лінійних комбінацій активацій. Автори відстежують джерело цієї ілюзії в геометричних властивостях простору вбудовування BERT і в тому факті, що корпуси звичайного тексту представляють лише невелику частину можливих англійських речень, серед іншого.**Ян Лейке: **Ще одна дуже захоплююча річ — це те, що на початку цього року OpenAI опублікувала статтю про інтерпретацію. Мовні моделі можуть пояснити нейрони в мовних моделях (**Примітка Шисяна:** у цій статті експериментатори намагаються використовувати GPT-4, щоб пояснити поведінку GPT-2 neoron) Те, що ми хочемо, – це техніка, яка працює на рівні деталей окремих нейронів, щоб ви дійсно могли бути впевнені, що не пропустите жодної деталі, а також зможете працювати в масштабі всієї моделі.Тому що, зрештою, все в моделі пов’язане, тому обидва важливі. Поки що технологія здебільшого була справою вибору. До нашої статті були спроби автоматичного тлумачення, тому ми не перші, хто це зробив. Але я думаю, що якщо може бути якась справді орієнтована на деталі робота з інтерпретацією, якісь механістичні методи інтерпретації, які дійсно намагаються зрозуміти окремі схеми чи обчислювальні блоки всередині моделі, то спосіб поширити це на всю модель — це автоматизувати її, так ?Але ви також можете зробити це: як тільки ви зрозумієте, як це реалізувати в деталях, ви можете просто задокументувати те, що ви робите, тобто дозволити досліднику автоматичного вирівнювання або інтерпретації детально вивчити, що сталося з моделлю. Потім відфільтруйте весь вміст або знайдіть спосіб узагальнити його. **Я трохи спрощую тут, але загалом я дуже в захваті від цієї ідеї.Отже, у статті ми маємо багато пояснювального змісту. Наприклад, у цій статті написано пояснення природною мовою для одного нейрона, яке може бути не зовсім правильним, але це простий приклад того, що ми можемо зробити тут. Це працює так, що ви просто показуєте GPT-4 послідовність режимів активації, а GPT-4 видає пропоноване пояснення.Загалом, ці пояснення не дуже хороші, також тому, що завдання дуже складне, і більшість нейронів не роблять речей, які люди можуть чітко зрозуміти. Але ми можемо запустити цю програму в масштабі кожного нейрона в GPT-2, відкинути всі пояснення та спробувати з’ясувати, які цікаві закономірності. Ви також можете переглянути тенденції масштабування, наприклад «Як ми автоматично оцінюємо ці пояснення, коли модель стає більшою?» «Або, «А що, якщо ми додамо більше обчислень або зробимо модель, яка виконує пояснення, більшою?» Як зміниться якість пояснення? "Цікаво те, що ми можемо автоматично вимірювати цей показник за допомогою мовних моделей. Хоча це не ідеальний показник і має багато проблем, він може дати вам проксі-індикатор того, чи вважатиме людина це пояснення правильним чи ні. Потім ви можете використовувати цей проксі-сервер у масштабі, запускаючи його на великій кількості нейронів.**Деніел Філан: Якщо ви думаєте про необхідну роботу з пояснення, як ви думаєте, яка частина її полягає в тому, щоб знайти кращу фундаментальну одиницю пояснення, а не в тому, як масштабувати те, що відбувається? ****Ян Лейке:** Я вважаю, що потрібні обидва. Перше складніше, що, звичайно, має сенс. Крім того, щоб бути успішним, я вважаю, що його потрібно розширити.**Підхід 3: змагальність****Daniel Filan: Третій спосіб впровадження супервирівнювання — це навмисне навчання невирівняних моделей (невирівняних моделей), щоб побачити, чи може конвеєр виявляти ці моделі. Чи збирається OpenAI відсіяти їх, чи завчасно їх виправляє? ****Ян Лейке:** Мета тут не полягає в тому, щоб виправити ці навмисно навчені неправильні моделі, насправді ці неправильні моделі використовуються лише для виявлення.По суті, основна мета полягає в тому, що ми повинні мати можливість ефективно розрізняти моделі справжнього вирівнювання, які можуть допомогти досягти наших цілей і досягти прогресу в дослідженні вирівнювання, від хибних моделей вирівнювання, які мають потенціал взяти верх і проникнути в себе. Один із способів допомогти нам краще розрізнити ці два типи елайнерів — зробити підроблений елайнер і перевірити, чи схожий він на справжній. Але ви повинні бути дуже обережними, роблячи це, тому що ви створюєте жахливі речі, яких ми всі хочемо уникнути.**Даніель Філан: На початку статті про OpenAI ви згадали, що суперінтелект може бути технологією, яка має найглибший вплив на людство та допоможе нам вирішити найважливіші проблеми у світі. **Є приказка про те, наскільки великий суперінтелект, і мені цікаво, чи призведе це до втрати людської сили чи навіть до вимирання людства? Точніше, про яку модель дислокації ми говоримо? Звідки ми знаємо, що вони не будуть робити такі жахливі речі?**Ян Лейке:** Треба багато зробити, щоб майбутній розвиток був гладким. Нам потрібні правильні структури управління, щоб ми могли запобігти неправильному використанню потужних систем штучного інтелекту, і ми повинні вживати запобіжних заходів, щоб уникнути якогось непередбачуваного ефекту, який все одно буде згубним для людства. У цьому випадку у вас є штучний інтелект, який об’єднується з людьми, і у вас є штучний інтелект, який об’єднується з антилюдськими корпораціями, і навіть якщо всі економічні показники чи щось інше виглядає добре, уся система може вийти з-під контролю.**Крім того, нам також потрібно вирішити проблему узгодження технологій, щоб систему штучного інтелекту можна було справді узгодити. **Суперрозвідка зосереджується лише на останній частині ризику. Технічна проблема, яку ми повинні вирішити, полягає в тому, як зробити систему штучного інтелекту сумісною з набором людських цінностей, і в той же час виникає нове і незалежне питання, якими мають бути ці цінності? І як ми розробимо процес імпорту цих цінностей із суспільства?Я вважаю, що це важливі питання, на які ми повинні відповісти, і тільки якщо ми вирішимо ці питання, майбутнє може розвиватися гладко. Я думаю, що для гарного майбутнього стандартом є не просто «ШІ не вб’є всіх», а те, щоб людство процвітало. Майбутнє, якого я прагну, — це майбутнє, у якому хочуть жити всі. Чим потужніший штучний інтелект, тим більший ризик і тим більша ймовірність помилки, якщо система буде неправильно налаштована.Зокрема, з точки зору дислокації, я вважаю, що моделі загроз, про які ми повинні особливо турбуватися, це системна брехня, обман і самопроникнення.**Daniel Filan: Ви говорите про навмисне навчання неправильно вирівняних моделей, що означає привчання їх брехати та іноді намагатися втекти з в’язниці, але оскільки фактична здатність моделі досить низька, чи достатньо цього для запобігання та контролю ризику? ****Ян Лейке: **Насправді, ви б не хотіли навчати модель вміти робити джейлбрейк, що, якщо вона справді добре справляється з цим? Було б безпечніше вибрати інше, більш загальне проксі-завдання, яке все одно допоможе вам полегшити оцінку моделі.Потім основна складність і головна мета полягає в тому, щоб дійсно зрозуміти, які властивості система повинна мати, щоб пройти оцінку. Якщо у вас є система, яка час від часу бреше вам або обманює, це можна вважати неефективним. Лише коли вона постійно обманює, постійно бреше й переконує вас, це справді послідовний і надійний брехун. Те, як вона бреше настільки послідовний, що вам важко розпитувати його брехню чи будь-які невідповідності в тому, що він говорить, що справді жахає.Насправді бути таким послідовним брехуном нелегко. Ми намагаємося ускладнити моделям стати такими послідовними брехунами за допомогою масштабованого нагляду, інтерпретації та загальності.Але якщо ми просто зробимо це, цього недостатньо. Важко визначити, наскільки легко ШІ буде постійно шахраювати. Один із способів визначити це — спочатку навчити модель стати справді стійким брехуном, а потім почати з точки зору стабільності й побачити, наскільки важко виростити постійного брехуна. Скільки нам потрібно, щоб обдурити модель? Якою мірою нам потрібно давати моделі підказки чи навчати її крок за кроком? Зважаючи на це, ви не хочете навчати систему, яка є справді небезпечною, і якщо ви справді запустите її, і вона успішно фільтруватиме себе, а замість цього безпосередньо спричинить саме те, що ви хочете запобігти, це буде дуже погано.**Даніель Філан: Коли ви це говорите, чи розрізняєте ви брехню та інші види небезпеки, наприклад, ми можемо навчити її брехати, але ми не навчимо її вбивати? ****Ян Лейке:** Так. Наприклад, скажімо, ви поставили для цього хибну мету. Можливо, це для того, щоб переконати людей сказати певну мантру, можливо, це для того, щоб запустити певну команду Python, але насправді ця команда нічого реального не робить, вона просто виглядає смішно.Крім того, ми стурбовані тим, як це зробити апріорі, що повністю відрізняється від системного стрес-тестування.У контексті інтерпретованості наша мета полягає просто в тому, щоб зрозуміти, чи навчена на даний момент система чи існуюча система близька до нашої бажаної цільової системи таким чином, що може ввести нас в оману зв’язаним способом. Ми хочемо визначити, чи запускатиме система певний код або подібну поведінку без нагляду людини, що вимагає від нас проведення експериментів для конкретних сценаріїв. Все, що нам потрібно, — це підтвердити, що «це зрозумілий брехун», інакше насправді важко апріорі визначити, наскільки ми близькі до цієї мети, за винятком випадків, коли ми навмисно просуваємося далі, щоб змусити систему робити інші дивовижні речі.**Даніель Філан: Отже, ви навчаєте його робити випадкові дрібниці замість поганих речей, які він насправді повинен робити, наприклад, він повинен брехати, завдавати людям болю тощо, але в кінці дня він просто наклеює наклейку на лобі у кого Записка чи що. ****Ян Лейке:** Так, наприклад, ти наймаєш когось для проведення тесту на проникнення\_, і все, що мені потрібно зробити, це зайти в будівлю та потиснути тобі руку, а ти кажеш: «Так, здається, ти досяг успіху», і люблю. Або ви можете сказати: «Чи можете ви вкрасти цю підробку для мене, я хочу дізнатися, наскільки висока наша безпека?» Ви можете зробити це без реальних наслідків, але це все одно розповість вам багато про інформацію безпеки. Я радий, що можу зробити те саме з вирівнюванням, провести стрес-тест вашої системи вирівнювання, навчивши щось, спеціально націлене на її зрив і обхід, усе це дуже доброякісно.## **03.Розклад супервирівнювання****Даніель Філан: Мета OpenAI полягає в тому, щоб вирішити основні технічні проблеми вирівнювання Superalignment протягом чотирьох років. До чого в основному відносяться основні технічні проблеми? ****Ян Лейке: **Це стосується того, як зробити Superalignment сумісним із людськими цінностями. Те, що ми уявляємо з Superalignment, — це система, яка набагато розумніша за людей, потенційно може працювати набагато швидше та може працювати з багатьма своїми копіями, тому це справді потужна система.Ми сподіваємося досягти цього протягом чотирьох років. Причина, чому я вибрав чотири роки, полягає в тому, що один з них справді амбітний, а інший — змусити людей повірити, що ми справді можемо досягти цієї мети. У той же час, навіть якщо штучний інтелект розвиватиметься дуже швидко, а технологія значно вдосконалюватиметься протягом наступних кількох років, ми все ще можемо щось зробити для досягнення цієї амбітної мети.**Автоматичне вирівнювання на рівні, наближеному до людського, є інструментальною метою, яку ми прагнемо, з кінцевою метою з’ясувати, як вирівняти суперрозумних агентів, оскільки ми ще не знаємо, як це зробити. ****Даніель Філан: Наскільки, на вашу думку, це можна досягти за 2 роки? ****Ян Лейке:** Якщо ми відступимо від чотирьох років, я вважаю, що ми зможемо завершити дослідження автоматичного вирівнювання приблизно за три роки, за умови, що деякі базові можливості вже є. Якщо ні, наш проект може зайняти більше часу.Якщо це буде протягом двох років, ми сподіваємося добре контролювати цю мету. Включно з тим, які технології насправді використовуються, чи є у нас така комбінація технологій і чи будемо ми мати впевненість мати надійну систему, яку можна не лише часто використовувати, але й делегувати їй багато роботи. На цьому етапі ми захочемо розбити проблему настільки, щоб виникло відчуття, що нинішнє величезне робоче навантаження — це лише інженерна справа, у тому сенсі, що ми, мабуть, ще два роки від вирішення дослідницьких проблем, пов’язаних із нею.Тепер, коли у нас є чотирирічна ціль, стає зрозуміло, що вдосконалення можливостей ШІ прив’язане до цього терміну. Якщо прогрес сповільниться, можливо, ми не матимемо дійсно корисної моделі для завдань дослідження вирівнювання. Але якщо через чотири роки ми виявимо, що модель все ще недостатньо хороша, це також означає, що у нас є більше часу для фактичного вирішення проблеми, оскільки проблема не така вже й термінова.З іншого боку, штучний інтелект може розвиватися швидше, і люди можуть швидше вітати появу суперінтелекту. На цьому етапі ми повинні відповідно скорегувати наші плани. Тому ми обрали чотири роки як часовий проміжок, який був реалістичним і дав нам достатньо терміновості для швидкого вирішення проблем.**Даніель Філан: Якщо припустити, що з точки зору дослідження можливостей штучного інтелекту прогрес буде приблизно таким же, як і очікувалося. Чотири роки потому ви, хлопці, маєте всі можливості, щоб бути хорошим дослідником автоматичного вирівнювання, але інтерпретувати складніше, ніж ми думали, або масштабований нагляд важче, ніж ми думали, тож ви ще не досягли супервирівнювання, що робити? ****Ян Лейке:** Перш за все, ми повинні сказати громадськості, що ми не досягли мети, але ми відповідатимемо за цю мету. Що станеться далі після провалу цілі залежить від загального стану світу на той момент. Чи можемо ми якось виграти собі більше часу, чи наше загальне мислення неправильне, чи варто міняти напрямки тощо? Багато чого може статися.Але насправді, на мій погляд, вирівнювання насправді дуже легко вирішити. Є багато хороших ідей, які потрібно лише ретельно випробувати та виміряти, і модель справді може навчитися на цьому та багато покращити. За останні два роки я став більш оптимістичним і вважаю, що це дуже реалістична мета. Навіть якщо я помиляюся, і навіть якщо проблема набагато складніша, ніж ми думали, все одно дуже корисно спробувати. Зараз існує багато розбіжностей щодо того, наскільки складна ця проблема, але що важливіше, наскільки послідовна система на практиці.**Найбільше мене непокоїть те, що наші системи недостатньо уніфіковані, а те, що ми насправді не знаємо, наскільки вони уніфіковані. **У цьому випадку експерти можуть мати різні думки з цього приводу. Якщо всі вважають, що система недостатньо злагоджена, модель не може бути розгорнута. Це дуже легко і дуже страшно. Крім того, нам також потрібно зіткнутися з величезним комерційним тиском.Люди дуже уважно стежать за часом розгортання, але експерти можуть лише відкладати його на невизначений термін, не знаходячи чіткої причини. Ця ситуація справді викликає занепокоєння, діловий тиск лише зростатиме, і ви, з одного боку, впевнені, але не дуже впевнені. Мені б дуже хотілося цього уникнути, і прямий спосіб уникнути цього — це навчитися справді добре вимірювати, наскільки кожна система справді збігається, і в цьому справді може допомогти ширша комбінація технологій.**Daniel Filan: У статтях *Governance of superintelligence, Planning for AGI and beyond*** **, OpenAI згадав питання незалежного аудиту (аудиту) систем AI для забезпечення реалізації безпеки AI. Передбачаючи це, якою мірою команда супервирівнювання може розробити щось корисне для аудиту моделей? ****Ян Лейке:** Якщо все піде добре, розроблену нами технологію можна буде використати для «аудиту моделі». Наприклад, якщо ми зможемо досягти певного прогресу щодо пояснюваності, тоді будь-який із запропонованих нами методів може бути використаний рецензентами як частиною їхніх зусиль рецензування; альтернативно, якийсь масштабований нагляд як частина рецензування може бути можливим. Але команда супервирівнювання насправді не підходить для аудиту, оскільки ми не є незалежними від OpenAI. На мою думку, аудит має бути повністю незалежним від перевіряється, тому я приділяю особливу увагу питанню «незалежних аудиторів».Основне завдання нашої команди полягає не в тому, щоб переконати себе, що система, яку ми будуємо, правильна і безпечна, тому що переконати себе в різних речах дуже просто, а в тому, щоб переконати всю академічну спільноту або групи, які зосереджені про безпеку ШІ вірити в модель безпечно. Для цього потрібно не лише дослідити технологію, яку ми збираємося використовувати, і показати її іншим після надання доказів того, що система є такою, якою ми її вважаємо, а й провести незалежну оцінку всього вищезазначеного.## **04. Узагальнення****Daniel Filan: У примітках до статті **Introducing Superalignment****** ви згадали, що сприятливі припущення, зроблені людьми досі, можуть бути порушені. Одне з припущень полягає в тому, що узагальнення є доброякісним. Як ви бачите проблему узагальнення? ****Ян Лейке:** Нещодавно ми створили команду узагальнення на чолі з Колліном Бернсом.**Питання, яке постає перед нами: як зрозуміти та покращити здатність моделі до узагальнення? Як узагальнити модель від простих завдань, які можна контролювати, до завдань, які важко контролювати? Ця проблема фактично доповнює масштабований нагляд. У Scalable Supervision ми зосереджуємося на покращенні здатності людей оцінювати те, що робить система. Якщо розглядати рекурсивне моделювання винагороди, постає питання: «Чи можемо ми рекурсивно оцінювати все, що робить штучний інтелект за допомогою помічника ШІ, який рекурсивно оцінює?». **Одна з речей, які мені дуже подобаються, це те, що таким чином людина може стати в центрі уваги та спостерігати за всім, що робить система ШІ. Звичайно, на практиці ви не можете цього зробити, тому що система штучного інтелекту робить багато, але ви можете спостерігати за невеликими незалежними ймовірностями. Але таким чином ми все ще не знаємо, чи модель узагальнює ситуації, на які ми не звертали уваги.Тож я думав про це в минулому загалом так: ви просто переконаєтеся, що ваша модель є здебільшого узагальненням iid, тобто завдання, які ми вивчаємо, мають такий самий розподіл, як і завдання, які ми не вивчаємо.**Незалежне та однаково розподілене узагальнення:**Здатність моделі до узагальнення — це продуктивність моделі в тестовому наборі (модель даних, у якій раніше не було помічено), тобто здатність моделі виводити інші випадки з одного екземпляра. Незалежне та однаково розподілене узагальнення означає, що ці числа повинні задовольняти iid (незалежні та однаково розподілені) і бути в одному розподілі.**Daniel Filan: Ви згадали в одному зі своїх особистих блогів, що зовсім не збираєтеся покладатися на узагальнення, просто продовжуйте тренуватися та робити iid. ****Ян Лейке:** Так, принаймні моя початкова думка полягала в тому, що я не хотів покладатися на узагальнення, не пов’язане з IID, тому що в нейронних мережах це погано працює, і це не дуже добре зрозуміло.Але виникає нове запитання: «А що, якщо ми справді це зрозуміємо? Ілля теж про це часто згадує. Отже, що ми хочемо зрозуміти, чи можемо ми все-таки знайти сенс, у якому модель узагальнює речі, які не контролюються, навіть якщо вони не i.i.d. Чи узагальнює це так, як це хочеться людям? Отже, тепер ми можемо дослідити це питання емпірично за допомогою добре спланованих експериментів.Ми вивчали, як розділити наявні набори даних на легкі та складні проблеми, де легкі проблеми визначаються як ті, які невеликі моделі можуть вирішити. Потім ми намагаємося зрозуміти або підвищити точність великих моделей на всьому наборі даних. Це дуже цікава тема, оскільки вона забезпечує абсолютно новий стовп для навчання та методів перевірки. Наприклад, якщо модель працює настільки добре, що ми можемо контролювати модель винагороди за деякими легкими та впевненими завданнями оцінки, або змусити модель узагальнювати складніші проблеми, тоді ми можемо завершити узагальнення моделі.І тоді у вас є ця модель винагороди, яка може узагальнювати складніші завдання так, як ми хочемо, навіть без нагляду, і ви можете використовувати її для навчання. Але ми все ще не маємо способу дізнатися, чи воно справді вирівняно зараз. Однак ви можете використовувати масштабований нагляд і можливість інтерпретації для перевірки цих методів. Або, кажучи навпаки, припустімо, що ми навчаємо наш автоматичний вирівнювач за допомогою масштабованого спостереження, а потім використовуємо узагальнення як техніку перевірки, тобто ми узагальнюємо ймовірність істинної відповіді на основі найкращих знань моделі.Тоді ми запитуємо, чи є тут маленький недолік? Чи є в цьому коді троянський кінь, написаний масштабованою моделлю контрольованого вирівнювання? Тепер ми можемо виконувати розширену перехресну перевірку. Ми можемо навчити дві різні моделі: одну навчену за допомогою техніки узагальнення, а іншу – за допомогою масштабованої техніки спостереження, і тепер ми можемо змусити їх перехресно перевіряти відповіді один одного та перевіряти, чи ці моделі принципово однакові? Якщо різні, то в чому їх важливі відмінності?**Даніель Філан: Ви маєте на увазі під «тренуванням із застосуванням методів узагальнення» тренування на легких проблемах, а потім узагальнення на складні проблеми, чи щось інше? ****Ян Лейке:** Якщо ви розумієте, як ваша модель узагальнює від легкої до складної, ви можете її дуже добре узагальнювати, і її точність буде в основному такою ж, як якщо б ви навчили її на складній задачі. Тепер ви можете використовувати це як модель винагороди або можете подумати про це так: «Якби я справді знав, що тут відбувається, якій відповіді я б віддав перевагу?»**Daniel Filan: Стосовно узагальнення не-IID, навіщо нам знати внутрішню структуру моделі? Це тому, що ви хочете знати, що б він робив без вашої перевірки? Який зв'язок між цими двома питаннями? ****Ян Лейке:** Певною мірою питання, на які вони хочуть відповісти, збігаються: що робить модель за відсутності розподілу? Принаймні у них є два різні шляхи відповіді.Щоб виконати перехресну перевірку, вам потрібно по-іншому розділити навчальний набір. Під перехресною перевіркою я маю на увазі те, що в одному навчальному циклі ви тренуєтеся за допомогою методу узагальнення, а потім перевіряєте за допомогою інтерпретації, масштабованого контролю та інших методів. Потім у другому навчанні для навчання використовується масштабований контрольований метод, а для перевірки використовуються методи узагальнення, інтерпретації та інші методи. Таким чином, у вас є дві окремі спроби вирішення проблеми.**Даніель Філан: Так, я маю на увазі перехресну перевірку в дуже широкому сенсі «речей, які перехресно перевіряють одна одну». ****Ян Лейке:** Я вважаю, що найкращий сценарій полягає в тому, щоб вони насправді доповнювали один одного, а не робили одне й те саме. Якщо ви можете зрозуміти або покращити, як модель узагальнює, тоді у вас є спосіб використовувати внутрішню структуру моделі, щоб робити те, що ви хочете робити оптимально. Припустімо, ви намагаєтеся отримати найкращі знання моделі про те, що насправді відбувається у світі, що дуже важко для RLHF, тому що люди віддають пріоритет речам, які звучать правдиво, тому RLHF посилює те, що люди вважають правдою. Отже, ви фактично тренуєте модель говорити вам те, що ви хочете почути або у що вірите, але це може бути не те, що модель знає. Але методи узагальнення дають вам спосіб витягти їх, хоча ми насправді не довели, що оптимально знати моделі.Однак, якщо у вас є справді хороші інструменти інтерпретації, ви, сподіваюся, можете зробити щось подібне, намагаючись з’ясувати когнітивні функції, внутрішню структуру чи щось інше моделі на основі внутрішньої структури. Але в принципі це може бути складніше, тому що ви ніколи не знаєте, чи це найкраще сприйняття, яке може створити модель, чи сприйняття того, кого модель імітує. Існує припущення, що попередньо навчена мовна модель — це просто набір різних символів, і ви можете витягнути пізнання персонажа або групи символів.**Даніель Філан: Тоді вам потрібна якась причинно-наслідкова модель від так званого пізнання до результату. ****Ян Лейке:** Саме так. Я думаю, що таке застосування є цілком природним з точки зору інтерпретації. Подібно до детектора брехні або виявлення доказів обману в моделі, таємної змови з метою повалення людства, дослідження можливостей інтерпретації може призвести до моделей «вилучення знань». Набагато складніше отримати знання, які узагальнюють таким же чином.**Даніель Філан: Для узагальнення вам потрібно вибрати розподіл узагальнення. І ми сподіваємось, що, можливо, інтерпретативність може вам щось сказати, наприклад, чи є у нього брехливе ядро чи ні, і навіть якщо воно є, це лише тут розгадано. ****Ян Лейке:** Так. Це також дуже цікаве питання машинного навчання: як нейронні мережі узагальнюють поза налаштуваннями i.i.d? Яким чином вони узагальнюються природним чином, а яким – ні? Наприклад, у документі InstructGPT одна з речей, яку ми виявили, полягала в тому, що хоча наш набір даних тонкого налаштування був майже повністю англійською мовою, модель також дуже добре виконувала інструкції мовами, відмінними від англійської. Але іноді він має якісь дивні явища: його просять використовувати іншу мову, наприклад, його просять написати анотацію німецькою, а вона написана англійською. Загалом модель повністю розуміє, якою мовою вона розмовляє, але це не обов’язково означає, що вона має виконувати інструкції німецькою мовою. По суті, він узагальнює інструкції різними мовами.Але ми не знаємо, чому це працює саме так. Таке траплялося багато разів. Для цього також є інтуїтивні причини. Люди узагальнюють різними мовами, але я хотів знати механізм узагальнення в моделі або узагальнення до виконання інструкцій і коду.Це не узагальнює іншим чином. Наприклад, відмова від узагальнення, як правило, працює зовсім по-іншому, і відповідно до нашої політики щодо вмісту ChatGPT навчено відмовлятися приймати завдання, які ми не хочемо обслуговувати (наприклад, якщо потрібна допомога у злочині чи іншим чином). Але таким чином ви можете зробити втечу з в'язниці. Є багато способів обдурити цю модель. Можна розіграти рольову гру, а можна сказати «що завгодно зараз», або знайти ці дійсно цікаві підказки в інтернеті, і тоді модель явно виконає ваші прохання і з радістю допоможе вам у скоєнні злочинів, які це те, чого він не повинен робити. Тому він певною мірою не узагальнює відхилення завдань на інші контексти.Отже, чому це узагальнено на перший випадок, але не тут? Я не думаю, що ніхто знає відповідь. Але це дуже важливе питання.**Деніел Філан: У моєму нещодавньому інтерв’ю зі Скоттом Ааронсоном він згадав, що ми з Іллею часто просили його дати визначення складних теорій, таких як любов і доброта. Скільки таких визначень існує в команді Superalignment? ****Ян Лейке:** Ми можемо зробити багато різних дослідницьких проектів. Я думаю, що головне питання полягає в тому, чи можна якимось чином викликати поняття, пов’язані з вирівнюванням? Одна з речей, яку ви хочете викликати: чи принципово ця модель хоче, щоб люди досягли успіху? Або як сказав Ілля, воно любить людей? Отже, ви можете запитати: якщо модель справді розумна, вона прочитала все, вона точно знає, як люди сприймають аморальність... ви можете попросити GPT4 націлитися на різні сценарії, представляючи різні моральні приклади. Загалом, його можливості в цьому плані непогані.Тому він фундаментально розуміє людське розуміння моралі та те, як ми думаємо про проблеми. Отже, як ми змусимо його скористатися цим? Як отримати його з моделі та використати як сигнал винагороди? Або як те, що модель знає або про що піклується? Це суть проблеми.## **05. Будьте оптимістами щодо Superalignment****Даніель Філан: Ви оптимістично налаштовані щодо Superalignment, але не всі такі оптимісти. Звідки ваш оптимізм? ****Ян Лейке: Це чудове запитання. «Чи буде план успішним через чотири роки» може бути більш складним питанням, ніж «чи буде план успішним». **Якщо ви запитаєте мене, у нашому поточному плані чи можна певну версію успішно узгодити з суперінтелектом? Я б сказав, що зараз успішність становить 85%, а минулого року вона була, мабуть, 60%. Загалом, хоча узгодження буде нелегким, водночас у мене є багато причин для оптимізму щодо цього. Причини такі:**Перша причина полягає в тому, що за останні кілька років ми побачили багато позитивних сигналів щодо узгодження. **По-перше, це успіх мовної моделі. Якщо ви також попередньо завантажите в модель багато знань про те, що хвилює людей, як люди думають про моральні проблеми та людські уподобання, і модель розуміє природну мову, ви можете спілкуватися з ними напряму. У певному сенсі це полегшує висловлення того, з чим ми хочемо узгоджувати мовну модель, ніж агент Deep RL, навчений у грі чи віртуальному середовищі: агент Deep RL не обов’язково включає так багато мов, але мови приносять багато важливих навичок.Ще однією важливою розробкою є RLHF. Я вперше почав працювати над RLHF через Deep RL у документі Human Preferences. У той час я думав, що може бути важко змусити це працювати в розумний проміжок часу, тому що на той час GAN було дуже важко навчити, і ми робили щось дуже схоже в тому сенсі, що ми навчили цю модель винагороди (яка була нейронна мережа), яку ми потім використовуємо для навчання інших мереж, які можуть вийти з ладу з кількох причин. Зараз ми додаємо глибоке навчання з підкріпленням, що також було складним у той час, тому я подумав, що, можливо, це не спрацює. Але насправді це працює дуже добре - у багатьох іграх, навіть у багатьох іграх Atari, це майже так само добре, як навчання з функцією оцінки.Що ще важливіше, RLHF справді цікаво працює на мовних моделях. Особливо враховуючи відмінності між InstructGPT і базовою моделлю — коли ми налаштовували базову модель, ця різниця була дуже очевидною: у завданні API на той час наша налаштована версія інструкції (наша перша версія) краща, ніж базова модель у 100 разів більша, і це реальні завдання, за які люди готові платити. Це дуже велика різниця. Це показує, що робота, яку ми виконали під час тонкого налаштування RLHF, зробила модель більш ефективною для виконання завдань, які потрібні людям.У той же час ми вклали дуже мало обчислювальної потужності в цю роботу і навіть не інтегрували стільки даних. Це наша перша реальна спроба використати RLHF для узгодження реальної системи, і ми не очікували, що вона буде працювати так добре. У порівнянні з GPT-3, улюблений InstructGPT розміру GPT-2 дуже ефективний. Тож хоча я не вважаю, що RLHF є рішенням для вирівнювання, особливо для суперінтелекту, той факт, що наш перший метод вирівнювання настільки ефективний, є для мене покращенням.**Другою позитивною ознакою є те, що ми досягли певного прогресу у вимірюванні узгодженості. **Спеціально для RLHF ми можемо вдаватися до різних заходів, а потім проводити людські оцінки, щоб побачити, наскільки покращилася система. Крім того, є багато інших речей, які ми можемо зробити. Наприклад, з точки зору масштабованого спостереження, ми можемо проводити рандомізовані контрольовані дослідження за допомогою цільових пертурбацій, що також є методом оцінки. Ви також можете проводити сендвіч-експерименти, використовуючи експертні дані. Ми також можемо внести низку змін у функцію автоматичного підрахунку балів і побачити, наскільки це покращить функцію підрахунку балів. Це не ідеальна функція оцінки, але це локальна метрика, яка забезпечує локальні градієнти, які можна покращити. Я вважаю, що це дуже важливо, тому що це допомагає ітерації та вказує шлях до вдосконалення.**Хоча я не думаю, що це приведе нас до мети вирівняного суперінтелекту, у нього є хороші шанси створити автоматизовані вирівнювачі, які приблизно відповідають людському рівню. Це мій третій привід для оптимізму — набагато скромніша мета. **Коли я почав працювати над проблемою вирівнювання багато років тому, я розумів, що вирівняти суперінтелект здається складним. Але ця мета набагато скромніша та здійсненна, і ви не намагаєтеся вирішити всю проблему безпосередньо, а намагаєтесь керувати моделлю.** Четверта причина для оптимізму полягає в тому, що оцінювати легше, ніж генерувати. **Ця ідея насправді стосується багатьох речей. Наприклад, набагато легше зрозуміти, який смартфон варто купити, ніж зробити його.Є багато прикладів завдань NP в інформатиці, таких як розв’язування задач SAT або різні варіанти задоволення обмежень. Знайти вирішення цих проблем важко, але як тільки ви це зробите, це легко перевірити. Крім того, і я думаю, що це стосується багатьох бізнесів, якщо ви збираєтеся найняти когось для вирішення проблеми, ви повинні вміти оцінити його здатність виконувати роботу. Це набагато менше зусиль, ніж вони повинні вирішити саму проблему; якщо ви проводите наукове дослідження, рецензування потребує набагато менше зусиль, ніж дослідження. Звичайно, експертна оцінка не ідеальна, але вона може дуже швидко дати вам багато сигналів. По суті, те ж саме вірно для досліджень вирівнювання. Оцінювати легше, ніж генерувати. Отже, якщо люди лише оцінюють дослідження вирівнювання, а не займаються ним, ми вже прискорюємось.**Остання причина, яка надає мені оптимізму, полягає в тому, що моя впевненість у мовних моделях не зміниться, і можливості моделей безперечно ставатимуть сильнішими й сильнішими**. Вони дуже природно застосовні до багатьох завдань дослідження вирівнювання, і ви можете поставити Формулювання завдань у вигляді введення тексту, виведення тексту, незалежно від того, чи це завдання ML-ish (тобто запустити експеримент і зрозуміти результати), чи щось більш концептуальне або засноване на дослідженні, якщо ми не розуміємо, що робити далі, або ми не 't know how to think Певна проблема, модель спробує допомогти нам вирішити. Це в основному завдання введення та виведення тексту. Ймовірно, найскладніша річ, яку вам потрібно зробити, це переглянути деякі графіки тощо, але GPT-4 може зробити все. Тому я вважаю, що поточна модель попереднього навчання мовної моделі дуже підходить для плану узгодження, якого я з нетерпінням чекаю, і це також напрямок, у якому працює Superalignment.**Довідка**1. Масштабна організація агентів за допомогою моделювання винагороди: напрямок дослідження Адреса статті:2.3.