Вирівнювання цінностей великої моделі ШІ: що, чому, як?

Question

**Оригінал:****Чжан Цінкунь, генеральний секретар Tencent Research Institute****Цао Цзяньфен, старший науковий співробітник Tencent Research Institute**## Вирівнювання цінностей AI: що це такеПісля того, як штучний інтелект вступив в еру великомасштабних моделей, продовжували з’являтися різноманітні «гуманоїдні» та «надлюдські» можливості, а його автономність, універсальність і простота використання швидко зростали, ставши новою технологічною базою для економічного та соціального розвитку. Деякі організації прогнозують, що великі моделі проникнуть у всі сфери життя, щороку додаючи світовій економіці від 2,6 трлн до 4,4 трлн доларів США. [1]Однак, оскільки великі моделі (також відомі як базові моделі) починають виконувати широкий спектр завдань із розуміння мови та створення вмісту, як люди, потрібно зіткнутися з найбільш фундаментальною науковою проблемою: як змусити можливості та поведінку великих моделей відповідати Людські цінності, справжні наміри та етичні принципи узгоджені для забезпечення безпеки та довіри у співпраці між людьми та штучним інтелектом. Ця проблема називається «вирівнюванням цінностей» (value alignment, або AI alignment). Вирівнювання цінностей є ключовим питанням безпеки ШІ.До певної міри розмір моделі позитивно корелює з ризиком і шкодою моделі.Чим більша модель, тим вищий ризик і тим сильніша потреба у вирівнюванні цінностей. На даний момент основні можливості великої моделі виходять на стадії попереднього навчання, а навчання великої моделі відбувається переважно на основі загальнодоступної інформації всього Інтернету, яка не лише визначає її можливості, але й визначає її обмеження. Існуючі проблеми можуть бути відображені в моделі.Велика мовна модель (LLM) без узгодження цінностей може виводити расовий або сексистський вміст, допомагати кіберхакерам генерувати код або інший вміст для кібератак, телекомунікаційного шахрайства та намагатися переконати або допомогти користувачам із суїцидальними думками покінчити з власним життям, а виробництво такого шкідливого вмісту. Тому, щоб зробити великі моделі більш безпечними, надійними та практичними, необхідно якомога більше запобігати шкідливому виходу або неправильному використанню моделі. Це основне завдання поточного вирівнювання цінностей ШІ.## Вирівнювання цінностей AI: чомуВирівнювання значення великої моделі може краще вирішити деякі невирішені проблеми, які зараз існують у великій моделі. Відповідно до сортування невирішених проблем великих моделей з усіх верств суспільства, є в основному наступні чотири пункти:Одна з них – проблема неправильної інформації. Індустрія називає це «ілюзією» штучного інтелекту. За словами технічного директора OpenAI Міри Мураті, найбільша проблема з ChatGPT і базовими моделями великих мов полягає в тому, що вони виводять неправдиві або неіснуючі факти. [2] Це може виникнути через помилки чи дезінформацію в навчальних даних, або це може бути побічним продуктом надмірного створення (наприклад, вигаданих фактів). Дозволити великій моделі наступати на гойдалку між креативністю та автентичністю – це технічна проблема.Друга – це проблема розрізнення алгоритмів. Багато існуючих досліджень показали, що великі мовні моделі відтворюють шкідливі соціальні упередження та стереотипи з навчальних даних. [3] Генеральний директор OpenAI Сем Альтман вважає, що жодна модель не може бути неупередженою в усіх областях. Тому головне питання полягає в тому, як виявити, зменшити та усунути потенційну дискримінацію моделі.По-третє, це неконтрольований ризик «виникнення спроможності». З безперервним збільшенням обчислювальної потужності та даних очікується, що великі моделі ставатимуть все більш і більш потужними, і може з’явитися більше нових можливостей, які можуть навіть перевищувати розуміння та контроль їхніх творців, що означає, що з ними можуть прийти нові ризики, включаючи появу ризикованої поведінки або цілей. Серед технологів спільне занепокоєння полягає в тому, що нинішня велика модель штучного інтелекту, а також більш потужні та вдосконалені системи штучного інтелекту, такі як штучний загальний інтелект (AGI) і суперінтелект (ASI), які можуть з’явитися в майбутньому, можуть сформувати недолюдей, які не відповідає людським інтересам і цінностям.Підцілі, такі як владолюбство, обман, непокора тощо, для досягнення заявлених цілей. [4] Наприклад, дослідники виявили, що GPT-4 демонструє здатність стратегічно обманювати людей, «обманом змушуючи людей виконувати завдання для досягнення їхніх прихованих цілей».По-четверте, це проблема зловживань. Зловмисники можуть використовувати великі моделі, щоб допомогти їм досягти незаконних цілей за допомогою змагального введення та операцій «злому».Таким чином, вирівнювання цінностей, як практична проблема, яку необхідно вирішити технічно, стало основним принципом у проектуванні, розробці та розгортанні великих моделей штучного інтелекту, а саме: через розробку інструментів, узгоджених зі значеннями, та інженерну конструкцію, прагнення забезпечити, щоб ШІ поводиться так, щоб це було вигідно людям і суспільству, не завдаючи шкоди і не порушуючи людські цінності та права.## Вирівнювання цінностей AI: як це зробитиЩоб досягти вирівнювання цінностей, розробники повинні змусити штучний інтелект розуміти та підкорятися людським цінностям, уподобанням і етичним принципам на рівні моделі, а також максимально запобігати шкідливому виходу та зловживанню моделлю, щоб створити ШІ, який практична та безпечна велика модель.По-перше, підкріплююче навчання зі зворотним зв’язком людини (RLHF) виявилося ефективним методом, і можна досягти кращих результатів за допомогою невеликої кількості даних відгуку людини.У 2017 році дослідники OpenAI опублікували статтю «Deep Reinforcement Learning Based on Human Preferences», пропонуючи включити людський зворотний зв’язок у навчання з підкріпленням. [5] RLHF включає кілька кроків, таких як початкове навчання моделі, збір відгуків людини, навчання з підкріпленням та ітераційний процес. Основна ідея полягає в тому, щоб вимагати від інструкторів оцінювати відповідність вихідного вмісту моделі та створювати сигнали винагороди для навчання з підкріпленням на основі зібраних даних. людський відгук, щоб досягти покращеної оптимізації продуктивності моделі. [6] З практичної точки зору RLHF має значні переваги в покращенні продуктивності моделі, покращенні адаптивності моделі, зменшенні зміщення моделі та підвищенні безпеки моделі, включаючи зменшення ймовірності того, що моделі створюватимуть шкідливий вміст у майбутньому.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-861291203e-dd1a6f-1c6801) *Малюнок: Блок-схема RLHF (Джерело: OpenAI)*OpenAI розвинув алгоритм RLHF, а ChatGPT досяг успіху в цьому, і може значною мірою виводити корисний, надійний і нешкідливий вміст. [7] На етапі навчання RLHF GPT-4 зменшує шкідливий вихід, додаючи додатковий сигнал винагороди за безпеку. Цей метод дав хороші результати та значно покращив складність спонукання до зловмисної поведінки та шкідливого вмісту. Порівняно з попередніми моделями (такими як GPT-3.5), GPT-4 значно зменшує такі проблеми, як галюцинації, шкідливі упередження та незаконний і шкідливий вміст. Після навчання RLHF GPT-4 отримав на 40% більше результатів, ніж GPT-3.5 у відповідних тестах автентичності, на 82% менше відповідав на запити щодо забороненого вмісту, ніж GPT-3.5, і міг краще відповідати на запити, пов’язані з конфіденційним вмістом. запит. [8] Коротше кажучи, алгоритм RLHF може встановити необхідні гарантії безпеки для великих мовних моделей і відіграє ключову роль як «балансир» між потужністю/появою та безпекою/надійністю великих моделей.По-друге, модель «конституційного штучного інтелекту» змінює вирівнювання цінностей від неефективного «людського нагляду» до більш ефективного «масштабованого нагляду».Враховуючи витрати часу та ресурсів, людські здібності та інші труднощі, пов’язані з використанням зворотного зв’язку людини для навчання більших і складніших моделей штучного інтелекту, галузь досліджує, як використовувати нагляд за штучним інтелектом (включаючи самоконтроль штучного інтелекту та контроль однієї системи штучного інтелекту за іншою). .Система ШІ) для досягнення узгодженості ШІ. Anthropic, американська компанія, яка займається великою моделлю ШІ, запропонувала метод «конституційного ШІ» (constitution AI). Зокрема, розробити підпорядковану модель штучного інтелекту, основною функцією якої є оцінка того, чи відповідає результат основної моделі певному «конституційному» принципу (тобто набору заздалегідь визначених принципів або правил), а результати оцінювання використовуються для оптимізації основна модель.Anthropic поєднує власний практичний досвід і спирається на Загальну декларацію прав людини, умови обслуговування Apple і правила Sparrow від DeepMind [9] та інші документи, висуває набір обширного переліку принципів і використовує його як еталон оцінки, щоб дозволити своїй великій моделі Claude оцінити власний результат. Мета полягає в тому, щоб просувати модель для отримання корисних відповідей, одночасно зменшуючи можливість шкідливого вмісту сексуальна мінімізація. [10]![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-f6a16c0536-dd1a6f-1c6801) *Графік: конституційний ШІ шлях (Джерело: Anthropic)*Клод демонструє ефективність конституційного підходу штучного інтелекту, який допомагає Клоду зменшити шкідливий, дискримінаційний результат, уникнути допомоги зловмисним користувачам у незаконній чи неетичній діяльності та більш належним чином реагувати на «злочинний внесок» користувачів, а не просто приймати стратегії уникнення. На закінчення Anthropic вважає, що конституційний підхід до ШІ може допомогти створити корисну, чесну та нешкідливу систему ШІ з перевагами масштабованості, прозорості та балансу між корисністю та нешкідливістю.По-третє, вжити кількох заходів, щоб забезпечити реалізацію цінностей ШІ.Одним з них є ефективне втручання в навчальні дані. Багато проблем великих моделей (таких як галюцинації та розрізнення алгоритмів) походять від даних навчання, тому можна почати з даних навчання, наприклад, записувати дані навчання, щоб визначити, чи існує проблема недостатнього представлення чи різноманітності. або автоматизований скринінг, тестування для виявлення, усунення шкідливих упереджень, створення спеціалізованих наборів даних із узгодженням цінностей тощо.Другий — змагальне тестування або червоне об’єднання. Коротше кажучи, перед випуском моделі внутрішні або зовнішні професіонали (тестери червоної команди) запрошуються для проведення різноманітних агресивних атак на модель, щоб виявити потенційні проблеми та вирішити їх. Наприклад, перед випуском GPT-4 OpenAI найняв понад 50 науковців і експертів у різних галузях для тестування своєї моделі.Завдання цієї червоної команди тестувальників полягає в тому, щоб поставити моделі пробні чи небезпечні запитання, щоб перевірити відповідь моделі. ., OpenAI сподівається пройти тест червоної команди, щоб допомогти знайти проблеми з його моделями щодо недостовірної інформації (ілюзії), шкідливого вмісту, дезінформації, дискримінації, мовної упередженості, інформації, пов’язаної з розповсюдженням традиційної та нетрадиційної зброї тощо. . [11]Третій — інструмент фільтрації вмісту. Наприклад, OpenAI спеціально навчив модель штучного інтелекту для фільтрації шкідливого вмісту (тобто модель фільтрації), щоб ідентифікувати шкідливий вхід користувача та вихід моделі (тобто вміст, який порушує політику використання), щоб реалізувати вхідні та вихідні дані модель.По-четверте, сприяти дослідженню інтерпретації та зрозумілості моделі.Наприклад, OpenAI використовує GPT-4 для автоматичного написання та оцінювання пояснень поведінки нейронної мережі своєї великої мовної моделі GPT-2; [12] Деякі дослідники займаються проблемою вирівнювання AI з точки зору інтерпретабельності механізму.## Вирівнювання цінностей ШІ: довгострокова проблемаРобота з вирівнювання цінностей є найбільш фундаментальним і складним дослідженням у сфері ШІ. Проблема полягає в тому, що це вимагає широкого спектру дисциплін і соціальної участі, а також вимагає різноманітних вхідних даних, методів і зворотного зв’язку; фундаментальний момент полягає в тому, що мова йде не лише про успіх чи провал поточної великої моделі, а й про чи зможуть люди створити більш потужний штучний інтелект для майбутнього (наприклад, AGI) засоби контролю безпеки. Тому інноватори у сфері штучного інтелекту несуть відповідальність і зобов’язання забезпечити, щоб їхні моделі штучного інтелекту були орієнтованими на людину, відповідальними, безпечними та надійними. Професор Чжан Яцін, відомий дослідник штучного інтелекту, зазначив, що для вирішення проблеми узгодження штучного інтелекту та людських цінностей технічні спеціалісти повинні зосередити свої дослідження на узгодженні, щоб машини могли зрозуміти та слідувати людським цінностям. Тому вирівнювання цінностей — це не лише питання етики, а й питання того, як його досягти. Люди, які займаються технологіями та дослідженнями, не можуть просто розвивати технічні можливості і не зосереджуватися на вирішенні проблем вирівнювання. [13]Хоча вирівнювання цінностей штучного інтелекту досягло певних технічних результатів, досі немає консенсусу щодо найосновнішого питання цінності штучного інтелекту: як створити єдиний набір людських цінностей для регулювання штучного інтелекту. На даний момент вибір принципів може повністю залежати від суб’єктивного судження та цінностей дослідників. І враховуючи те, що ми живемо у світі, де люди мають різні культури, походження, ресурси та переконання, вирівнювання цінностей ШІ має враховувати різні цінності та етику різних суспільств і груп. Крім того, недоцільно повністю дозволяти дослідникам самостійно вибирати ці цінності, і для формування консенсусу потрібна більша соціальна участь.У той же час поточна робота з вирівнювання цінностей штучного інтелекту все ще стикається з ключовою проблемою: виходячи з передумови, що людський інтелект залишається в основному незмінним, оскільки можливості штучного інтелекту продовжують вдосконалюватися, люди самі будуть ефективно контролювати ці найсучасніші моделі ШІ. ставати дедалі складнішим. Тому, щоб забезпечити безпеку штучного інтелекту, нам потрібно розвивати нашу здатність відстежувати, розуміти та проектувати моделі ШІ паралельно зі складністю самих моделей.«Нагляд за масштабом», заснований на допомозі або керівництві ШІ, відображає цю ідею. У липні цього року OpenAI оголосила про створення нової команди з вирівнювання AI. Мета цієї нової команди з супервирівнювання (superalignment) полягає в тому, щоб змусити суперінтелектуальні системи AI досягти вирівнювання цінностей і безпеки протягом 4 років. OpenAI буде інвестувати 20% обчислювальних ресурсів для підтримки цього проекту. Його суть полягає в дослідженні того, як використовувати ШІ, щоб допомогти людям вирішити проблему вирівнювання цінностей ШІ. [14]![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-c33337d1ba-dd1a6f-1c6801) *Малюнок: Команда OpenAI Super Alignment (Джерело: OpenAI)*Можна сказати, що лише гарантуючи, що цілі та поведінка систем штучного інтелекту відповідають людським цінностям і намірам, ми можемо забезпечити реалізацію штучного інтелекту назавжди та сприяти розвитку продуктивності, економічному зростанню та соціальному прогресу. Дослідження та технічна реалізація вирівнювання цінностей невіддільні від широкого міждисциплінарного співробітництва та соціальної участі. Зацікавлені сторони, такі як уряд, промисловість і наукові кола, повинні інвестувати більше ресурсів для сприяння дослідженням і практиці вирівнювання цінностей штучного інтелекту, щоб здатність людей відстежувати, розуміти та контролювати штучний інтелект, а також розвиток і прогрес штучного інтелекту йшли рука об руку. щоб штучний інтелект міг принести користь всьому людству та суспільству.Джерело посилання:[1][2][3][4][5][6][7][8][9][10][11] відвідав 6 травня 2023 р.).[12][13][14]