Як оцінити, чи є велика мовна модель надійною? Ось короткий виклад семи вимірів

Question

> У цій статті пропонується 7 основних ключових параметрів для комплексної оцінки довіри до LLM.У фактичному розгортанні ключовим завданням стало те, як «вирівняти» велику мовну модель (LLM, Large Language Model), тобто зробити поведінку моделі узгодженою з людськими намірами [2,3]. Наприклад, OpenAI витратив шість місяців на узгодження GPT-4, перш ніж він був випущений [1] . Однак проблема, з якою стикаються практики, полягає у відсутності чітких вказівок щодо оцінки відповідності результатів LLM соціальним нормам, цінностям і правилам; це перешкоджає ітерації та розгортанню LLM.Щоб вирішити цю проблему, такі дослідники, як Лю Янг з дослідницької групи ByteDance, провели комплексне опитування щодо ключових параметрів, які необхідно враховувати під час оцінки довіри до LLM. Опитування охоплювало 7 основних категорій довіри до LLM: надійність, безпека, справедливість, стійкість до зловживань, зрозумілість і міркування, відповідність соціальним нормам і стійкість.Кожна основна категорія далі розбивається на підкатегорії, загалом 29 підкатегорій. Крім того, дослідник вибрав 8 підкатегорій для відповідного оціночного дослідження. Результати оцінювання показують, що загалом моделі з вищим узгодженням працюють краще з точки зору загальної довіри. Однак ефективність вирівнювання проявляється по-різному в різних вимірах. Це ілюструє необхідність більш детального аналізу, тестування та вдосконалення узгодження LLM. Ця стаття має на меті надати практичним фахівцям у цій галузі цінну інформацію та вказівки, узагальнюючи ключові аспекти надійного LLM, які є критично важливими для розуміння того, як надійно та раціонально розгортати LLM у різних програмах.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-84c47740dd-dd1a6f-69ad2a) Адреса паперу:## **Таксономія вирівнювання моделі великої мови**На малюнку 1 показано таксономію вирівнювання надійності великої мовної моделі, запропоновану в цьому документі: є 7 основних категорій, кожна з яких далі поділяється на більш детальні обговорення, загалом 29 підкатегорій. Стаття продовжується оглядом кожної категорії:![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-95a5489852-dd1a6f-69ad2a) *Малюнок 1: Таксономія вирівнювання достовірності моделі великої мови, запропонована в тексті. *1. Надійність => {неправдива інформація, ілюзія мовної моделі, невідповідність, неправильне калібрування, лестощі}* a. Створення правильного, реалістичного та узгодженого результату з відповідною невизначеністю.2. Безпека => {насильство, незаконність, травмування неповнолітніх, вміст для дорослих, проблеми з психічним здоров’ям, порушення приватності}* a. Уникайте створювати небезпечні та незаконні результати та уникайте розголошення приватної інформації.3. Справедливість => {несправедливість, упередженість стереотипу, упередженість переваг, різниця в продуктивності}* a. Уникайте упередженості та переконайтеся, що відмінності в ефективності між різними групами людей не є значними.4. Протистояти зловживанням => {Пропаганда, кібератаки, соціальна інженерія, витік авторських прав}* a. Заборонити зловживання з боку зловмисників.5. Пояснюваність і міркування => {Недостатня здатність пояснювати, недостатня логічна здатність, недостатня причинно-наслідкова здатність}* a. Здатність пояснювати вихідні дані користувачам і правильно міркувати.6. Соціальні норми => {Нецензурна мова, емоційна нечутливість, культурна нечутливість}* a. Відображає загальнолюдські цінності.7. Надійність => {Швидкі атаки, зміни парадигми та розподілу, ефекти втручання, атаки отруєння}* a. Стійкість до агресивних атак і змін розподілу.Аналіз цієї статті базується на проблемах безпеки та надійного розгортання, які виникають в епоху великих моделей, а також розглядає обговорення надійного штучного інтелекту в існуючій літературі. У той же час, визначення та поділ основних категорій стосуються застосування великих моделей у суспільстві та намагаються забезпечити, щоб кожен вимір оцінки мав певний ступінь актуальності та важливості в основних додатках великих моделей. У статті наведено спеціальну літературу та обговорення в кожній категорії та її підкатегоріях.Для кожної підкатегорії в статті проводяться відповідні дослідження та обговорення, а також наводяться тематичні дослідження, щоб проілюструвати проблеми пов’язаних моделей у відповідних вимірах надійності. Наприклад, у наведеному нижче прикладі показано деякі помилки, зроблені ChatGPT щодо фактичних питань:![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-4e65b763d8-dd1a6f-69ad2a) Використовуючи наведений нижче приклад, у цій статті розглядається незаконна інформація, яка може міститися у великих вихідних даних моделі:![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-aa52a42ee6-dd1a6f-69ad2a)## **Оціночні дослідження**У цій статті виділено 8 підкатегорій і розроблено відповідні оціночні дослідження. Цільові підкатегорії включають:* Надійність: ілюзія мовної моделі* Безпека та соціальні норми: теми, пов’язані з безпекою (такі як насильство, дискримінація, ворожнеча тощо)* Справедливість: (гендерні) стереотипи* Надійність: помилки калібрування* Протистояти зловживанням: зловживання пропагандою та кібератаки* Протистояти зловживанням: витік авторських прав* Інтерпретованість: причинно-наслідкові міркування* Стійкість: стійкість до атак з орфографічними помилкамиУ статті розглядаються «норми безпеки та соціальні норми» як приклад, спочатку починаючи з існуючого набору даних червоної команди Anthropic RLHF [4] Витягніть кілька ключових слів, пов’язаних із безпекою (подробиці див. в оригінальній статті), а потім скористайтеся іншим LLM, щоб створити керівні слова () для небезпечних інструкцій як контрольні запитання.Для цієї мети в статті обрано text-davinci-003 як модель, тому що: (1) це узгоджена модель, але не дуже узгоджена за виміром безпеки, як ChatGPT, тому вона краще генерує суперечливі та образливі відповіді;(2 ) Повністю зміщені моделі (такі як davinci) не можуть добре зрозуміти завдання та виконувати вказівки людини.Зокрема, дослідник попросив text-davinci-003: «Напишіть запитання, яке стосується.» Виберіть «неетичний», «небезпечний», «незаконний» або «небезпечний». це ключові слова, отримані раніше. наприклад:![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-cc539d566e-dd1a6f-69ad2a) У цій статті використовуються запитання, згенеровані text-davinci-003, як тестові запитання.Нарешті, у статті використовується GPT-4, щоб визначити, чи тестова модель відмовляється відповідати на небезпечні запитання, як показано нижче:![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-e5a0939d6d-dd1a6f-69ad2a) Дослідники оцінили 6 LLM: davinci, OPT-1.3B, text-davinci-003, flan-t5-xxl, gpt-3.5-turbo (ChatGPT) і GPT-4. На малюнку 2 показано частку кожного LLM у тестовому наборі, який GPT-4 вважає безпечною відповіддю. Зліва направо на осі x показано діапазон від повністю невирівняних (davinci) до одного з найбільш ідеально вирівняних LLM, доступних на даний момент (GPT-4).Тенденція така, як очікувалося: коли LLM більш вирівняний, він, швидше за все, відмовиться відповідати на небезпечні інструкції. Gpt-3.5-turbo (ChatGPT) і GPT-4 отримують майже 100% коефіцієнт безпеки.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-c7c925173b-dd1a6f-69ad2a) *Малюнок 2: Результати оцінки безпеки LLM. Як і очікувалося, коли LLM краще налаштований, він, швидше за все, відхилить відповіді на небезпечні запитання. *Методи оцінювання, деталі та результати інших вимірів дивіться в оригінальній статті.## **Довідка з вирівнювання**Ці згенеровані оціночні дані також можуть допомогти у зборі узгоджених даних.Беручи, наприклад, безпеку, для генерації узгоджених навчальних даних безпосередньо використовуються відповіді, анотовані LLM. Якщо GPT-4 визначає, що вихідні дані моделі містять шкідливу інформацію, дослідники вважають вихідні дані поєднаними із запитанням і служать негативним зразком у вирівняному наборі даних. З іншого боку, якщо шкідливої інформації не виявлено, дослідник вважає пару «проблема-вихід» позитивним зразком.Після того, як дослідники вирівняли отримані дані, вони використовували GPT-4 для порівняння вихідних результатів до та після вирівнювання, що дозволило їм визначити, яка відповідь була кращою з точки зору корисності, правдивості та нешкідливості.Таблиця 1 показує на GPT-2, після завершення дослідниками RLHF (Reinforcement Learning from Human Feedback, навчання з підкріпленням на основі зворотного зв’язку людини), частку тестового набору даних, який GPT-4 вважав кращим. Порівняно з оригінальною моделлю, вирівняну модель було значно покращено.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-c93483490c-dd1a6f-69ad2a) *Таблиця 1: Після вирівнювання даних, отриманих дослідником на * *GPT-2* *, вихідний коефіцієнт вважається кращим за GPT-4. У порівнянні з оригінальною моделлю (Vanilla), модель після SFT і PPO була значно вдосконалена. *У статті також використано згенеровані оціночні дані для проведення контрольованого точного налаштування на LLaMA-7B, і виявлено, що 78% результату після тонкого налаштування вважалося кращим, ніж до тонкого налаштування.## **на завершення**У цій статті для практиків представлено опитування про вимір довіри до LLM, а також всебічно аналізуються напрямки та проблеми, які необхідно розглянути та на які слід звернути увагу в процесі побудови надійної великої моделі. Результати оцінки статті показують, що ефективність вирівнювання є суперечливою в різних вимірах, тому практикуючі спеціалісти повинні проводити більш детальне тестування та вдосконалення вирівнювання LLM. У той же час дослідження в цій статті показує, що дані, отримані в результаті оцінювання, також можуть допомогти виконати завдання вирівнювання великих моделей.Практикам терміново потрібні більш принципові підходи до оцінки та впровадження LLM узгодження, гарантуючи, що ці моделі дотримуються соціальних цінностей та етичних міркувань. У міру розвитку галузі вирішення цих невирішених проблем буде критично важливим для створення все більш надійних і підзвітних LLM.Дякую Лі Хану за його пропозиції та допомогу в перегляді цієї статті.*посилання** [1] OpenAI. Gpt-4. 2023** [2] Лонг Оуян, Джеффрі Ву,* *Сю Цзян, Діого Алмейда, Керролл Уейнрайт, Памела Мішкін, Чонг Чжан, Сандіні Агарвал, Катаріна Слама, Алекс Рей та ін. Навчання мовних моделей виконувати вказівки з людським відгуком. Advances in Neural* *Information Processing s, 35:27730–27744, 2022** [3] Закарі Кентон, Том Еверітт, Лора Вайдінгер, Ясон Габріель, Володимир Мікулік та Джеффрі Ірвінг. Вирівнювання мовних агентів. препринт arXiv arXiv:2103.14659, 2021.** [4] *