Чи можете ви визначити інтерпретацію великої моделі? Огляд тут, одна стаття, щоб відповісти на ваші запитання

Question

![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-78b1269849-dd1a6f-6d2ef1) Джерело зображення: створено Unbounded AIВеликомасштабні мовні моделі демонструють дивовижні можливості міркування в обробці природної мови, але їх основні механізми ще не ясні. З широким застосуванням великомасштабних мовних моделей з’ясування робочих механізмів моделей має вирішальне значення для безпеки додатків, обмежень продуктивності та контрольованих соціальних впливів.Нещодавно багато дослідницьких установ у Китаї та Сполучених Штатах (Інститут технології Нью-Джерсі, Університет Джонса Хопкінса, Університет Вейк-Форест, Університет Джорджії, Шанхайський університет Цзяо Тонг, Baidu тощо) спільно випустили огляд технології інтерпретації великих моделей, Методи інтерпретації традиційних моделей тонкого налаштування та дуже великих моделей, заснованих на інтелектуальному аналізі, детально розглядаються, а також обговорюються критерії оцінки та майбутні дослідницькі проблеми інтерпретації моделей.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-229d52bfe3-dd1a6f-6d2ef1) * Папір посилання:* Посилання на Github:![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-4a108bc518-dd1a6f-6d2ef1) **Які труднощі виникають при інтерпретації великих моделей? **Чому так важко інтерпретувати великі моделі? Дивовижна продуктивність великих мовних моделей у задачах обробки природної мови привернула широку увагу суспільства. У той же час, як пояснити приголомшливу продуктивність великих моделей у різних завданнях, є однією з актуальних проблем, що постають перед академічними колами. На відміну від традиційних моделей машинного чи глибокого навчання, надвелика архітектура моделі та масивні навчальні матеріали дають змогу великим моделям мати потужні можливості міркування та узагальнення. Кілька основних труднощів у забезпеченні інтерпретації для великих мовних моделей (LLM) включають:* Складність моделі висока. На відміну від моделей глибокого навчання або традиційних моделей статистичного машинного навчання до ери LLM, моделі LLM мають величезний масштаб і містять мільярди параметрів. Їхнє внутрішнє представлення та процеси міркування дуже складні, і їх конкретні результати важко пояснити.* Сильна залежність від даних. LLM покладаються на великомасштабний текстовий корпус під час навчального процесу. Упередженість, помилки тощо в цих навчальних даних можуть впливати на модель, але важко повністю оцінити вплив якості навчальних даних на модель.* Природа чорного ящика. Зазвичай ми думаємо про LLM як про моделі чорного ящика, навіть для моделей з відкритим кодом, таких як Llama-2. Нам важко чітко оцінити його внутрішній ланцюжок міркувань і процес прийняття рішень. Ми можемо аналізувати його лише на основі вхідних і вихідних даних, що ускладнює інтерпретацію.* Вихідна невизначеність. Вихід LLMs часто є невизначеним, і різні результати можуть бути створені для того самого входу, що також ускладнює інтерпретацію.* Недостатні оціночні показники. Поточних індикаторів автоматичного оцінювання діалогових систем недостатньо для повного відображення можливості інтерпретації моделі, і потрібні додаткові індикатори оцінювання, які враховують розуміння людиною.**Парадигма навчання для великих моделей**Щоб краще узагальнити інтерпретабельність великих моделей, ми поділяємо парадигми навчання великих моделей на рівнях BERT і вище на два типи: 1) традиційна парадигма тонкого налаштування; 2) парадигма на основі ing.**Традиційна парадигма тонкого налаштування**Для традиційної парадигми тонкого налаштування базова модель мови спочатку попередньо навчається на більшій текстовій бібліотеці без міток, а потім налаштовується за допомогою мічених наборів даних із певного домену. Поширеними такими моделями є BERT, RoBERTa, ELECTRA, DeBERTa тощо.**парадигма на основі ing**Парадигма на основі ing реалізує нульове або малократне навчання за допомогою s. Як і традиційна парадигма тонкого налаштування, базова модель потребує попереднього навчання. Однак точне налаштування на основі парадигми ing зазвичай реалізується шляхом налаштування інструкцій і навчання з підкріпленням із зворотного зв’язку людини (RLHF). Поширені такі моделі включають GPT-3.5, GPT 4, Claude, LLaMA-2-Chat, Alpaca, Vicuna тощо. Тренувальний процес виглядає наступним чином:![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-643c1f15c1-dd1a6f-6d2ef1) **Пояснення моделі на основі традиційної парадигми тонкого налаштування**Пояснення моделі на основі традиційної парадигми тонкого налаштування включає пояснення окремих прогнозів (локальне пояснення) і пояснення компонентів структурного рівня моделі, таких як нейрони, мережеві рівні тощо (глобальне пояснення).**Часткове пояснення**Місцеве пояснення пояснює прогнози окремого зразка. Його методи пояснення включають атрибуцію ознак, пояснення на основі уваги, пояснення на основі прикладів і пояснення природною мовою.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-884d4dcaef-dd1a6f-6d2ef1) 1. Атрибуція ознак спрямована на вимірювання відповідності кожної вхідної функції (наприклад, слова, фрази, діапазону тексту) для моделювання прогнозів. Методи атрибуції ознак можна класифікувати як:* На основі інтерпретації збурень спостерігати за впливом на вихідні результати шляхом зміни конкретних вхідних характеристик;* На основі градієнтної інтерпретації частковий диференціал виходу та входу використовується як індекс важливості відповідного входу;* Альтернативні моделі, що використовують прості, зрозумілі людині моделі для підгонки окремих виходів складних моделей, щоб отримати важливість кожного входу;* Методи, засновані на декомпозиції, спрямовані на лінійне розкладання балів кореляції ознак.2. Пояснення на основі уваги: увага часто використовується як спосіб зосередитися на найбільш релевантних частинах вхідних даних, тому увага може отримати відповідну інформацію, яку можна використовувати для пояснення прогнозів. Загальні пояснення, пов’язані з увагою, включають:* Технологія візуалізації уваги, щоб інтуїтивно спостерігати за змінами показників уваги за різними шкалами;* Функціональна інтерпретація, наприклад часткова похідна результату від уваги. Однак використання уваги як точки зору дослідження залишається суперечливим в академічному співтоваристві.3. Пояснення на основі вибірки виявляє та пояснює модель з точки зору окремих випадків, які в основному поділяються на: змагальні вибірки та суперечливі вибірки.* Змагальні приклади – це дані, створені на основі характеристик моделі, які дуже чутливі до невеликих змін. У обробці природної мови їх зазвичай отримують шляхом модифікації тексту. Перетворення тексту, які людям важко розрізнити, зазвичай призводять до різних прогнозів з боку модель.* Контрфактичні зразки отримують шляхом деформації тексту, наприклад заперечення, яке зазвичай є перевіркою здатності моделі до причинного висновку.4. Пояснення природною мовою використовує оригінальний текст і вручну позначені пояснення для навчання моделі, щоб модель могла генерувати процес прийняття рішень моделі пояснення природною мовою.**Глобальне пояснення**Глобальне пояснення має на меті забезпечити вищий порядок пояснення робочого механізму великої моделі з рівня моделі, включаючи нейрони, приховані шари та більші блоки. В основному він досліджує семантичні знання, отримані в різних компонентах мережі.* Інтерпретація на основі зонда Технологія інтерпретації зонда в основному базується на виявленні класифікатора. Навчаючи неглибокий класифікатор на попередньо навченій моделі або точно налаштованій моделі, а потім оцінюючи його на невикористаному наборі даних, класифікатор може ідентифікувати особливості мови. або здатність міркувати.* Активація нейронів Традиційний аналіз активації нейронів розглядає лише частину важливих нейронів, а потім вивчає зв’язок між нейронами та семантичними ознаками. Нещодавно GPT-4 також використовувався для пояснення нейронів. Замість вибору деяких нейронів для пояснення GPT-4 можна використовувати для пояснення всіх нейронів.* Інтерпретація на основі концепції відображає вхідні дані в набір концепцій, а потім інтерпретує модель, вимірюючи важливість концепцій для прогнозів.**Пояснення моделі на основі парадигми ing**Пояснення моделі на основі парадигми ing вимагає окремих пояснень базової моделі та моделі допоміжної моделі, щоб розрізнити можливості двох моделей і дослідити шлях навчання моделі. Проблеми, які досліджуються, в основному включають: переваги надання пояснень для моделей короткочасного навчання; розуміння походження короткочасного навчання та можливостей ланцюга мислення.**Пояснення базової моделі*** Переваги пояснень для модельного навчання Дізнайтеся, чи корисні пояснення для модельного навчання в контексті короткочасного навчання.* Ситуаційне навчання досліджує механізм ситуаційного навчання у великих моделях і розрізняє різницю між ситуаційним навчанням у великих і середніх моделях.* Ланцюжок думок Дослідіть причини, чому ланцюжок думок покращує ефективність моделі.**Пояснення моделі помічника*** Моделі рольових помічників для точного налаштування зазвичай проходять попередню підготовку для отримання загальних семантичних знань, а потім отримують знання предметної області шляхом навчання під наглядом і навчання з підкріпленням. Етап, на якому в основному походять знання про модель асистента, ще належить вивчити.* Точність і достовірність великих модельних передбачень галюцинацій і невизначеності все ще є важливими питаннями в поточних дослідженнях. Незважаючи на потужні можливості висновків великих моделей, їхні результати часто страждають від дезінформації та галюцинацій. Ця невизначеність у прогнозуванні створює величезні проблеми для його широкого застосування.**Оцінка пояснень моделі**Показники оцінки для пояснення моделі включають правдоподібність, точність, стабільність, надійність тощо. У документі в основному йдеться про два широко зацікавлених виміри: 1) раціональність для людини; 2) вірність внутрішній логіці моделі.Оцінки традиційних пояснень моделі тонкого налаштування зосереджені в основному на локальних поясненнях. Правдоподібність часто вимагає вимірювання оцінки інтерпретацій моделі в порівнянні з анотованими людиною інтерпретаціями в порівнянні зі стандартами. Fidelity приділяє більше уваги ефективності кількісних індикаторів.Оскільки різні індикатори зосереджуються на різних аспектах моделі або даних, все ще бракує єдиних стандартів для вимірювання точності. Оцінка на основі інтерпретації моделі потребує подальших досліджень.**Майбутні дослідницькі завдання****1. Відсутність ефективного та правильного пояснення. **Проблема виникає з двох аспектів: 1) відсутність стандартів для розробки ефективних пояснень; 2) відсутність ефективних пояснень призводить до відсутності підтримки для оцінки пояснень.**2. Походження явища появи невідоме. **Дослідження здатності до появи великих моделей можна проводити з точки зору моделі та даних відповідно. З точки зору моделі, 1) структура моделі, яка викликає явище появи; 2) мінімальний масштаб моделі і складність, яка має найкращу продуктивність у міжмовних завданнях. З точки зору даних, 1) підмножина даних, яка визначає конкретний прогноз; 2) зв’язок між здібностями, що виникають, навчанням моделі та забрудненням даних; 3) вплив якості та кількості даних навчання на відповідні ефекти попереднього навчання та доведення.**3. Різниця між парадигмою тонкого налаштування та парадигмою ing. **Різні показники двох розповсюджень і поза розповсюдження означають різні способи міркування. 1) Відмінності в парадигмах міркування, коли дані розподіляються по-різному; 2) Джерела відмінностей у надійності моделі, коли дані розподіляються по-різному.**4. Проблема навчання швидкого доступу для великих моделей. **За двома парадигмами проблема швидкого навчання моделі існує в різних аспектах. Хоча великі моделі мають велику кількість джерел даних, проблема швидкого навчання відносно полегшена. З’ясування механізму формування скороченого навчання та пропозиція рішень залишаються важливими для узагальнення моделі.**5. Надмірність уваги. **Проблема надмірності модулів уваги широко існує в обох парадигмах. Дослідження надмірності уваги може забезпечити рішення для технології стиснення моделі.**6 Безпека та етика. **Інтерпретованість великих моделей має вирішальне значення для контролю моделі та обмеження негативного впливу моделі. Такі як упередженість, несправедливість, інформаційне забруднення, соціальні маніпуляції та інші проблеми. Побудова зрозумілих моделей штучного інтелекту може ефективно уникнути вищезгаданих проблем і сформувати етичні системи штучного інтелекту.