Коли розмір моделі збільшується, люди починають досліджувати, як великі моделі можуть опанувати великий обсяг знань. Одна точка зору полягає в тому, що це пов’язано з «стисненням без втрат», тобто модель проходить інтенсивне навчання та запам’ятовує більше вмісту для підвищення точності передбачення. Але чи справді «стиск без втрат» дозволить великим моделям зрозуміти ці знання? Останнє дослідження «Фізика мовної моделі, частина 3.1: Зберігання та пошук знань», проведене Чжу Зеюанем (MetaAI) і Лі Юаньчжі (MBZUAI), детально досліджує це питання.
Адреса паперу:
Про людину кажуть: «Прочитай книгу сто разів, і сенс її з’явиться сам». Хоча це речення не стосується всіх знань, для простих знань, якщо ми пам’ятаємо відповідні книги, ми можемо легко відповісти на пов’язані запитання. Наприклад, якщо ми пам’ятаємо стародавню поему «Думи тихої ночі», ми можемо легко відповісти: «З чим порівнюється місячне світло у вірші?»; якщо ми пам’ятаємо абзац про «Чу Ши Бяо/Творчий фон» в енциклопедії Baidu ми можемо легко відповісти "Чу Ши Бяо" Коли було створено?". Отже, чи можуть більші моделі робити те саме?
Рисунок 1: Деякі приклади вилучення знань за допомогою GPT-4 (зліва — ChatGPT, праворуч — API)
Хоча GPT-4 може розуміти та повторювати параграфи, пов’язані із запитанням, чому він не може відповісти на прості запитання, як люди? Це тому, що модель недостатньо велика, пам’яті недостатньо, чи недостатньо точного налаштування після навчання? ні! У статті вказується, що навіть якщо модель природної мови достатньо велика, її достатньо довго навчали та достатньо точно налаштували, вона все одно може бути не в змозі відповісти на запитання, які люди вважають простими. Основна причина цього пов’язана зі способом представлення знань у даних перед навчанням. Одні й ті самі знання мають з’являтися кілька разів у наборі даних перед навчанням і мають достатньо «різноманітності», щоб їх було легше витягти після тонкого налаштування.
Щоб підтвердити це, два автори створили набір даних, що містить 100 тисяч біографій. Кожен персонаж має запис біографії, що містить ім’я людини та шість фіксованих атрибутів: дата народження, місце народження, спеціальність університету, назва університету та місце роботи., роботодавець. Вони розробили два набори даних, BioS і BioR. Кожне речення BioS було вибрано з 50 фіксованих шаблонів, а BioR було переписано за допомогою LLaMA-30B, який є більш реалістичним і різноманітним. Результати двох наборів даних узгоджуються. Для прикладу BioS нижче наведено зразок запису:
Аня Браяр Форгер народилася 2 жовтня 1996 року. Свої ранні роки вона провела в Прінстоні, штат Нью-Джерсі. Вона отримала наставництво та керівництво від викладачів Массачусетського технологічного інституту. Закінчила освіту за спеціальністю «Комунікації». Вона займала професійну роль у Meta Platforms. Вона працювала в Менло Парк, Каліфорнія.
цифра 2
Навіть якщо модель природної мови ідеально попередньо навчена (попередньо навчена) на 100 тисячах особистих автобіографій, вона не зможе точно відповісти на питання «В якій школі Аня ходила на бакалаврат» через точне налаштування якості (finetuning). Як показано на малюнку 2, навіть якщо 50 тис. людей використовуються як навчальні дані для точного налаштування якості та випробувані різні методи тонкого налаштування, включаючи LoRA, точність моделі для решти 50 тис. людей становить лише 10%. Незважаючи на те, що модель 682M (у 7000 разів більша за кількість людей) була використана та навчена 1350 разів, і автор навіть додав стандартні дані попереднього навчання НЛП, такі як WikiBook, показник точності не покращився. Видно, що «з великою силою чудес» не сталося.
Таким чином, великі моделі не обов’язково фіксують або витягують знання про «стиснення без втрат». Отже, як GPT-4 оволодіває знаннями? Для вивчення цієї проблеми два автори внесли зміни в набір попереднього навчання - автори назвали це поглибленням знань:
Різноманітність - multiM: створіть M записів біографії для кожної людини, використовуючи різні мови розповіді, але зберігаючи ту саму інформацію (є загалом 100 методів розповіді для кожного речення, і кожне речення кожної біографії вибирає один із них)
Довільне розташування - перестановка: Довільно розташуйте біографічні речення
ПІБ - ПІБ: Замінити всі займенники, прізвища та імена в біографії ПІБ
Автори назвали оригінальний набір даних bioS single і експериментували з 15 комбінаціями покращень знань. Наприклад, bioS multi5+permute означає, що кожна особа має 5 біографій, а порядок слів порушено. Ось приклад bioS multi5+permute:
Аня Браяр Форгер походила з Прінстона, штат Нью-Джерсі. Навчання присвятила комунікації. Вона отримала досвід роботи в Менло Парк, Каліфорнія. Вона розвивала свою кар'єру в Meta Platforms. Вона прийшла в цей світ 2 жовтня 1996 року. Вона навчалася в Массачусетському технологічному інституті.
Як для людей, так і для великих моделей пам’ятайте, що bioS single і bioS multi5+permute майже однакові (вони мають однаковий обсяг інформації, і кожне речення вибрано з 50 шаблонів). Отже, якщо на цьому новому наборі даних, розширеному знаннями, буде проведено попереднє навчання, а потім буде налаштовано контроль якості, чи буде якась нова ефективність?
зображення 3
На малюнку 3 показано, що рівень точності QA моделі bioS з попередньою підготовкою становить лише 9,7%, тоді як рівень точності попередньо підготовленої моделі bioS multi5+permute становить 96,6%. Це значне вдосконалення не має нічого спільного з тонким налаштуванням моделі, розміром або часом навчання, а з тим, як знання представлені під час попереднього навчання, тобто як знання «декламуються» великою моделлю.
Дослідження також виявило, що якщо розділити біографії на групи знаменитостей і меншин, якщо біографія знаменитостей має розширення знань, навіть якщо група меншин цього не робить, точність вилучення знань у моделі для групи меншин буде значно покращена - звичайно. , найкращий Ефект все ще вимагає розширення знань усіх даних.
Малюнок 4: Просто завдяки збільшенню різноманітності навчальних даних для знаменитостей, точність вилучення знань для груп меншин різко зростає
Отже, чому здатність моделі відповідати на питання сильно змінюється після повторення різних даних? Чому багаторазове читання біографій знаменитостей може підвищити здатність груп меншин отримувати знання? Причина в тому, що моделі використовують різні методи пам’яті.
Автор глибоко досліджує принцип пізнання пам'яті моделі через дволінійне зондування. Давайте розглянемо один метод під назвою P-зондування.
У P-probe ми вводимо біографічні записи в попередньо підготовлену модель і навчаємо лінійний класифікатор прогнозувати шість цільових атрибутів (таких як університет, спеціальність тощо). Ми хотіли побачити, чи може модель витягти цю інформацію раніше, ніж атрибути. Якщо відразу після імені людини класифікатор показує високу точність для «робочої одиниці», це означає, що модель безпосередньо дізналася «роботодавець Ані — Мета». Якщо висока точність досягається лише в кінці біографії, можливо, модель використовує помилковий метод запам’ятовування, наприклад «чийсь день народження 2 жовтня 1996 року, університет – Массачусетський технологічний інститут, тому роботодавець – Мета».
Схема експерименту для зонда P така. Знайдіть позиції в кожній біографії, де вперше з’являються 6 атрибутів, а потім навчіть лінійний класифікатор передбачати кожен цільовий атрибут на позиції, що безпосередньо передує цим позиціям. У результаті вийшло 36 класифікаційних завдань.
*Малюнок 5: Результати тесту P probe показують, що розширення знань у наборі даних перед навчанням призводить до того, що знання зберігаються в попередніх місцях, а деякі навіть зберігаються безпосередньо в іменах людей. Чи може модель відповісти на запитання за допомогою тонкого налаштування, залежить від того, чи зберігається інформація безпосередньо в імені людини під час попереднього навчання (порівняйте малюнок 3 і малюнок 5). *
Результати тесту P-probe показують, що модель природної мови може запам’ятовувати інформацію через імена людей для досягнення стиснення під час попереднього навчання, а також може використовувати іншу інформацію (наприклад, «Робоча одиниця особи, яка навчалася в MIT і чия день народження 2 жовтня 1996 року ...")пам'ять. Хоча другий метод пам’яті є «неприродним» для людини, коефіцієнти стиснення двох методів однакові для моделі. Якщо модель використовує другий метод для запам’ятовування інформації, вона не зможе відповідати на запитання шляхом тонкого налаштування після навчання. Завдяки вдосконаленню знань попередньо підготовлена модель поступово навчиться використовувати перший метод запам’ятовування.
Хтось може стверджувати, що наведена вище помилка «вилучення знань» може бути пов’язана з одностороннім характером авторегресійних мовних моделей, таких як GPT. Насправді двонаправлені мовні моделі, такі як BERT, ще гірші у вилученні знань.Вони можуть лише зберігати багатофразові знання, такі як "Метаплатформа", але не можуть їх витягувати. Зацікавлені читачі можуть звернутися до розділу 6 статті.
Загалом те, чи зможе мовна модель відповісти на питання «вилучення знань», залежить не лише від «стиснення без втрат», а й від того, «як стискати в моделі». У документі підкреслюється, що необхідно покращити знання ключових, але рідкісних даних під час процесу попереднього навчання (наприклад, використання ChatGPT для багаторазового перезапису). Без цього кроку, незалежно від того, наскільки старанно ви працювали над тонким налаштуванням, хоча попередньо навчена модель стиснула навчальні дані без втрат, вона може все одно не в змозі отримати ці знання!
Висновок
Як зрозуміти, як працюють моделі природної мови? Більшість дослідників міркують про його можливості, розмовляючи з такими моделями, як GPT-4. Проте автор серії статей «Фізика мовної моделі» запропонував більш точний метод дослідження внутрішнього механізму Transformer і пояснення його здатності виконувати завдання ШІ за допомогою ретельно розроблених навчальних даних і контрольованих експериментів.
У «Частині 3.1: Зберігання та вилучення знань» автор точно перевірив реакцію моделі на різні дані та виявив точний зв’язок між навчальними знаннями та здібностями моделі та навчальними даними.
Вони також випустили «Part 3.2: Operation of Knowledge» для подальшого вивчення того, як модель оперує знаннями в конкретних ситуаціях. Наприклад, якщо велика модель пам’ятає «Думи тихої ночі», чи можна її точно налаштувати, щоб зробити висновок, що останнє речення «Думи тихої ночі» є «Схиліть голову і сумуйте за рідним містом»? Незабаром ми надамо вам подальші звіти.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
Декламування не означає розуміння, глибокого аналізу зберігання та вилучення знань за великими моделями
Джерело: Heart of the Machine
Коли розмір моделі збільшується, люди починають досліджувати, як великі моделі можуть опанувати великий обсяг знань. Одна точка зору полягає в тому, що це пов’язано з «стисненням без втрат», тобто модель проходить інтенсивне навчання та запам’ятовує більше вмісту для підвищення точності передбачення. Але чи справді «стиск без втрат» дозволить великим моделям зрозуміти ці знання? Останнє дослідження «Фізика мовної моделі, частина 3.1: Зберігання та пошук знань», проведене Чжу Зеюанем (MetaAI) і Лі Юаньчжі (MBZUAI), детально досліджує це питання.
Про людину кажуть: «Прочитай книгу сто разів, і сенс її з’явиться сам». Хоча це речення не стосується всіх знань, для простих знань, якщо ми пам’ятаємо відповідні книги, ми можемо легко відповісти на пов’язані запитання. Наприклад, якщо ми пам’ятаємо стародавню поему «Думи тихої ночі», ми можемо легко відповісти: «З чим порівнюється місячне світло у вірші?»; якщо ми пам’ятаємо абзац про «Чу Ши Бяо/Творчий фон» в енциклопедії Baidu ми можемо легко відповісти "Чу Ши Бяо" Коли було створено?". Отже, чи можуть більші моделі робити те саме?
Хоча GPT-4 може розуміти та повторювати параграфи, пов’язані із запитанням, чому він не може відповісти на прості запитання, як люди? Це тому, що модель недостатньо велика, пам’яті недостатньо, чи недостатньо точного налаштування після навчання? ні! У статті вказується, що навіть якщо модель природної мови достатньо велика, її достатньо довго навчали та достатньо точно налаштували, вона все одно може бути не в змозі відповісти на запитання, які люди вважають простими. Основна причина цього пов’язана зі способом представлення знань у даних перед навчанням. Одні й ті самі знання мають з’являтися кілька разів у наборі даних перед навчанням і мають достатньо «різноманітності», щоб їх було легше витягти після тонкого налаштування.
Щоб підтвердити це, два автори створили набір даних, що містить 100 тисяч біографій. Кожен персонаж має запис біографії, що містить ім’я людини та шість фіксованих атрибутів: дата народження, місце народження, спеціальність університету, назва університету та місце роботи., роботодавець. Вони розробили два набори даних, BioS і BioR. Кожне речення BioS було вибрано з 50 фіксованих шаблонів, а BioR було переписано за допомогою LLaMA-30B, який є більш реалістичним і різноманітним. Результати двох наборів даних узгоджуються. Для прикладу BioS нижче наведено зразок запису:
Навіть якщо модель природної мови ідеально попередньо навчена (попередньо навчена) на 100 тисячах особистих автобіографій, вона не зможе точно відповісти на питання «В якій школі Аня ходила на бакалаврат» через точне налаштування якості (finetuning). Як показано на малюнку 2, навіть якщо 50 тис. людей використовуються як навчальні дані для точного налаштування якості та випробувані різні методи тонкого налаштування, включаючи LoRA, точність моделі для решти 50 тис. людей становить лише 10%. Незважаючи на те, що модель 682M (у 7000 разів більша за кількість людей) була використана та навчена 1350 разів, і автор навіть додав стандартні дані попереднього навчання НЛП, такі як WikiBook, показник точності не покращився. Видно, що «з великою силою чудес» не сталося.
Таким чином, великі моделі не обов’язково фіксують або витягують знання про «стиснення без втрат». Отже, як GPT-4 оволодіває знаннями? Для вивчення цієї проблеми два автори внесли зміни в набір попереднього навчання - автори назвали це поглибленням знань:
Різноманітність - multiM: створіть M записів біографії для кожної людини, використовуючи різні мови розповіді, але зберігаючи ту саму інформацію (є загалом 100 методів розповіді для кожного речення, і кожне речення кожної біографії вибирає один із них)
Довільне розташування - перестановка: Довільно розташуйте біографічні речення
ПІБ - ПІБ: Замінити всі займенники, прізвища та імена в біографії ПІБ
Автори назвали оригінальний набір даних bioS single і експериментували з 15 комбінаціями покращень знань. Наприклад, bioS multi5+permute означає, що кожна особа має 5 біографій, а порядок слів порушено. Ось приклад bioS multi5+permute:
Як для людей, так і для великих моделей пам’ятайте, що bioS single і bioS multi5+permute майже однакові (вони мають однаковий обсяг інформації, і кожне речення вибрано з 50 шаблонів). Отже, якщо на цьому новому наборі даних, розширеному знаннями, буде проведено попереднє навчання, а потім буде налаштовано контроль якості, чи буде якась нова ефективність?
На малюнку 3 показано, що рівень точності QA моделі bioS з попередньою підготовкою становить лише 9,7%, тоді як рівень точності попередньо підготовленої моделі bioS multi5+permute становить 96,6%. Це значне вдосконалення не має нічого спільного з тонким налаштуванням моделі, розміром або часом навчання, а з тим, як знання представлені під час попереднього навчання, тобто як знання «декламуються» великою моделлю.
Дослідження також виявило, що якщо розділити біографії на групи знаменитостей і меншин, якщо біографія знаменитостей має розширення знань, навіть якщо група меншин цього не робить, точність вилучення знань у моделі для групи меншин буде значно покращена - звичайно. , найкращий Ефект все ще вимагає розширення знань усіх даних.
Отже, чому здатність моделі відповідати на питання сильно змінюється після повторення різних даних? Чому багаторазове читання біографій знаменитостей може підвищити здатність груп меншин отримувати знання? Причина в тому, що моделі використовують різні методи пам’яті.
Автор глибоко досліджує принцип пізнання пам'яті моделі через дволінійне зондування. Давайте розглянемо один метод під назвою P-зондування.
У P-probe ми вводимо біографічні записи в попередньо підготовлену модель і навчаємо лінійний класифікатор прогнозувати шість цільових атрибутів (таких як університет, спеціальність тощо). Ми хотіли побачити, чи може модель витягти цю інформацію раніше, ніж атрибути. Якщо відразу після імені людини класифікатор показує високу точність для «робочої одиниці», це означає, що модель безпосередньо дізналася «роботодавець Ані — Мета». Якщо висока точність досягається лише в кінці біографії, можливо, модель використовує помилковий метод запам’ятовування, наприклад «чийсь день народження 2 жовтня 1996 року, університет – Массачусетський технологічний інститут, тому роботодавець – Мета».
Схема експерименту для зонда P така. Знайдіть позиції в кожній біографії, де вперше з’являються 6 атрибутів, а потім навчіть лінійний класифікатор передбачати кожен цільовий атрибут на позиції, що безпосередньо передує цим позиціям. У результаті вийшло 36 класифікаційних завдань.
Результати тесту P-probe показують, що модель природної мови може запам’ятовувати інформацію через імена людей для досягнення стиснення під час попереднього навчання, а також може використовувати іншу інформацію (наприклад, «Робоча одиниця особи, яка навчалася в MIT і чия день народження 2 жовтня 1996 року ...")пам'ять. Хоча другий метод пам’яті є «неприродним» для людини, коефіцієнти стиснення двох методів однакові для моделі. Якщо модель використовує другий метод для запам’ятовування інформації, вона не зможе відповідати на запитання шляхом тонкого налаштування після навчання. Завдяки вдосконаленню знань попередньо підготовлена модель поступово навчиться використовувати перший метод запам’ятовування.
Хтось може стверджувати, що наведена вище помилка «вилучення знань» може бути пов’язана з одностороннім характером авторегресійних мовних моделей, таких як GPT. Насправді двонаправлені мовні моделі, такі як BERT, ще гірші у вилученні знань.Вони можуть лише зберігати багатофразові знання, такі як "Метаплатформа", але не можуть їх витягувати. Зацікавлені читачі можуть звернутися до розділу 6 статті.
Загалом те, чи зможе мовна модель відповісти на питання «вилучення знань», залежить не лише від «стиснення без втрат», а й від того, «як стискати в моделі». У документі підкреслюється, що необхідно покращити знання ключових, але рідкісних даних під час процесу попереднього навчання (наприклад, використання ChatGPT для багаторазового перезапису). Без цього кроку, незалежно від того, наскільки старанно ви працювали над тонким налаштуванням, хоча попередньо навчена модель стиснула навчальні дані без втрат, вона може все одно не в змозі отримати ці знання!
Висновок
Як зрозуміти, як працюють моделі природної мови? Більшість дослідників міркують про його можливості, розмовляючи з такими моделями, як GPT-4. Проте автор серії статей «Фізика мовної моделі» запропонував більш точний метод дослідження внутрішнього механізму Transformer і пояснення його здатності виконувати завдання ШІ за допомогою ретельно розроблених навчальних даних і контрольованих експериментів.
У «Частині 3.1: Зберігання та вилучення знань» автор точно перевірив реакцію моделі на різні дані та виявив точний зв’язок між навчальними знаннями та здібностями моделі та навчальними даними.
Вони також випустили «Part 3.2: Operation of Knowledge» для подальшого вивчення того, як модель оперує знаннями в конкретних ситуаціях. Наприклад, якщо велика модель пам’ятає «Думи тихої ночі», чи можна її точно налаштувати, щоб зробити висновок, що останнє речення «Думи тихої ночі» є «Схиліть голову і сумуйте за рідним містом»? Незабаром ми надамо вам подальші звіти.