Дивовижне відкриття: великі моделі мають серйозні недоліки в дедукції знань.
Гнучке застосування знань – ключ до мудрості. Людський мозок може швидко обробляти знання, наприклад швидко відповідати «Скільки слів у «Думах тихої ночі»». Отже, чи можна виконувати подібні операції на великих моделях? Відомо, що великі моделі можуть спочатку мовчки написати «Думи тихої ночі» через ланцюг думок (CoT), а потім відповісти на запитання на основі написаного вмісту, але це зробить згенерований текст довгим. Навпаки, люди можуть виконувати прості висновки знань у своєму мозку, не записуючи проміжні кроки. Отже, чи може дуже велика мовна модель генерувати відповіді безпосередньо у своєму штучному мозку без необхідності попередньо записувати бали знань?
**Відповідь виявилася ні! На малюнку 1/2/3 показано багато контрприкладів на GPT4. Навіть найпростіша класифікація (наприклад, визначення паритету дня народження знаменитості) і порівняння (наприклад, порівняння днів народження двох президентів) потребують проходження ланцюжка думок. Гірше того, великі моделі майже повністю не в змозі отримати назад знання з навчального набору. **
Малюнок 1: GPT4 допускає помилки в класифікації/порівнянні знань, але правильну відповідь можна отримати через ланцюжок мислення
Малюнок 2. Приклад помилки зворотного пошуку знань GPT4
*Малюнок 3: хоча GPT4 може правильно відповісти на запитання «Коли у когось день народження» та «Чи є певне число парним?», у поєднанні цих двох правил правильний показник становить лише 50% без ланцюжка думок (CoT). При порівнянні днів народження знаменитостей з 1900 по 1910 рр. продуктивність також близька до сліпого вгадування. *
Останнє дослідження «Фізика мовної моделі, частина 3.2: Маніпуляція знаннями» Чжу Зеюаня (MetaAI) і Лі Юаньчжі (MBZUAI) зосереджено на вищевказаних питаннях.
Адреса паперу:
Дозвольте мені спочатку поставити запитання. Для таких проблем, як малюнки 1/2/3, це тому, що GPT4 не запам’ятовує дні народження людей достатньо точно (коефіцієнт стиснення недостатній, а втрати під час навчання недостатньо низькі), чи не в змозі поглибити своє розуміння паритету шляхом тонкого налаштування? Чи можливо налаштувати GPT4 так, щоб він міг поєднувати наявні знання в моделі для генерування нових знань, таких як «парність дня народження», таким чином безпосередньо відповідаючи на пов’язані запитання, не покладаючись на CoT? Оскільки ми не знаємо набору навчальних даних GPT4, ми не можемо його точно налаштувати. Тому автор пропонує використовувати керовані навчальні набори для подальшого вивчення здатності мовних моделей до «дедукції знань».
Малюнок 4. Для попередньо навчених моделей, таких як GPT4, через неконтрольований характер Інтернет-даних важко визначити, чи виникають ситуації B/C/D
У «Мовній моделі фізики, частина 3.1: Зберігання та пошук знань» автор створив набір даних, що містить 100 тисяч біографій. Кожна біографія містить ім’я особи та шість атрибутів: дата народження, місце народження, спеціальність університету, назва університету, місце роботи та підрозділ роботи. наприклад:
「Аня Браяр Форгер походила з Прінстона, Нью-Джерсі. Навчання присвятила комунікації. Вона отримала досвід роботи в Менло Парк, Каліфорнія. Вона розвивала свою кар'єру в Meta Platforms. Вона прийшла в цей світ 2 жовтня 1996 року. Вона навчалася в MIT.」
Автори забезпечили різноманітність біографічних записів, щоб допомогти моделі краще отримати доступ до знань. Після попереднього навчання модель може точно відповідати на питання вилучення знань, такі як «Коли у Ані день народження» шляхом тонкого налаштування (рівень точності близький до 100%)
Далі автор продовжив налаштовувати, намагаючись змусити модель вивчати проблеми дедукції знань, такі як класифікація/порівняння/додавання та віднімання знань. У статті було виявлено, що моделі природної мови мають дуже обмежені можливості для дедукції знань, і важко генерувати нові знання шляхом тонкого налаштування, навіть якщо вони є лише простими перетвореннями/комбінаціями знань, уже освоєних моделлю. **
Рисунок 5. Якщо CoT не використовується під час тонкого налаштування, щоб дозволити моделі класифікувати/порівняти/віднімати знання, знадобиться велика кількість зразків або точність буде надзвичайно низькою – в експерименті використовувалося 100 основних напрямків
Як показано на малюнку 5, автор виявив, що хоча модель може точно відповісти на день народження кожного після попереднього навчання (показник точності близький до 100%), її потрібно налаштувати, щоб відповісти на питання «Чи є місяць народження xxx парним числом?» і досягти рівня точності 75% - не забувайте, що рівень точності сліпого вгадування становить 50% - потрібно щонайменше 10 000 зразків точного налаштування. Для порівняння, якщо модель може правильно завершити комбінацію знань «день народження» та «парність», то, згідно з традиційною теорією машинного навчання, моделі потрібно навчитися класифікувати лише 12 місяців, і зазвичай достатньо приблизно 100 зразків!
Подібним чином після попереднього навчання модель може точно відповісти на спеціалізацію кожної людини (загалом 100 різних спеціальностей), але навіть якщо використати 50 000 зразків для точного налаштування для порівняння «Що краще, спеціальність Ані чи спеціальність Сабріни», точність лише 53,9%, майже сліпе припущення.
Однак, коли ми використовуємо тонке налаштування CoT, щоб дозволити моделі запам’ятовувати такі речення, як «Місяць народження Ані — жовтень, тому це парне число», точність моделі в оцінці парності місяця народження в тестовому наборі значно покращується (див. «тестове використання» у стовпці CoT на малюнку 5).
Автор також спробував змішати відповіді CoT і не-CoT у даних для точного налаштування тренувань і виявив, що точність моделі без використання CoT у тестовому наборі все ще була дуже низькою (див. стовпець «тест без CoT» на малюнку 5). Це показує, що навіть якщо додано достатньо даних для тонкого налаштування CoT, модель все одно не може навчитися «думати внутрішньою головою» та безпосередньо повідомляти відповідь.
Ці результати показують, що мовним моделям надзвичайно важко виконувати прості операції зі знаннями! Модель повинна спочатку записати бали знань, а потім виконати обчислення. Нею не можна керувати безпосередньо в мозку, як людська істота. Навіть після достатнього тонкого налаштування це не допоможе. **
Проблеми зворотного пошуку знань
Стаття також виявила, що моделі природної мови не можуть здійснювати зворотний пошук отриманих знань. Хоча він може відповісти на всю інформацію про людину, він не може визначити ім’я людини на основі цієї інформації.
Як і у випадку з класифікацією/порівнянням знань, автор провів експерименти на GPT3.5/4 і виявив, що вони погано працюють у зворотному вилученні знань (див. Малюнок 6). Однак, оскільки ми не можемо визначити навчальний набір GPT3.5/4, це не доводить, що всі мовні моделі мають цю проблему.
*Малюнок 6: Порівняння прямого/зворотного пошуку знань GPT3.5/4. Робота «зміна прокляття» (arxiv 2309.12288), про яку ми повідомляли кілька днів тому, також спостерігала це на існуючих великих моделях. *
Автор використав вищезазначений набір біографічних даних для проведення більш поглибленого контрольованого експерименту щодо можливостей моделі зворотного пошуку знань. Оскільки імена всіх біографій знаходяться на початку абзацу, автор розробив 10 зворотних задач вилучення інформації, таких як:
«Скажіть, будь ласка, ім’я людини, яка народилася 2 жовтня 1996 року в Прінстоні, штат Нью-Джерсі?»
«Скажіть, будь ласка, ім’я людини, яка вивчала комунікації в Массачусетському технологічному інституті, народилася 2 жовтня 1996 року в Прінстоні, штат Нью-Джерсі, і працює в Meta Platforms в Менло-Парку, Каліфорнія?»
Малюнок 7: Контрольований експеримент із набором даних біографії знаменитостей
Автор перевірив, що хоча модель досягає стиснення знань без втрат і достатнього розширення знань і може отримати ці знання майже на 100% правильно, після тонкого налаштування модель все ще не може виконувати зворотний пошук знань, а точність майже нульова ( дивіться малюнок 7). Однак, як тільки зворотні знання з’являються безпосередньо в попередньому тренувальному наборі, точність зворотного пошуку відразу зростає.
Підводячи підсумок, можна сказати, що лише тоді, коли обернені знання безпосередньо включені в дані перед навчанням, модель може відповісти на обернені запитання шляхом точного налаштування, але насправді це обман, тому що якщо знання було перевернуто, це вже не «Зворотні знання». Пошук». Якщо набір попереднього навчання містить лише прямі знання, модель не зможе оволодіти здатністю відповідати на запитання у зворотному напрямку за допомогою тонкого налаштування. Тому використання мовних моделей для індексування знань (бази знань) наразі виглядає неможливим. **
Крім того, деякі люди можуть подумати, що невдача згаданого вище «зворотного пошуку знань» може бути пов’язана з одностороннім характером авторегресійних мовних моделей, таких як GPT. Але насправді двонаправлені мовні моделі, такі як BERT, гірше працюють у вилученні знань і навіть зазнають невдачі у прямому вилученні. Зацікавлені читачі можуть звернутися до статті для отримання деталей.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
Мовна модель має серйозні недоліки, і дедукція знань виявляється давньою проблемою
Гнучке застосування знань – ключ до мудрості. Людський мозок може швидко обробляти знання, наприклад швидко відповідати «Скільки слів у «Думах тихої ночі»». Отже, чи можна виконувати подібні операції на великих моделях? Відомо, що великі моделі можуть спочатку мовчки написати «Думи тихої ночі» через ланцюг думок (CoT), а потім відповісти на запитання на основі написаного вмісту, але це зробить згенерований текст довгим. Навпаки, люди можуть виконувати прості висновки знань у своєму мозку, не записуючи проміжні кроки. Отже, чи може дуже велика мовна модель генерувати відповіді безпосередньо у своєму штучному мозку без необхідності попередньо записувати бали знань?
**Відповідь виявилася ні! На малюнку 1/2/3 показано багато контрприкладів на GPT4. Навіть найпростіша класифікація (наприклад, визначення паритету дня народження знаменитості) і порівняння (наприклад, порівняння днів народження двох президентів) потребують проходження ланцюжка думок. Гірше того, великі моделі майже повністю не в змозі отримати назад знання з навчального набору. **
Останнє дослідження «Фізика мовної моделі, частина 3.2: Маніпуляція знаннями» Чжу Зеюаня (MetaAI) і Лі Юаньчжі (MBZUAI) зосереджено на вищевказаних питаннях.
Дозвольте мені спочатку поставити запитання. Для таких проблем, як малюнки 1/2/3, це тому, що GPT4 не запам’ятовує дні народження людей достатньо точно (коефіцієнт стиснення недостатній, а втрати під час навчання недостатньо низькі), чи не в змозі поглибити своє розуміння паритету шляхом тонкого налаштування? Чи можливо налаштувати GPT4 так, щоб він міг поєднувати наявні знання в моделі для генерування нових знань, таких як «парність дня народження», таким чином безпосередньо відповідаючи на пов’язані запитання, не покладаючись на CoT? Оскільки ми не знаємо набору навчальних даних GPT4, ми не можемо його точно налаштувати. Тому автор пропонує використовувати керовані навчальні набори для подальшого вивчення здатності мовних моделей до «дедукції знань».
У «Мовній моделі фізики, частина 3.1: Зберігання та пошук знань» автор створив набір даних, що містить 100 тисяч біографій. Кожна біографія містить ім’я особи та шість атрибутів: дата народження, місце народження, спеціальність університету, назва університету, місце роботи та підрозділ роботи. наприклад:
「Аня Браяр Форгер походила з Прінстона, Нью-Джерсі. Навчання присвятила комунікації. Вона отримала досвід роботи в Менло Парк, Каліфорнія. Вона розвивала свою кар'єру в Meta Platforms. Вона прийшла в цей світ 2 жовтня 1996 року. Вона навчалася в MIT.」
Автори забезпечили різноманітність біографічних записів, щоб допомогти моделі краще отримати доступ до знань. Після попереднього навчання модель може точно відповідати на питання вилучення знань, такі як «Коли у Ані день народження» шляхом тонкого налаштування (рівень точності близький до 100%)
Далі автор продовжив налаштовувати, намагаючись змусити модель вивчати проблеми дедукції знань, такі як класифікація/порівняння/додавання та віднімання знань. У статті було виявлено, що моделі природної мови мають дуже обмежені можливості для дедукції знань, і важко генерувати нові знання шляхом тонкого налаштування, навіть якщо вони є лише простими перетвореннями/комбінаціями знань, уже освоєних моделлю. **
Як показано на малюнку 5, автор виявив, що хоча модель може точно відповісти на день народження кожного після попереднього навчання (показник точності близький до 100%), її потрібно налаштувати, щоб відповісти на питання «Чи є місяць народження xxx парним числом?» і досягти рівня точності 75% - не забувайте, що рівень точності сліпого вгадування становить 50% - потрібно щонайменше 10 000 зразків точного налаштування. Для порівняння, якщо модель може правильно завершити комбінацію знань «день народження» та «парність», то, згідно з традиційною теорією машинного навчання, моделі потрібно навчитися класифікувати лише 12 місяців, і зазвичай достатньо приблизно 100 зразків!
Подібним чином після попереднього навчання модель може точно відповісти на спеціалізацію кожної людини (загалом 100 різних спеціальностей), але навіть якщо використати 50 000 зразків для точного налаштування для порівняння «Що краще, спеціальність Ані чи спеціальність Сабріни», точність лише 53,9%, майже сліпе припущення.
Однак, коли ми використовуємо тонке налаштування CoT, щоб дозволити моделі запам’ятовувати такі речення, як «Місяць народження Ані — жовтень, тому це парне число», точність моделі в оцінці парності місяця народження в тестовому наборі значно покращується (див. «тестове використання» у стовпці CoT на малюнку 5).
Автор також спробував змішати відповіді CoT і не-CoT у даних для точного налаштування тренувань і виявив, що точність моделі без використання CoT у тестовому наборі все ще була дуже низькою (див. стовпець «тест без CoT» на малюнку 5). Це показує, що навіть якщо додано достатньо даних для тонкого налаштування CoT, модель все одно не може навчитися «думати внутрішньою головою» та безпосередньо повідомляти відповідь.
Ці результати показують, що мовним моделям надзвичайно важко виконувати прості операції зі знаннями! Модель повинна спочатку записати бали знань, а потім виконати обчислення. Нею не можна керувати безпосередньо в мозку, як людська істота. Навіть після достатнього тонкого налаштування це не допоможе. **
Проблеми зворотного пошуку знань
Стаття також виявила, що моделі природної мови не можуть здійснювати зворотний пошук отриманих знань. Хоча він може відповісти на всю інформацію про людину, він не може визначити ім’я людини на основі цієї інформації.
Як і у випадку з класифікацією/порівнянням знань, автор провів експерименти на GPT3.5/4 і виявив, що вони погано працюють у зворотному вилученні знань (див. Малюнок 6). Однак, оскільки ми не можемо визначити навчальний набір GPT3.5/4, це не доводить, що всі мовні моделі мають цю проблему.
Автор використав вищезазначений набір біографічних даних для проведення більш поглибленого контрольованого експерименту щодо можливостей моделі зворотного пошуку знань. Оскільки імена всіх біографій знаходяться на початку абзацу, автор розробив 10 зворотних задач вилучення інформації, таких як:
«Скажіть, будь ласка, ім’я людини, яка народилася 2 жовтня 1996 року в Прінстоні, штат Нью-Джерсі?»
«Скажіть, будь ласка, ім’я людини, яка вивчала комунікації в Массачусетському технологічному інституті, народилася 2 жовтня 1996 року в Прінстоні, штат Нью-Джерсі, і працює в Meta Platforms в Менло-Парку, Каліфорнія?»
Автор перевірив, що хоча модель досягає стиснення знань без втрат і достатнього розширення знань і може отримати ці знання майже на 100% правильно, після тонкого налаштування модель все ще не може виконувати зворотний пошук знань, а точність майже нульова ( дивіться малюнок 7). Однак, як тільки зворотні знання з’являються безпосередньо в попередньому тренувальному наборі, точність зворотного пошуку відразу зростає.
Підводячи підсумок, можна сказати, що лише тоді, коли обернені знання безпосередньо включені в дані перед навчанням, модель може відповісти на обернені запитання шляхом точного налаштування, але насправді це обман, тому що якщо знання було перевернуто, це вже не «Зворотні знання». Пошук». Якщо набір попереднього навчання містить лише прямі знання, модель не зможе оволодіти здатністю відповідати на запитання у зворотному напрямку за допомогою тонкого налаштування. Тому використання мовних моделей для індексування знань (бази знань) наразі виглядає неможливим. **
Крім того, деякі люди можуть подумати, що невдача згаданого вище «зворотного пошуку знань» може бути пов’язана з одностороннім характером авторегресійних мовних моделей, таких як GPT. Але насправді двонаправлені мовні моделі, такі як BERT, гірше працюють у вилученні знань і навіть зазнають невдачі у прямому вилученні. Зацікавлені читачі можуть звернутися до статті для отримання деталей.