Языковая модель имеет серьезные недостатки, и дедукция знаний оказывается давней проблемой.

2023-10-02 05:11:12

Удивительное открытие: большие модели имеют серьезные недостатки в выводе знаний.

Гибкое применение знаний – ключ к мудрости. Человеческий мозг может быстро обрабатывать знания, например, быстро отвечать на вопрос «Сколько слов в «Тихих ночных мыслях»». Итак, можно ли проводить подобные операции над большими моделями? Известно, что крупные модели могут сначала молча писать «Тихие ночные мысли» через Цепочку мыслей (ЦТ), а затем отвечать на вопросы на основе написанного контента, но это сделает генерируемый текст длинным. Напротив, люди могут выполнять простые выводы в уме, не записывая промежуточные шаги. Итак, может ли очень большая языковая модель генерировать ответы непосредственно в своем искусственном мозге без необходимости предварительно записывать очки знаний?

**Ответ оказался отрицательным! На рисунке 1/2/3 показано множество противоположных примеров для GPT4. Даже самая элементарная классификация (например, определение равенства дней рождения знаменитостей) и сравнение (например, сравнение дней рождения двух президентов) должны пройти через цепочку мыслей. Хуже того, большие модели практически полностью неспособны обратно извлекать знания из обучающего набора. **

Рисунок 1: GPT4 допускает ошибки при классификации/сравнении знаний, но правильный ответ можно получить с помощью цепочки мышления

Рис. 2. Пример ошибки обратного поиска по знаниям GPT4

*Рисунок 3. Хотя GPT4 может правильно ответить на вопросы «Когда у кого-то день рождения?» и «Является ли определенное число четным?», при объединении этих двух ответов правильный показатель составляет только 50 % без цепочки мыслей (CoT). При сравнении дней рождения знаменитостей с 1900 по 1910 годы результативность также близка к слепому угадыванию. *

Последнее исследование «Физика языковой модели, часть 3.2: Манипулирование знаниями» Чжу Цзэюаня (MetaAI) и Ли Юаньчжи (MBZUAI) посвящено вышеуказанным вопросам.

Бумажный адрес:

Позвольте мне сначала задать вопрос. Что касается таких проблем, как рисунки 1/2/3, это потому, что GPT4 недостаточно точно помнит дни рождения людей (коэффициент сжатия недостаточен, а потери при обучении недостаточно низки), или это не удалось углубить понимание паритета посредством тонкой настройки? Можно ли точно настроить GPT4 так, чтобы он мог объединять существующие знания в модели для генерации новых знаний, таких как «паритет дня рождения», тем самым напрямую отвечая на связанные вопросы, не полагаясь на CoT? Поскольку мы не знаем набор обучающих данных GPT4, мы не можем его точно настроить. Поэтому автор предлагает использовать управляемые обучающие наборы для дальнейшего изучения способности языковых моделей к «выводу знаний».

Рис. 4. Для предварительно обученных моделей, таких как GPT4, из-за неконтролируемого характера интернет-данных сложно определить, возникают ли ситуации B/C/D

В «Физике языковой модели, часть 3.1: Хранение и извлечение знаний» автор создал набор данных, содержащий 100 тысяч биографий. Каждая биография включает имя человека и шесть атрибутов: дату рождения, место рождения, специальность университета, название университета, место работы и подразделение работы. например:

「Аня Браяр Форджер родом из Принстона, штат Нью-Джерси. Свое обучение она посвятила коммуникациям. Она получила опыт работы в Менло-Парке, Калифорния. Свою карьеру она построила в Meta Platforms. Она пришла в этот мир 2 октября 1996 года. Она прошла курс повышения квалификации в Массачусетском технологическом институте.」

Авторы обеспечили разнообразие биографических записей, чтобы помочь модели лучше получить доступ к знаниям. После предварительного обучения модель может точно отвечать на вопросы извлечения знаний, такие как «Когда у Ани день рождения», посредством тонкой настройки (точность близка к 100%)

Далее автор продолжил тонкую настройку, пытаясь заставить модель изучать задачи вывода знаний, такие как классификация/сравнение/сложение и вычитание знаний. В статье было обнаружено, что модели естественного языка имеют очень ограниченные возможности по извлечению знаний, и сложно генерировать новые знания посредством тонкой настройки, даже если они представляют собой всего лишь простые преобразования/комбинации знаний, уже освоенных моделью. **

Рис. 5. Если CoT не используется во время тонкой настройки, то для того, чтобы модель могла классифицировать/сравнивать/вычитать знания, потребуется большое количество выборок, иначе точность будет крайне низкой — в эксперименте использовалось 100 специальностей

Как показано на рисунке 5, автор обнаружил, что, хотя модель может точно ответить на вопрос о дне рождения каждого после предварительного обучения (степень точности близка к 100%), ее необходимо точно настроить, чтобы ответить на вопрос: «Является ли месяц рождения xxx четным числом?» и достичь точности 75 % (не забывайте, что слепое угадывание имеет точность 50 %), требуется как минимум 10 000 образцов точной настройки. Для сравнения: если модель может правильно заполнить комбинацию знаний «день рождения» и «четность», то согласно традиционной теории машинного обучения модели нужно научиться классифицировать всего 12 месяцев, и обычно достаточно около 100 образцов!

Точно так же после предварительного обучения модель может точно ответить на специальность каждого человека (всего 100 различных специальностей), но даже если для сравнения «Что лучше, специальность Ани или специальность Сабрины» используется 50 000 выборок точной настройки, точность ставка составляет всего 53,9%, почти слепая догадка.

Однако, когда мы используем точную настройку CoT, чтобы позволить модели выучить такие предложения, как «Месяц рождения Ани — октябрь, поэтому это четное число», точность модели в оценке четности месяца рождения на тестовом наборе значительно повышается. (см. столбец «Тестовое использование» на рис. 5 «CoT»).

Автор также попытался смешать ответы CoT и не CoT в данных точной настройки обучения и обнаружил, что точность модели без использования CoT в тестовом наборе все еще была очень низкой (см. столбец «Тест без CoT» в Рисунок 5). Это показывает, что даже если добавлено достаточно данных для точной настройки CoT, модель все равно не сможет научиться «думать головой» и напрямую сообщать ответ.

Эти результаты показывают, что языковым моделям чрезвычайно сложно выполнять простые операции со знанием! Модель должна сначала записать очки знаний, а затем выполнить расчеты. Ей нельзя напрямую управлять в мозгу, как у человека. Даже после достаточной тонкой настройки она не поможет. **

Проблемы обратного поиска знаний

В статье также обнаружено, что модели естественного языка не могут выполнять обратный поиск выученных знаний. Хотя он может ответить на всю информацию о человеке, он не может определить имя человека на основе этой информации.

Как и в случае с классификацией/сравнением знаний, автор провел эксперименты с GPT3.5/4 и обнаружил, что они плохо работают при обратном извлечении знаний (см. рисунок 6). Однако, поскольку мы не можем определить обучающий набор GPT3.5/4, это не доказывает, что все языковые модели имеют эту проблему.

*Рисунок 6: Сравнение прямого и обратного поиска знаний GPT3.5/4. Работа по «отмене проклятия» (arxiv 2309.12288), о которой мы сообщали несколько дней назад, также наблюдала это на существующих больших моделях. *

Автор использовал вышеупомянутый набор биографических данных для проведения более глубокого контролируемого эксперимента по изучению возможностей модели по поиску обратных знаний. Поскольку названия всех биографий находятся в начале абзаца, автор разработал 10 задач обратного извлечения информации, таких как:

«Назовите, пожалуйста, имя человека, родившегося 2 октября 1996 года в Принстоне, штат Нью-Джерси?»

«Назовите, пожалуйста, имя человека, который изучал коммуникации в Массачусетском технологическом институте, родился 2 октября 1996 года в Принстоне, штат Нью-Джерси, и работает в Meta Platforms в Менло-Парке, Калифорния?»

Рисунок 7: Контролируемый эксперимент с набором данных биографий знаменитостей

Автор подтвердил, что, хотя модель достигла сжатия знаний без потерь и достаточного расширения знаний и могла извлекать эти знания почти на 100% правильно, после тонкой настройки модель все еще не могла выполнять обратный поиск знаний, и точность была почти нулевой ( см. рисунок 7). Однако как только обратные знания появляются непосредственно в предварительном обучающем наборе, точность обратного поиска сразу же резко возрастает.

Подводя итог, можно сказать, что только когда обратное знание напрямую включено в данные предварительного обучения, модель может ответить на обратный вопрос посредством точной настройки - но на самом деле это обман, потому что, если знание было обращено, это уже не «Обратное знание». Поиск". Если набор для предварительного обучения содержит только прямые знания, модель не сможет освоить способность отвечать на вопросы в обратном порядке посредством точной настройки. Поэтому использование языковых моделей для индексации знаний (базы знаний) в настоящее время кажется невозможным. **

Кроме того, некоторые люди могут подумать, что неудача вышеупомянутого «обратного поиска знаний» может быть связана с односторонней природой авторегрессионных языковых моделей, таких как GPT. Но на самом деле двунаправленные языковые модели, такие как BERT, хуже справляются с извлечением знаний и даже терпят неудачу при прямом извлечении. Заинтересованные читатели могут обратиться к статье за подробностями.

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

Награда
лайк
комментарий
Поделиться

комментарий

0/400

Нет комментариев

Тема
1/3
1Gate Launchpad List IKA
51k Популярность
2ETH Back to $3,800
8k Популярность
3Tariff Deal New Update
7k Популярность
4Stablecoin Regulation
658 Популярность
5Gate ETH 10th Anniversary Celebration
24k Популярность

Закрепить

Карта сайта