Повторение не означает понимания, глубокого анализа хранения и извлечения знаний, лежащих в основе больших моделей.

Источник: Сердце машины.

По мере увеличения размера модели люди начинают изучать, как большие модели могут освоить большой объем знаний. Одна из точек зрения заключается в том, что это происходит из-за «сжатия без потерь», то есть модель подвергается обширному обучению и запоминает больше контента для повышения точности прогнозирования. Но может ли «сжатие без потерь» действительно позволить большим моделям понять эти знания? В последнем исследовании «Физика языковой модели, часть 3.1: Хранение и извлечение знаний» Чжу Цзэюаня (MetaAI) и Ли Юаньчжи (MBZUAI) подробно исследуется этот вопрос.

Бумажный адрес:

О людях есть поговорка: «Прочитай книгу сто раз, и ее смысл появится сам собой». Хотя это предложение не применимо ко всем знаниям, для простых знаний, если мы помним соответствующие книги, мы можем легко ответить на соответствующие вопросы. Например, пока мы помним древнее стихотворение «Тихие ночные мысли», мы легко можем ответить: «С чем сравнивается лунный свет в стихотворении?»; пока мы помним абзац о «Чу Ши Бяо/Творческий фон». в энциклопедии Baidu мы можем легко ответить: «Чу Ши Бяо: «Когда было создано?». Итак, могут ли более крупные модели делать то же самое?

Рис. 1. Некоторые примеры извлечения знаний с помощью GPT-4 (слева — ChatGPT, справа — API)

Хотя GPT-4 может понимать и повторять абзацы, связанные с вопросом, почему он не может отвечать на простые вопросы, как люди? Потому что модель недостаточно велика, памяти недостаточно или тонкой настройки после обучения недостаточно? ни один! В статье отмечается, что даже если модель естественного языка достаточно велика, достаточно долго обучается и достаточно точно настроена, она все равно может быть не в состоянии ответить на вопросы, которые люди считают простыми. Основная причина этого связана с тем, как знания представлены в данных предварительной подготовки. Одни и те же знания должны появляться несколько раз в наборе данных перед обучением и иметь достаточное «разнообразие», чтобы их было легче извлечь после точной настройки.

Чтобы подтвердить это, два автора создали набор данных, содержащий 100 тыс. биографий. У каждого персонажа есть запись в биографии, содержащая имя человека и шесть фиксированных атрибутов: дата рождения, место рождения, специальность университета, название университета и место работы, работодатель. Они разработали два набора данных: BioS и BioR. Каждое предложение BioS было выбрано из 50 фиксированных шаблонов, а BioR был переписан с использованием LLaMA-30B, что более реалистично и разнообразно. Результаты двух наборов данных совпадают.На примере BioS пример записи показан ниже:

Аня Браяр Форджер родилась 2 октября 1996 года. Детские годы она провела в Принстоне, штат Нью-Джерси. Она получила наставничество и руководство от преподавателей Массачусетского технологического института. Она закончила свое образование по специальности «Коммуникации». У нее была профессиональная роль в Meta Platforms. Она работала в Менло-Парке, Калифорния.

фигура 2

Даже если модель естественного языка идеально предварительно обучена (предтренирована) на 100 тысячах личных автобиографий, она не сможет точно ответить на вопрос «В какую школу Аня училась на бакалавриате» посредством тонкой настройки (тонкой настройки) QA. Как показано на рисунке 2, даже если в качестве данных для точной настройки качества обучения используются 50 тысяч человек и опробуются различные методы точной настройки, включая LoRA, точность модели для остальных 50 тысяч человек составляет всего 10%. Несмотря на то, что модель 682M (в 7000 раз превышающая количество людей) использовалась и обучалась 1350 раз, а автор даже добавил стандартные данные для предварительного обучения НЛП, такие как WikiBook, уровень точности не улучшился. Видно, что «с великой силой чудес» не произошло.

Следовательно, большие модели не обязательно фиксируют или извлекают информацию о «сжатии без потерь». Так как же GPT-4 осваивает знания? Чтобы изучить эту проблему, два автора внесли изменения в набор предварительного обучения - авторы назвали его улучшением знаний:

  1. Разнообразие - multiM: Создайте M записей биографии для каждого человека, используя разные языки повествования, но сохраняя одну и ту же информацию (всего существует 100 методов повествования для каждого предложения, и каждое предложение каждой биографии выбирает один из них)

  2. Случайное расположение – перестановка: Расположите биографические предложения случайным образом.

  3. Полное имя – полное имя: Заменить все местоимения, фамилии и имена в биографии на полное имя.

Авторы назвали исходный набор данных bioS единым и экспериментировали с 15 комбинациями улучшений знаний. Например, bioS multi5+permute означает, что у каждого человека 5 биографий, и порядок слов нарушен. Вот пример bioS multi5+permute:

Аня Браяр Форджер родом из Принстона, штат Нью-Джерси. Свое обучение она посвятила коммуникациям. Она получила опыт работы в Менло-Парке, Калифорния. Свою карьеру она построила в Meta Platforms. Она пришла в этот мир 2 октября 1996 года. Она продолжила курс повышения квалификации в Массачусетском технологическом институте.

Для людей и больших моделей помните, что bioS single и bioS multi5+permute почти одинаково сложны (они содержат одинаковый объем информации, и каждое предложение выбирается из 50 шаблонов). Итак, если предварительное обучение будет выполнено на этом новом наборе данных с расширенными знаниями, а затем будет отлажен контроль качества, будет ли какая-либо новая производительность?

изображение 3

На рисунке 3 показано, что точность контроля качества одинарной предварительно обученной модели bioS составляет всего 9,7%, тогда как точность предварительно обученной модели bioS multi5+permute достигает 96,6%. Это значительное улучшение не связано с точной настройкой модели, ее размером или временем обучения, а связано с тем, как знания представляются при предварительном обучении, то есть с тем, как эти знания «декламируются» в большой модели.

Исследование также показало, что, разделив биографии на знаменитостей и группы меньшинств, пока биография знаменитостей имеет расширение знаний, даже если группа меньшинства этого не делает, точность извлечения знаний модели для группы меньшинства будет значительно улучшена - конечно. , лучший Эффект по-прежнему требует расширения знаний всех данных.

Рисунок 4. Просто увеличивая разнообразие данных обучения знаменитостей, точность извлечения знаний для групп меньшинств резко возрастает

Так почему же способность модели отвечать на вопросы сильно различается после предъявления разных данных? Почему многократное чтение биографий знаменитостей может повысить способность меньшинств извлекать знания? Причина в том, что модели используют разные методы памяти.

Автор глубоко исследует принцип познания памяти модели посредством двух линейных зондирований. Давайте рассмотрим один метод, называемый P-зондированием.

В P-probe мы вводим биографические записи в предварительно обученную модель и обучаем линейный классификатор прогнозировать шесть целевых атрибутов (например, университет, специальность и т. д.). Мы хотели посмотреть, сможет ли модель извлечь эту информацию раньше, чем атрибуты. Если классификатор показывает высокую точность для «рабочей единицы» сразу после имени человека, это означает, что модель напрямую узнала «Работодатель Ани — Мета». Если высокая точность достигается только в конце биографии, возможно, модель использует ошибочный метод памяти, например, «чей-то день рождения — 2 октября 1996 года, университет — Массачусетский технологический институт, значит, работодатель — Мета».

Схема эксперимента для P-зонда следующая. Найдите позиции в каждой биографии, где впервые появляются 6 атрибутов, а затем обучите линейный классификатор прогнозировать каждый целевой атрибут в позиции, непосредственно предшествующей этим позициям. В результате было получено 36 классификационных задач.

*Рисунок 5: Результаты теста P-зонда показывают, что расширение знаний набора данных перед обучением приводит к тому, что знания сохраняются в более ранних местах, а некоторые даже сохраняются непосредственно в именах людей. Может ли модель отвечать на вопросы посредством тонкой настройки, зависит от того, сохраняется ли информация непосредственно в имени человека во время предварительного обучения (сравните рисунок 3 и рисунок 5). *

Результаты теста P-probe показывают, что модель естественного языка может запоминать информацию через имена людей для достижения сжатия во время предварительного обучения, а также может использовать другую информацию (например, «Рабочая единица человека, который учился в Массачусетском технологическом институте и чей день рождения 2 октября 1996 года...") памяти. Хотя второй метод запоминания является «неестественным» для человека, степень сжатия обоих методов для модели одинакова. Если модель использует второй метод для запоминания информации, она не сможет отвечать на вопросы посредством тонкой настройки после обучения. Благодаря расширению знаний предварительно обученная модель постепенно научится использовать первый метод запоминания.

Можно возразить, что вышеупомянутая неудача «извлечения знаний» может быть связана с односторонней природой авторегрессионных языковых моделей, таких как GPT. Фактически, двунаправленные языковые модели, такие как BERT, еще хуже справляются с извлечением знаний.Они могут хранить только многофразовые знания, такие как «Метаплатформа», но не могут их извлечь. Заинтересованные читатели могут обратиться к главе 6 статьи.

В общем, сможет ли языковая модель ответить на вопрос «извлечения знаний», зависит не только от «сжатия без потерь», но и от того, «как сжимать в модели». В документе подчеркивается, что необходимо расширять знания ключевых, но редких данных во время процесса предварительного обучения (например, использование ChatGPT для многократной перезаписи). Без этого шага, как бы усердно вы ни работали над тонкой настройкой, хотя предварительно обученная модель сжала обучающие данные без потерь, она все равно не сможет извлечь эти знания!

Заключение

Как понять, как работают модели естественного языка? Большинство исследователей размышляют о его возможностях, обсуждая такие модели, как GPT-4. Однако автор серии статей «Физика языковой модели» предложил более точный метод исследования внутреннего механизма Transformer и объяснения его способности решать задачи ИИ с помощью тщательно разработанных обучающих данных и контролируемых экспериментов.

В «Части 3.1: Хранение и извлечение знаний» автор тщательно протестировал реакцию модели на различные данные и обнаружил точную взаимосвязь между обучающими знаниями и способностями модели и данными обучения.

Они также выпустили «Часть 3.2: Использование знаний» для дальнейшего изучения того, как модель использует знания в конкретных ситуациях. Например, если большая модель помнит «Тихие ночные мысли», можно ли ее настроить так, чтобы сделать вывод, что последнее предложение «Тихие ночные мысли» — «Склони голову и скучай по родному городу»? Скоро мы представим вам последующие отчеты.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить