Можете ли вы разобраться в интерпретируемости больших моделей? Обзор здесь, одна статья, чтобы ответить на ваши вопросы

Источник изображения: создано Unbounded AI.

Крупномасштабные языковые модели демонстрируют удивительные способности к рассуждению при обработке естественного языка, но их основные механизмы еще не ясны. При широком применении крупномасштабных языковых моделей объяснение механизмов их работы имеет решающее значение для безопасности приложений, ограничений производительности и контролируемых социальных последствий.

Недавно многие исследовательские институты Китая и США (Технологический институт Нью-Джерси, Университет Джонса Хопкинса, Университет Уэйк Форест, Университет Джорджии, Шанхайский университет Цзяо Тонг, Baidu и др.) совместно выпустили обзор технологии интерпретации больших моделей, Всесторонне рассмотрены методы интерпретации традиционных моделей точной настройки и очень больших моделей, основанных на ing, а также обсуждаются критерии оценки и будущие исследовательские проблемы интерпретации моделей.

* Бумажная ссылка:

  • Ссылка на Гитхаб:

**Каковы трудности при интерпретации больших моделей? **

Почему так сложно интерпретировать большие модели? Удивительная эффективность больших языковых моделей в задачах обработки естественного языка привлекла широкое внимание общества. В то же время, как объяснить потрясающую производительность больших моделей при выполнении различных задач, это одна из насущных проблем, стоящих перед академическими кругами. В отличие от традиционных моделей машинного обучения или моделей глубокого обучения, сверхбольшая архитектура модели и массивные учебные материалы позволяют большим моделям обладать мощными возможностями рассуждения и обобщения. Некоторые основные трудности в обеспечении интерпретируемости больших языковых моделей (LLM) включают:

  • Сложность модели высокая. В отличие от моделей глубокого обучения или традиционных статистических моделей машинного обучения до эпохи LLM, модели LLM огромны по масштабу и содержат миллиарды параметров.Их внутреннее представление и процессы рассуждения очень сложны, и их конкретные результаты трудно объяснить.
  • Сильная зависимость от данных. В процессе обучения LLM полагаются на крупномасштабный текстовый корпус. Смещение, ошибки и т. д. в этих обучающих данных могут повлиять на модель, но трудно полностью оценить влияние качества обучающих данных на модель.
  • Природа черного ящика. Мы обычно думаем о LLM как о моделях черного ящика, даже для моделей с открытым исходным кодом, таких как Llama-2. Нам трудно однозначно судить о его внутренней цепочке рассуждений и процессе принятия решений. Мы можем анализировать его только на основе входных и выходных данных, что затрудняет интерпретацию.
  • Неопределенность вывода. Результаты LLM часто неопределенны, и для одних и тех же входных данных могут быть получены разные результаты, что также увеличивает сложность интерпретации.
  • Недостаточные показатели оценки. Существующих индикаторов автоматической оценки диалоговых систем недостаточно, чтобы полностью отразить интерпретируемость модели, и необходимо больше индикаторов оценки, учитывающих человеческое понимание.

Парадигма обучения для больших моделей

Чтобы лучше обобщить интерпретируемость больших моделей, мы делим парадигмы обучения больших моделей на уровнях BERT и выше на два типа: 1) традиционная парадигма тонкой настройки; 2) парадигма, основанная на ing.

Традиционная парадигма тонкой настройки

В традиционной парадигме тонкой настройки базовая языковая модель сначала предварительно обучается на более крупной текстовой библиотеке без меток, а затем настраивается с помощью размеченных наборов данных из определенного домена. К распространенным таким моделям относятся BERT, RoBERTa, ELECTRA, DeBERTa и т. д.

парадигма, основанная на действительности

Парадигма, основанная на ing, реализует обучение с нулевым или малым количеством шагов с использованием s. Как и в традиционной парадигме тонкой настройки, базовую модель необходимо предварительно обучить. Однако точная настройка на основе парадигмы ing обычно реализуется путем настройки инструкций и обучения с подкреплением на основе обратной связи с человеком (RLHF). К распространенным таким моделям относятся GPT-3.5, GPT 4, Claude, LLaMA-2-Chat, Alpaca, Vicuna и др. Процесс обучения выглядит следующим образом:

Объяснение модели основано на традиционной парадигме тонкой настройки

Объяснение модели, основанное на традиционной парадигме тонкой настройки, включает объяснение отдельных предсказаний (локальное объяснение) и объяснение компонентов структурного уровня модели, таких как нейроны, сетевые уровни и т. д. (глобальное объяснение).

Частичное объяснение

Местное объяснение объясняет предсказания одной выборки. Его методы объяснения включают атрибуцию функций, объяснение на основе внимания, объяснение на основе примеров и объяснение на естественном языке.

1. Атрибуция признаков направлена на измерение релевантности каждого входного признака (например, слова, фразы, текстового диапазона) для прогнозов моделирования. Методы атрибуции признаков можно классифицировать как:

  • Основываясь на интерпретации возмущений, наблюдайте за влиянием на выходные результаты путем изменения конкретных входных характеристик;
  • На основе градиентной интерпретации частный дифференциал выходного сигнала к входному используется в качестве индекса важности соответствующего входного сигнала;
  • Альтернативные модели, использующие простые, понятные человеку модели для соответствия отдельным результатам сложных моделей для определения важности каждого входа;
  • Методы, основанные на декомпозиции, целью которых является линейное разложение показателей корреляции признаков.
  1. Объяснение, основанное на внимании. Внимание часто используется как способ сосредоточиться на наиболее важных частях вводимых данных, поэтому внимание может усвоить соответствующую информацию, которую можно использовать для объяснения предсказаний. Общие объяснения, связанные с вниманием, включают:
  • Технология визуализации внимания, позволяющая интуитивно наблюдать изменения показателей внимания по разным шкалам;
  • Интерпретация на основе функций, например, частная производная результата от внимания. Однако использование внимания как исследовательской точки зрения остается спорным в академическом сообществе.
  1. Объяснение на основе выборки выявляет и объясняет модель с точки зрения отдельных случаев, которые в основном делятся на состязательные выборки и контрфактические выборки.
  • Состязательные примеры — это данные, сгенерированные на основе характеристик модели, которые очень чувствительны к небольшим изменениям. При обработке естественного языка они обычно получаются путем изменения текста. Преобразования текста, которые человеку трудно различить, обычно приводят к различным прогнозам со стороны модель.
  • Контрафактические образцы получаются путем деформации текста, например отрицания, которое обычно является проверкой способности модели делать причинно-следственные связи.
  1. Объяснение на естественном языке использует исходный текст и пояснения, помеченные вручную для обучения модели, так что модель может генерировать процесс принятия решений модели объяснения на естественном языке.

Глобальное объяснение

Глобальное объяснение направлено на предоставление объяснения рабочего механизма большой модели более высокого порядка на уровне модели, включая нейроны, скрытые слои и более крупные блоки. В основном он исследует семантические знания, полученные в различных сетевых компонентах.

  • Интерпретация на основе зонда Технология зондовой интерпретации в основном основана на обнаружении классификатора. Обучая поверхностный классификатор на предварительно обученной или точно настроенной модели, а затем оценивая ее на контрольном наборе данных, классификатор может идентифицировать языковые особенности. или способность рассуждать.
  • Активация нейронов. Традиционный анализ активации нейронов рассматривает только часть важных нейронов, а затем изучает взаимосвязь между нейронами и семантическими особенностями. Недавно GPT-4 также стал использоваться для объяснения нейронов. Вместо того, чтобы выбирать некоторые нейроны для объяснения, GPT-4 можно использовать для объяснения всех нейронов.
  • Интерпретация на основе концепций сопоставляет входные данные с набором концепций, а затем объясняет модель, измеряя важность концепций для прогнозов.

Объяснение модели на основе парадигмы ing

Объяснение модели, основанное на парадигме ing, требует отдельных объяснений базовой модели и модели-помощника, чтобы различать возможности двух моделей и исследовать путь обучения модели. Исследуемые вопросы в основном включают в себя: преимущества предоставления объяснений моделей малошагового обучения; понимание происхождения малошагового обучения и возможностей цепочки мышления.

Основное объяснение модели

  • Преимущества объяснений для обучения модели. Узнайте, полезны ли объяснения для обучения модели в контексте пошагового обучения.
  • Ситуационное обучение исследует механизм ситуационного обучения в больших моделях и различает разницу между ситуационным обучением в больших и средних моделях.
  • Цепочка мыслей. Изучите причины, по которым цепочка мыслей улучшает производительность модели.

Объяснение модели помощника

  • Модели ролевых помощников для точной настройки обычно предварительно обучаются для получения общих семантических знаний, а затем приобретаются знания предметной области посредством контролируемого обучения и обучения с подкреплением. Стадия, на которой в основном возникают знания о модели-ассистенте, еще предстоит изучить.
  • Точность и достоверность предсказаний больших моделей галлюцинаций и неопределенностей по-прежнему остаются важными вопросами в текущих исследованиях. Несмотря на мощные возможности больших моделей по выводу, их результаты часто страдают от дезинформации и галлюцинаций. Эта неопределенность в прогнозах создает огромные проблемы для их широкого применения.

Оценка пояснений модели

Показатели оценки для объяснения модели включают правдоподобие, достоверность, стабильность, надежность и т. д. В статье в основном говорится о двух широко распространенных аспектах: 1) рациональность для человека; 2) верность внутренней логике модели.

Оценки традиционных объяснений моделей точной настройки в основном сосредоточены на локальных объяснениях. Правдоподобие часто требует оценки измерений интерпретаций модели по сравнению с интерпретациями, аннотированными человеком, в сравнении с разработанными стандартами. При верности больше внимания уделяется эффективности количественных показателей. Поскольку разные индикаторы фокусируются на разных аспектах модели или данных, единых стандартов для измерения верности по-прежнему не существует. Оценка, основанная на интерпретации модели, требует дальнейших исследований.

Задачи будущих исследований

**1. Отсутствие эффективного и правильного объяснения. **Проблема возникает по двум аспектам: 1) отсутствие стандартов для разработки эффективных объяснений; 2) отсутствие эффективных объяснений приводит к отсутствию поддержки оценки объяснений.

**2.Происхождение явления возникновения неизвестно. **Исследование способности к возникновению больших моделей может проводиться с точки зрения модели и данных соответственно.С точки зрения модели: 1) структура модели, которая вызывает явление возникновения; 2) минимальный масштаб модели. и сложность, которая обеспечивает превосходную производительность в межъязыковых задачах. С точки зрения данных: 1) подмножество данных, которое определяет конкретный прогноз; 2) взаимосвязь между возникающими способностями и обучением модели и загрязнением данных; 3) влияние качества и количества обучающих данных на соответствующие эффекты предварительного обучения. обучение и доводка.

**3. Разница между парадигмой тонкой настройки и парадигмой ing. **Различные характеристики двух вариантов распределения и выхода из него означают разные способы рассуждения. 1) Различия в парадигмах рассуждения при распределении данных 2) Источники различий в надежности модели при различном распределении данных.

**4. Задача быстрого обучения для больших моделей. **В рамках двух парадигм проблема быстрого обучения модели существует в разных аспектах. Хотя большие модели имеют множество источников данных, проблема быстрого обучения относительно облегчается. Выяснение механизма формирования сокращенного обучения и предложение решений по-прежнему важны для обобщения модели.

**5. Избыточность внимания. **Проблема избыточности модулей внимания широко существует в обеих парадигмах. Исследование избыточности внимания может обеспечить решение для технологии сжатия моделей.

**6. Безопасность и этика. **Интерпретируемость больших моделей имеет решающее значение для контроля модели и ограничения ее негативного воздействия. Такие как предвзятость, несправедливость, информационное загрязнение, социальные манипуляции и другие проблемы. Создание объяснимых моделей ИИ может эффективно избежать вышеупомянутых проблем и сформировать этические системы искусственного интеллекта.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить