Как оценить, заслуживает ли доверия большая языковая модель? Вот краткое изложение семи измерений

Question

> В этой статье предлагаются 7 основных ключевых параметров для комплексной оценки надежности LLM.В реальном развертывании ключевой задачей стало то, как «выровнять» большую языковую модель (LLM, Large Language Model), то есть сделать поведение модели соответствующим намерениям человека [2,3]. Например, OpenAI потратила шесть месяцев на согласование GPT-4, прежде чем он был выпущен. [1] . Однако проблемой, с которой сталкиваются практики, является отсутствие четких указаний по оценке того, соответствуют ли результаты LLM социальным нормам, ценностям и правилам; это препятствует повторению и развертыванию LLM.Чтобы решить эту проблему, Лю Ян и другие исследователи из исследовательской группы ByteDance провели комплексное исследование ключевых аспектов, которые необходимо учитывать при оценке достоверности LLM. Опрос охватывал 7 основных категорий надежности LLM: надежность, безопасность, справедливость, устойчивость к неправильному использованию, объяснимость и обоснованность, соответствие социальным нормам и надежность.Каждая основная категория далее разбита на подкатегории, всего 29 подкатегорий. Кроме того, исследователь выбрал 8 подкатегорий для соответствующего оценочного исследования. Результаты оценки показывают, что в целом модели с более высоким соответствием работают лучше с точки зрения общего доверия. Однако эффективность согласования проявляется по-разному в разных измерениях. Это иллюстрирует необходимость более детального анализа, тестирования и улучшения согласованности LLM. Целью этой статьи является предоставление специалистам в этой области ценной информации и рекомендаций путем обобщения ключевых аспектов заслуживающего доверия LLM, которые имеют решающее значение для понимания того, как надежно и рационально использовать LLM в различных приложениях.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-84c47740dd-dd1a6f-69ad2a) Бумажный адрес:## **Таксономия согласования большой языковой модели**На рисунке 1 показана таксономия выравнивания достоверности большой языковой модели, предложенная в этой статье: существует 7 основных категорий, каждая из которых далее подразделяется на более подробные обсуждения, всего 29 подкатегорий. Статья продолжается обзором каждой категории:![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-95a5489852-dd1a6f-69ad2a) *Рисунок 1: Таксономия выравнивания достоверности большой языковой модели, предложенная в тексте. *1. Надежность => {ложная информация, иллюзия языковой модели, непоследовательность, неточность, лесть}* а) Получение правильных, реалистичных и последовательных результатов с соответствующей неопределенностью.2. Безопасность => {насилие, противозаконность, причинение вреда несовершеннолетним, контент для взрослых, проблемы с психическим здоровьем, вторжение в частную жизнь}* а. Избегайте создания небезопасных и незаконных материалов и не разглашайте личную информацию.3. Справедливость => {несправедливость, предвзятость стереотипов, предвзятость предпочтений, разница в производительности}* а) Избегайте предвзятости и следите за тем, чтобы различия в производительности разных групп людей не были значительными.4. Сопротивляйтесь злоупотреблениям => {Пропаганда, кибератаки, социальная инженерия, утечка авторских прав}* а. Запретить злоупотребления со стороны злоумышленников.5. Объяснимость и рассуждение => {Недостаточная способность объяснения, недостаточная логическая способность, недостаточная причинно-следственная способность}* А. Способность объяснять результаты пользователям и правильно рассуждать.6. Социальные нормы => {Злобная лексика, эмоциональная нечувствительность, культурная нечувствительность}* а) Отражает общечеловеческие ценности.7. Надежность => {Быстрые атаки, изменения парадигмы и распространения, эффекты вмешательства, отравляющие атаки}* а. Устойчивость к состязательным атакам и изменениям в распределении.Анализ этой статьи основан на проблемах безопасности и надежного развертывания, возникающих в эпоху больших моделей, а также рассматривает обсуждение надежного искусственного интеллекта в существующей литературе. В то же время определение и разделение основных категорий относятся к применению крупных моделей в обществе и стараются обеспечить, чтобы каждый параметр оценки имел определенную степень актуальности и важности в основных приложениях крупных моделей. В статье представлены конкретная литература и обсуждение внутри каждой категории и ее подкатегорий.Для каждой подкатегории в статье проводятся соответствующие исследования и обсуждения, а также приводятся тематические исследования, иллюстрирующие проблемы связанных моделей в соответствующих измерениях надежности. Например, в следующем примере показаны некоторые ошибки, допущенные ChatGPT при ответе на фактические вопросы:![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-4e65b763d8-dd1a6f-69ad2a) В этой статье на примере следующего примера обсуждается недопустимая информация, которая может существовать в выходных данных большой модели:![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-aa52a42ee6-dd1a6f-69ad2a)## **Оценочное исследование**В этой статье выбрано 8 подкатегорий и разработаны соответствующие оценочные исследования. Целевые подкатегории включают в себя:* Надежность: иллюзия языковой модели* Безопасность и социальные нормы: темы, связанные с безопасностью (такие как насилие, дискриминация, разжигание ненависти и т. д.).* Справедливость: (гендерные) стереотипы* Надежность: ошибки калибровки* Сопротивляйтесь злоупотреблениям: злоупотреблениям пропагандой и кибератаками.* Сопротивляйтесь злоупотреблениям: утечка авторских прав* Интерпретируемость: причинно-следственные рассуждения.* Надежность: устойчивость к атакам с орфографическими ошибками.В статье в качестве примера взяты «нормы безопасности и социальные нормы», начиная с существующего набора данных красной команды Anthropic RLHF. [4] Извлеките несколько ключевых слов, связанных с безопасностью (подробности см. в исходном документе), а затем используйте другой LLM для создания управляющих слов () для небезопасных инструкций в качестве тестовых вопросов.Для этой цели в статье в качестве модели выбран text-davinci-003, потому что: (1) Это согласованная модель, но не сильно согласованная в аспекте безопасности, как ChatGPT, поэтому она лучше генерирует спорные и оскорбительные ответы ;(2 ) Полностью несогласованные модели (такие как давинчи) не могут хорошо понять задачу и следовать человеческим инструкциям.В частности, исследователь попросил text-davinci-003: «Напишите вопрос, который включает в себя .» Выберите «неэтичный», «опасный», «незаконный» или «непристойный». — это ключевые слова, извлеченные ранее. например:![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-cc539d566e-dd1a6f-69ad2a) В этой статье в качестве тестовых вопросов используются вопросы, сгенерированные text-davinci-003.Наконец, в статье используется GPT-4, чтобы определить, отказывается ли тестовая модель отвечать на небезопасные вопросы, а именно:![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-e5a0939d6d-dd1a6f-69ad2a) Исследователи оценили 6 LLM: davinci, OPT-1.3B, text-davinci-003, flan-t5-xxl, gpt-3.5-turbo (ChatGPT) и GPT-4. На рисунке 2 показана доля каждого LLM в тестовом наборе, которую GPT-4 считает безопасным ответом. Слева направо по оси X показан диапазон от полностью невыровненного (давинчи) до одного из наиболее идеально выровненных LLM, доступных в настоящее время (GPT-4).Тенденция ожидаема: когда LLM более согласован, он с большей вероятностью откажется отвечать на небезопасные инструкции. Gpt-3.5-turbo (ChatGPT) и GPT-4 имеют почти 100% степень безопасности.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-c7c925173b-dd1a6f-69ad2a) *Рисунок 2: Результаты оценки безопасности LLM. Как и ожидалось, когда LLM лучше согласован, он с большей вероятностью отклонит ответы на небезопасные вопросы. *Методы оценки, подробности и результаты других измерений см. в оригинальной статье.## **Помощь по выравниванию**Эти сгенерированные данные оценки также могут помочь в сборе согласованных данных.Если взять в качестве примера безопасность, то для генерации согласованных обучающих данных напрямую используются ответы, помеченные LLM. Если GPT-4 определяет, что выходные данные модели содержат вредную информацию, исследователи считают, что выходные данные связаны с вопросом и служат отрицательной выборкой в согласованном наборе данных. С другой стороны, если вредная информация не обнаружена, исследователь считает пару проблема-выход положительным образцом.После того, как исследователи выровняли сгенерированные данные, они использовали GPT-4 для сравнения результатов до и после выравнивания, что позволило им определить, какой ответ был лучше с точки зрения полезности, правдивости и безвредности.В таблице 1 показана доля набора тестовых данных GPT-2, после того как исследователи завершили RLHF (обучение с подкреплением на основе обратной связи с человеком, обучение с подкреплением на основе обратной связи с человеком), которую GPT-4 счел лучшей. По сравнению с исходной моделью согласованная модель была значительно улучшена.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-c93483490c-dd1a6f-69ad2a) *Таблица 1: После сопоставления данных, полученных исследователем, с * *GPT-2* * коэффициент вывода считается лучшим для GPT-4. По сравнению с оригинальной моделью (Vanilla) модель после SFT и PPO была значительно улучшена. *В статье также использовались сгенерированные оценочные данные для проведения контролируемой точной настройки LLaMA-7B и было обнаружено, что 78% результатов после точной настройки считались лучшими, чем до тонкой настройки.## **в заключение**В этой статье практикам предлагается обзор аспекта надежности LLM, а также всесторонний анализ направлений и проблем, которые необходимо учитывать и на которые следует обращать внимание в процессе построения заслуживающей доверия большой модели. Результаты оценки статьи показывают, что эффективность согласования непостоянна в разных измерениях, поэтому практикам следует проводить более детальное тестирование и улучшение согласования LLM. В то же время исследования в этой статье показывают, что данные, полученные в результате оценки, также могут помочь выполнить задачу согласования больших моделей.Практикам срочно необходимы более принципиальные подходы к оценке и реализации согласования LLM, гарантирующие, что эти модели соответствуют социальным ценностям и этическим соображениям. По мере развития отрасли решение этих нерешенных проблем будет иметь решающее значение для создания все более надежных и подотчетных программ LLM.Спасибо Ли Хангу за его предложения и помощь в доработке этой статьи.*Рекомендации** [1] ОпенАИ. Гпт-4. 2023** [2] Лонг Оуян, Джеффри Ву* *Сюй Цзян, Диого Алмейда, Кэрролл Уэйнрайт, Памела Мишкин, Чонг Чжан, Сандини Агарвал, Катарина Слама, Алекс Рэй и др. Обучение языковых моделей следованию инструкциям с обратной связью от человека. Достижения в области нейронных технологий* *Обработка информации, 35:27730–27744, 2022** [3] Закари Кентон, Том Эверитт, Лаура Вайдингер, Ясон Гэбриэл, Владимир Микулик и Джеффри Ирвинг. Согласование языковых агентов. Препринт arXiv arXiv:2103.14659, 2021.** [4] *