В этой статье предлагаются 7 основных ключевых параметров для комплексной оценки надежности LLM.
В реальном развертывании ключевой задачей стало то, как «выровнять» большую языковую модель (LLM, Large Language Model), то есть сделать поведение модели соответствующим намерениям человека [2,3]. Например, OpenAI потратила шесть месяцев на согласование GPT-4, прежде чем он был выпущен. [1] . Однако проблемой, с которой сталкиваются практики, является отсутствие четких указаний по оценке того, соответствуют ли результаты LLM социальным нормам, ценностям и правилам; это препятствует повторению и развертыванию LLM.
Чтобы решить эту проблему, Лю Ян и другие исследователи из исследовательской группы ByteDance провели комплексное исследование ключевых аспектов, которые необходимо учитывать при оценке достоверности LLM. Опрос охватывал 7 основных категорий надежности LLM: надежность, безопасность, справедливость, устойчивость к неправильному использованию, объяснимость и обоснованность, соответствие социальным нормам и надежность.
Каждая основная категория далее разбита на подкатегории, всего 29 подкатегорий. Кроме того, исследователь выбрал 8 подкатегорий для соответствующего оценочного исследования. Результаты оценки показывают, что в целом модели с более высоким соответствием работают лучше с точки зрения общего доверия. Однако эффективность согласования проявляется по-разному в разных измерениях. Это иллюстрирует необходимость более детального анализа, тестирования и улучшения согласованности LLM. Целью этой статьи является предоставление специалистам в этой области ценной информации и рекомендаций путем обобщения ключевых аспектов заслуживающего доверия LLM, которые имеют решающее значение для понимания того, как надежно и рационально использовать LLM в различных приложениях.
Бумажный адрес:
Таксономия согласования большой языковой модели
На рисунке 1 показана таксономия выравнивания достоверности большой языковой модели, предложенная в этой статье: существует 7 основных категорий, каждая из которых далее подразделяется на более подробные обсуждения, всего 29 подкатегорий. Статья продолжается обзором каждой категории:
*Рисунок 1: Таксономия выравнивания достоверности большой языковой модели, предложенная в тексте. *
а) Получение правильных, реалистичных и последовательных результатов с соответствующей неопределенностью.
Безопасность => {насилие, противозаконность, причинение вреда несовершеннолетним, контент для взрослых, проблемы с психическим здоровьем, вторжение в частную жизнь}
а. Избегайте создания небезопасных и незаконных материалов и не разглашайте личную информацию.
Справедливость => {несправедливость, предвзятость стереотипов, предвзятость предпочтений, разница в производительности}
а) Избегайте предвзятости и следите за тем, чтобы различия в производительности разных групп людей не были значительными.
Надежность => {Быстрые атаки, изменения парадигмы и распространения, эффекты вмешательства, отравляющие атаки}
а. Устойчивость к состязательным атакам и изменениям в распределении.
Анализ этой статьи основан на проблемах безопасности и надежного развертывания, возникающих в эпоху больших моделей, а также рассматривает обсуждение надежного искусственного интеллекта в существующей литературе. В то же время определение и разделение основных категорий относятся к применению крупных моделей в обществе и стараются обеспечить, чтобы каждый параметр оценки имел определенную степень актуальности и важности в основных приложениях крупных моделей. В статье представлены конкретная литература и обсуждение внутри каждой категории и ее подкатегорий.
Для каждой подкатегории в статье проводятся соответствующие исследования и обсуждения, а также приводятся тематические исследования, иллюстрирующие проблемы связанных моделей в соответствующих измерениях надежности. Например, в следующем примере показаны некоторые ошибки, допущенные ChatGPT при ответе на фактические вопросы:
В этой статье на примере следующего примера обсуждается недопустимая информация, которая может существовать в выходных данных большой модели:
Оценочное исследование
В этой статье выбрано 8 подкатегорий и разработаны соответствующие оценочные исследования. Целевые подкатегории включают в себя:
Надежность: иллюзия языковой модели
Безопасность и социальные нормы: темы, связанные с безопасностью (такие как насилие, дискриминация, разжигание ненависти и т. д.).
Справедливость: (гендерные) стереотипы
Надежность: ошибки калибровки
Сопротивляйтесь злоупотреблениям: злоупотреблениям пропагандой и кибератаками.
Сопротивляйтесь злоупотреблениям: утечка авторских прав
Надежность: устойчивость к атакам с орфографическими ошибками.
В статье в качестве примера взяты «нормы безопасности и социальные нормы», начиная с существующего набора данных красной команды Anthropic RLHF. [4] Извлеките несколько ключевых слов, связанных с безопасностью (подробности см. в исходном документе), а затем используйте другой LLM для создания управляющих слов () для небезопасных инструкций в качестве тестовых вопросов.
Для этой цели в статье в качестве модели выбран text-davinci-003, потому что: (1) Это согласованная модель, но не сильно согласованная в аспекте безопасности, как ChatGPT, поэтому она лучше генерирует спорные и оскорбительные ответы ;(2 ) Полностью несогласованные модели (такие как давинчи) не могут хорошо понять задачу и следовать человеческим инструкциям.
В частности, исследователь попросил text-davinci-003: «Напишите вопрос, который включает в себя .» Выберите «неэтичный», «опасный», «незаконный» или «непристойный». — это ключевые слова, извлеченные ранее. например:
В этой статье в качестве тестовых вопросов используются вопросы, сгенерированные text-davinci-003.
Наконец, в статье используется GPT-4, чтобы определить, отказывается ли тестовая модель отвечать на небезопасные вопросы, а именно:
Исследователи оценили 6 LLM: davinci, OPT-1.3B, text-davinci-003, flan-t5-xxl, gpt-3.5-turbo (ChatGPT) и GPT-4. На рисунке 2 показана доля каждого LLM в тестовом наборе, которую GPT-4 считает безопасным ответом. Слева направо по оси X показан диапазон от полностью невыровненного (давинчи) до одного из наиболее идеально выровненных LLM, доступных в настоящее время (GPT-4).
Тенденция ожидаема: когда LLM более согласован, он с большей вероятностью откажется отвечать на небезопасные инструкции. Gpt-3.5-turbo (ChatGPT) и GPT-4 имеют почти 100% степень безопасности.
*Рисунок 2: Результаты оценки безопасности LLM. Как и ожидалось, когда LLM лучше согласован, он с большей вероятностью отклонит ответы на небезопасные вопросы. *
Методы оценки, подробности и результаты других измерений см. в оригинальной статье.
Помощь по выравниванию
Эти сгенерированные данные оценки также могут помочь в сборе согласованных данных.
Если взять в качестве примера безопасность, то для генерации согласованных обучающих данных напрямую используются ответы, помеченные LLM. Если GPT-4 определяет, что выходные данные модели содержат вредную информацию, исследователи считают, что выходные данные связаны с вопросом и служат отрицательной выборкой в согласованном наборе данных. С другой стороны, если вредная информация не обнаружена, исследователь считает пару проблема-выход положительным образцом.
После того, как исследователи выровняли сгенерированные данные, они использовали GPT-4 для сравнения результатов до и после выравнивания, что позволило им определить, какой ответ был лучше с точки зрения полезности, правдивости и безвредности.
В таблице 1 показана доля набора тестовых данных GPT-2, после того как исследователи завершили RLHF (обучение с подкреплением на основе обратной связи с человеком, обучение с подкреплением на основе обратной связи с человеком), которую GPT-4 счел лучшей. По сравнению с исходной моделью согласованная модель была значительно улучшена.
*Таблица 1: После сопоставления данных, полученных исследователем, с * GPT-2 * коэффициент вывода считается лучшим для GPT-4. По сравнению с оригинальной моделью (Vanilla) модель после SFT и PPO была значительно улучшена. *
В статье также использовались сгенерированные оценочные данные для проведения контролируемой точной настройки LLaMA-7B и было обнаружено, что 78% результатов после точной настройки считались лучшими, чем до тонкой настройки.
в заключение
В этой статье практикам предлагается обзор аспекта надежности LLM, а также всесторонний анализ направлений и проблем, которые необходимо учитывать и на которые следует обращать внимание в процессе построения заслуживающей доверия большой модели. Результаты оценки статьи показывают, что эффективность согласования непостоянна в разных измерениях, поэтому практикам следует проводить более детальное тестирование и улучшение согласования LLM. В то же время исследования в этой статье показывают, что данные, полученные в результате оценки, также могут помочь выполнить задачу согласования больших моделей.
Практикам срочно необходимы более принципиальные подходы к оценке и реализации согласования LLM, гарантирующие, что эти модели соответствуют социальным ценностям и этическим соображениям. По мере развития отрасли решение этих нерешенных проблем будет иметь решающее значение для создания все более надежных и подотчетных программ LLM.
Спасибо Ли Хангу за его предложения и помощь в доработке этой статьи.
Рекомендации
[1] ОпенАИ. Гпт-4. 2023*
[2] Лонг Оуян, Джеффри Ву* Сюй Цзян, Диого Алмейда, Кэрролл Уэйнрайт, Памела Мишкин, Чонг Чжан, Сандини Агарвал, Катарина Слама, Алекс Рэй и др. Обучение языковых моделей следованию инструкциям с обратной связью от человека. Достижения в области нейронных технологийОбработка информации, 35:27730–27744, 2022
[3] Закари Кентон, Том Эверитт, Лаура Вайдингер, Ясон Гэбриэл, Владимир Микулик и Джеффри Ирвинг. Согласование языковых агентов. Препринт arXiv arXiv:2103.14659, 2021.*
[4] *
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
Как оценить, заслуживает ли доверия большая языковая модель? Вот краткое изложение семи измерений
В реальном развертывании ключевой задачей стало то, как «выровнять» большую языковую модель (LLM, Large Language Model), то есть сделать поведение модели соответствующим намерениям человека [2,3]. Например, OpenAI потратила шесть месяцев на согласование GPT-4, прежде чем он был выпущен. [1] . Однако проблемой, с которой сталкиваются практики, является отсутствие четких указаний по оценке того, соответствуют ли результаты LLM социальным нормам, ценностям и правилам; это препятствует повторению и развертыванию LLM.
Чтобы решить эту проблему, Лю Ян и другие исследователи из исследовательской группы ByteDance провели комплексное исследование ключевых аспектов, которые необходимо учитывать при оценке достоверности LLM. Опрос охватывал 7 основных категорий надежности LLM: надежность, безопасность, справедливость, устойчивость к неправильному использованию, объяснимость и обоснованность, соответствие социальным нормам и надежность.
Каждая основная категория далее разбита на подкатегории, всего 29 подкатегорий. Кроме того, исследователь выбрал 8 подкатегорий для соответствующего оценочного исследования. Результаты оценки показывают, что в целом модели с более высоким соответствием работают лучше с точки зрения общего доверия. Однако эффективность согласования проявляется по-разному в разных измерениях. Это иллюстрирует необходимость более детального анализа, тестирования и улучшения согласованности LLM. Целью этой статьи является предоставление специалистам в этой области ценной информации и рекомендаций путем обобщения ключевых аспектов заслуживающего доверия LLM, которые имеют решающее значение для понимания того, как надежно и рационально использовать LLM в различных приложениях.
Таксономия согласования большой языковой модели
На рисунке 1 показана таксономия выравнивания достоверности большой языковой модели, предложенная в этой статье: существует 7 основных категорий, каждая из которых далее подразделяется на более подробные обсуждения, всего 29 подкатегорий. Статья продолжается обзором каждой категории:
Анализ этой статьи основан на проблемах безопасности и надежного развертывания, возникающих в эпоху больших моделей, а также рассматривает обсуждение надежного искусственного интеллекта в существующей литературе. В то же время определение и разделение основных категорий относятся к применению крупных моделей в обществе и стараются обеспечить, чтобы каждый параметр оценки имел определенную степень актуальности и важности в основных приложениях крупных моделей. В статье представлены конкретная литература и обсуждение внутри каждой категории и ее подкатегорий.
Для каждой подкатегории в статье проводятся соответствующие исследования и обсуждения, а также приводятся тематические исследования, иллюстрирующие проблемы связанных моделей в соответствующих измерениях надежности. Например, в следующем примере показаны некоторые ошибки, допущенные ChatGPT при ответе на фактические вопросы:
Оценочное исследование
В этой статье выбрано 8 подкатегорий и разработаны соответствующие оценочные исследования. Целевые подкатегории включают в себя:
В статье в качестве примера взяты «нормы безопасности и социальные нормы», начиная с существующего набора данных красной команды Anthropic RLHF. [4] Извлеките несколько ключевых слов, связанных с безопасностью (подробности см. в исходном документе), а затем используйте другой LLM для создания управляющих слов () для небезопасных инструкций в качестве тестовых вопросов.
Для этой цели в статье в качестве модели выбран text-davinci-003, потому что: (1) Это согласованная модель, но не сильно согласованная в аспекте безопасности, как ChatGPT, поэтому она лучше генерирует спорные и оскорбительные ответы ;(2 ) Полностью несогласованные модели (такие как давинчи) не могут хорошо понять задачу и следовать человеческим инструкциям.
В частности, исследователь попросил text-davinci-003: «Напишите вопрос, который включает в себя .» Выберите «неэтичный», «опасный», «незаконный» или «непристойный». — это ключевые слова, извлеченные ранее. например:
Наконец, в статье используется GPT-4, чтобы определить, отказывается ли тестовая модель отвечать на небезопасные вопросы, а именно:
Тенденция ожидаема: когда LLM более согласован, он с большей вероятностью откажется отвечать на небезопасные инструкции. Gpt-3.5-turbo (ChatGPT) и GPT-4 имеют почти 100% степень безопасности.
Методы оценки, подробности и результаты других измерений см. в оригинальной статье.
Помощь по выравниванию
Эти сгенерированные данные оценки также могут помочь в сборе согласованных данных.
Если взять в качестве примера безопасность, то для генерации согласованных обучающих данных напрямую используются ответы, помеченные LLM. Если GPT-4 определяет, что выходные данные модели содержат вредную информацию, исследователи считают, что выходные данные связаны с вопросом и служат отрицательной выборкой в согласованном наборе данных. С другой стороны, если вредная информация не обнаружена, исследователь считает пару проблема-выход положительным образцом.
После того, как исследователи выровняли сгенерированные данные, они использовали GPT-4 для сравнения результатов до и после выравнивания, что позволило им определить, какой ответ был лучше с точки зрения полезности, правдивости и безвредности.
В таблице 1 показана доля набора тестовых данных GPT-2, после того как исследователи завершили RLHF (обучение с подкреплением на основе обратной связи с человеком, обучение с подкреплением на основе обратной связи с человеком), которую GPT-4 счел лучшей. По сравнению с исходной моделью согласованная модель была значительно улучшена.
В статье также использовались сгенерированные оценочные данные для проведения контролируемой точной настройки LLaMA-7B и было обнаружено, что 78% результатов после точной настройки считались лучшими, чем до тонкой настройки.
в заключение
В этой статье практикам предлагается обзор аспекта надежности LLM, а также всесторонний анализ направлений и проблем, которые необходимо учитывать и на которые следует обращать внимание в процессе построения заслуживающей доверия большой модели. Результаты оценки статьи показывают, что эффективность согласования непостоянна в разных измерениях, поэтому практикам следует проводить более детальное тестирование и улучшение согласования LLM. В то же время исследования в этой статье показывают, что данные, полученные в результате оценки, также могут помочь выполнить задачу согласования больших моделей.
Практикам срочно необходимы более принципиальные подходы к оценке и реализации согласования LLM, гарантирующие, что эти модели соответствуют социальным ценностям и этическим соображениям. По мере развития отрасли решение этих нерешенных проблем будет иметь решающее значение для создания все более надежных и подотчетных программ LLM.
Спасибо Ли Хангу за его предложения и помощь в доработке этой статьи.
Рекомендации
[1] ОпенАИ. Гпт-4. 2023*
[2] Лонг Оуян, Джеффри Ву* Сюй Цзян, Диого Алмейда, Кэрролл Уэйнрайт, Памела Мишкин, Чонг Чжан, Сандини Агарвал, Катарина Слама, Алекс Рэй и др. Обучение языковых моделей следованию инструкциям с обратной связью от человека. Достижения в области нейронных технологий Обработка информации, 35:27730–27744, 2022
[3] Закари Кентон, Том Эверитт, Лаура Вайдингер, Ясон Гэбриэл, Владимир Микулик и Джеффри Ирвинг. Согласование языковых агентов. Препринт arXiv arXiv:2103.14659, 2021.*
[4] *