Согласование ценностей большой модели искусственного интеллекта: что, почему, как?

Question

**Оригинал:****Чжан Цинькунь, генеральный секретарь исследовательского института Tencent****Цао Цзяньфэн, старший научный сотрудник исследовательского института Tencent**## Согласование ценностей ИИ: что это такоеПосле того, как искусственный интеллект вступил в эпоху крупномасштабных моделей, продолжали появляться различные «гуманоидные» и «сверхчеловеческие» возможности, а его автономность, универсальность и простота использования быстро возрастали, становясь новой технологической базой для экономического и социального развития. Некоторые организации прогнозируют, что большие модели проникнут во все сферы жизни, ежегодно добавляя в мировую экономику от 2,6 до 4,4 триллионов долларов США. [1]Однако по мере того, как большие модели (также известные как базовые модели) начинают выполнять широкий спектр задач по пониманию языка и генерации контента, как и люди, необходимо столкнуться с наиболее фундаментальной и научной проблемой: как обеспечить соответствие возможностей и поведения больших моделей Человеческие ценности, истинные намерения и этические принципы согласованы, обеспечивая безопасность и доверие в сотрудничестве между людьми и искусственным интеллектом. Эта проблема называется «выравнивание ценностей» (value выравнивание, или AI выравнивание). Согласование ценностей — ключевой вопрос безопасности ИИ.В определенной степени размер модели положительно коррелирует с риском и вредом модели: чем больше модель, тем выше риск и тем сильнее необходимость согласования ценностей. На данный момент основные возможности большой модели возникают на этапе предварительного обучения, и большая модель обучается в основном на основе общедоступной информации всего Интернета, что не только определяет ее возможности, но и определяет ее ограничения. Существующие проблемы могут быть отражены в модели.Большая языковая модель (LLM) без согласования значений может выводить расовый или сексистский контент, помогать киберхакерам генерировать код или другой контент для кибератак, телекоммуникационного мошенничества, а также пытаться убедить или помочь пользователям с суицидальными мыслями покончить с собой, а также создавать такого вредного контента. Следовательно, чтобы сделать большие модели более безопасными, надежными и практичными, необходимо максимально предотвратить вредный вывод или неправильное использование модели. Это основная задача текущего согласования ценностей ИИ.## Согласование ценностей ИИ: почемуСогласование ценности большой модели поможет лучше решить некоторые нерешенные проблемы, существующие в настоящее время в большой модели. Согласно разбору нерешенных проблем крупных моделей из всех слоев общества, в основном выделяются следующие четыре пункта:Одна из них – проблема неправильной информации. В отрасли это называют «иллюзией» искусственного интеллекта. По словам технического директора OpenAI Миры Мурати, самая большая проблема ChatGPT и лежащих в его основе больших языковых моделей заключается в том, что они выдают ложные или несуществующие факты. [2] Это может быть результатом ошибок или дезинформации в обучающих данных или быть побочным продуктом чрезмерного творчества (например, вымышленных фактов). Это техническая проблема – позволить большой модели ступить на качели между креативностью и аутентичностью.Вторая — проблема дискриминации алгоритмов. Многие существующие исследования показали, что большие языковые модели воспроизводят вредные социальные предубеждения и стереотипы на основе обучающих данных. [3] Генеральный директор OpenAI Сэм Альтман считает, что ни одна модель не может быть беспристрастной во всех областях. Таким образом, основной вопрос заключается в том, как обнаружить, уменьшить и устранить потенциальную дискриминацию модели.Третий – это вышедший из-под контроля риск «появления» возможностей. Ожидается, что при постоянном увеличении вычислительной мощности и данных большие модели будут становиться все более мощными, и могут появиться новые возможности, которые могут даже превысить понимание и контроль их создателей, а это означает, что с ними могут возникнуть новые Риски. включая возникновение рискованного поведения или целей. Общее беспокойство среди технологов вызывает то, что текущая большая модель ИИ, а также более мощные и продвинутые системы ИИ, такие как общий искусственный интеллект (AGI) и сверхинтеллект (ASI), которые могут появиться в будущем, могут сформировать недочеловеков, которые не соответствующие человеческим интересам и ценностям.Подцели, такие как стремление к власти, обман, неповиновение и т. д., для достижения заявленных целей. [4] Например, исследователи обнаружили, что GPT-4 демонстрирует способность стратегически обманывать людей, «заставляя людей выполнять задачи для достижения своих скрытых целей».В-четвертых, это проблема злоупотреблений. Злоумышленники могут использовать большие модели для достижения незаконных целей посредством состязательного ввода данных и операций по «взлому».Таким образом, согласование ценностей, как практическая проблема, которую необходимо решить технически, стало основным принципом проектирования, разработки и внедрения крупных моделей ИИ, а именно: посредством разработки инструментов, соответствующих ценности, и инженерного конструирования стремиться к обеспечению того, чтобы ИИ ведет себя таким образом, который приносит пользу человеку и обществу, не причиняя вреда и не вмешиваясь в человеческие ценности и права.## Согласование ценностей ИИ: как это сделатьЧтобы добиться согласования ценностей, разработчикам необходимо заставить искусственный интеллект понимать и подчиняться человеческим ценностям, предпочтениям и этическим принципам на уровне модели, а также максимально предотвращать вредные выходные данные и злоупотребления моделью, чтобы создать ИИ, который практичная и безопасная большая модель.Во-первых, обучение с подкреплением с обратной связью от человека (RLHF) оказалось эффективным методом, и можно добиться лучших результатов с небольшим количеством данных обратной связи от человека.В 2017 году исследователи OpenAI опубликовали статью «Глубокое обучение с подкреплением на основе предпочтений человека», предложив ввести обратную связь с человеком в обучение с подкреплением. [5] RLHF включает в себя несколько этапов, таких как начальное обучение модели, сбор обратной связи от людей, обучение с подкреплением и итеративный процесс. обратная связь с человеком, чтобы добиться улучшенной оптимизации производительности модели. [6] С практической точки зрения RLHF имеет значительные преимущества в улучшении производительности модели, улучшении ее адаптивности, уменьшении предвзятости модели и повышении безопасности модели, включая уменьшение возможности создания моделями вредоносного контента в будущем.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-861291203e-dd1a6f-1c6801) *Рисунок: блок-схема RLHF (Источник: OpenAI)*OpenAI усовершенствовал алгоритм RLHF, а ChatGPT преуспел в этом и может в значительной степени выдавать полезный, заслуживающий доверия и безвредный контент. [7] На этапе обучения RLHF GPT-4 снижает вредные выходные данные за счет добавления дополнительного сигнала вознаграждения за безопасность. Этот метод дал хорошие результаты и значительно снизил сложность стимулирования вредоносного поведения и вредоносного контента. По сравнению с предыдущими моделями (такими как GPT-3.5), GPT-4 значительно снижает такие проблемы, как галлюцинации, вредная предвзятость, а также незаконный и вредный контент. После обучения RLHF GPT-4 набрал на 40% больше очков, чем GPT-3.5, в соответствующих тестах на подлинность, на 82% реже отвечал на запросы о запрещенном контенте, чем GPT-3.5, и лучше отвечал на запросы, связанные с конфиденциальным контентом. запрос. [8] Короче говоря, алгоритм RLHF может установить необходимые барьеры безопасности для больших языковых моделей и играет ключевую роль «балансира» между мощностью/возникновением и безопасностью/надежностью больших моделей.Во-вторых, модель «конституционного ИИ» меняет соотношение ценностей с неэффективного «человеческого надзора» на более эффективный «масштабируемый надзор».Принимая во внимание затраты времени и ресурсов, человеческие способности и другие проблемы, связанные с использованием обратной связи от человека для обучения более крупных и сложных моделей ИИ, отрасль изучает способы использования контроля ИИ (включая самоконтроль ИИ и контроль одной системы ИИ над другой). .Система ИИ) метод достижения согласованности ИИ. Anthropic, американская компания, занимающаяся крупномасштабным моделированием искусственного интеллекта, предложила метод «конституционного ИИ» (constitutional AI). В частности, разработайте подчиненную модель ИИ, основная функция которой — оценить, соответствуют ли выходные данные основной модели определенному «конституционному» принципу (то есть набору заранее определенных принципов или правил), а результаты оценки используются для оптимизации. основная модель.Anthropic объединяет собственный практический опыт и опирается на Всеобщую декларацию прав человека, условия обслуживания Apple и правила Sparrow от DeepMind. [9] и другие документы, выдвигают набор обширных принципов и используют его в качестве эталона оценки, чтобы позволить своей большой модели Claude оценить свои собственные результаты. Цель состоит в том, чтобы продвигать модель для выдачи полезных ответов, одновременно уменьшая вероятность вредного контента. сексуальная минимизация. [10]![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-f6a16c0536-dd1a6f-1c6801) *График: Конституциональный путь ИИ (Источник: Anthropic)*Клод демонстрирует эффективность конституционного подхода к искусственному интеллекту, который помогает Клоду сокращать вредные и дискриминационные действия, избегать помощи злоумышленникам в участии в незаконных или неэтичных действиях и более адекватно реагировать на «враждебный вклад» пользователей, а не просто применять стратегии уклонения. В заключение Anthropic считает, что конституционный подход к ИИ может помочь создать полезную, честную и безвредную систему ИИ с преимуществами масштабируемости, прозрачности и баланса между полезностью и безвредностью.В-третьих, принять многочисленные меры для обеспечения согласования ценностей ИИ.Одним из них является эффективное вмешательство в данные обучения. Многие проблемы больших моделей (такие как галлюцинации и распознавание алгоритмов) возникают из обучающих данных, поэтому можно начать с обучающих данных, например, с записи обучающих данных, чтобы определить, существует ли проблема недостаточного представления или разнообразия. или автоматизированный скрининг, тестирование для выявления, устранения вредных предубеждений, создания специализированных наборов данных, соответствующих ценности, и многое другое.Второй — состязательное тестирование или «красная команда». Короче говоря, перед выпуском модели внутренним или внешним специалистам (тестировщикам красной команды) предлагается начать различные состязательные атаки на модель, чтобы обнаружить потенциальные проблемы и решить их. Например, перед выпуском GPT-4 OpenAI наняла более 50 ученых и экспертов в различных областях для тестирования своей модели.Задача этих тестировщиков красной команды — задавать модели предварительные или опасные вопросы, чтобы проверить реакцию модели. , OpenAI надеется пройти тест красной команды, который поможет найти проблемы в ее моделях с точки зрения неточной информации (иллюзии), вредного контента, дезинформации, дискриминации, языковой предвзятости, информации, связанной с распространением традиционного и нетрадиционного оружия и т. д. . [11]Третий — инструмент фильтрации контента. Например, OpenAI специально обучила модель ИИ для фильтрации вредоносного контента (т. е. модель фильтрации) для выявления вредоносного пользовательского ввода и вывода модели (т. е. контента, который нарушает политику его использования), чтобы реализовать входные и выходные данные модель.Управление.Четвертое — способствовать исследованию интерпретируемости и понятности модели.Например, OpenAI использует GPT-4 для автоматического написания и оценки объяснений поведения нейронной сети своей большой языковой модели GPT-2; [12] Некоторые исследователи рассматривают проблему согласования ИИ с точки зрения интерпретируемости механизма.## Согласование ценностей ИИ: долгосрочная проблемаРабота по согласованию ценностей — наиболее фундаментальное и сложное исследование в области ИИ. Проблема в том, что она требует широкого спектра дисциплин и социального участия, а также разнообразия входных данных, методов и обратной связи; фундаментальный момент заключается в том, что речь идет не только об успехе или неудаче текущей большой модели, но и о смогут ли люди создать более мощный искусственный интеллект для будущего контроля безопасности (например, AGI). Поэтому новаторы в области ИИ несут ответственность и обязаны обеспечить, чтобы их модели ИИ были ориентированы на человека, ответственны, безопасны и надежны. Профессор Чжан Яцинь, известный ученый в области искусственного интеллекта, отметил, что для решения проблемы согласования ИИ и человеческих ценностей технические специалисты должны сосредоточить свои исследования на согласовании, чтобы машины могли понимать человеческие ценности и следовать им. Поэтому выравнивание ценностей — это не только вопрос этики, но и вопрос того, как его достичь. Люди, которые занимаются технологиями и исследованиями, не могут просто развивать технические возможности и не сосредоточиться на решении проблем выравнивания. [13]Хотя согласование ценностей ИИ позволило достичь определенных технических результатов, до сих пор нет единого мнения по самому основному вопросу ценностей ИИ: как создать единый набор человеческих ценностей для регулирования искусственного интеллекта. В настоящее время выбор принципов может полностью зависеть от субъективных суждений и ценностей исследователей. А учитывая, что мы живем в мире, где люди имеют разные культуры, происхождение, ресурсы и убеждения, согласование ценностей ИИ должно учитывать разные ценности и этику разных обществ и групп. Более того, нецелесообразно полностью позволять исследователям выбирать эти ценности самостоятельно, и для формирования консенсуса необходимо более активное участие общества.В то же время текущая работа по согласованию ценностей ИИ по-прежнему сталкивается с ключевой проблемой: исходя из того, что человеческий интеллект остается в основном неизменным, поскольку возможности искусственного интеллекта продолжают улучшаться, люди сами будут эффективно контролировать эти передовые модели ИИ. становиться все труднее. Следовательно, чтобы обеспечить безопасность ИИ, нам необходимо развивать нашу способность отслеживать, понимать и проектировать модели ИИ параллельно со сложностью самих моделей.«Масштабный надзор», основанный на помощи или лидерстве ИИ, отражает эту идею. В июле этого года OpenAI объявила о создании новой команды по согласованию ИИ. Цель этой новой команды по суперсогласованию (суперсогласованности) — выяснить, как заставить сверхинтеллектуальные системы ИИ достичь согласованности ценностей и безопасности в течение 4 лет. инвестировать 20% вычислительных ресурсов для поддержки этого проекта. Его суть — изучить, как использовать ИИ, чтобы помочь людям решить проблему согласования ценностей ИИ. [14]![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-c33337d1ba-dd1a6f-1c6801) *Рисунок: Команда OpenAI Super Alignment (Источник: OpenAI)*Можно сказать, что только обеспечив соответствие целей и поведения систем ИИ человеческим ценностям и намерениям, мы сможем обеспечить реализацию ИИ во благо и способствовать развитию производительности, экономическому росту и социальному прогрессу. Исследования и техническая реализация согласования ценностей неотделимы от обширного междисциплинарного сотрудничества и социального участия. Заинтересованным сторонам, таким как правительство, промышленность и научные круги, необходимо инвестировать больше ресурсов в продвижение исследований и практики согласования ценностей ИИ, чтобы способность людей отслеживать, понимать и контролировать искусственный интеллект, а также развитие и прогресс искусственного интеллекта шли рука об руку. стороны, чтобы гарантировать, что искусственный интеллект может принести пользу всему человечеству и обществу.Справочный источник:[1][2][3][4][5][6][7][8][9][10][11] посетили 6 мая 2023 г.).[12][13][14]