Диалог с Чжу Цзюнем, Институт искусственного интеллекта, Университет Цинхуа: Какие риски безопасности скрыты в популярной модели ИИ?

Question

Текст: Ли Хайдань, Tencent Technology![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-c43aaefbe6-dd1a6f-1c6801) Источник изображения: сгенерировано Unbounded AIЛюди создали ИИ, но ИИ также меняет мир, в котором мы живем. С бурным развитием технологии больших языковых моделей ИИ начал все больше интегрироваться в нашу жизнь, и людям необходимо учитывать и внедрять необходимые меры безопасности на ранних этапах его разработки, чтобы избежать потенциальных рисков.Проблемы кибербезопасности, с которыми сталкивается ИИ, можно увидеть повсюду. Когда Tencent Technology взяла интервью у Чжу Цзюня, заместителя декана Института искусственного интеллекта Университета Цинхуа, главного научного сотрудника Пекинского научно-исследовательского института искусственного интеллекта Чжиюань и Ruilai Intelligence, он сказал ** «На самом деле не существует сетевой системы, которая всегда была бы безопасной и Нерушимый в мире. Если не учитывать стоимость, преступники будут использовать различные методы для атаки на систему, и от нее невозможно защититься». **Более 10 лет Чжу Цзюнь занимается решением проблемы безопасности искусственного интеллекта.Он преодолел классическую байесовскую базовую теорию и ключевые технологии, предложил эффективный алгоритм диффузионной модели, а также вывел на национальный уровень специализированные и новые " маленький гигант" путем преобразования достижений, закладывая прочную основу для развития безопасного и надежного искусственного интеллекта.Риски самого ИИ нельзя игнорировать. Искусственный интеллект наделен мощными возможностями обучения и вывода, но эта способность также приводит к высокой зависимости систем ИИ от данных, что может отражать предвзятость источников данных при принятии решений и рекомендаций. этики и справедливости ИИ.Когда ИИ сталкивается с кризисом безопасности доверия, как мы должны реагировать? Когда интерактивное применение ИИ и людей становится все более и более популярным, как нам предотвратить потенциальные угрозы безопасности? В этом диалоге Чжу Цзюнь рассказал о конкретных методах защиты для повышения безопасности и надежности ИИ. Нам необходимо уделить пристальное внимание изучению моральных и социальных последствий безопасности ИИ и не допустить, чтобы нас увлекли в неизвестное и неконтролируемое будущее.Ниже приводится суть текста с удалениями и исправлениями, исходя из того, что вы не меняете своих пожеланий:## **Не существует всегда безопасной сетевой системы****Tencent Technology: вы продвигаете исследования в области искусственного интеллекта против безопасности.Какие проблемы с безопасностью принесет нынешнее применение технологии ИИ? Как мы должны определить эти проблемы безопасности? ****Чжу Цзюнь:**Искусственный интеллект включает в себя несколько ключевых элементов, таких как данные, модель алгоритма и прикладной уровень. В каждом элементе нам нужно решать различные вопросы безопасности.На уровне данных нам нужно обратить внимание на проблемы безопасности, такие как отравление данных, утечка данных, конфиденциальность пользователей и защита основных конфиденциальных данных; на уровне модели нам нужно решать проблемы безопасности, такие как алгоритмы конфронтации. Например, когда для разблокировки используется распознавание лиц, злоумышленник может разблокировать систему проверки целевого мобильного телефона через пару специально изготовленных антиочков (то есть «состязательных образцов»), вызывая риски. Кроме того, если в модель злонамеренно внедрить бэкдор, безопасность модели также окажется под угрозой; на уровне приложений проблема безопасности искусственного интеллекта также становится все более заметной. Например, глубокий синтез, AIGC и другие инструменты используются преступниками для создания ложного контента и использования в незаконных целях, таких как мошенничество и обман. Все это проблемы безопасности, с которыми сталкивается искусственный интеллект при фактическом использовании или разработке.Для решений и контрмер нам нужно использовать **более совершенные алгоритмы для автоматической идентификации этого контента**, что является актуальной и сложной проблемой в области искусственного интеллекта. Однако эта технология подобна взаимосвязи между «копьем и щитом», и развитие генеративной технологии будет способствовать появлению соответствующих технологий обнаружения и защиты. При этом технологии на стороне генерации и атаки постоянно развиваются. Из-за особенностей самой технологии ни одна система не всегда надежна и ее невозможно взломать. Если не учитывать стоимость, преступники будут использовать различные методы для атаки на систему, от которых трудно защититься.Следовательно, с точки зрения технологии, ** нам нужно иметь дело с этим в форме «ИИ распознает ИИ». Но защита на самом деле сложнее, чем атака. В настоящее время мы ищем различные механизмы для улучшения защитных возможностей модели и принимаем различные защитные меры при использовании и развертывании модели. Например, в системе распознавания лиц мы развертываем брандмауэр распознавания лиц, чтобы обнаруживать и отфильтровывать подозрительные образцы или образцы для защиты от атак до того, как образцы попадут в конечную ссылку для распознавания, чтобы достичь цели защиты системы. В настоящее время такая технология внедрена в банковской и других отраслях.**Tencent Technology: Вы упомянули, что любая сетевая система имеет лазейки в системе безопасности.В настоящее время ChatGPT вызвал всплеск зарубежных приложений.Он добился хорошего взаимодействия.Какие риски будут? ****Чжу Цзюнь:** В настоящее время большие языковые модели, такие как ChatGPT, находятся в процессе быстрого развития, но в то же время они также несут в себе потенциальные риски — например, будут некоторые «инъекционные атаки». С алгоритмической точки зрения, если кто-то вводит определенные слова или символы со скрытыми мотивами, это может вызвать логическую путаницу и ошибки вывода в большой модели.В многораундовой диалоговой системе сложно защититься от инъекционных атак. Хакеры могут выполнять атаки с помощью внедрения различными способами, и из-за технологии понимания контекста крупномасштабной модели эффект атаки будет отложен, что является новой проблемой для обнаружения и защиты алгоритмов. В связи с этим нам необходимо использовать метод, аналогичный обучению с подкреплением, чтобы изменить алгоритм для обнаружения и защиты от слов, которые могут быть введены злонамеренно. **Систему можно использовать со спокойной душой только в том случае, если гарантировано, что система не будет злонамеренно внедрена в процессе обучения или не будет заложена бэкдорами и другими уязвимостями.С точки зрения прикладного уровня также могут существовать некоторые риски злонамеренного использования диалоговой системы, например попытки хакеров обойти меры защиты от инъекций для создания некачественного или плохого контента, включая незаконную информацию, связанную с порнографией и насилием. , которые станут частью последующего процесса Проблемы, которые требуют независимого обнаружения и решения.**Tencent Technology: Мы только что говорили о проблемах безопасности GPT, давайте подробнее: какова защитная способность сервера GPT и других крупных моделей, и может ли он быть атакован хакерами? ****Чжу Цзюнь:** Теоретически это вполне возможно. Поскольку это большая информационная система, любая система будет иметь лазейки, поэтому в процессе построения системы нам необходимо заранее максимально использовать различные методы защиты, чтобы повысить безопасность системы. В последнее время мы также видели похожие случаи: некоторые злоумышленники используют ChatGPT для генерации автоматических кодов атаки, что позволяет ему более эффективно находить уязвимости в целевой системе и даже использовать уязвимости для запуска атак, поэтому проблемы с безопасностью будут продолжать существовать.## **Люди не могут точно определить и измерить уровень интеллекта ИИ****Tencent Technology: помимо скрытых опасностей хакерских атак, нас также беспокоят риски безопасности самого ИИ. Прежде всего, давайте сосредоточимся на теме, которую сейчас все обсуждают — как вы думаете, будет ли ИИ производить сознание? ****Чжу Цзюнь: Моя личная точка зрения больше склонна думать, что текущая производительность «сознания» в искусственном интеллекте не очень ясна, потому что мы не можем точно определить и измерить сознание. ** Поэтому, наблюдая за производительностью языковой модели, мы обнаружим, что у большой модели все еще есть проблемы, такие как фактические ошибки. Хотя некоторые ошибки читаются бегло, при ближайшем рассмотрении они не соответствуют действительности или логике. Это одна из многих проблем модели, заключающаяся в том, что уровень специфичности сознания не был полностью количественно оценен.Языковые модели являются мощными обучаемыми, потому что они знают о корпусах и тексте больше, чем любой человек в мире. Например, у модели может быть доступ почти ко всей информации, доступной в Интернете, по сравнению с ограниченными информационными ресурсами, к которым имеет доступ каждый из нас.С точки зрения универсальности ИИ определенно лучше любого человека. Однако в некоторых отношениях производительность модели не может достигать человеческого уровня. Поэтому мы должны смотреть на модель с точки зрения реалистичного технологического развития, включая ОИИ и другие аспекты, обсуждаемые всеми. Лично я считаю, что текущий уровень технологий не достиг того состояния, когда они вышли из-под контроля или развивались только под контролем самого робота.Можно сказать, что крупномасштабные модели машинного обучения могут использовать сложные сети, такие как глубокое обучение, для обработки данных и опираться на некоторые знания человека с точки зрения архитектуры и дизайна. Но в целом между этими моделями искусственных нейронных сетей и реальными биологическими системами существуют огромные различия, начиная от масштаба и заканчивая структурой. Поэтому на самом деле мы в настоящее время не можем однозначно оценить уровень интеллекта систем искусственного интеллекта или оценить, есть ли у него когнитивные способности, такие как разум.**Tencent Technology: недавно некоторые продавцы запустили концепцию «компаньона ИИ» — люди могут влюбиться в ИИ, и им нужно платить. Как вы думаете, может ли ИИ понимать человеческие эмоции? Какие риски безопасности существуют в процессе взаимодействия с виртуальными партнерами? ****Чжу Цзюнь:** Аффективные вычисления всегда были классической темой в области искусственного интеллекта.Что касается эмоций, технология искусственного интеллекта может моделировать персонажа и устанавливать его эмоциональное или психологическое состояние. Однако с технической точки зрения в этой области еще много проблем и задач.Достичь уровня настоящего человеческого общения очень сложно. Например, даже если мы общаемся лицом к лицу или используем один и тот же язык для диалога, трудно по-настоящему понять эмоции или умственную деятельность друг друга, потому что каждый человек реагирует на одни и те же входные данные тысячами способов. Эти большие модели, которые мы сейчас используем, по существу моделируют этот процесс, но любое моделирование требует упрощенных и идеализированных допущений. Сомнительно, применимы ли эти предположения ко всем и хорошо ли они соответствуют реальности каждого человека. Нам сложно точно выразить сложные эмоции каждого с помощью простой модели.Эта модель может включать различные аспекты, такие как социальные вопросы, этика и мораль, и существует множество потенциальных проблем, которые необходимо решить. Хотя порогов технической реализации не много, и эта модель уже появилась в зарубежных странах. Однако нам нужно глубоко задуматься о влиянии этой модели — например, некоторые молодые люди могут быть менее готовы тратить энергию на настоящую любовь или брак и т. д. Это может создать потенциальные проблемы для социальной стабильности.Кроме того, нам нужно обратить внимание на то, будут ли такие продукты искусственного интеллекта предвзятыми или целенаправленно направлены против определенных лиц, что будет нести большие риски. Если мы взаимодействуем с роботом каждый день, полученная информация, естественно, будет направляться роботом, что может повлиять на личные ценности или контролировать личные эмоции и поведение. В конечном итоге это может повлиять на социальные отношения между людьми и вызвать изменения в поведении всего общества. Но это не те проблемы, которые можно решить исключительно с помощью технологий. В целом, по сравнению с другими странами, моя страна будет более осторожной при использовании новых технологий, и мы будем заранее предупреждать о возможных рисках и принимать некоторые превентивные меры.## **Формирование безопасного ИИ: отношение к лучшим моделям как к «наставникам»****Tencent Technology: если в ИИ есть ошибка с технической точки зрения, что мы можем сделать, чтобы исправить ошибку в большой модели? ****Чжу Цзюнь:**Поскольку данные обучения и технический уровень различны, например, мы используем один и тот же вопрос, чтобы задать разные большие модели, результаты, которые они дают, могут быть разными, некоторые результаты хорошие, а некоторые вредные или плохие. результат. Поэтому нам необходимо стандартизировать и улучшить качество и управляемость этих моделей.Некоторые крупные модели обычно много настраиваются и противоборствуют. Например, до появления GPT-4 профессионалы в разных областях задавали вопросы с разных точек зрения, чтобы проверить точность модели, чтобы увидеть, будет ли система выдавать несоответствующие или вредоносные результаты, и попытаться регулировать и корректировать. Однако все еще существует множество моделей (включая многие модели с открытым исходным кодом), которые не подвергались такому тщательному тестированию или противоборствующей подготовке, поэтому будут возникать различные риски безопасности.**Один технический путь, который стоит попробовать, состоит в том, чтобы обращаться с одной из лучших моделей как с «наставником»**, а затем заставлять другие модели имитировать поведение этой модели эффективным и экономичным способом. Конечно, есть еще и другие аспекты работы, такие как нормотворческая и регулировочная работа для каждой конкретной модели согласно нормативным требованиям разных стран.Хотя мы ожидаем, что при использовании эти модели всегда будут давать результаты, соответствующие спецификациям, вероятность риска никогда не падает до нуля. **Кроме того, при ее использовании нам также необходимо учитывать этику, правовые нормы и т. д., которые требуют совместного управления и регулирования со стороны различных отраслей и областей, чтобы модель могла лучше служить людям.**Tencent Technology: мы только что упомянули, что посредством непрерывного обучения, направленного на исправление и снижение количества ошибок больших моделей, как мы должны измерить их надежность? Вы глубоко вовлечены в область байесовского глубокого обучения. Как вы думаете, как строить и оптимизировать модели для повышения точности и надежности прогнозов? ****Чжу Цзюнь: **У отрасли в основном одна и та же цель в отношении точности, обычно измеряемой объективными показателями, а конкретные показатели связаны с конкретными выполняемыми задачами. Что касается классификации и распознавания, окончательная точность распознавания будет использоваться для обучения модели.Для задач с неопределенностью, таких как нейронные сети, мы обнаружили, что во многих случаях его прогнозы будут чрезмерно уверенными и оптимистичными. Например, вывод некоторых результатов изначально представляет собой расплывчатый или неопределенный прогноз, но он сообщит вам результат прогноза с чрезмерной уверенностью, которую мы называем «чрезмерной уверенностью».Для этого явления или проблемы методы глубокого обучения с использованием байесовских методов могут лучше охарактеризовать неопределенность. В основном это можно рассматривать со многих аспектов, таких как неопределенные факторы, которые могут существовать на входе, и неопределенные факторы, которые могут существовать на конце модели, и давать уверенность, которая больше соответствует фактической ситуации. Этот байесовский подход более надежен, чем нейронные сети.**Технология Tencent: структура сети в реальном мире часто бывает очень сложной, включая многоуровневые, многомерные, динамические изменения и другие характеристики, что создает большие проблемы при создании и оптимизации модели вероятности распространения. Команда, которую вы возглавляете, является одной из первых групп, занимающихся исследованием теории и алгоритма диффузионной модели вероятности в мире.Как ваша команда устраняет шум и неопределенность данных при построении модели, чтобы повысить устойчивость и надежность модели? ****Чжу Цзюнь:** Модель диффузии — это генеративная модель, в которой есть два процесса: прямая диффузия и обратная диффузия. Прямая диффузия превращает изображение в полностью случайное изображение гауссовского шума путем постепенного добавления шума. Обратная диффузия начинается с распределения, почти не имеющего структуры, постепенно устраняет шумы и сходится к распределению, которое может описывать реальные данные. Из этого дистрибутива можно генерировать новые образцы, такие как генерация текста, изображений и видео, которые сейчас широко изучаются.Диффузионные модели являются одним из наиболее важных методов в генеративной области. С точки зрения надежности идея диффузионных моделей аналогична состязательным примерам. Враждебные примеры достигают цели атаки, добавляя оптимизированный алгоритмом шум в процессе генерации. В свою очередь, мы можем оптимизировать величину и направление шума, постепенно находя распределение в процессе обратной диффузии, чтобы повысить надежность модели. Этот метод также можно применять для генерации зашумленных данных для повышения надежности и точности модели.**Tencent Technology: Как мы можем повысить точность ИИ при применении Винсента в других направлениях? Я обеспокоен недавно предложенным вашей командой новым алгоритмом Wensheng 3D ProlificDreamer, который может генерировать сверхвысококачественный 3D-контент без каких-либо 3D-данных. Как ваша команда справляется с семантическим разнообразием и неоднозначностью для создания более точного контента? 3D-модель? ****Чжу Цзюнь:** По сравнению с традиционными 3D-методами в отрасли обычно используется предварительно обученная 2D-генеративная модель (например, диффузионная модель) для обучения базе данных изображений. При 3D-генерации нам необходимо сопоставить сгенерированное 2D-изображение с 3D-моделью, что требует промежуточного шага, называемого «дистилляция». Поскольку 3D-модель имеет пространственную структуру, нам необходимо учитывать 3D-свойства объекта. Поэтому нам нужно наблюдать за объектами под разными углами и отображать соответствующие 2D-изображения, а затем сопоставлять их с предварительно обученной моделью, чтобы можно было генерировать 3D-ассеты и т. д. Однако этот подход также имеет некоторые ограничения. Например, результаты, которые он генерирует, обычно слишком насыщены или слишком гладки, им не хватает информации, такой как детали и текстуры.Чтобы решить эту проблему, нам нужно изучить технологии более низкого уровня. Мы обнаружили, что существуют некоторые неотъемлемые трудности использования алгоритма дистилляции для поиска единой 3D-модели, которые необходимо преодолеть, исходя из основных принципов. Существующие алгоритмы ищут какой-то экстремум в целевой функции, аналогично «жадному алгоритму (Greedy algorithm)», он найдет только оптимальное решение, для достижения этой цели существующие работы изменяют целевую функцию, чтобы сделать ее выше в некоторых областях, что является более средним в других регионах, этот метод настройки целевой функции позволяет быстро найти окончательное решение.Чтобы преодолеть трудности вышеописанных подходов, мы переформулируем задачу генерации текста в 3D как выборку из некоторого распределения, которому может подчиняться 3D-модель, а затем рендеринг и выравнивание ее с предварительно обученной 2D-моделью. **Преимущество этого метода выборки в том, что сама 2D-модель является вероятностной моделью, а описательная информация богаче, чем жадная оптимизация, по этой причине мы вывели новый алгоритм вариационной дистилляции и использовали его в основном в том же самом множестве очень подробных а сложные 3D-сцены, включая ресурсы высокого разрешения, генерировались за долю времени.Ключевым моментом нашего метода является то, что он уменьшает или полностью снимает зависимость от 3D обучающих данных и значительно повышает качество генерации. Недавно я общался с практиками, которые занимаются графикой, и они тоже считают, что этот эффект просто потрясающий. Давайте посмотрим на большой потенциал возможности создавать высококачественные 3D-изображения.Для обработки двусмысленности. Для ввода одного и того же текста разные люди могут иметь разное понимание, например, слово «Apple» может относиться к Apple, Apple Inc. или ее продуктам. В нашей модели неоднозначность разрешается с помощью подхода выборки, основанного на вероятности, для получения нескольких возможных результатов. ** В долгосрочной перспективе для устранения неоднозначности требуется больше подсказок и выравниваний для улучшения управляемости и точности, таких как выравнивание текста и изображений или других модальных данных. ** В языковых и мультимодальных доменах окончательное значение связано с соответствующим контекстом.В настоящее время мы работаем с клиентами в различных отраслях, чтобы еще больше улучшить нашу технологию генерации 3D и сделать ее более зрелой. В области 3D высококачественные 3D-ресурсы имеют большую ценность.Например, в сценариях создания игровых ресурсов традиционные компании обычно используют традиционные методы, такие как геометрия или графика, для создания и обслуживания библиотек 3D-ресурсов, что требует больших временных затрат. Наша технология может значительно повысить творческую эффективность и сократить временные затраты.