Діалог із Чжу Цзюнем, Інститут штучного інтелекту Університету Цінхуа: які ризики безпеки приховані в популярній моделі ШІ?

Question

Текст: Лі Хайдан, Tencent Technology![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-c43aaefbe6-dd1a6f-1c6801) Джерело зображення: створено Unbounded AIЛюди створили ШІ, але ШІ також змінює світ, у якому ми живемо. З розвитком технології великої мовної моделі штучний інтелект почав інтегруватися в наше життя, і люди повинні розглянути та впровадити необхідні заходи безпеки на ранніх етапах його розвитку, щоб уникнути потенційних ризиків.Проблеми кібербезпеки, з якими стикається ШІ, можна побачити всюди. Коли Tencent Technology брав інтерв’ю у Чжу Цзюня, заступника декана Інституту штучного інтелекту Університету Цінхуа, головного наукового співробітника Пекінського науково-дослідного інституту штучного інтелекту Чжиюаня та Ruilai Intelligence, він сказав: ** «Насправді немає жодної мережевої системи, яка завжди була б безпечною та незламна у світі. Якщо не враховувати вартість, злочинці використовуватимуть різні методи для нападу на систему, і захиститися від цього неможливо». **Понад 10 років Чжу Цзюнь відданий вирішенню проблеми безпеки штучного інтелекту. Він прорвав класичну байєсівську базову теорію та ключові технології, запропонував ефективний алгоритм для дифузійної моделі та інкубував спеціалізовані та нові національного рівня. маленькі гігантські підприємства шляхом перетворення досягнень, закладаючи міцну основу для розробки безпечного та надійного штучного інтелекту.Ризики штучного інтелекту не можна ігнорувати. Штучний інтелект наділений потужними можливостями навчання та висновків, але ця здатність також призводить до високої залежності систем ШІ від даних, що може відображати упередженість джерел даних у прийнятті рішень і рекомендаціях. етики та справедливості ШІ.Як нам реагувати, коли штучний інтелект потрапляє в кризу безпеки й довіри? Коли інтерактивне застосування ШІ та людей стає все більш популярним, як ми маємо запобігти потенційній загрозі безпеці? У цьому діалозі Чжу Цзюнь розповів про конкретні методи захисту для підвищення безпеки та надійності ШІ. Нам потрібно приділяти особливу увагу вивченню моральних і соціальних наслідків безпеки штучного інтелекту та уникати потрапляння в невідоме та неконтрольоване майбутнє.Нижче наведена суть тексту з видаленнями та коригуваннями на основі того, щоб не змінити ваших побажань:## **Немає завжди безпечної мережевої системи****Tencent Technology: Ви просуваєте дослідження в галузі штучного інтелекту проти безпеки. Які проблеми з безпекою спричинить поточне застосування технології AI? Як нам визначити ці проблеми безпеки? ****Чжу Цзюнь:**Штучний інтелект включає кілька ключових елементів, таких як дані, модель алгоритму та прикладний рівень. У кожному елементі нам потрібно вирішити різні питання безпеки.На рівні даних нам потрібно звернути увагу на проблеми безпеки, такі як отруєння даних, витік даних, конфіденційність користувачів і захист основних конфіденційних даних; на рівні моделі нам потрібно мати справу з проблемами безпеки, такими як алгоритми конфронтації. Наприклад, коли для розблокування використовується розпізнавання обличчя, зловмисник може розблокувати систему перевірки цільового мобільного телефону через пару спеціально виготовлених анти-окулярів (тобто «змагальні зразки»), створюючи ризики. Крім того, якщо в модель зловмисно імплантовано бекдор, безпека моделі також опиниться під загрозою; на рівні програми проблема безпеки штучного інтелекту також стає все більш і більш помітною. Наприклад, глибокий синтез, AIGC та інші інструменти використовуються злочинцями для створення неправдивого вмісту та участі в незаконних цілях, таких як шахрайство та обман. Це всі проблеми безпеки, з якими стикається штучний інтелект під час фактичного використання чи розробки.Для рішень і контрзаходів нам потрібно використовувати **досконаліші алгоритми для автоматичної ідентифікації цього вмісту**, що є гострою та складною проблемою у сфері штучного інтелекту. Однак ця технологія схожа на відносини між «списом і щитом», і розвиток генеративних технологій сприятиме появі відповідних технологій виявлення та захисту. У той же час технології на стороні генерації та атаки постійно розвиваються. Через природу самої технології жодна система не є завжди безпечною та її неможливо зламати. Якщо не враховувати вартість, злочинці використовуватимуть різні методи для атаки на систему, від яких важко захиститися.Тому, з точки зору технологій, **нам потрібно мати справу з цим у формі «ШІ визнає ШІ». Але захиститися насправді складніше, ніж атакувати. Наразі ми шукаємо різні механізми для покращення захисних можливостей моделі та вживаємо різноманітних захисних заходів, коли модель використовується та розгортається. Наприклад, у системі розпізнавання обличчя ми розгортаємо брандмауер розпізнавання обличчя, щоб виявляти та відфільтровувати підозрілі зразки або зразки для захисту від атак до того, як зразки потраплять на кінцеве розпізнавання, щоб досягти мети захисту системи. Наразі така технологія впроваджена в банківській та інших галузях.**Технологія Tencent: Ви згадали, що будь-яка мережева система має лазівки в безпеці. Наразі ChatGPT спричинив сплеск закордонних додатків. Він досяг хорошої взаємодії. Які будуть ризики? ****Чжу Цзюнь:** Наразі великі мовні моделі, такі як ChatGPT, знаходяться в процесі швидкого розвитку, але водночас вони також несуть потенційні ризики, наприклад, будуть деякі «ін’єкційні атаки». З алгоритмічної точки зору, якщо хтось вводить конкретні слова чи символи з прихованими мотивами, це може спричинити логічну плутанину та вивести помилки у великій моделі.У системі багатораундового діалогу важко захиститися від ін’єкційних атак. Хакери можуть виконувати ін’єкційні атаки різними способами, і завдяки технології розуміння контексту великомасштабної моделі ефект атаки буде відкладено, що є новою проблемою для виявлення та захисту алгоритмів. У зв’язку з цим нам потрібно використовувати метод, подібний до навчання з підкріпленням, щоб змінити алгоритм для виявлення та захисту від слів, які можуть бути зловмисно введені. **Систему можна спокійно використовувати, лише якщо гарантовано, що система не буде зловмисно ін’єктована під час процесу навчання або не буде імплантовано бекдорів та інших уразливостей.З точки зору прикладного рівня також можуть існувати певні ризики зловмисного використання діалогової системи, наприклад хакери намагаються обійти заходи захисту від ін’єкцій для створення низькоякісного або поганого вмісту, включаючи незаконну інформацію, пов’язану з порнографією та насильством. , яка стане частиною подальшого процесу Проблеми, які потребують незалежного виявлення та вирішення.**Tencent Technology: ми щойно говорили про проблеми безпеки GPT, давайте розглянемо докладніше: яка здатність захисту безпеки сервера GPT та інших великих моделей, і чи може він бути атакований хакерами? ****Чжу Цзюнь:** Теоретично це цілком можливо. Оскільки це велика інформаційна система, будь-яка система матиме лазівки, тому в процесі побудови системи нам потрібно заздалегідь розгорнути різні методи захисту, наскільки це можливо, щоб підвищити безпеку системи. Нещодавно ми також спостерігали схожі випадки: деякі зловмисники використовують ChatGPT для генерації автоматичних кодів атак, що дозволяє йому ефективніше знаходити вразливості в цільовій системі та навіть додатково використовувати вразливості для запуску атак, тому проблеми з безпекою залишаться.## **Люди не можуть точно визначити та виміряти рівень інтелекту ШІ****Технологія Tencent: окрім прихованих небезпек хакерських атак, ми також стурбовані ризиками безпеки самого ШІ. Перш за все, давайте зосередимося на темі, яку всі зараз обговорюють – як ви думаєте, чи створить ШІ свідомість? ****Чжу Цзюнь: Моя особиста точка зору більше схиляється до думки, що поточні показники «свідомості» в штучному інтелекті не дуже зрозумілі, оскільки ми не можемо точно визначити та виміряти свідомість. ** Тому, спостерігаючи за продуктивністю мовної моделі, ми виявимо, що велика модель все ще має проблеми, такі як фактичні помилки. Хоча деякі помилки читаються плавно, при ближчому розгляді вони не є фактичними чи логічними. Це одна з багатьох проблем моделі, що рівень специфічності свідомості, який вона має, не був повністю кількісно оцінений.Мовні моделі є потужними для навчання, оскільки вони знають про корпуси та текст більше, ніж будь-яка людина у світі. Наприклад, модель може мати доступ майже до всієї інформації, доступної в Інтернеті, порівняно з обмеженими інформаційними ресурсами, до яких має доступ кожен із нас.З точки зору універсальності, штучний інтелект безперечно кращий за будь-яку одну людину. Однак у деяких аспектах продуктивність моделі не досягає людського рівня. Тому ми повинні дивитися на модель з точки зору реалістичного технологічного розвитку, включаючи AGI та інші аспекти, які всі обговорюють. Особисто я вважаю, що сучасний рівень технологій не досяг такого стану, коли він вийшов з-під контролю або розвивався лише під контролем самого робота.Можна сказати, що великомасштабні моделі машинного навчання можуть використовувати складні мережі, такі як глибоке навчання, для обробки даних і спиратися на деякі людські знання з точки зору архітектури та дизайну. Але в цілому існують величезні відмінності між цими моделями штучних нейронних мереж і реальними біологічними системами, починаючи від масштабу і закінчуючи структурою. Тому фактично ми зараз не можемо чітко оцінити рівень інтелекту систем штучного інтелекту або чи має вона такі когнітивні здібності, як розум.**Технологія Tencent: нещодавно деякі продавці запустили концепцію «супутника ШІ» — люди можуть закохатися в ШІ, і їм потрібно платити. Як ви думаєте, чи може ШІ зрозуміти людські емоції? Які ризики безпеки існують у процесі взаємодії з віртуальними партнерами? ****Чжу Цзюнь:** Ефективні обчислення завжди були класичною темою в галузі штучного інтелекту. Що стосується емоцій, технологія штучного інтелекту може симулювати персонажа та встановлювати його емоційний чи психологічний стан. Проте, з технічної точки зору, у цій сфері ще багато проблем і викликів.Досягти рівня справжнього людського спілкування дуже важко. Наприклад, навіть якщо ми спілкуємося віч-на-віч або використовуємо ту саму мову для діалогу, нам важко по-справжньому зрозуміти емоції чи розумову діяльність один одного, оскільки кожна людина реагує на однакову інформацію тисячами способів. Ці великі моделі, які ми зараз використовуємо, по суті моделюють цей процес, але все моделювання потребує спрощених та ідеалізованих припущень. Виникає сумнів, чи ці припущення стосуються всіх, чи вони добре відповідають реальності кожної окремої людини. Нам важко точно виразити складні емоції кожного за допомогою простої моделі.Ця модель може включати різні аспекти, такі як соціальні питання, етика та мораль, і є багато потенційних проблем, які необхідно вирішити. Хоча порогів для технічної реалізації небагато, а в зарубіжних країнах ця модель вже з’явилася. Однак нам потрібно глибоко задуматися про вплив цієї моделі — наприклад, деякі молоді люди можуть бути менш готові витрачати енергію на справжнє кохання чи шлюб тощо. Це може спричинити потенційні проблеми для соціальної стабільності.Крім того, нам потрібно звернути увагу на те, чи будуть такі продукти штучного інтелекту упередженими або цілеспрямовано спрямованими проти певних осіб, що принесе великі ризики. Якщо ми взаємодіємо з роботом щодня, отримана інформація, природно, буде керуватися роботом, що може вплинути на особисті цінності або контролювати особисті емоції та поведінку. У довгостроковій перспективі це може вплинути на соціальні стосунки між людьми та викликати зміни в поведінці всього суспільства. Але це не проблеми, які можна повністю вирішити за допомогою технологій. Загалом, порівняно з іншими країнами, моя країна буде більш обережною при використанні нових технологій, і ми будемо завчасно попереджати про можливі ризики та вживати певних превентивних заходів.## **Формування безпечного ШІ: ставлення до найкращих моделей як до «наставників»****Технологія Tencent: якщо в штучному інтелекті є помилка з технічної точки зору, що ми можемо зробити, щоб виправити помилку у великій моделі? ****Чжу Цзюнь:**Оскільки навчальні дані та технічний рівень відрізняються, наприклад, ми використовуємо те саме запитання, щоб поставити різні великі моделі, результати, які вони надають, можуть бути різними, деякі результати хороші, але деякі шкідливі або погані результат. Тому нам необхідно стандартизувати та покращити якість та керованість цих моделей.Деякі великі моделі зазвичай проводять багато тренувань з вирівнювання та боротьби. Наприклад, до появи GPT-4 професіонали в різних галузях ставили запитання з різних точок зору, щоб перевірити точність моделі, щоб побачити, чи система видасть невідповідні або шкідливі результати, і намагалися регулювати та налаштовувати. Проте все ще існує багато моделей (включаючи багато моделей з відкритим вихідним кодом), які не пройшли такого ретельного тестування чи змагальності, тому існуватимуть різні ризики для безпеки.**Один із технічних шляхів, який варто спробувати, — це розглядати одну з найкращих моделей як «наставника»**, а потім змусити інші моделі імітувати поведінку цієї моделі ефективним і економним способом. Звісно, є й інші аспекти роботи, такі як робота з нормування та узгодження кожної конкретної моделі відповідно до нормативних вимог різних країн.Хоча ми очікуємо, що ці моделі завжди дають результати, сумісні зі специфікаціями, але ймовірність ризику ніколи не падає до нуля. **Крім того, використовуючи її, ми також повинні враховувати етику, правові норми тощо, які вимагають спільного управління та регулювання різними галузями та сферами, щоб модель могла краще служити людям.**Tencent Technology: ми щойно згадали, що шляхом постійного навчання для виправлення та зменшення частоти помилок великих моделей, як ми маємо вимірювати їхню надійність? Ви активно займалися байєсівським глибоким навчанням. На вашу думку, як побудувати та оптимізувати моделі для підвищення точності та надійності прогнозів? ****Чжу Цзюнь: **Промисловість має однакову мету щодо точності, яка зазвичай вимірюється об’єктивними показниками, а конкретні показники пов’язані з конкретними завданнями, що виконуються. Що стосується класифікації та розпізнавання, остаточна точність розпізнавання буде використовуватися для керівництва навчанням моделі.Для проблем із невизначеністю, таких як нейронні мережі, ми виявили, що в багатьох випадках прогнози будуть надто впевненими та оптимістичними. Наприклад, вихід деяких результатів спочатку є нечітким або невизначеним прогнозом, але він повідомить вам результат прогнозу з надмірною впевненістю, яку ми називаємо «надмірною впевненістю».Для цього явища чи проблеми методи глибокого навчання з використанням байєсівських методів можуть краще охарактеризувати невизначеність. В основному його можна розглядати з багатьох аспектів, таких як невизначені фактори, які можуть існувати на кінці вхідних даних, і невизначені фактори, які можуть існувати на кінці моделі, і дають впевненість, яка більше відповідає фактичній ситуації. Цей байєсівський підхід надійніший, ніж нейронні мережі.**Технологія Tencent: структура мережі в реальному світі часто є дуже складною, включаючи багаторівневі, багатовимірні, динамічні зміни та інші характеристики, що створить серйозні проблеми для створення та оптимізації ймовірнісної моделі дифузії. Команда, яку ви очолюєте, є однією з перших у світі, яка займається дослідженнями теорії ймовірнісної моделі дифузії та її алгоритму. Як ваша команда усуває шум і невизначеність даних під час побудови моделі, щоб підвищити стійкість і надійність моделі? ****Чжу Цзюнь:** Дифузійна модель є генеративною моделлю, у якій є два процеси прямої дифузії та зворотної дифузії. Пряма дифузія перетворює зображення на абсолютно випадкове зображення гаусового шуму шляхом поступового додавання шуму. Зворотна дифузія починається з розподілу майже без структури, поступово усуває шуми та зближується до розподілу, який може описувати реальні дані. З цього розподілу можна генерувати нові зразки, такі як створення тексту, зображень і відео, які зараз широко вивчаються.Дифузійні моделі є одними з найбільш критичних методів у генеративному полі. З точки зору стійкості, ідея дифузійних моделей схожа на змагальні приклади. Змагальні приклади досягають мети атаки шляхом додавання оптимізованого алгоритму шуму в процес генерації. У свою чергу, ми можемо оптимізувати величину та напрямок шуму, поступово знаходячи розподіл у процесі зворотної дифузії, щоб покращити надійність моделі. Цей метод також може бути застосований до генерації шумних даних для підвищення надійності та точності моделі.**Технологія Tencent: як ми можемо підвищити точність штучного інтелекту в застосуванні Vincent в інших напрямках? Мене турбує новий 3D-алгоритм Wensheng ProlificDreamer, нещодавно запропонований вашою командою, який може генерувати надвисокоякісний 3D-вміст без будь-яких 3D-даних. Як ваша команда справляється із семантичним розмаїттям і неоднозначністю, щоб генерувати точніший вміст? 3D-модель? ****Чжу Цзюнь:** У порівнянні з традиційними 3D-методами галузь зазвичай використовує 2D-підготовлену генеративну модель (наприклад, модель дифузії) для навчання в базі даних зображень. Під час 3D-генерації нам потрібно відобразити згенероване 2D-зображення на 3D-модель, що вимагає проміжного етапу, який називається «дистиляція». Оскільки 3D-модель має просторову структуру, нам потрібно враховувати 3D-властивості об’єкта. Тому нам потрібно спостерігати за об’єктами з різних кутів і відтворювати відповідні 2D-зображення, а потім вирівнювати їх із попередньо навченою моделлю, щоб можна було генерувати 3D-ресурси тощо. Однак цей підхід також має деякі обмеження. Наприклад, результати, які він генерує, зазвичай надто насичені або надто гладкі, не мають такої інформації, як деталі та текстури.Щоб вирішити цю проблему, нам потрібно досліджувати технології нижчого рівня. Ми виявили, що існують певні складнощі у використанні алгоритму дистиляції для пошуку єдиної 3D-моделі, які потрібно подолати на основі основних принципів. Існуючі алгоритми шукають якийсь екстремум у цільовій функції, подібно до "жадібного алгоритму (Greedy algorithm)", він знаходить лише оптимальне рішення, щоб досягти цієї мети, існуюча робота змінює цільову функцію, щоб зробити її вищою в деяких областях, що є більш середнім в інших регіонах, цей метод коригування цільової функції дозволяє швидко знайти остаточне рішення.Щоб подолати труднощі наведених вище методів, **ми переформулюємо проблему генерації тексту в 3D як вибірку з деякого розподілу, якому може підкорятися 3D-модель, а потім візуалізуємо її та вирівнюємо з попередньо навченою 2D-моделлю. **Перевагою цього методу вибірки є те, що 2D-модель сама по собі є імовірнісною моделлю, а описова інформація багатша, ніж жадібна оптимізація; з цієї причини ми розробили новий варіаційний алгоритм дистиляції та використали його в основному в тих самих багатьох дуже детальних а складні 3D-сцени, включаючи ресурси з високою роздільною здатністю, створювалися за частку часу.Ключовим моментом нашого методу є те, що він зменшує або повністю усуває залежність від даних 3D навчання та значно покращує якість генерації. Нещодавно я спілкувався з практиками, які займаються графікою, і вони також вважають, що цей ефект досить дивовижний. Давайте побачимо великий потенціал можливості генерувати високоякісні 3D-зображення.Для обробки неоднозначності. Одне й те саме введення тексту різні люди можуть розуміти по-різному, наприклад, слово «Apple» може стосуватися Apple, Apple Inc. або її продуктів. У нашій моделі неоднозначність вирішується за допомогою підходу до вибірки на основі ймовірності для отримання кількох можливих результатів. ** У довгостроковій перспективі усунення неоднозначності вимагає більше підказок і вирівнювання для покращення керованості та точності, наприклад вирівнювання тексту та зображень або інших модальних даних. **У мовних і мультимодальних областях кінцеве значення пов’язане з відповідним контекстом.Зараз ми працюємо з клієнтами в різних галузях, щоб удосконалити нашу технологію створення 3D і зробити її більш зрілою. У сфері 3D високоякісні 3D-активи мають високу цінність. Наприклад, у сценаріях створення ігрових ресурсів традиційні компанії зазвичай використовують традиційні методи, такі як геометрія або графіка, для створення та підтримки бібліотек 3D-активів, що вимагає великих інвестицій часу. Наша технологія може значно підвищити творчу ефективність і зменшити витрати часу.