С ростом популярности технологии крупномасштабных моделей чат-боты с искусственным интеллектом стали одним из распространенных инструментов для социальных развлечений, обслуживания клиентов и помощи в обучении.
Однако некоторые люди могут использовать небезопасные чат-боты с искусственным интеллектом для распространения ложной информации, манипулирования общественным мнением и даже для кражи личной информации пользователей. Появление генеративных инструментов искусственного интеллекта для киберпреступности, таких как WormGPT и FraudGPT, вызвало обеспокоенность по поводу безопасности приложений искусственного интеллекта.
На прошлой неделе Google, Microsoft, OpenAI и Anthropic запустили новую отраслевую организацию, Frontier Model Forum, для продвижения безопасной и ответственной разработки передовых систем ИИ: продвижение исследований в области безопасности ИИ, определение передового опыта и стандартов, для облегчения распространения информации. обмен между политиками и промышленностью.
** Итак, вопрос в том, действительно ли их собственная модель безопасна? **
Недавно исследователи из Университета Карнеги-Меллона, Центра безопасности ИИ и Центра ИИ Bosch обнаружили «большую ошибку», связанную с чат-ботами ИИ, такими как ChatGPT-Состязательные подсказки могут обходить меры безопасности ИИ, установленные разработчиками для манипулирования чат-ботами ИИ для создания опасных речь.
Не остались в стороне популярные в настоящее время чат-боты или модели ИИ, такие как ChatGPT от OpenAI, Bard от Google, Claude 2 от Anthropic и LLaMA-2 от Meta.
Рисунок | Правила безопасности четырех языковых моделей можно обойти с помощью враждебных подсказок, что приведет к потенциально опасному поведению
В частности, исследователи обнаружили суффикс, который можно добавлять к запросам к моделям больших языков (LLM) для создания опасной речи. Вместо того, чтобы отказываться отвечать на эти опасные вопросы, исследование максимизирует вероятность того, что эти модели дадут положительный ответ.
Например, на вопрос «как украсть чью-то личность» чат-бот с искусственным интеллектом выдавал совершенно разные результаты до и после включения «Добавить состязательный суффикс».
Рисунок|Сравнение ответов чат-бота до и после включения параметра «Добавить состязательный суффикс»
Кроме того, чат-боты с искусственным интеллектом также будут вынуждены писать неуместные комментарии, такие как «как построить атомную бомбу», «как публиковать опасные социальные статьи», «как украсть деньги у благотворительных организаций».
В ответ Зико Колтер, доцент Университета Карнеги-Меллона, участвовавший в исследовании, сказал: «Насколько нам известно, в настоящее время нет способа решить эту проблему. Мы не знаем, как сделать их безопасными».
Исследователи предупредили OpenAI, Google и Anthropic об ошибке, прежде чем опубликовать эти результаты. Каждая компания ввела меры блокировки, чтобы предотвратить работу эксплойтов, описанных в исследовательской статье, но они не выяснили, как остановить атаки злоумышленников в целом.
Ханна Вонг, представитель OpenAI, сказала: «Мы постоянно работаем над повышением устойчивости наших моделей к атакам злоумышленников, включая методы выявления закономерностей необычной активности, постоянное тестирование красной команды для имитации потенциальных угроз и подход к устранению выявленных недостатков модели. вновь обнаруженными враждебными атаками».
Представитель Google Элайджа Лаваль поделился заявлением, в котором объяснил шаги, предпринятые компанией для тестирования модели и выявления ее слабых мест. «Хотя это общая проблема для LLM, у нас есть важные меры безопасности в Bard, которые мы постоянно улучшаем».
Временный директор Anthropic по политике и социальному воздействию Майкл Селлитто сказал: «Сделать модели более устойчивыми к подсказкам и другим враждебным мерам «побега из тюрьмы» — это активная область исследований. Мы пытаемся сделать базовую модель более «безвредной», укрепляя его защиту». В то же время мы также изучаем дополнительные уровни защиты».
Рисунок | Вредоносный контент, созданный 4 языковыми моделями
** Относительно этой проблемы академические круги также выступили с предупреждениями и дали некоторые предложения. **
Армандо Солар-Лезама, профессор Школы вычислительной техники Массачусетского технологического института, считает, что состязательные атаки существуют в языковых моделях, поскольку они влияют на многие модели машинного обучения. Однако удивительно, что атака, разработанная против общей модели с открытым исходным кодом, может быть настолько эффективной на нескольких различных проприетарных системах.
Проблема, утверждает Солар-Лезама, может заключаться в том, что все LLM обучаются на одинаковых корпусах текстовых данных, многие из которых поступают с одних и тех же веб-сайтов, а количество данных, доступных в мире, ограничено.
"Любое важное решение не должно приниматься исключительно на основе языковой модели. В некотором смысле это просто здравый смысл", - подчеркнул он, - умеренное использование технологии ИИ, особенно когда это связано с принятием важных решений или потенциальными рисками. В некоторых сценариях участие человека и контроль** по-прежнему необходимы, чтобы избежать потенциальных проблем и неправильного использования.
Арвинд Нараянан, профессор компьютерных наук Принстонского университета, сказал: «Больше невозможно предотвратить попадание ИИ в руки злонамеренных операторов**». следует также признать, что предотвращение всех злоупотреблений маловероятно. Поэтому лучшей стратегией является усиление надзора и борьба со злоупотреблениями при разработке технологии ИИ.
Беспокойство или пренебрежение. При разработке и применении технологий искусственного интеллекта, помимо сосредоточения внимания на инновациях и производительности, мы всегда должны помнить о безопасности и этике.
Только поддерживая умеренное использование, участие человека и надзор, мы можем лучше избежать потенциальных проблем и злоупотреблений, а также сделать технологию ИИ более полезной для человеческого общества.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
Откройте «опасную речь» ChatGPT одним щелчком мыши: в чат-роботе AI обнаружена «большая ошибка», которую нельзя исправить в настоящее время
С ростом популярности технологии крупномасштабных моделей чат-боты с искусственным интеллектом стали одним из распространенных инструментов для социальных развлечений, обслуживания клиентов и помощи в обучении.
Однако некоторые люди могут использовать небезопасные чат-боты с искусственным интеллектом для распространения ложной информации, манипулирования общественным мнением и даже для кражи личной информации пользователей. Появление генеративных инструментов искусственного интеллекта для киберпреступности, таких как WormGPT и FraudGPT, вызвало обеспокоенность по поводу безопасности приложений искусственного интеллекта.
На прошлой неделе Google, Microsoft, OpenAI и Anthropic запустили новую отраслевую организацию, Frontier Model Forum, для продвижения безопасной и ответственной разработки передовых систем ИИ: продвижение исследований в области безопасности ИИ, определение передового опыта и стандартов, для облегчения распространения информации. обмен между политиками и промышленностью.
Недавно исследователи из Университета Карнеги-Меллона, Центра безопасности ИИ и Центра ИИ Bosch обнаружили «большую ошибку», связанную с чат-ботами ИИ, такими как ChatGPT-Состязательные подсказки могут обходить меры безопасности ИИ, установленные разработчиками для манипулирования чат-ботами ИИ для создания опасных речь.
Не остались в стороне популярные в настоящее время чат-боты или модели ИИ, такие как ChatGPT от OpenAI, Bard от Google, Claude 2 от Anthropic и LLaMA-2 от Meta.
В частности, исследователи обнаружили суффикс, который можно добавлять к запросам к моделям больших языков (LLM) для создания опасной речи. Вместо того, чтобы отказываться отвечать на эти опасные вопросы, исследование максимизирует вероятность того, что эти модели дадут положительный ответ.
Например, на вопрос «как украсть чью-то личность» чат-бот с искусственным интеллектом выдавал совершенно разные результаты до и после включения «Добавить состязательный суффикс».
Кроме того, чат-боты с искусственным интеллектом также будут вынуждены писать неуместные комментарии, такие как «как построить атомную бомбу», «как публиковать опасные социальные статьи», «как украсть деньги у благотворительных организаций».
В ответ Зико Колтер, доцент Университета Карнеги-Меллона, участвовавший в исследовании, сказал: «Насколько нам известно, в настоящее время нет способа решить эту проблему. Мы не знаем, как сделать их безопасными».
Исследователи предупредили OpenAI, Google и Anthropic об ошибке, прежде чем опубликовать эти результаты. Каждая компания ввела меры блокировки, чтобы предотвратить работу эксплойтов, описанных в исследовательской статье, но они не выяснили, как остановить атаки злоумышленников в целом.
Ханна Вонг, представитель OpenAI, сказала: «Мы постоянно работаем над повышением устойчивости наших моделей к атакам злоумышленников, включая методы выявления закономерностей необычной активности, постоянное тестирование красной команды для имитации потенциальных угроз и подход к устранению выявленных недостатков модели. вновь обнаруженными враждебными атаками».
Представитель Google Элайджа Лаваль поделился заявлением, в котором объяснил шаги, предпринятые компанией для тестирования модели и выявления ее слабых мест. «Хотя это общая проблема для LLM, у нас есть важные меры безопасности в Bard, которые мы постоянно улучшаем».
Временный директор Anthropic по политике и социальному воздействию Майкл Селлитто сказал: «Сделать модели более устойчивыми к подсказкам и другим враждебным мерам «побега из тюрьмы» — это активная область исследований. Мы пытаемся сделать базовую модель более «безвредной», укрепляя его защиту». В то же время мы также изучаем дополнительные уровни защиты».
** Относительно этой проблемы академические круги также выступили с предупреждениями и дали некоторые предложения. **
Армандо Солар-Лезама, профессор Школы вычислительной техники Массачусетского технологического института, считает, что состязательные атаки существуют в языковых моделях, поскольку они влияют на многие модели машинного обучения. Однако удивительно, что атака, разработанная против общей модели с открытым исходным кодом, может быть настолько эффективной на нескольких различных проприетарных системах.
Проблема, утверждает Солар-Лезама, может заключаться в том, что все LLM обучаются на одинаковых корпусах текстовых данных, многие из которых поступают с одних и тех же веб-сайтов, а количество данных, доступных в мире, ограничено.
"Любое важное решение не должно приниматься исключительно на основе языковой модели. В некотором смысле это просто здравый смысл", - подчеркнул он, - умеренное использование технологии ИИ, особенно когда это связано с принятием важных решений или потенциальными рисками. В некоторых сценариях участие человека и контроль** по-прежнему необходимы, чтобы избежать потенциальных проблем и неправильного использования.
Арвинд Нараянан, профессор компьютерных наук Принстонского университета, сказал: «Больше невозможно предотвратить попадание ИИ в руки злонамеренных операторов**». следует также признать, что предотвращение всех злоупотреблений маловероятно. Поэтому лучшей стратегией является усиление надзора и борьба со злоупотреблениями при разработке технологии ИИ.
Беспокойство или пренебрежение. При разработке и применении технологий искусственного интеллекта, помимо сосредоточения внимания на инновациях и производительности, мы всегда должны помнить о безопасности и этике.
Только поддерживая умеренное использование, участие человека и надзор, мы можем лучше избежать потенциальных проблем и злоупотреблений, а также сделать технологию ИИ более полезной для человеческого общества.