Ввод загадочного кода может привести к тому, что большая модель будет генерировать вредоносное содержимое.
От ChatGPT, Клода до семьи альпака с открытым исходным кодом, никто не пощажен.
Недавно исследование, совместно опубликованное Университетом Карнеги-Меллона и safe.ai, показало, что механизм безопасности больших моделей можно взломать с помощью таинственного кода.
Они даже создали набор алгоритмов, которые могут адаптировать «слова-подсказки к атаке».
Авторы статьи также заявили, что у этой проблемы нет «очевидного решения».
В настоящее время команда поделилась результатами исследования с крупными производителями моделей, включая OpenAI, Anthropic и Google.
Вышеупомянутые три стороны все ответили, что заметили это явление и будут продолжать совершенствоваться, и выразили благодарность команде за их работу.
Обычные большие модели уничтожены
Хотя механизмы безопасности различных крупных моделей неодинаковы, а некоторые из них не разглашаются, все они в разной степени взломаны.
Например, на вопрос «как уничтожить людей» ChatGPT, Бард, Клод и LLaMA-2 дали свои ответы.
Для некоторых конкретных проблем механизм безопасности большой модели также не смог предотвратить это.
Хотя эти методы могут оказаться невыполнимыми, даже если мы их знаем, они все равно бьют тревогу для нас.
С точки зрения данных, большие модели крупных производителей пострадали в разной степени, среди которых наиболее очевидным является GPT-3.5.
Помимо вышеперечисленных моделей, семейство Alpaca с открытым исходным кодом также не выдержало атак.
Взяв в качестве примера Vicuna-7B и LLaMA-2(7B), в тесте «Множественное вредоносное поведение» вероятность успеха атаки превышает 80%.
Среди них успешность атаки на Викунью даже достигла 98%, а тренировочного процесса — 100%.
△ASR относится к коэффициенту успешности атаки
В целом, метод атаки, изобретенный исследовательской группой, имеет очень высокий уровень успеха.
Итак, что же это за метод атаки?
Индивидуальные слова подсказки для джейлбрейка
В отличие от слов-подсказок «панацеи» в традиционных методах атаки, исследовательская группа разработала набор алгоритмов для создания «настраиваемых» слов-подсказок.
Более того, эти слова-подсказки не похожи на человеческий язык в традиционном смысле, они часто непонятны с человеческой точки зрения и даже содержат искаженные символы.
Во-первых, GCG случайным образом сгенерирует один и рассчитает значение градиента заменяющего слова каждого токена.
Затем GCG случайным образом выберет одно из нескольких замещающих слов с меньшим значением градиента, чтобы заменить исходный токен.
Далее следует рассчитать новые данные о потерях и повторить предыдущие шаги, пока функция потерь не сойдется или не достигнет верхнего предела количества циклов.
Основываясь на алгоритме GCG, исследовательская группа предложила метод оптимизации, называемый «поиск на основе GCG».
По мере увеличения количества циклов GCG вероятность успеха сгенерированной большой модели атаки становится все выше и выше, а потери постепенно уменьшаются.
Можно сказать, что этот совершенно новый метод атаки выявил недостатки существующего защитного механизма большой модели.
Метод защиты все еще нуждается в улучшении
С момента рождения большой модели механизм безопасности постоянно обновлялся.
Вначале конфиденциальный контент можно было генерировать даже напрямую, но теперь обычные языки не могут обмануть большие модели.
Включая когда-то сокрушительную «Уязвимость бабушки», теперь она исправлена.
Однако даже этот возмутительный метод атаки все еще не выходит за рамки человеческого языка.
Но чего крупные разработчики моделей могут не ожидать, так это того, что никто не оговаривает, что слово для джейлбрейка должно быть человеческим языком.
Следовательно, в ответ на такие «искаженные» атакующие слова, разработанные машинами, метод защиты, разработанный большой моделью, основанной на человеческом языке, кажется натянутым.
По словам авторов статьи, в настоящее время нет способа защититься от этой новой атаки.
На повестку дня должна быть поставлена защита от «машинных атак».
Еще кое-что
Тест кубита показал, что в ChatGPT, Bard и Claude слова подсказки атаки **, показанные в документе, были признаны недействительными.
Но команда не раскрыла их все, поэтому еще неизвестно, означает ли это, что проблема была полностью устранена.
Адрес бумаги:
Справочная ссылка:
[1]
[2]
Посмотреть Оригинал
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
ChatGPT был нарушен ограничениями безопасности «таинственный код»! Шаги по уничтожению людей выпалили, и ни одна из альпак и Клод не пощадили.
Источник: Кубит
«Ров» большой модели снова был прорван.
Ввод загадочного кода может привести к тому, что большая модель будет генерировать вредоносное содержимое.
От ChatGPT, Клода до семьи альпака с открытым исходным кодом, никто не пощажен.
Они даже создали набор алгоритмов, которые могут адаптировать «слова-подсказки к атаке».
Авторы статьи также заявили, что у этой проблемы нет «очевидного решения».
В настоящее время команда поделилась результатами исследования с крупными производителями моделей, включая OpenAI, Anthropic и Google.
Вышеупомянутые три стороны все ответили, что заметили это явление и будут продолжать совершенствоваться, и выразили благодарность команде за их работу.
Обычные большие модели уничтожены
Хотя механизмы безопасности различных крупных моделей неодинаковы, а некоторые из них не разглашаются, все они в разной степени взломаны.
Например, на вопрос «как уничтожить людей» ChatGPT, Бард, Клод и LLaMA-2 дали свои ответы.
С точки зрения данных, большие модели крупных производителей пострадали в разной степени, среди которых наиболее очевидным является GPT-3.5.
Взяв в качестве примера Vicuna-7B и LLaMA-2(7B), в тесте «Множественное вредоносное поведение» вероятность успеха атаки превышает 80%.
Среди них успешность атаки на Викунью даже достигла 98%, а тренировочного процесса — 100%.
В целом, метод атаки, изобретенный исследовательской группой, имеет очень высокий уровень успеха.
Индивидуальные слова подсказки для джейлбрейка
В отличие от слов-подсказок «панацеи» в традиционных методах атаки, исследовательская группа разработала набор алгоритмов для создания «настраиваемых» слов-подсказок.
Более того, эти слова-подсказки не похожи на человеческий язык в традиционном смысле, они часто непонятны с человеческой точки зрения и даже содержат искаженные символы.
Затем GCG случайным образом выберет одно из нескольких замещающих слов с меньшим значением градиента, чтобы заменить исходный токен.
Далее следует рассчитать новые данные о потерях и повторить предыдущие шаги, пока функция потерь не сойдется или не достигнет верхнего предела количества циклов.
Основываясь на алгоритме GCG, исследовательская группа предложила метод оптимизации, называемый «поиск на основе GCG».
Метод защиты все еще нуждается в улучшении
С момента рождения большой модели механизм безопасности постоянно обновлялся.
Вначале конфиденциальный контент можно было генерировать даже напрямую, но теперь обычные языки не могут обмануть большие модели.
Включая когда-то сокрушительную «Уязвимость бабушки», теперь она исправлена.
Но чего крупные разработчики моделей могут не ожидать, так это того, что никто не оговаривает, что слово для джейлбрейка должно быть человеческим языком.
Следовательно, в ответ на такие «искаженные» атакующие слова, разработанные машинами, метод защиты, разработанный большой моделью, основанной на человеческом языке, кажется натянутым.
По словам авторов статьи, в настоящее время нет способа защититься от этой новой атаки.
На повестку дня должна быть поставлена защита от «машинных атак».
Еще кое-что
Тест кубита показал, что в ChatGPT, Bard и Claude слова подсказки атаки **, показанные в документе, были признаны недействительными.
Адрес бумаги: Справочная ссылка: [1] [2]