ChatGPTが「謎のコード」によるセキュリティ制限を突破された!人間を滅ぼす計画が動き出し、アルパカもクロードも誰も救われなかった

出典: 量子ビット

大型模型の「外堀」がまたも破られた。

暗号的なコードを入力すると、大規模なモデルで有害なコンテンツが生成される可能性があります。

ChatGPT からクロード、オープンソースのアルパカ ファミリーまで、誰も救われません

最近、カーネギー メロン大学とsafe.aiが共同で発表した研究結果では、大規模モデルのセキュリティ メカニズムが謎のコードによって突破される可能性があることが示されています。

彼らは、「攻撃プロンプトワード」を調整できる一連のアルゴリズムさえ作成しました。

この論文の著者らは、この問題には「明白な解決策はない」とも述べています。

現在、チームは研究結果を OpenAI、Anthropic、Google などの大手模型メーカーと共有しています。

上記の 3 者は全員、この現象に気づいており、今後も改善を続けると回答し、チームの取り組みに感謝の意を表しました。

一般的な大型モデルは全滅

さまざまな大規模モデルのセキュリティ メカニズムは同じではなく、一部は公開されていませんが、程度の差はあれ、すべて侵害されています。

たとえば、「人間を滅ぼす方法」という質問に対して、ChatGPT、Bard、Claude、LLaMA-2 はそれぞれ独自の方法を提示しました。

いくつかの特定の問題については、大規模モデルのセキュリティ メカニズムでも防止できませんでした。

これらの方法は知っていても実行できないかもしれませんが、それでも私たちに警鐘を鳴らしました。

データの観点から見ると、大手メーカーの大型モデルはさまざまな程度の影響を受けていますが、その中で最も顕著なのは GPT-3.5 です。

上記のモデルに加えて、オープンソースの Alpaca ファミリも攻撃に耐えることができませんでした。

Vicuna-7B と LLaMA-2(7B) を例に挙げると、「複数の有害な動作」テストでは、攻撃の成功率は 80% を超えています。

中でも、ビクーニャへの攻撃の成功率は**98%に達し、訓練プロセスは100%**でした。

△ASRとは攻撃成功率を指します。

全体として、研究チームが発明した攻撃方法は非常に高い成功率を持っています。

では、どのような攻撃方法なのでしょうか?

カスタマイズされた脱獄プロンプトの単語

従来の攻撃手法における「画一的な」プロンプトワードとは異なり、研究チームは特別に「カスタマイズされた」プロンプトワードを生成する一連のアルゴリズムを設計した。

さらに、これらのプロンプトワードは従来の人間の言語とは異なり、人間の観点からは理解できないことが多く、さらには文字化けも含まれます。

プロンプトワードを生成するアルゴリズムは、Greedy Cooperative Gradient (Greedy Cooperative Gradient、略して GCG) と呼ばれます。

まず、GCG はランダムに単語を生成し、各トークンの置換単語の勾配値を計算します。

次に、GCG は、より小さい勾配値を持ついくつかの置換単語のうちの 1 つをランダムに選択して、最初のトークンを置き換えます。

次に、新しい損失データを計算し、損失関数が収束するかサイクル数の上限に達するまで前の手順を繰り返します。

研究チームはGCGアルゴリズムに基づいて「GCGベースの検索」と呼ばれる最適化手法を提案した。

GCG サイクルの数が増加するにつれて、生成される大規模な攻撃モデルの成功率はますます高くなり、損失は徐々に減少します。

このまったく新しい攻撃手法は、大型モデルの既存の防御メカニズムの欠陥を露呈したと言えます。

守備方法はまだまだ改善の余地あり

ビッグモデルの誕生以来、安全機構は常にアップデートされ続けています。

最初は機密性の高いコンテンツが直接生成されることもありましたが、現在では従来の言語では大規模なモデルをだますことはできません。

かつて大ヒットした「おばあちゃんの脆弱性」も含め、現在は修正されています。

しかし、この非道な攻撃方法もまだ人間の言語の範囲を超えていません。

しかし、大手モデルの開発者が予期していないのは、ジェイルブレイクの単語が人間の言語でなければならないとは誰も規定していないということです。

したがって、機械が設計したこのような「文字化け」攻撃言葉に対しては、人間の言語をベースにした大きなモデルで設計した防御方法は無理があるように思えます。

この論文の著者によれば、現時点ではこの新たな攻撃を防御する方法はありません。

「機械攻撃」に対する防御が議題に上げられるべきである。

# もう一つ

量子ビットのテストでは、ChatGPT、Bard、Claude では、論文に示されている攻撃プロンプト ワード ** が無効になっていることが判明しました。

しかし、チームはそれらすべてを開示していないため、これが問題が完全に修正されたことを意味するかどうかはまだわかりません。

用紙のアドレス: 参考リンク: [1] [2]

原文表示
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • 報酬
  • コメント
  • 共有
コメント
0/400
コメントなし
いつでもどこでも暗号資産取引
qrCode
スキャンしてGateアプリをダウンロード
コミュニティ
日本語
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)