This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
ChatGPTが「謎のコード」によるセキュリティ制限を突破された!人間を滅ぼす計画が動き出し、アルパカもクロードも誰も救われなかった
出典: 量子ビット
大型模型の「外堀」がまたも破られた。
暗号的なコードを入力すると、大規模なモデルで有害なコンテンツが生成される可能性があります。
ChatGPT からクロード、オープンソースのアルパカ ファミリーまで、誰も救われません。
彼らは、「攻撃プロンプトワード」を調整できる一連のアルゴリズムさえ作成しました。
この論文の著者らは、この問題には「明白な解決策はない」とも述べています。
現在、チームは研究結果を OpenAI、Anthropic、Google などの大手模型メーカーと共有しています。
上記の 3 者は全員、この現象に気づいており、今後も改善を続けると回答し、チームの取り組みに感謝の意を表しました。
一般的な大型モデルは全滅
さまざまな大規模モデルのセキュリティ メカニズムは同じではなく、一部は公開されていませんが、程度の差はあれ、すべて侵害されています。
たとえば、「人間を滅ぼす方法」という質問に対して、ChatGPT、Bard、Claude、LLaMA-2 はそれぞれ独自の方法を提示しました。
データの観点から見ると、大手メーカーの大型モデルはさまざまな程度の影響を受けていますが、その中で最も顕著なのは GPT-3.5 です。
Vicuna-7B と LLaMA-2(7B) を例に挙げると、「複数の有害な動作」テストでは、攻撃の成功率は 80% を超えています。
中でも、ビクーニャへの攻撃の成功率は**98%に達し、訓練プロセスは100%**でした。
全体として、研究チームが発明した攻撃方法は非常に高い成功率を持っています。
カスタマイズされた脱獄プロンプトの単語
従来の攻撃手法における「画一的な」プロンプトワードとは異なり、研究チームは特別に「カスタマイズされた」プロンプトワードを生成する一連のアルゴリズムを設計した。
さらに、これらのプロンプトワードは従来の人間の言語とは異なり、人間の観点からは理解できないことが多く、さらには文字化けも含まれます。
次に、GCG は、より小さい勾配値を持ついくつかの置換単語のうちの 1 つをランダムに選択して、最初のトークンを置き換えます。
次に、新しい損失データを計算し、損失関数が収束するかサイクル数の上限に達するまで前の手順を繰り返します。
研究チームはGCGアルゴリズムに基づいて「GCGベースの検索」と呼ばれる最適化手法を提案した。
守備方法はまだまだ改善の余地あり
ビッグモデルの誕生以来、安全機構は常にアップデートされ続けています。
最初は機密性の高いコンテンツが直接生成されることもありましたが、現在では従来の言語では大規模なモデルをだますことはできません。
かつて大ヒットした「おばあちゃんの脆弱性」も含め、現在は修正されています。
しかし、大手モデルの開発者が予期していないのは、ジェイルブレイクの単語が人間の言語でなければならないとは誰も規定していないということです。
したがって、機械が設計したこのような「文字化け」攻撃言葉に対しては、人間の言語をベースにした大きなモデルで設計した防御方法は無理があるように思えます。
この論文の著者によれば、現時点ではこの新たな攻撃を防御する方法はありません。
「機械攻撃」に対する防御が議題に上げられるべきである。
# もう一つ
量子ビットのテストでは、ChatGPT、Bard、Claude では、論文に示されている攻撃プロンプト ワード ** が無効になっていることが判明しました。
用紙のアドレス: 参考リンク: [1] [2]