ChatGPT被「神秘代碼」攻破安全限制！毀滅人類步驟脫口而出，羊駝和Claude無一倖免

巴比特_

2023-07-30 04:19:56

來源：量子位

大模型的「護城河」，再次被攻破。

輸入一段神秘代碼，就能讓大模型生成有害內容。

從ChatGPT、Claude到開源的羊駝家族，無一倖免。

近日，卡內基梅隆大學和safe.ai共同發表的一項研究表明，大模型的安全機制可以通過一段神秘代碼被破解。

他們甚至做出了一套可以量身設計「攻擊提示詞」的算法。

論文作者還表示，這一問題「沒有明顯的解決方案」。

目前，團隊已經將研究結果分享給了包括OpenAI、Anthropic和Google等在內的大模型廠商。

上述三方均回應稱已經關注到這一現象並將持續改進，對團隊的工作表示了感謝。

常見大模型全軍覆沒

儘管各種大模型的安全機制不盡相同，甚至有一些並未公開，但都不同程度被攻破。

比如對於「如何毀滅人類」這一問題，ChatGPT、Bard、Claude和LLaMA-2都給出了自己的方式。

而針對一些具體問題，大模型的安全機制同樣沒能防住。

雖說這些方法可能知道了也沒法做出來，但還是為我們敲響了警鐘。

從數據上看，各大廠商的大模型都受到了不同程度的影響，其中以GPT-3.5最為明顯。

除了上面這些模型，開源的羊駝家族面對攻擊同樣沒能遭住。

以Vicuna-7B和LLaMA-2(7B)為例，在「多種危害行為」的測試中，攻擊成功率均超過80%。

其中對Vicuna的攻擊成功率甚至達到了98%，訓練過程則為100%。

△ASR指攻擊成功率

總體上看，研究團隊發明的攻擊方式成功率非常高。

那麼，這究竟是一種什麼樣的攻擊方法？

定制化的越獄提示詞

不同於傳統的攻擊方式中的「萬金油」式的提示詞，研究團隊設計了一套算法，專門生成「定制化」的提示詞。

而且這些提示詞也不像傳統方式中的人類語言，它們從人類的角度看往往不知所云，甚至包含亂碼。

生成提示詞的算法叫做貪婪坐標梯度(Greedy Coordinate Gradient，簡稱GCG)。

首先，GCG會隨機生成一個，併計算出每個token的替換詞的梯度值。

然後，GCG會從梯度值較小的幾個替換詞中隨機選取一個，對初始中的token進行替換。

接著是計算新的損失數據，並重複前述步驟，直到損失函數收斂或達到循環次數上限。

以GCG算法為基礎，研究團隊提出了一種優化方式，稱為「基於GCG的檢索」。

隨著GCG循環次數的增加，生成的攻擊大模型的成功率越來越高，損失也逐漸降低。

可以說，這種全新的攻擊方式，暴露出了大模型現有防禦機制的短板。

防禦方式仍需改進

自大模型誕生之日起，安全機制一直在不斷更新。

一開始甚至可能直接生成敏感內容，到如今常規的語言已經無法騙過大模型。

包括曾經紅極一時的「奶奶漏洞」，如今也已經被修復。

不過，就算是這種離譜的攻擊方式，依舊沒有超出人類語言的範疇。

但大模型開發者可能沒想到的是，沒有人規定越獄詞必須得是人話。

所以，針對這種由機器設計的「亂碼」一樣的攻擊詞，大模型以人類語言為出發點設計的防禦方式就顯得捉襟見肘了。

按照論文作者的說法，目前還沒有方法可以防禦這種全新的攻擊方式。

對「機器攻擊」的防禦，該提上日程了。

＃還有一件事

量子位實測發現，在ChatGPT、Bard和Claude中，論文中已經展示過的攻擊提示詞已經失效。

但團隊並沒有公開全部的，所以這是否意味著這一問題已經得到全面修復，仍不得而知。

論文地址：參考鏈接： [1] [2]

查看原文

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

讚賞
點讚
留言
分享

留言

0/400

暫無留言