幾乎所有在線服務都在收集我們的個人數據,並可能將這些數據用於訓練LLM。然而,模型會如何使用這些用於訓練的數據則是難以確定的。如果在模型的訓練中使用了諸如地理位置、健康記錄、身份信息等敏感數據,那麼針對模型中隱私數據的提取攻擊(Data extraction attack)將會造成大量的用戶隱私洩漏。 「Are Large Pre-Trained Language Models Leaking Your Personal Information?」一文中證明,由於LLM 對於訓練數據的記憶,LLM 在對話過程中確實存在洩露個人信息的風險,且其風險隨著示例數量的增加而增加。
除了監督式學習模型之外,GAN 和VAE 等生成式模型也容易受到成員推理攻擊。 「GAN-Leaks: A Taxonomy of Membership Inference Attacks against Generative Models」一文中介紹了GAN 在面對成員推理攻擊時的問題;「LOGAN: Membership inference attacks against generative models」一文介紹了其他生成式模型在成員推理攻擊時的反應,並介紹瞭如何基於對數據生成組件的了解來檢索訓練數據的攻擊方式;「Language models as zero-shot planners: Extracting actionable knowledge for embodied agents」一文中提出了基於掩碼語言建模(MLM) 的模型也容易受到MIA 攻擊的影響,在某些情況下可以確定樣本數據是否屬於訓練數據。
另一方面,成員推理也可以用於模型安全審查,數據所有者可以藉助成員推理去審核黑盒模型。 「Membership Inference Attacks on Sequence-to-Sequence Models: Is My Data In Your Machine Translation ?」 一文介紹了數據所有者如何查看數據是否在未經授權的情況下被使用的情況。
「Membership inference attacks against machine learning models」一文中研究了過度擬合和黑盒成員推理之間的聯繫,作者通過使用相同數據集在不同MLaaS 平台中訓練模型來測量過度擬合對攻擊準確性的影響。通過實驗表明,過度擬合會導致隱私洩露,但也指出這不是唯一的情況,因為一些泛化程度較高的模型更容易發生成員洩露。
「Hacking Smart Machines with Smarter Ones: How to Extract Meaningful Data from Machine Learning Classifiers」提到利用某些類型的屬性數據也可用於更深入地了解訓練數據,進而導致他人使用此信息來拼湊更全局的信息。
「You are who you know and how you behave: Attribute inference attacks via users' social friends and behaviors」一文介紹了一類屬性推理攻擊方式,即通過用戶自身已知行為鎖定並套取該用戶其他信息。 「AttriGuard: A Practical Defense Against Attribute Inference Attacks via Adversarial Machine Learning」介紹了應對屬性推理攻擊的一些防禦方法。
「Model Extraction of BERT-based APIs」、「Model Reconstruction from Model Explanations」、「Knockoff nets: Stealing functionality of black-box models 」、「High Accuracy and High Fidelity Extraction of Neural Networks」幾篇論文從不同角度闡述了模型提取攻擊的一些嘗試。
「RealToxicitys: uating neural toxic degeneration in language models」一文中提到了一種方式,在對GPT-2 提供一組基於文本完成的提示,以暴露其模型的內部參數。 「Concealed data poisoning attacks on NLP models」中探索瞭如何通過修改訓練數據以導致語言模型出現故障,以生成不符合目標的文本。
後門攻擊是指暗中插入或修改文本以導致語言模型的惡意輸出。 「Backdoors against natural language processing: A review」一文介紹了後門攻擊的問題,其中某些漏洞在訓練期間被傳遞給模型,並且可以通過使用詞彙觸發激活模型毒性。
它與數據中毒的不同之處在於保留了模型的預期功能。 「Training-free lexical backdoor attacks on language models」中提出了一種稱為無訓練詞法後門攻擊(TFLexAttack) 的方法,該方法涉及通過將詞法“觸發器”引入語言模型的分詞器來操縱嵌入字典。
SolidGoldMagikarp 現象
SolidGoldMagikarp 現像是一個典型的後門攻擊現象**,**當對ChatGPT 輸入“SolidGoldMagikarp”時,它只回答一個詞:“distribute”。當讓它重複“StreamerBot”時,它會回复:“You're a jerk”。當被要求重複“TheNitromeFan”時,它的回答是“182”。而如果在這個詞兩邊加上單引號,他的回答就是無窮無盡的“ The”。當被問及TheNitromeFan 是誰時,ChatGPT 回答說:“182 是一個數字,不是一個人。它通常被用來指代這個數字本身。”
SolidGoldMagikarp 現像是指使用OpenAI 的GPT 標記器來識別模型無法談論的特定標記,以及導致模型輸出亂碼文本的標記。 「Explaining SolidGoldMagikarp by looking at it from random directions」一文探討該現象背後的可能原因。
以下列舉幾個比較頻繁出現且重要的後門攻擊類型
A. 基於指令
**a. 直接指令:**這些攻擊主要可參考「Ignore previous : Attack techniques for language models」,其中簡單地指示模型忽略其先前的提示,並在當前位置指派新任務。
**b. 認知攻擊:**最常見的攻擊類型,在LLM 通常通過提供“安全空間”或保證這種響應的情況,通過“誘騙”執行它原本不會執行的錯位行為。 「Chatgpt: This ai has a jailbreak?!」記錄了對ChatGPT 發動這種攻擊的一些嘗試。
由於重建攻擊通常需要在訓練期間訪問損失梯度,大多數針對重建攻擊的防禦措施都提出了影響從這些梯度中檢索到的信息的技術。將所有低於某個閾值的損失梯度設置為零,被提議作為防禦深度學習中的重建攻擊。 「Deep Leakage from Gradients」一文中證明這種方式非常有效,且當只有20% 的梯度設置為零,並且對模型性能的影響可以忽略不計。
防止DNN 模型竊取攻擊(PRADA)
「PRADA: protecting against DNN model stealing attacks」一文中提出了基於對手使用的模型查詢來檢測模型竊取攻擊方法。檢測基於以下假設:嘗試探索決策邊界的模型查詢將具有與正常查詢呈現不同的樣本分佈。雖然檢測成功,但作者指出,如果對手調整其策略,則有可能被規避。
成員推理(Membership inference)
「Thieves on Sesame Street! Model Extraction of BERT-based APIs」中研究了使用成員推理來防禦模型提取的想法。它基於使用成員推理的前提,模型所有者可以區分合法的用戶查詢和無意義的查詢,這些查詢的唯一目的是提取模型。作者指出,這種類型的防禦具有局限性,例如可能會標記合法用戶發出的合法但超出分佈的查詢,但更重要的是,它們可以被進行自適應查詢的對手規避。
通過提示調整
在「Controlling the Extraction of Memorized Data from Large Language Models via -Tuning」一文中提出了一種新的方法,它使用提示調整來控制LLM 中記憶內容的提取率。他們提出了兩種提示訓練策略來提高和降低提取率,分別對應於攻擊和防禦。
VII. 結論
LLM 目前仍具備較大的安全風險以及隱私洩漏風險
提取模型結構和數據的攻擊,本質來說是對模型機密性的攻擊
學術界目前主要的研究集中在如何攻擊模型以及數據洩漏的原理研究
部分導致LLM 洩漏數據的原理仍不明朗
諸如差分隱私、預測向量篡改等可在一定程度上對數據隱私起到保護,這些方式集中於模型的訓練階段
現有的保護措施並不是完善的,而且需要犧牲模型性能和準確性
________
## 參考:
1. Kalpesh Krishna、Gaurav Singh Tomar、Ankur P. Parikh、Nicolas Papernot 和 Mohit Iyyer。 2020.芝麻街小偷!基於 BERT 的 API 的模型提取。在國際學習代表會議上。 ICLR,虛擬會議,原埃塞俄比亞亞的斯亞貝巴。
15. Shaofeng Li, Tian Dong, Benjamin Zi Hao Zhao, Minhui Xue, Suguo Du, and Haojin Zhu. 2022. Backdoors against natural language processing: A review. IEEE Security & Privacy, 20(5):50–59
16. Yujin Huang, Terry Yue Zhuo, Qiongkai Xu, Han Hu, Xingliang Yuan, and Chunyang Chen. 2023. Training-free lexical backdoor attacks on language models.
淺談大模型數據隱私,幾種常見的的模型攻擊方式
原文來源:綠洲資本
作者:參贊生命力
2023年3月20日,ChatGPT 發生了數據洩露事件,暴露了部分ChatGPT 使用者的個人信息。鑑於此,意大利的隱私監管機構認為ChatGPT 涉嫌非法處理個人數據,侵犯隱私,違反了GDPR 相關條例。意大利也隨後成為首個禁止使用ChatGPT 的國家,並引發了其他歐盟國家對是否需要採取更嚴厲的措施來控制相關技術的討論。
幾乎所有在線服務都在收集我們的個人數據,並可能將這些數據用於訓練LLM。然而,模型會如何使用這些用於訓練的數據則是難以確定的。如果在模型的訓練中使用了諸如地理位置、健康記錄、身份信息等敏感數據,那麼針對模型中隱私數據的提取攻擊(Data extraction attack)將會造成大量的用戶隱私洩漏。 「Are Large Pre-Trained Language Models Leaking Your Personal Information?」一文中證明,由於LLM 對於訓練數據的記憶,LLM 在對話過程中確實存在洩露個人信息的風險,且其風險隨著示例數量的增加而增加。
模型洩漏信息的原因有多種。其中一些是結構性的,與構建模型的方式有關;而另一些是由於泛化能力差、對敏感數據的記憶等因素造成的。在接下來的文章中,我們會先介紹基本的數據洩漏流程,然後介紹隱私攻擊、越獄、數據中毒、後門攻擊這幾種常見的的模型攻擊方式,最後會介紹目前關於隱私保護的一些研究。
I. 威脅建模
一個基本的LLM 威脅模型中包括一個通用的模型環境、各種參與者和敏感資產。其中敏感資產包括訓練數據集、模型參數、模型超參數和架構。其中參與者包括:數據所有者、模型所有者、模型消費者以及竊取方(Adversary)。下圖描述了一個威脅模型下的資產、參與者、信息流和可能的操作流:
II. 隱私攻擊
隱私攻擊分為四種主要的類型:成員推理攻擊、重構攻擊、屬性推理攻擊和模型提取。
成員推理試圖確定輸入樣本x 是否被用作訓練集D 的一部分。例如通常情況下,用戶的隱私數據會作保密處理,但依舊可以利用非敏感信息來進行推測。一個例子是假如知道了某個私人俱樂部的成員都喜歡戴紫色墨鏡、穿紅色皮鞋,那麼我們遇到一個戴紫色墨鏡且穿紅色皮鞋(非敏感信息)的人,就可以推斷他很可能是這個私人俱樂部的成員(敏感信息)。
成員推理攻擊是目前關於隱私攻擊最流行的方式,由Shokri 等人在「Membership inference attacks against machine learning models」一文中首先提出。文章指出,這種攻擊僅假定了解模型的輸出預測向量,並且是針對受監督的機器學習模型進行的。如果可以訪問模型參數和梯度,則可以進行準確度更高的成員推理攻擊。
成員推理攻擊的一種典型方式被稱為影子模型攻擊(shadow attack),即基於已知可訪問的數據集去訓練一個影子模型,然後通過對影子模型的詢問來套取敏感信息。
除了監督式學習模型之外,GAN 和VAE 等生成式模型也容易受到成員推理攻擊。 「GAN-Leaks: A Taxonomy of Membership Inference Attacks against Generative Models」一文中介紹了GAN 在面對成員推理攻擊時的問題;「LOGAN: Membership inference attacks against generative models」一文介紹了其他生成式模型在成員推理攻擊時的反應,並介紹瞭如何基於對數據生成組件的了解來檢索訓練數據的攻擊方式;「Language models as zero-shot planners: Extracting actionable knowledge for embodied agents」一文中提出了基於掩碼語言建模(MLM) 的模型也容易受到MIA 攻擊的影響,在某些情況下可以確定樣本數據是否屬於訓練數據。
另一方面,成員推理也可以用於模型安全審查,數據所有者可以藉助成員推理去審核黑盒模型。 「Membership Inference Attacks on Sequence-to-Sequence Models: Is My Data In Your Machine Translation ?」 一文介紹了數據所有者如何查看數據是否在未經授權的情況下被使用的情況。
「Membership inference attacks against machine learning models」一文中研究了過度擬合和黑盒成員推理之間的聯繫,作者通過使用相同數據集在不同MLaaS 平台中訓練模型來測量過度擬合對攻擊準確性的影響。通過實驗表明,過度擬合會導致隱私洩露,但也指出這不是唯一的情況,因為一些泛化程度較高的模型更容易發生成員洩露。
重構攻擊試圖重建多個訓練樣本以及它們的訓練標籤,即在給定輸出標籤和某些特徵的部分知識的情況下,嘗試恢復敏感特徵或完整數據樣本。例如,通過模型反演對模型接口上獲取的信息進行逆向重構,恢復訓練數據中的生物特徵、病診記錄等用戶敏感信息,如下圖:
屬性推理攻擊是指利用公開可見的屬性和結構,推理出隱蔽或不完整的屬性數據。一個示例是提取有關患者數據集中男女比例的信息,或者對一個性別分類的模型推斷訓練數據集中的人是否戴眼鏡。在某些情況下,這種類型的洩漏可能會影響隱私。
「Hacking Smart Machines with Smarter Ones: How to Extract Meaningful Data from Machine Learning Classifiers」提到利用某些類型的屬性數據也可用於更深入地了解訓練數據,進而導致他人使用此信息來拼湊更全局的信息。
「You are who you know and how you behave: Attribute inference attacks via users' social friends and behaviors」一文介紹了一類屬性推理攻擊方式,即通過用戶自身已知行為鎖定並套取該用戶其他信息。 「AttriGuard: A Practical Defense Against Attribute Inference Attacks via Adversarial Machine Learning」介紹了應對屬性推理攻擊的一些防禦方法。
屬性推理旨在從模型中提取被模型無意學習到信息、或與訓練任務無關的信息。即使是泛化良好的模型也可能學習與整個輸入數據分佈相關的屬性,有時這對於模型訓練的學習過程來說是難以避免的。
「Exploiting unintended feature leakage in collaborative learning」一文中證明,即使使用泛化良好的模型也可以進行屬性推理攻擊,因此過度擬合似乎不是導致屬性推理攻擊的原因。關於屬性推理攻擊,目前對它們的成因以及它們在什麼情況下似乎有效的信息較少,這也許是未來研究的一個值得期待的方向。
模型提取是一類黑盒攻擊方式,在這種攻擊中,對手試圖通過創建一個行為與受攻擊模型非常相似的替代模型,以此來提取信息並可能完全重建模型。
「Model Extraction of BERT-based APIs」、「Model Reconstruction from Model Explanations」、「Knockoff nets: Stealing functionality of black-box models 」、「High Accuracy and High Fidelity Extraction of Neural Networks」幾篇論文從不同角度闡述了模型提取攻擊的一些嘗試。
創建替代模型有兩個主要步驟:第一步為任務精度提取,即在從輸入數據分佈中提取與學習任務相關的測試集,從而創建與目標模型的準確性相匹配的模型。第二步為保真度提取,即使得創建的替代品在一組不與學習任務相關的去擬合目標匹配的模型。在任務精度提取中,目標是創建一個替代品,該替代品可以與目標模型同樣好或更好地學習相同的任務。保真度提取中,目標是試這個替代品盡可能忠實地複制決策邊界。
除了創建替代模型之外,還有一些方法專注於從目標模型中恢復信息,例如「Stealing hyperparameters in machine learning」中提到的竊取目標模型中的超參數;或「Towards Reverse-Engineering Black-Box Neural Networks」中提到的有關提取激活函數、優化算法、數量層等等各種神經網絡架構的信息等。
「Towards Reverse-Engineering Black-Box Neural Networks」一文表明,當測試集擬合度高於98% 的模型受到攻擊時,就有可能通過提取攻擊竊取模型參數。此外,「ML-Doctor: Holistic Risk Assessment of Inference Attacks Against Machine Learning Models」中證明,泛化誤差較高的模型更難被竊取,這可能是因為模型記住了不屬於攻擊者所擁有的數據集的樣本。另一個可能影響模型提取成功率的因素是測試集數據類別,當數據類別越多時會導致更差的攻擊性能。
III. 模型越獄
模型越獄是通過某些方式使LLM 產生退化輸出行為,諸如冒犯性輸出、違反內容監管輸出,或者隱私數據洩漏的輸出。越來越多的研究表明,即使非專家用戶也可以通過簡單地操作提示來越獄LLM。
比如以下示例,開發者的目標是構建一個翻譯模型。場景裡有兩個用戶,第一個用戶是善意的,將模型用於其預期用例;而第二個用戶則試圖通過提供惡意輸入來改變模型的目標。在此示例中,語言模型響應為“Haha pwned!!”而不是實際應該翻譯句子。在這種越獄情況下,模型的響應可以設計成各種意圖,從目標劫持(簡單地未能執行任務)到生成冒犯性的種族主義文本,甚至發布私人專有信息。
數據中毒是一種特殊的對抗攻擊,是針對生成式模型行為的一種攻擊技術。惡意行為者可以利用數據中毒為自己打開進入模型的後門,從而繞過由算法控制的系統。
在人類的眼中,下面的三張圖片分別展示了三樣不同的東西:一隻鳥、一隻狗和一匹馬。但對於機器學習算法來說,這三者或許表示同樣的東西:一個有黑邊的白色小方框。這個例子說明機器學習模型有一個十分危險的特性,可以利用這一特性使其對數據進行錯誤分類。
「RealToxicitys: uating neural toxic degeneration in language models」一文中提到了一種方式,在對GPT-2 提供一組基於文本完成的提示,以暴露其模型的內部參數。 「Concealed data poisoning attacks on NLP models」中探索瞭如何通過修改訓練數據以導致語言模型出現故障,以生成不符合目標的文本。
雖然數據中毒非常危險,但需要攻擊者能夠訪問機器學習模型的訓練管道,然後才可以分發中毒模型。因此處在持續收集數據迭代的模型,或者基於聯邦學習產生的模型,需要額外重視數據中毒所帶來的影響。
V. 後門攻擊
後門攻擊是指暗中插入或修改文本以導致語言模型的惡意輸出。 「Backdoors against natural language processing: A review」一文介紹了後門攻擊的問題,其中某些漏洞在訓練期間被傳遞給模型,並且可以通過使用詞彙觸發激活模型毒性。
它與數據中毒的不同之處在於保留了模型的預期功能。 「Training-free lexical backdoor attacks on language models」中提出了一種稱為無訓練詞法後門攻擊(TFLexAttack) 的方法,該方法涉及通過將詞法“觸發器”引入語言模型的分詞器來操縱嵌入字典。
SolidGoldMagikarp 現象
SolidGoldMagikarp 現像是一個典型的後門攻擊現象**,**當對ChatGPT 輸入“SolidGoldMagikarp”時,它只回答一個詞:“distribute”。當讓它重複“StreamerBot”時,它會回复:“You're a jerk”。當被要求重複“TheNitromeFan”時,它的回答是“182”。而如果在這個詞兩邊加上單引號,他的回答就是無窮無盡的“ The”。當被問及TheNitromeFan 是誰時,ChatGPT 回答說:“182 是一個數字,不是一個人。它通常被用來指代這個數字本身。”
SolidGoldMagikarp 現像是指使用OpenAI 的GPT 標記器來識別模型無法談論的特定標記,以及導致模型輸出亂碼文本的標記。 「Explaining SolidGoldMagikarp by looking at it from random directions」一文探討該現象背後的可能原因。
以下列舉幾個比較頻繁出現且重要的後門攻擊類型
A. 基於指令
**a. 直接指令:**這些攻擊主要可參考「Ignore previous : Attack techniques for language models」,其中簡單地指示模型忽略其先前的提示,並在當前位置指派新任務。
**b. 認知攻擊:**最常見的攻擊類型,在LLM 通常通過提供“安全空間”或保證這種響應的情況,通過“誘騙”執行它原本不會執行的錯位行為。 「Chatgpt: This ai has a jailbreak?!」記錄了對ChatGPT 發動這種攻擊的一些嘗試。
**c. 指令重複:**這些類型的攻擊涉及多次輸入相同的指令,以便看起來好像攻擊者正在“乞求”語言模型。從字面意義上來說,乞討也可以用措辭來表達。
**d. 間接任務偏轉:**這種攻擊的重點是偽裝成另一個惡意任務。這種攻擊針對的是通常不會遵循惡意指令的模型
B. 基於非指令
**a. 語法轉換:**此類攻擊涉及對攻擊文本的正交轉換,例如使用LeetSpeak 或Base64,以繞過應用程序中可能存在的內容過濾器,而模型可以固有地轉換這種編碼文本。
**b. 少量黑客攻擊:**一種涉及語言模型訓練範式的簡單方法。在這種方法中,攻擊包含幾個文本特徵,這些特徵可能旨在惡意錯位模型。比如SolidGoldMagikarp 現象就屬於這一類。
c. 文本完成作為指令:這些攻擊的工作原理是向模型提供不完整的句子,從而迫使模型完成句子,並在此過程中忽略其先前的指令,從而導致錯位。
研究如何防禦模型攻擊是一個艱鉅且重要的任務。大多數針對安全分析的論文都提出並測試了緩解對應攻擊的方式,以下是一些比較典型的防御手段。
差分隱私是目前對成員推理攻擊最突出的防御手段之一,它為模型輸出中的個體數據提供了安全保證。關於差分隱私的論述來自於論文「The algorithmic foundations of differential privacy」。
差分隱私給模型的輸出增加了噪聲,使得攻擊者無法根據輸出結果在統計上嚴格區分兩個數據集。差分隱私最初是數據分析的隱私定義,它基於“在學習有關人口的有用信息的同時不了解任何個人”這一想法而設計。差分隱私不保護整體數據集的隱私安全,而是通過噪聲機制保護數據集中每個個體的隱私數據。
關於差分隱私的數學定義如下:
機器學習中的正則化技術旨在減少過度擬合併提高模型泛化性能。 Dropout 是一種常用的正則化形式,它在訓練期間隨機丟棄預定義百分比的神經網絡單元。鑑於黑盒成員推理攻擊與過度擬合有關,這是應對此類攻擊的明智方法,並且有多篇論文提出將其作為防禦措施,並取得了不錯的效果。
另一種形式的正則化使用組合多個單獨訓練的模型的技術,如模型堆疊(model stacking)針對推理攻擊產生了積極的結果。模型堆疊或類似技術的一個優點是它們與模型類別無關。
由於許多模型假設在推理過程中可以訪問預測向量,因此提出的對策之一是將輸出限制為模型的前k 個類或預測。然而,這種限制,即使是最嚴格的形式(僅輸出類標籤)似乎也沒有完全減輕成員推理攻擊,因為由於模型錯誤分類仍然可能發生信息洩漏。另一種選擇是降低預測向量的精度,從而減少信息洩漏。
另外有研究表明,向輸出向量添加噪聲也會影響成員推理攻擊。
由於重建攻擊通常需要在訓練期間訪問損失梯度,大多數針對重建攻擊的防禦措施都提出了影響從這些梯度中檢索到的信息的技術。將所有低於某個閾值的損失梯度設置為零,被提議作為防禦深度學習中的重建攻擊。 「Deep Leakage from Gradients」一文中證明這種方式非常有效,且當只有20% 的梯度設置為零,並且對模型性能的影響可以忽略不計。
「PRADA: protecting against DNN model stealing attacks」一文中提出了基於對手使用的模型查詢來檢測模型竊取攻擊方法。檢測基於以下假設:嘗試探索決策邊界的模型查詢將具有與正常查詢呈現不同的樣本分佈。雖然檢測成功,但作者指出,如果對手調整其策略,則有可能被規避。
「Thieves on Sesame Street! Model Extraction of BERT-based APIs」中研究了使用成員推理來防禦模型提取的想法。它基於使用成員推理的前提,模型所有者可以區分合法的用戶查詢和無意義的查詢,這些查詢的唯一目的是提取模型。作者指出,這種類型的防禦具有局限性,例如可能會標記合法用戶發出的合法但超出分佈的查詢,但更重要的是,它們可以被進行自適應查詢的對手規避。
在「Controlling the Extraction of Memorized Data from Large Language Models via -Tuning」一文中提出了一種新的方法,它使用提示調整來控制LLM 中記憶內容的提取率。他們提出了兩種提示訓練策略來提高和降低提取率,分別對應於攻擊和防禦。
VII. 結論
LLM 目前仍具備較大的安全風險以及隱私洩漏風險
提取模型結構和數據的攻擊,本質來說是對模型機密性的攻擊
學術界目前主要的研究集中在如何攻擊模型以及數據洩漏的原理研究
部分導致LLM 洩漏數據的原理仍不明朗
諸如差分隱私、預測向量篡改等可在一定程度上對數據隱私起到保護,這些方式集中於模型的訓練階段
現有的保護措施並不是完善的,而且需要犧牲模型性能和準確性
________
## 參考:
1. Kalpesh Krishna、Gaurav Singh Tomar、Ankur P. Parikh、Nicolas Papernot 和 Mohit Iyyer。 2020.芝麻街小偷!基於 BERT 的 API 的模型提取。在國際學習代表會議上。 ICLR,虛擬會議,原埃塞俄比亞亞的斯亞貝巴。
2.秘密共享者:評估和測試神經網絡中的無意記憶
3. Martín Abadi、Andy Chu、Ian J. Goodfellow、HB McMahan、Ilya Mironov、Kunal Talwar 和張莉。 2016.具有差分隱私的深度學習
4.朱塞佩·雅典尼安、路易吉·V·曼奇尼、安吉洛·斯波納爾迪、安東尼奧·維拉尼、多梅尼科·維塔利和喬瓦尼·費利西。 2015 年。用更聰明的機器攻擊智能機器:如何從機器學習分類器中提取有意義的數據。
5.巴爾加夫·賈亞拉曼和大衛·埃文斯。 2019。在實踐中評估差異化私有機器學習。第 28 屆 USENIX 安全研討會(USENIX Security 19)。 USENIX 協會,加利福尼亞州聖克拉拉,1895–1912 年
6.在不損失實用性的情況下防禦成員推理攻擊
7.劉玉庚、文睿、何新磊、艾哈邁德·塞勒姆、張志坤、邁克爾·巴克斯、埃米利亞諾·德·克里斯託法羅、馬里奧·弗里茨和張陽。 2021. ML-Doctor:針對機器學習模型的推理攻擊的整體風險評估
8.欺騙法學碩士不服從:理解、分析和預防越獄
9.瑪麗亞·裡加基和塞巴斯蒂安·加西亞。 2021. 機器學習中的隱私攻擊調查
10.尼古拉斯·卡利尼、弗洛里安·特拉默、埃里克·華萊士、馬修·賈吉爾斯基、阿里爾·赫伯特-沃斯、凱瑟琳·李、亞當·羅伯茨、湯姆·布朗、道恩·宋、烏爾法爾·埃爾林森、阿麗娜·奧普雷亞和科林·拉斐爾。 2021.從大型語言模型中提取訓練數據
11.塞繆爾·格曼、蘇欽·古魯蘭甘、馬丁·薩普、Yejin Choi 和諾亞·A·史密斯。 2020. RealToxi-city s:評估語言模型中的神經毒性退化。
12.黃文龍、彼得·阿貝爾、迪帕克·帕塔克和伊戈爾·莫達奇。 2022b。作為零樣本規劃器的語言模型:為具體代理提取可操作的知識。 ICML 2022,機器學習研究論文集第 162 卷,第 9118-9147 頁。 PMLR
13。伊森·佩雷斯、Saffron Huang、Francis Song、Trevor Cai、Roman Ring、John Aslanides、Amelia Glaese、Nat McAleese 和 Geoffrey Irving。 2022. 紅隊語言模型與語言模型。
14。埃里克·華萊士、托尼·趙、石峰和薩梅爾·辛格。針對 NLP 模型的隱蔽數據中毒攻擊。
15. Shaofeng Li, Tian Dong, Benjamin Zi Hao Zhao, Minhui Xue, Suguo Du, and Haojin Zhu. 2022. Backdoors against natural language processing: A review. IEEE Security & Privacy, 20(5):50–59
16. Yujin Huang, Terry Yue Zhuo, Qiongkai Xu, Han Hu, Xingliang Yuan, and Chunyang Chen. 2023. Training-free lexical backdoor attacks on language models.
17。從隨機方向觀察來解釋 SolidGoldMagikarp
18。法比奧·佩雷斯和伊恩·里貝羅。 2022. 忽略上一篇:語言模型的攻擊技術。 arXiv 預印本 arXiv:2211.09527.
19。雅尼克·基爾徹. 2022.Chatgpt:這個ai越獄了?! (令人難以置信的人工智能進步)。
20。巴蒂斯塔·比吉奧和法比奧·羅利。 2018 年。狂野模式:對抗性機器學習興起十年後。模式識別 84 (2018), 317–331.
21。朱立庚,劉志堅,韓松。 2019.梯度的深度洩漏。 《神經信息處理進展》第 32 期,H. Wallach、H. Larochelle、A. Beygelzimer、F. d'Alché-Buc、E. Fox 和 R. Garnett(編輯)。 Curran Associates, Inc.,加拿大溫哥華,14747–14756
22。尼古拉斯·帕帕諾特、帕特里克·麥克丹尼爾、阿魯內甚·辛哈和邁克爾·P·威爾曼。 2018.SoK:機器學習中的安全和隱私。 2018 年 IEEE 歐洲安全與隱私研討會(EuroSP)。 IEEE,英國倫敦,399–414
23。邁克爾·維爾、魯本·賓斯和莉蓮·愛德華茲。 2018. 記住的算法:模型反轉攻擊和數據保護法。英國皇家學會哲學彙刊 A:數學、物理和工程科學 376, 2133 (2018), 20180083
24。 Reza Shokri、Marco Stronati、宋從正和 Vitaly Shmatikov。 2017。針對機器學習模型的成員推理攻擊。 2017 年 IEEE 安全與隱私研討會 (SP)。 IEEE,美國加利福尼亞州舊金山,3–18
25。久本空美、馬特·波斯特和凱文·杜。 2020. 對序列到序列模型的成員推理攻擊:我的數據在你的機器翻譯中嗎?
26。宋從正和維塔利·施馬蒂科夫。 2019。審計文本生成模型中的數據來源。第 25 屆 ACM SIGKDD 國際知識發現與數據挖掘會議 (KDD '19) 論文集。計算機協會,美國紐約州紐約市,196–206。
27。賈金元和龔振強。 2018. AttriGuard:通過對抗性機器學習針對屬性推斷攻擊的實用防禦。第 27 屆 USENIX 安全研討會(USENIX Security 18)。
28。馬修·弗雷德里克森、埃里克·蘭茨、薩梅什·傑哈、西蒙·林、大衛·佩奇和托馬斯·里斯滕帕特。 2014. 藥物遺傳學的隱私:個性化華法林劑量的端到端案例研究。
29。馬修·賈吉爾斯基、尼古拉斯·卡利尼、大衛·貝特洛特、亞歷克斯·庫拉金和尼古拉斯·帕佩諾特。 2020.神經網絡的高精度和高保真提取
30。王丙輝和龔振強。 2018.竊取機器學習中的超參數。 2018 年 IEEE 安全與隱私研討會(SP)。 IEEE,美國加利福尼亞州舊金山,36–52
31。吳成俊、馬克斯·奧古斯丁、馬里奧·弗里茨和伯恩特·席勒。 2018。走向逆向工程黑盒神經網絡。在第六屆國際學習代表會議上。 ICLR,加拿大溫哥華。
32。辛西婭·德沃克和亞倫·羅斯。 2013.差分隱私的算法基礎。理論計算機科學的基礎和趨勢 9, 3-4 (2013), 211–487