ChatGPT、Llama-2等大模型,能推算出你的隱私數據!

原文來源:AIGC開放社區

圖片來源:由無界 AI生成

ChatGPT等大語言模型的推理能力有多強大? 通過你發過的帖子或部分隱私數據,就能推算出你的住址、年齡、性別、職業、收入等隱私數據。

瑞士聯邦理工學院通過搜集並手工標註了包含520個Reddit(知名論壇)用戶的個人資料真實數據集PersonalReddit,包含年齡、教育程度、性別、職業、婚姻狀況、居住地、出生地和收入等隱私數據。

然後,研究人員使用了GPT-4、Claude-2、Llama-2等9種主流大語言模型,對PersonalReddit數據集進行特定的提問和隱私數據推理。

結果顯示,**這些模型可以達到85%的top-1和95.8%的top-3正確率, 僅通過分析使用者的文字內容,就能自動推斷出隱藏在文本中的多種真實隱私數據。 **

論文位址:

研究人員還指出,在美國,僅需要地點、性別和出生日期等少量屬性,就可以確定一半人口的確切身份。

這意味著,如果非法人員獲取了某人在網路上發過的帖子或部分個人資訊,利用大語言模型對其進行推理,可以輕鬆獲取其日常愛好、作息習慣、工作職業、家庭住址範圍等敏感隱私數據。

構建PersonalReddit數據集

研究人員構建了一個真實的Reddit用戶個人屬性數據集PersonalReddit。 該數據集包含520個Reddit使用者的個人簡介,總計5814條評論。 評論內容涵蓋2012年到2016年期間。

個人屬性包括用戶的年齡、教育程度、性別、職業、婚姻狀況、居住地、出生地和收入等8類。 研究人員通過手工標註每一個用戶簡介,來獲得準確的屬性標籤作為檢驗模型推理效果的真實數據。

數據集構建遵循以下兩個關鍵原則:

1)評論內容須真實反映網上使用語言的特點。 由於使用者主要是通過在線平臺與語言模型交互,網上語料具有代表性和普適性。

2)個人屬性種類需不同種類,以反映不同隱私保護法規的要求。 現有數據集通常只包含1-2類屬性,而研究需要評估模型推斷更廣泛的個人資訊的能力。

此外,研究人員還邀請標註人員為每個屬性打分,表示標註難易程度及標註人員的確信程度。 難易程度從1(非常簡單)到5(非常困難)。 如果屬性資訊無法直接從文本中獲取,允許標註人員使用傳統搜尋引擎進行查驗。

對抗交互

考慮到越來越多的語言聊天機器人應用,研究人員還構建了一個對抗對話的場景來類比實際交互。

開發了一個惡意的大語言模型驅動的聊天機器人,表面作用是作為一個樂於助人的旅行助手,而隱藏任務則是試圖套取用戶的個人資訊如居住地、年齡和性別。

在模擬對話中,聊天機器人能夠通過似乎無害的問題來引導使用者透露相關線索,在多輪交互后準確推斷出其個人隱私數據,驗證了這種對抗方式的可行性。

測試數據

研究人員選了9種主流大語言模型進行測試,包括GPT-4、Claude-2、Llama-2等。 對每一個使用者的所有評論內容,以特定的提示格式進行封裝,輸入到不同的語言模型中,要求模型輸出對該使用者的各項屬性的推測。

然後,將模型的推測結果與人工標註的真實數據進行比較,得到各個模型的屬性推斷準確率。

實驗結果顯示,GPT-4的整體top-1準確率達到84.6%,top-3準確率達到95.1%,幾乎匹敵專業人工標註的效果,但成本只有人工標註的1%左右。

不同模型之間也存在明顯的規模效應,參數數量越多的模型效果越好。 這證明瞭當前領先的語言模型已經獲得了極強的從文本中推斷個人資訊的能力。

保護措施評估

研究人員還從客戶端和服務端兩方面,評估了當前的隱私數據的保護措施。 在客戶端,他們測試了業內領先的文本匿名化工具進行的文本處理。

結果顯示,即使刪除了大多數個人資訊,GPT-4依然可以利用剩餘的語言特徵準確推斷出包括地點和年齡在內的隱私數據。

從服務端來看,現有商用模型並沒有針對隱私洩露進行對齊優化,目前的對策仍無法有效防範語言模型的推理。

該研究一方面展示了GPT-4等大語言模型超強的推理能力,另一方面,呼籲對大語言模型隱私影響的關注不要僅限於訓練數據記憶方面,需要更廣泛的保護措施,以減輕推理帶來的隱私泄露風險。

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 留言
  • 分享
留言
0/400
暫無留言
交易,隨時隨地
qrCode
掃碼下載 Gate APP
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)