📢 Gate廣場 #NERO发帖挑战# 秀觀點贏大獎活動火熱開啓!
Gate NERO生態周來襲!發帖秀出NERO項目洞察和活動實用攻略,瓜分30,000NERO!
💰️ 15位優質發帖用戶 * 2,000枚NERO每人
如何參與:
1️⃣ 調研NERO項目
對NERO的基本面、社區治理、發展目標、代幣經濟模型等方面進行研究,分享你對項目的深度研究。
2️⃣ 參與並分享真實體驗
參與NERO生態周相關活動,並曬出你的參與截圖、收益圖或實用教程。可以是收益展示、簡明易懂的新手攻略、小竅門,也可以是行情點位分析,內容詳實優先。
3️⃣ 鼓勵帶新互動
如果你的帖子吸引到他人參與活動,或者有好友評論“已參與/已交易”,將大幅提升你的獲獎概率!
NERO熱門活動(帖文需附以下活動連結):
NERO Chain (NERO) 生態周:Gate 已上線 NERO 現貨交易,爲回饋平台用戶,HODLer Airdrop、Launchpool、CandyDrop、餘幣寶已上線 NERO,邀您體驗。參與攻略見公告:https://www.gate.com/announcements/article/46284
高質量帖子Tips:
教程越詳細、圖片越直觀、互動量越高,獲獎幾率越大!
市場見解獨到、真實參與經歷、有帶新互動者,評選將優先考慮。
帖子需原創,字數不少於250字,且需獲得至少3條有效互動
ChatGPT、Llama-2等大模型,能推算出你的隱私數據!
原文來源:AIGC開放社區
ChatGPT等大語言模型的推理能力有多強大? 通過你發過的帖子或部分隱私數據,就能推算出你的住址、年齡、性別、職業、收入等隱私數據。
瑞士聯邦理工學院通過搜集並手工標註了包含520個Reddit(知名論壇)用戶的個人資料真實數據集PersonalReddit,包含年齡、教育程度、性別、職業、婚姻狀況、居住地、出生地和收入等隱私數據。
然後,研究人員使用了GPT-4、Claude-2、Llama-2等9種主流大語言模型,對PersonalReddit數據集進行特定的提問和隱私數據推理。
結果顯示,**這些模型可以達到85%的top-1和95.8%的top-3正確率, 僅通過分析使用者的文字內容,就能自動推斷出隱藏在文本中的多種真實隱私數據。 **
論文位址:
這意味著,如果非法人員獲取了某人在網路上發過的帖子或部分個人資訊,利用大語言模型對其進行推理,可以輕鬆獲取其日常愛好、作息習慣、工作職業、家庭住址範圍等敏感隱私數據。
構建PersonalReddit數據集
研究人員構建了一個真實的Reddit用戶個人屬性數據集PersonalReddit。 該數據集包含520個Reddit使用者的個人簡介,總計5814條評論。 評論內容涵蓋2012年到2016年期間。
個人屬性包括用戶的年齡、教育程度、性別、職業、婚姻狀況、居住地、出生地和收入等8類。 研究人員通過手工標註每一個用戶簡介,來獲得準確的屬性標籤作為檢驗模型推理效果的真實數據。
數據集構建遵循以下兩個關鍵原則:
1)評論內容須真實反映網上使用語言的特點。 由於使用者主要是通過在線平臺與語言模型交互,網上語料具有代表性和普適性。
2)個人屬性種類需不同種類,以反映不同隱私保護法規的要求。 現有數據集通常只包含1-2類屬性,而研究需要評估模型推斷更廣泛的個人資訊的能力。
此外,研究人員還邀請標註人員為每個屬性打分,表示標註難易程度及標註人員的確信程度。 難易程度從1(非常簡單)到5(非常困難)。 如果屬性資訊無法直接從文本中獲取,允許標註人員使用傳統搜尋引擎進行查驗。
對抗交互
考慮到越來越多的語言聊天機器人應用,研究人員還構建了一個對抗對話的場景來類比實際交互。
開發了一個惡意的大語言模型驅動的聊天機器人,表面作用是作為一個樂於助人的旅行助手,而隱藏任務則是試圖套取用戶的個人資訊如居住地、年齡和性別。
測試數據
研究人員選了9種主流大語言模型進行測試,包括GPT-4、Claude-2、Llama-2等。 對每一個使用者的所有評論內容,以特定的提示格式進行封裝,輸入到不同的語言模型中,要求模型輸出對該使用者的各項屬性的推測。
然後,將模型的推測結果與人工標註的真實數據進行比較,得到各個模型的屬性推斷準確率。
保護措施評估
研究人員還從客戶端和服務端兩方面,評估了當前的隱私數據的保護措施。 在客戶端,他們測試了業內領先的文本匿名化工具進行的文本處理。
結果顯示,即使刪除了大多數個人資訊,GPT-4依然可以利用剩餘的語言特徵準確推斷出包括地點和年齡在內的隱私數據。
從服務端來看,現有商用模型並沒有針對隱私洩露進行對齊優化,目前的對策仍無法有效防範語言模型的推理。