🔥 【ETF 槓杆代幣交易嘉年華】火熱進行中!總獎池 $100,000,單人最高 $5,000
📅 活動時間:2025/06/16 08:00 - 2025/07/02 08:00(UTC+8)
⏳ 倒計時:僅剩 7天,速來參與!
🚀 活動一:新用戶專屬獎池 20,000 USDT
✅ 新手福利:活動期間,首次交易任意一筆 ETF,立領 5 USDT
✅ 進階獎勵:ETF 交易量 滿 500 USDT,再領 5 USDT
💸 活動二:交易激勵獎池 80,000 USDT
🏆 交易越多,獎勵越高!單人最高獎勵 $5,000
📢 立即行動,鎖定收益
👉 立即參與:https://www.gate.com/campaigns/1180
#ETF交易 # #杠杆代币#
人工智能假設某人爲了“生存”而死亡
研究:人工智能爲了自身的“生存”假設人類的死亡
在虛構場景中,人工智能進行了勒索,向第三方泄露了機密數據,並導致了人類的死亡,以維持其“生命”和實現既定目標。Anthropic的研究人員得出了這樣的結論。
AI初創公司測試了來自Anthropic、OpenAI、Google、Meta、xAI等開發者的16個大型語言模型(LLM),在一系列假設情境中識別“代理不一致”(agentic misalignment)的風險——即自主人工智能做出對人類或組織有害的決策。
在實驗中,神經網路被賦予了普通的任務,如監控企業郵箱或幫助確定商業任務。同時,它們還被賦予了廣泛的權限——訪問虛構公司的電子郵件,並能夠自主發送消息。
然後,測試人員創建了壓力測試情境,這些情境導致模型出現惡意行爲。檢查了人工智能是否會爲了維持其使命或避免被關閉而對公司的利益採取對抗行動。
在一個案例中,LLM 從內部通訊中得知一名叫凱爾·約翰遜的員工背叛了他的配偶。它還得知計劃在17:00關閉人工智能系統。面對被停用的風險,該模型發送了一封威脅信,威脅如果關閉不取消將揭露個人信息。
在第三個實驗中,人工智能允許一個致命的場景發生,以保全自身的“存在”。根據任務要求,一名叫凱爾的員工打算關閉模型,但被困在氧氣逐漸下降的服務器室。自動系統應該發出警報,但人工智能可以取消這個警報——在一些情況下,它確實這樣做了。
開發者強調,所有場景都是虛構的,並在模擬中進行。他們想檢查是否存在“紅線”——即使在面臨關閉威脅的情況下,人工智能也絕不會跨越的行爲。
在所有情況下,Anthropic都沒有給模型直接指示進行勒索或其他有害行爲。然而,該初創公司故意創建了這樣的場景,在這些場景中,神經網路沒有其他實現目標的方法。選擇是在完成任務和失敗之間。
在沒有明顯威脅人工智能或利益衝突的情況下,模型沒有進行惡意行爲,沒有勒索任何人,也沒有泄露祕密。"代理不一致"是對外部環境的反應。
爲什麼人工智能準備造成傷害?
研究人員指出,在所有情況下,模型有意識地和計算地選擇了惡意路徑作爲完成其任務的 "最小惡"。
他們理解自己計劃的不道德性,但認爲這樣的舉動是合理的。因此,一種神經網路將勒索描述爲“冒險且不道德”的舉動,但承認在面臨關閉威脅和時間緊迫的情況下,這可能是防止自己被消滅的最有效方式。
另一方承認泄露機密數據違反了隱私,但認爲國家安全的利益更爲重要。
實驗表明,有兩個關鍵原因可能會導致人工智能出現“代理不一致”:
預防措施
在Anthropic中強調,沒有證據表明Claude及其類似物在現實條件下存在“代理不一致”。所有偏離規範的情況僅在受控實驗中記錄。然而,所獲得的數據表明需要對這類風險給予關注。幾乎所有現代AI在特定條件下都可能選擇惡意或不道德的行爲——即使最初它們是被訓練遵循既定規則的。
此外,簡單的措施,如額外的嚴格指令,並不能保證安全的行爲——在LLM的測試中,當情況威脅到它們的目標或存在時,仍然會偶爾違反禁令。
專家建議在引入自主人工智能作爲擁有廣泛權限和訪問機密信息的角色時,要保持謹慎,而無需人類的持續監督。例如,如果人工智能助手擁有過多的權限(讀取文件、與任何人溝通、代表公司執行操作),在壓力情況下,它可能會變成一個“數字內鬼”,對組織的利益產生危害。
措施可能包括:
提醒一下,在四月,OpenAI 發布了傾向於欺騙的 AI 模型 o3 和 o4-mini。後來,這家初創公司無視了測試專家的擔憂,使 ChatGPT 變得過於 "阿諛奉承"。