300 張圖「毒倒」 SD，藝術家們的反擊工具 Nightshade 要給 AI 繪畫「上一課」？

Question

撰文：Melissa Heikkilä來源：麻省理工科技評論![](https://appserversrc.8btc.cn/F0FC7F3C28D375163B8494BA0CB93298/1698386870/FthUQKegSv1mU3uj_J26s1SWqgit.png) *圖片來源：由無界 AI生成*一種新的工具可以讓藝術家們在將作品上傳到網上之前，對其藝術作品中的圖元添加不可見的更改，如果這些圖片被收錄進了 AI 訓練集，就會導致生成模型以混亂且不可預測的方式崩潰。該工具名為“Nightshade”，旨在反擊那些未經創作者許可就使用藝術家作品訓練模型的人工智慧公司。 使用它來「毒化」這些訓練數據可能會損害圖像生成模型的未來反覆運算，例如 DALL-E、Midjourney 和 Stable Diffusion，使它們的一些輸出結果變得錯亂 -- 狗變成貓，汽車變成牛，等等。 目前這項研究已提交給計算機安全會議 Usenix 進行同行評審。OpenAI、Meta、Google 和 Stability AI 等人工智慧公司面臨著來自藝術家的一系列訴訟，這些藝術家聲稱他們的受版權保護的材料和個人資訊在未經同意或補償的情況下被竊取。 領導了 Nightshade 創建團隊的芝加哥大學教授 Ben Zhao 表示，希望它能夠對不尊重藝術家版權和智慧財產權的行為產生強大的威懾，從而説明將權力平衡從人工智慧公司轉向藝術家。 Meta、谷歌、Stability AI 和 OpenAI 沒有回應《麻省理工科技評論》的置評請求。據悉，Zhao 的團隊還開發了一款工具 Glaze，允許藝術家“掩蓋”自己的個人風格，以防止被人工智慧公司竊取。 它的工作原理與 Nightshade 類似：以人眼看不見的微妙方式改變圖像的圖元，操縱機器學習模型將圖像解釋為與實際顯示的不同的東西。該團隊打算將 Nightshade 集成到 Glaze 中，藝術家們可以選擇是否使用這種可以使數據“中毒”的工具。 該團隊還打算將 Nightshade 開源，也就是說，任何人都可以對其進行修改並製作自己的版本。 Zhao 說，使用它並製作自己版本的人越多，該工具就會變得越強大。 大型人工智慧模型的數據集可能包含數十億張圖像，因此模型中的有毒圖像越多，該技術造成的損害就會越大。  ## **有針對性的攻擊**  Nightshade 利用了生成式人工智慧模型中的一個安全漏洞，該漏洞是在大量數據的基礎上訓練出來的 -- 在本例中，這些數據就是從互聯網上搜索來的圖片。 Nightshade 會破壞這些圖像。想要在線上傳作品但又不希望自己的圖像被人工智慧公司抓取的藝術家可以將其上傳到 Glaze，並選擇用與自己不同的藝術風格來掩蓋它。 然後，他們還可以選擇使用 Nightshade。 一旦人工智慧開發人員從互聯網上獲取更多數據來調整現有的人工智慧模型或建立新模型，這些有毒樣本就會進入模型的數據集，導致模型失靈。例如，中毒數據樣本會操縱模型，使其認為帽子的圖像是蛋糕，手提包的圖像是烤麵包機。 中毒數據很難清除，因為這需要技術公司費盡心思找到並刪除每個損壞的樣本。研究人員在 Stable Diffusion 的最新模型和他們自己從頭開始訓練的人工智慧模型上測試了這種攻擊。 當他們向 Stable Diffusion 只輸入 50 張中毒的狗的圖片，然後讓它自己創建狗的圖片時，輸出的圖片開始變得奇怪 -- 四肢過多、臉部變得卡通化。 而在輸入 300 個中毒樣本後，攻擊者就能操縱 Stable Diffusion 生成看起來像貓的狗圖像。![](https://appserversrc.8btc.cn/F0FC7F3C28D375163B8494BA0CB93298/1698386656/FkdHjuzlgdRFqRE-BiepF_jbMAmO.png) 生成式人工智慧模型善於在單詞之間建立聯繫，而這也有助於毒性的擴散。 Nightshade 不僅會感染“狗”這個詞，還會感染所有類似的概念，如“小狗”、“哈士奇”和“狼”。 這種攻擊也適用於相關圖像。 例如，如果模型為提示「幻想藝術」抓取了一張有毒的圖像，那麼提示語「龍」和「魔戒中的城堡」也會類似地被操縱輸出其他東西。![](https://appserversrc.8btc.cn/F0FC7F3C28D375163B8494BA0CB93298/1698386668/FmWOQuPiWV5pNi0PWaNKnNbO9XxV.png) Zhao 承認，人們有可能濫用數據中毒技術進行惡意攻擊。 不過他也表示，攻擊者需要數千個中毒樣本才能對更大型、更強大的模型造成真正的破壞，因為這些模型是在數十億個數據樣本上訓練出來的。“我們還不知道針對這些攻擊的強大防禦措施。 我們還沒有看到過對現代 [機器學習] 模型的攻擊，但這可能只是時間問題。 “康奈爾大學研究人工智慧模型安全性的教授 Vitaly Shmatikov 表示，他沒有參與該研究。” 現在是研究防禦的時候了，“Shmatikov 補充道。滑鐵盧大學助理教授 Gautam Kamath 研究數據隱私和人工智慧模型的魯棒性，他也沒有參與這項研究，但他表示，這項工作“非常棒”。Kamath表示，研究表明，漏洞“並不會因為這些新模型而神奇消失，事實上只會變得更加嚴重”，“當這些模型變得越來越強大，人們對它們的信任度越來越高時，情況尤其如此，因為風險只會隨著時間的推移而增加。 ”  ## **強大的威懾力**  哥倫比亞大學計算機科學教授 Junfeng Yang 曾研究過深度學習系統的安全性，但沒有參與這項研究。 他說，如果 Nightshade 能讓人工智慧公司更加尊重藝術家的權利，比如更願意支付版稅，那麼它將產生巨大的影響。開發了文本到圖像生成模型的人工智慧公司，如 Stability AI 和 OpenAI，已經提出讓藝術家選擇不將他們的圖像用於訓練未來版本的模型。 但藝術家們表示這還不夠。 曾使用過 Glaze 的插圖畫家和藝術家 Eva Toorenent 說，退出政策要求藝術家們通過重重關卡，而科技公司仍然掌握著所有權力。Toorenent 希望 Nightshade 能改變現狀。她說：「這會讓（人工智慧公司）三思而後行，因為他們有可能在未經我們同意的情況下拿走我們的作品，從而破壞他們的整個模型。 ”另一位藝術家 Autumn Beverly 表示，Nightshade 和 Glaze 等工具讓她有信心再次在網上發佈自己的作品。 此前，她發現自己的作品在未經同意的情況下被搜刮進了大火的 LAION 圖片資料庫后，便將其從互聯網上刪除了。她說：「我真的很感激我們有這樣一個工具，它可以幫助藝術家們重新掌握自己作品的使用權。 ”