千萬人圍觀「燒焦嬰兒」圖片！伯克利教授闢謠：AI圖片檢測器無用

巴比特_

2023-10-15 08:45:32

文章來源：新智元

AI無法打敗AI，不是沒有道理。近來，上千萬人圍觀的嬰兒死亡照片，AI檢測工具竟無法給出一致答案。

AI圖片檢測器又被衝了！

最近，外網爆出大量中東地區衝突的照片，向世人展示了生命在這種極端條件下是何等的脆弱和無助。

其中，一張「燒焦嬰兒」的照片，由於太過於殘忍，讓人難以置信。

於是，有人把照片放到了AI圖片檢測器中，來檢測這些照片是否為AI生成。

果然，這張照片被AI檢測器——Optic，認定為「AI生成」。

而在4chan上，甚至還出現了「原圖」，原本屍體的位置其實是一隻狗狗。

於是網友憤怒地去發佈者推文下方留言，攻擊他利用AI生成的照片來散播虛假的末日恐慌。

這條認為照片是由AI生成的推文，2天不到的時間已經有2100萬的閱讀。

但是很快網友們發現，他們把照片放到了同樣的AI檢測器上，檢測結果幾乎是隨機的，既有AI，也有人類。

有人發現，只要把同一張圖片裁剪一下，或者背景色變成黑白，這個檢測器就會認為圖片是由人類拍攝的。

甚至有時候檢測器「拋硬幣」的時候，硬幣還會立起來...

那到底這張圖是不是由AI生成的呢？

最後，AI檢測器官方也針對這個事件發推，認為他們的沒有辦法確定圖片是否由AI生成，希望大家理性討論。

AI圖片檢測器，到底有多不靠譜？

UC Berkeley教授、世界頂尖的數位圖像處理專家之一Hany Farid表示，這張圖像沒有任何跡象表明它是由AI生成的。

「AI圖像產生器最大的問題之一是高度結構化的形狀和直線，」Farid說。「如果你看到桌腿和螺絲，一切看起來都很完美，那麼圖片就幾乎不可能是由AI生成的。」

比如這張著名的「海綿寶寶製造了9/1」的圖片，窗外的雙子塔線條都不直，飛機上的儀錶盤都相互扭曲到一起了，這看起來就是「A裡A氣的」。

「我們在那張照片中能夠看到物體的結構很準確、陰影也很準確、沒有偽影——這讓我相信這張照片應該完全是真實的」法裡德說。

Farid還通過他自己的其他AI圖像檢測器識別了這幅圖，另外四種AI圖像檢測工具也都認為圖像不是AI生成的。

Farid說，「AI檢測器是一個工具，但它只是工具包的一部分。使用者需要對整個圖像進行進行一系列的測試，不可能只按一個按鈕就得到答案。」

而AI檢測工具Optic確實也沒有給出自己的檢測技術的具體細節。

Optic網站也聲明，「AI檢測器可能會產生不準確的結果」。

AI圖像檢測技術

Farid教授在去年曾經撰寫過一篇論文，介紹了如何判斷AI生圖工具圖像的一致性。

通過判斷圖像上的一致性，可以幫助判斷出圖像是否由AI生成。

論文連結：

教授首先概述三種相關的基於物理的分析方式，每種分析都利用了圖像形成過程固有的相同的基礎透視幾何原理。

消失點

平行後退線彙聚於一個消失點。

瓷砖之间的线图1(a) 是平行的。成像時，這些線全部彙聚在一個消失點。如果場景中的平行線在深度上遠離鏡頭，那麼就會存在消失點，儘管它可能落在圖像之外。

如果場景中的平行線在深度上不後退，也就是說，如果它們完全平行於鏡頭感測器（在任何距離），則平行線將被成像為平行線，出於實際目的，可以考慮消失點處於無窮遠。這種幾何學源於透視投影的基礎知識。

在透視投影下，場景中的點（X， Y， Z）被成像到點（f X/Z， f Y /Z），其中f是鏡頭焦距。

由於圖像中點的位置與距離Z成反比，因此投影點會作為距離的函數進行壓縮，從而導致圖像中的線會聚;

平行平面上的平行線會聚到同一個消失點

遠處的盒子在圖 1（b）與地板上的瓷磚對齊，使得盒子的邊緣與瓷磚之間的線平行。因為平行平面上的平行線共用一個消失點，所以盒子側面和瓷磚地板的消失點是相同的;

平面上所有直線的消失點都位於消失線上。

許多組平行線，每組平行線會聚到不同的消失點，如圖1（c）所示。如果平行線組跨越場景中的同一平面，則它們的消失點將位於消失線上。消失線的方向由鏡頭相對於平行線所跨越的平面的旋轉來確定

陰影

有點令人驚訝的是，消失點背後的相同幾何形狀也適用於投射陰影。

上圖顯示的是連接盒子上的點及其在投射陰影上的對應點的三條光線。擴展圖像邊界后發現，這三條光線相交於一個點，該點對應的是照亮場景的光源的投影。

無論光源在附近（檯燈）還是在遠處（太陽），這種與陰影、物體和光相關的幾何約束都成立，並且無論陰影投射到的表面的位置和方向如何，該幾何約束都成立。

當然，該分析假設場景由單個主光源照明，從每個物件僅存在單個投射陰影可以明顯看出這一點。

在上面的示例中，照亮場景的光源位於鏡頭前面，因此光源的投影位於圖像平面的上半部分。

然而，如果光線位於鏡頭後面，則光源的投影將位於圖像平面的下半部分。由於這種反轉，物件約束的陰影也必須反轉。

因此，圖像的投射陰影分析必須考慮三種可能性：

（1）光線位於鏡頭前面，光源的投影位於圖像平面的上半部分，約束錨定在投射陰影上並包圍物件;

（2）光線在鏡頭後面，光源的投影在圖像平面的下半部分，約束錨定在物體上並包圍投射的陰影;

（3）光線位於鏡頭中心的正上方或正下方，光源的投影位於無窮遠，約束將在無窮遠相交。如果這些情況中的任何一種導致所有約束的共同交集，則投射陰影在物理上是合理的。

反射

下圖2所示的場景是三個盒子反射在平面鏡中。

這個圖的下半部分顯示了真實盒子和虛擬盒子之間的幾何關係。

橙色線代表鏡子，位於兩組盒子之間的中點。黃線連接真實和虛擬盒子上的對應點。這些線彼此平行並垂直於鏡子。

現在考慮一下這些平行線疊加在場景上時如何出現。從鏡子平面觀察時平行的線不再平行。相反，由於透視投影，這些平行線會聚到一個點，就像世界中的平行線會聚到一個消失點一樣。

由於連接場景中對應點及其反射的線始終是平行的，因此這些線必須在圖像中具有共同的交點才能在物理上合理。

實例分析

上圖3顯示了AI合成圖像的三個代表性示例，並對地板和櫃檯頂部的幾何透視一致性進行了分析。

每張圖像（在幾個圖元內）準確地捕捉了瓷磚地板的透視幾何形狀，作為一致的消失點（以藍色呈現）的證據。然而，平行檯面（以青色呈現）的消失點在幾何上與檯面的消失點不一致。

相應的對齊圖塊。即使檯面與瓷磚不平行，青色消失點也應位於由瓷磚地板消失點定義的消失線（以紅色呈現）上。請注意，對於圖 3 右上角的圖像，瓷磚地板上的水平線幾乎是平行的，因此相應的消失點位於無窮遠，因此不會相交。

雖然這些圖像中消失點局部事一致的，但並不是全域一致的。在 25 張合成的廚房圖像中，每張都發現了相同的模式。

上圖是用提示詞生成的方塊圖片，在陰影處就明顯地出現了不一致性。

上圖8所示是將幾何分析應用於由AI生成的包含了看上去相當準確的反射的圖像結果。

儘管這些反射在視覺上是合理的，但在幾何上並不一致。

與前幾節中的投射陰影和幾何結構不同，DALL· E-2 很難合成合理的反射，大概是因為此類反射在其訓練圖像數據集中不太常見。

基於這些對於AI生成圖片局限性的了解，通過對於圖片一致性的檢測，能非常有助於判斷圖片是否由AI合成。

圖像識別難，AI打敗AI

AI圖像產生器，正不斷進化。

上半年，Midjourney爆火，能夠生成足夠逼真的圖片，卻愚弄了很多人。

86歲教皇頭頂白色小瓜帽、一身喇叭口的白色羽絨服，金屬制的十字架項鍊外露，外加一本正經的表情。

當時，這張照片一經發佈，在社交媒體上騙過了所有人，被許多網友瘋狂轉發，甚至有人直呼教皇太潮了。

在大家都信以為真時，突然有人點出這是AI生成的，許多人瞬間傻眼了。

這僅是其中的一個栗子，還有馬斯克新女友GM的首席執行官Barra等各種虛假流傳的圖片，已經達完全到以假亂真的程度。

這一事件，直接引發了馬斯克、蘋果聯合創始人Stephen Wozniak等科技領導人呼籲暫停AI的研發。

雖然AI生成有趣、便利，但它給整個行業帶來了風險。

一不小，就會被別有用心的人用其傳播虛假資訊、侵犯智慧財產權，或利用生成「果照」等等。

接下來幾個月，Midjourney將會發佈最新的V6版本，目前V5版本已經在圖片生成的真實度上做的非常完善。

而其他AI圖像生成器也在快速反覆運算。前段時間，OpenAI剛剛發佈了DALL· E 3，與此同時微軟必應圖像生成也用上了DALL· E 3。

當然了，研究人員也在努力構建可以辨別圖像的工具，關鍵是如何追趕上AI圖像生成器不斷換代的步伐？

AI檢測工具競爭賽

現在，已經有十幾家公司提供工具來識別圖片是否是由AI生成的，它們的名字包括Sensity AI（深度偽造檢測）、Fictitious.AI（抄襲檢測）、Originality.AI 等等。

人工智慧信任與安全公司Optic推出了一個「AI or Not」的網站。

在這個網站上，你可以上傳照片或粘貼圖片網址，網站會自動判斷，照片是否是由AI生成的。上傳的圖片數量沒有限制。

另外，你也可以在Optic的推特帳戶@optic_xyz上發佈或轉發一張圖片，或者加上#aiornot，便會得到一條回復，包括圖片的置信度百分比。

這家公司的首席執行官Andrey Doronichev表示，Optic的AI工具可以檢查每張圖像中人眼不可見的偽影，例如圖像中亮度和顏色的變化。

讓人驚喜的是，該工具的準確率為95%。

但是隨著Midjourney等AI圖像生成工具的升級反覆運算，「AI or Not」的準確率下降到了88.9%。

比如，教皇這張圖片，AI認為87%的概率是由人類做的。

教皇穿著白色羽絨服的形象在Optic更新前被愚弄

其實有網友表示，仔細去看這張圖，就會發現有人工智慧生成的明顯跡象，包括幾個明顯模糊的細節區域：

看似不完整的手正試圖抓住一個不太像咖啡杯的東西，旁邊還有污跡
教皇佩戴的十字架也不是直角形狀，上面還刻著一個像是用黏土雕刻而且坐著的耶穌
眼鏡與臉部的陰影不一致

這幾點都表明這是由人工智慧生成的。它僅了解現實的表面，但不瞭解支配物理物件是如何相互作用的基本規則。

除了Optic家的工具，為內容添加標籤的人工智慧公司Hive近來，也更新了自家的免費AI生成的內容檢測器。

這個AI工具在DALL-E、Stable Diffusion、Midjourney的數百萬張圖像上進行了訓練。

Hive預計，它能準確檢測到大約95%的AI生成的圖像，尤其在網上瘋傳的共用圖像，往往比其他圖像識別效果更好。

CEO Kevin Guo稱，當人們分享人工智慧圖像時，他們會選擇最逼真的假圖，所以人們很辨別什麼是真的。

左圖是AI生成的圖像，可以從兩個手指和奇怪的擊掌辨別，而在普通iStock照片中真實的樣子如右圖。

與Optic一樣，Hive在檢測必應Image Creator的圖像時，也失敗了。

不過，這些檢測工具並非止步不前，隨著AI圖像整成模型的反覆運算，它們也會更新升級。

其實，AI圖像辨別不能僅僅依靠行業中的檢測工具完成，更應該在模型訓練時，設好護欄。

許多人工智慧圖像生成器，也被限定了一些內容能否被生成的「黑名單」。

比如，必應Image Creator會標記和阻止要求其創建知名公眾人物圖像的使用者提示。

Midjourney有「human moderators」，並正在推出一種用演算法來調節使用者請求的方法。

還有DALL· E 3技術報告中介紹道，當你讓ChatGPT生成一些「果圖」、或者涉及黑白人等圖片時，輸入的直接被改寫。

給AI加水印，大廠在做了

此外，數位浮浮浮水印也是目前增強生成式AI安全的重要手段之一，微軟、谷歌等科技巨頭已經在產品中使用。

微軟曾在9月Surface大會上，介紹了DALL· E 3加持下的必應生成圖像的能力。

與此同時，為了確保圖像不被濫用，微軟團隊使用加密方法為為每一張圖像生成不可見的浮浮水印，包括創建時間和日期。

任何人可以點開每張圖片，輕易識別出是否是AI生成的。

Meta還開源了Stable Signature，可將數位浮水印直接嵌入到AI自動生成的圖片中。

論文位址：

值得一提的是，Stable Signature生成的數位浮浮水印不受裁剪、壓縮、改變顏色等破壞性操作影響，能追溯到圖片的初始來源。

它可應用於擴散、GAN等模型，比如Stable Diffusion。

還有谷歌在Google Cloud Next上，也發佈了為AI生成的圖像打上浮水印並進行檢測和識別的SynthID。

SynthID使用兩個深度學習模型，分別用於浮浮浮水印和識別。它們可以在一組不同的圖像上一起訓練。

組合模型針對一系列目標進行了優化，包括正確識別帶浮浮水印的內容，並通過直觀地將浮浮水印與原始內容對齊來提高浮水印的隱蔽性。

SynthID生成的數位浮水印是直接嵌入到圖像的圖元中的，人眼無法察覺。但SynthID可以檢測並識別它們。

SynthID可以幫助評估圖像由Imagen創建的可能性

加州大學河濱分校電氣和計算機工程教授Amit Roy-Chowdhury表示，仔細觀察圖像背景，我們可以用自己的眼睛更好檢測假圖像。

不過，在AI模型加速反覆運算當下，想要有「火眼金睛」太難了。

參考資料：

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

千萬人圍觀「燒焦嬰兒」圖片！ 伯克利教授闢謠：AI圖片檢測器無用

**AI圖片檢測器，到底有多不靠譜？ **