從馬賽克到高畫質圖，AI生圖能力變強了，但如何取得美感與失真的平衡？

Question

> 讓影像看起來更好的AI 工具，往往會導致影像失真，而讓影像看起來更真實時，往往會缺少美感，這一問題該如何權衡？![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-14d58071f9-dd1a6f-69ad2a) 圖片來源：由無界AI生成在懸疑和科幻作品中，我們經常能看到這樣的場景：電腦螢幕上顯示出一張模糊的照片，然後調查人員要求增強圖像，然後圖像就神奇的變得清晰，揭示出重要線索。這看起來很棒，但其實幾十年來這一直是個完全虛構的情節。即使在AI 生成能力開始增長的一段時間內也很難做到：「如果你只是單純地將影像放大，它會變得模糊。確實會有很多細節，但都是錯誤的，」英偉達應用深度學習研究副總裁Bryan Catanzaro 說。不過，研究人員最近開始將AI 演算法融入影像增強工具，使這一過程變得更加簡單和強大，但從任何影像中檢索的資料仍存在限制。但隨著研究人員不斷推動增強演算法的發展，他們正在尋找應對這些限制的新方法，甚至找到了克服這些限制的方法。過去十年，研究人員開始使用生成對抗網路（GAN）模型來增強圖像，這種模型能夠生成詳細而令人印象深刻的圖片。以色列特奧尼恩理工學院的電氣工程師Tomer Michaeli 表示：「圖像突然變得好看多了。」但他同時驚訝地發現，由GAN 生成的圖像顯示出很高的失真水平，失真水平衡量了增強圖像與所顯示的底層現實之間的接近程度。 GAN 生成的圖像看起來漂亮自然，但實際上它們在“虛構”或“幻想”那些不準確的細節，這導致了高度的失真。Michaeli 觀察到照片修復領域分為兩大類：一種展示了漂亮的圖片，其中許多是由GAN 產生的。另一種展示了數據，但沒有展示很多圖片，因為看起來不好看。2017 年，Michaeli 和他的研究生Yochai Blau 更正式地探討了各種影像增強演算法在失真與感知品質上的表現，使用了與人類主觀判斷相關的感知品質已知度量。正如Michaeli 所預期的，一些演算法的視覺品質非常高，而其他一些演算法非常準確，失真很低。但沒有一個同時具備這兩種優勢，你必須選擇其中一個。這被稱為感知失真權衡。Michaeli 也向其他研究人員發起挑戰，要求他們提出能夠在給定失真水平下產生最佳圖像品質的演算法，以便在漂亮圖片演算法和良好統計數據演算法之間進行公平比較。從那時起，數百名AI 研究人員提出了他們的演算法的失真和感知質量，並引用了描述這種權衡的Michaeli 和Blau 的論文。有時感知失真權衡的影響並不可怕。例如，英偉達發現高清螢幕無法很好地渲染一些低清視覺內容，因此在2023 年2 月推出了一款使用深度學習來提升串流影片畫質的工具。在這種情況下，英偉達的工程師選擇了感知品質而不是準確性，他們接受了這樣一個事實，即當演算法提升視訊解析度時，它會產生一些原始影片中沒有的視覺細節。「模型是在進行幻想。這完全是猜測，」Catanzaro 說。 「超解析度模型大部分時間猜錯都沒關係，只要是一致的就好。」![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-751daab38c-dd1a6f-69ad2a) *小鼠大腦血流的視圖（左）以及使用AI 工具提高影像品質和準確性後得到的相同視圖。圖源：杜克大學Junjie Yao、Xiaoyi Zhu 。 *特別是，研究和醫學領域的應用會要求更高的準確性。 AI 技術在成像方面取得了重大進展，但杜克大學的生物醫學工程師Junjie Yao 表示：「它有時會帶來不想要的副作用，例如過度擬合或添加虛假特徵，因此需要極其謹慎地對待。」去年，他在論文中描述如何利用AI 工具來改進現有的大腦血流和新陳代謝測量方法，同時在感知失真權衡的準確一側安全運行。繞過從影像中提取多少資料的限制的一種方法是簡單地合併來自更多影像的資料。先前，透過衛星影像研究環境的研究人員已經在整合不同來源的視覺資料方面取得了一些進展：在2021 年，中國和英國的研究人員將兩種不同類型衛星的資料融合在一起，以更好地觀察剛果盆地的森林砍伐情況。剛果盆地是世界上第二大熱帶雨林，也是生物多樣性最豐富的地區之一。研究人員獲取了兩顆Landsat 衛星的數據，這些衛星數十年來一直在測量森林砍伐情況，並使用深度學習技術將影像的解析度從30 公尺提高到10 公尺。然後，他們將這組影像與兩顆Sentinel-2 衛星的資料融合在一起，這些衛星具有稍微不同的偵測器陣列。他們的實驗顯示這種綜合影像「使得比單獨使用Sentinel-2 或Landsat-7/8 影像時能夠檢測到11% 至21% 更多的受干擾區域」。如果無法直接突破，Michaeli 提出了另一種硬性限制資訊可近性的方法。與其就如何增強低品質影像尋求確定的答案，不如讓模型顯示原始影像的多種不同解釋。在論文《Explorable Super Resolution》中，他展示了影像增強工具如何提供使用者多個建議。一個模糊的、低解析度的穿著似乎是灰色襯衫的人的圖像可以被重建成更高解析度的圖像，在這個圖像中，襯衫可以是黑白垂直條紋、水平條紋或格子，所有這些都同樣合理。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-90815c6b91-dd1a6f-69ad2a) 在另一個例子中，Michaeli 拍攝了一張低品質的車牌照片，並使用AI 影像增強處理，結果顯示車牌上的數字1 最像是0。但當影像經過Michaeli 設計的不同的、更開放式的演算法處理時，這個數字看起來同樣有可能是0、1 或8。這種方法可以幫助排除其他數字，而不會錯誤地得出這個數字是0 的結論。我們可以減輕這些幻覺，但是那個強大的、解決犯罪的「增強」按鈕仍是一個夢想。在不同的領域中，各種學科以各自的方式在感知失真權衡方面進行探討，從AI 圖像中能夠提取多少信息，以及能夠信任這些圖像的程度仍然是核心問題。「我們應該牢記，為了輸出這些漂亮的圖像，演算法只是編造了細節，」Michaeli 說。*原文連結：*