對話清華大學人工智能研究院朱軍：火爆的AI大模型，暗藏哪些安全風險？

Question

文：騰訊科技李海丹![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-c43aaefbe6-dd1a6f-1c6801) 圖片來源：由無界AI生成人類創造了AI，但AI也在重塑我們身處的世界。隨著大語言模型技術的爆發，AI開始進一步深度融入我們的生活，人類需要在其發展的早期階段就考慮和實施必要的安全措施，以避免潛在的風險。AI遇到的網絡安全問題隨處可見。騰訊科技在專訪清華大學人工智能研究院副院長，北京智源人工智能研究院和瑞萊智慧首席科學家朱軍時，他談到**“ 其實世界上沒有永遠安全和不可被攻破的網絡系統。如果不計代價的話，不法分子會用各種方式來攻擊系統，防不勝防”。 **10多年來，朱軍致力於解決人工智能安全性問題，他突破了經典的貝葉斯基礎理論和關鍵技術，提出擴散模型的高效算法，通過成果轉化孵化國家級專精特新“小巨人”企業，為安全可靠的人工智能發展奠定堅實基礎。AI自身存在風險也不容忽視。人工智能被賦予了強大的學習和推斷能力，但這一能力也導致了AI系統對數據的高度依賴，從而可能在其決策和推薦中體現出數據源的偏向性，這些也引發了人們對AI的一系列擔憂，挑戰著AI倫理與公正的平衡。當AI陷入安全信任危機，我們應該如何應對？當AI與人類的交互應用越來越普及，我們應該如何防範安全隱患？本期對話中，朱軍對提升AI的安全性和可靠性談到了具體的防禦方法。我們需要審慎地關注探討AI安全對道德及社會影響，避免被引導進入一個未知的、不受控制的未來。以下為文字精華版，在不改變意願的前提下有刪減調整：## **沒有永遠安全的網絡系統****騰訊科技：您一直在推動人工智能對抗安全領域方向的研究，目前的AI技術應用會帶來哪些安全方面的問題？我們應該如何識別這些安全問題？ ****朱軍：**人工智能包含多個關鍵要素，例如數據、算法模型和應用層等。在每個要素中，我們都需要應對其中的各種安全問題。在數據層面，我們需要關注數據投毒、數據洩露、用戶隱私以及核心機密數據的保護等安全問題；在模型層面，需要應對對抗算法等安全問題。比如，當使用人臉識別進行解鎖時，攻擊者可能通過一副特製的對抗眼鏡（即“對抗樣本”）解開目標手機的驗證系統，造成風險。此外，如果模型被惡意植入後門，模型的安全也同樣會受到威脅；在應用層面，人工智能的安全問題也日益突出。例如深度合成、AIGC等工具被不法分子用於製作虛假內容，從事欺詐、詐騙等非法目的。這些都是人工智能在實際使用或開發中面臨的安全問題。對於解決和應對辦法，我們需要使用**更先進的算法來自動識別這些內容**，這是當前人工智能領域的熱點和難點問題。然而，這種技術就像“矛和盾”之間的關係一樣，生成技術的發展將促進對應的檢測和防禦技術的出現。同時，生成和攻擊側的技術也在不斷演化。由於技術本身的特性，沒有一個系統是永遠安全和不可能被攻破的。如果不計代價的話，不法分子會用各種方式來攻擊系統，防不勝防。因此，從技術方向來看，**我們需要以“AI識別AI”的形式來應對**。但相比攻擊，防御其實更難。目前，我們尋找各種機制來提高模型的防禦能力，在模型使用和部署時採取各種防護措施。例如，在人臉識別系統中，我們通過部署人臉識別防火牆，在樣本進入最終的識別環節之前檢測和過濾出有可疑或對抗攻擊的樣本，從而達到保護系統的目的。目前在銀行等行業中已經落地此類技術。**騰訊科技：您提到了任何網絡系統都是存在安全漏洞的，目前ChatGPT在海外應用掀起了熱潮，它實現了很好的交互，這裡會有怎樣的風險？ ****朱軍：**目前ChatGPT等大語言模型正處於快速發展的過程中，但同時也帶來了潛在的風險——比如會存在一些“注入式攻擊”。從算法角度來看，如果有人別有用心的注入特定詞語或符號，將可能誘導大模型邏輯混亂、輸出錯誤。在多輪對話系統中，如果要防御注入式的攻擊是很難的。黑客可能會以各種方式去做注入攻擊，並因大模型的語境理解技術，使得攻擊效果延遲表現出來，這對於算法的檢測與防禦來說是新的挑戰。對此，**需要我們使用類似強化學習的方法來對算法進行反向推導，以檢測並防禦可能被惡意注入的詞語。 **只有保證系統在訓練過程中未被惡意注入，或未被植入後門以及其他漏洞，該系統才能被安心使用。從應用層面來看，還可能會出現一些惡意使用對話系統的風險，比如黑客嘗試繞過反注入防護措施生成低質量或不良內容，包括涉黃、涉暴等違法信息，這將成為後續流程中需要獨立檢測和解決的問題。**騰訊科技：剛我們聊到了GPT的安全問題，再進一步看：GPT等大模型的服務器方面的安全防禦能力是如何的，可能會被黑客攻擊嗎？ ****朱軍：**理論上是完全可能的。因為它是一個大的信息系統，任何系統都會存在漏洞，因此在系統建設過程中，我們需要盡可能提前部署各種防護手段去提升系統的安全性。最近也有看到相關案例：有攻擊者用ChatGPT生成自動攻擊的代碼，讓它更加高效的找到某個目標系統的漏洞，甚至可以進一步的去利用漏洞發起攻擊，所以安全問題會持續存在。## **人類無法準確地定義和衡量AI的智能水平****騰訊科技：除了黑客攻擊的隱患，我們也在擔心AI自身待來的安全風險問題。首先我們關註一個目前大家都在熱衷探討的話題——您認為AI會產生意識嗎？ ****朱軍：我個人的觀點更傾向於認為當前人工智能的“意識”表現並不太明確，因為我們無法準確地定義和衡量意識。 **因此，觀察語言模型的表現時，我們會發現大模型還是會出現事實性錯誤等問題。儘管有些錯誤內容讀起來也很流暢，但仔細看的話，會發現它們其實不符合事實或邏輯。這是模型表現出的許多問題之一，即它所具有的意識的具體程度還沒有被完全定量評價。語言模型的學習能力很強，這是因為它們所了解的語料庫和文本知識超出世界上任何一個人。例如，模型可能獲得了幾乎所有互聯網上可以獲得的信息，而相比之下，我們每個人只能獲取有限的信息資源。從通用性上來看，AI肯定比任何一個人強。然在某些方面，模型的表現卻達不到人類的水平。因此，我們應該從現實的技術發展角度來看待一個模型，包括大家討論的AGI等方面。個人認為，目前的技術水平還完全沒有到達失控或僅由機器人自身控制進行演化的情況。可以說，大規模機器學習模型能夠使用深度學習等複雜的網絡處理數據，且在構架和設計上借鑒了人類的某些認知。但從整體上來看，這些人工神經網絡模型與真正生物系統存在巨大的區別，從規模到結構各方面都存在不同。所以，其實我們目前無法明確評測人工智能係統的智力水平，或者評估它是否擁有心智等認知能力。**騰訊科技：近期有商家推出“AI伴侶”的概念——人可以跟AI談戀愛，並且還需要付費。您認為AI可以理解人類的情感嗎？和虛擬伴侶人的交互過程當中，存在哪些安全風險？ ****朱軍：**情感計算一直是人工智能領域中的一個經典課題，在情感方面，人工智能技術可以模擬某個角色並設定其情緒或心理狀態。然而，從技術角度來看，這個領域仍然存在許多問題和挑戰。想要達到人類真正的交流水平是很難的。比如即使我們人面對面聊天或使用相同的語言進行對話，也很難真正理解對方的情緒或心理活動，因為每個個體對相同輸入的反應是千差萬別的。現在我們採用的這些大模型，實質上是對這個過程進行建模，但所有的建模都需要簡化和理想化的假設。這些假設是否適用於每個人，或者能否很好地符合每個個體的實際情況，這都存在疑問。我們很難用一個簡單的模型來精準表達每個人的複雜情感。這種模式可能涉及到社會問題、倫理道德等各個方面，有很多潛在的問題需要解決。雖然技術實現方面目前沒有太多門檻，並且在國外早已出現這種模式。但是，我們需要深入思考這種模式會帶來的影響——比如可能有年輕人因此更不願意花精力去談真正的戀愛或結婚等等，這些都可能對社會穩定造成潛在的問題。另外我們需要關注：這樣的人工智能產品會不會針對某些個體被有偏見或有目的性地進行引導，這將會帶來很大的風險。如果我們每天都與一個機器人交互，那麼獲得的信息會很自然地被機器人引導，它可能會影響到個人的價值觀，或者控制個人的情緒和行為等。長遠看，這可能影響人與人之間的社會關係，引起整個社會行為的變化。但這些並不是完全靠技術就能解決的問題。總體上，相對於其他國家，我國在使用新技術時會更為謹慎，我們會提前預警可能的風險並採取一些預防措施。## **塑造安全的AI：將最佳模型視為“導師”****騰訊科技：如果AI出現了錯誤，從技術層面，我們可以通過哪些工作來糾正大模型出現的錯誤問題？ ****朱軍：**由於訓練數據和技術水平各不相同，比如我們用同一個問題詢問不同的大模型，它們提供的結果可能是不同的，有些結果是好的，但也有是惡意或不良的結果。因此，我們有必要規範和提高這些模型的質量和可控性。一些大模型通常會進行大量對齊和對抗訓練。例如在GPT-4問世之前，有不同領域的專業人士從不同角度來提出問題檢查模型的準確性，以查看該系統是否會產生不合規的結果或惡意結果，並嘗試規範和調整。但目前還有許多模型（包括很多開源模型），並沒有經過這種嚴格的測試或對抗性訓練，因此會存在各式各樣的安全風險問題。**一種值得嘗試的技術路徑是將某個最佳模型視為“導師”**，然後促使其他模型以一種高效而經濟的方式模仿該模型的行為。當然還有更多其他方面的工作，例如針對不同國家的規範要求，為每個具體的模型做規範和對齊工作。雖然我們希望這些模型在使用時始終能夠生成符合規範的結果，**但風險的概率永遠不會降至0。 **另外在使用時，我們還需要考慮到倫理道德、法律規則等等方面，這需要不同行業領域共同來管理和規範，共同讓模型更好地為人類服務。**騰訊科技：剛我們提到，通過不斷的訓練糾正和降低大模型的錯誤率，那麼我們又該如何衡量它的可靠性？您一直深耕在貝葉斯深度學習領域，您認為如何建立和優化模型，以提高預測的準確性和可靠性？ ****朱軍：**行業對於準確性的目標基本是相同的，通常都是用客觀的指標來衡量，具體指標與執行的具體任務有關。在分類和識別等方面，最終的識別準確率會被用來引導模型的訓練。對於不確定性的問題，比如神經網絡，我們發現在很多情況下，它的預測會過於自信和樂觀。例如針對一些結果的輸出，本來是一種模糊或者不確定的預測，但它會過於自信地告訴你預測結果，我們將其稱為“過度自信”。對於這種現像或問題，使用貝葉斯方法的深度學習技術可以更好地刻畫不確定性。主要可以從多個方面考慮，例如對於輸入端可能存在的不確定因素以及模型端可能存在的不確定因素，給出更符合實際情況的置信度。相比神經網絡，貝葉斯的這種方法更可靠。**騰訊科技：現實世界中的網絡結構往往非常複雜，包括多層次、多維度、動態變化等特徵，這會給擴散概率模型的建立和優化帶來很大的挑戰。您帶領的團隊是國際上最早從事擴散概率模型理論與算法研究的團隊之一，貴團隊在模型建設上，是如何排除噪音和數據的不確定性等問題，提升模型的魯棒性和可靠性的？ ****朱軍：**擴散模型是一個生成模型，它有前向擴散和逆向擴散兩個過程。前向擴散是通過逐漸添加噪聲將一張圖像變成一個完全隨機的高斯噪聲圖像。而逆向擴散是從一個幾乎沒有結構的分佈開始，逐漸去噪，收斂到能夠刻畫真實數據的分佈。從這個分佈可以生成新的樣本，比如現在廣泛研究的文本、圖片和視頻生成等。擴散模型是生成領域中最關鍵的技術之一。在魯棒性方面，擴散模型的思想類似於對抗樣本。對抗樣本是通過在生成過程中添加算法優化的噪聲來達到攻擊的目的。而反過來，我們可以通過逐漸查找逆向擴散過程中的分佈，來優化噪聲的幅度和方向，以提高模型的魯棒性。這種方法也可以應用於噪聲數據的生成，以提高模型的可靠性和準確性。**騰訊科技：在文生其他方向的應用方面，我們又該如何提升AI的準確率呢？我關注到您的團隊近期提出的文生3D新算法ProlificDreamer，在無需任何3D數據的前提下能夠生成超高質量的3D內容，貴團隊是如何處理語義的多樣性和歧義性，以生成更加準確的三維模型的？ ****朱軍：**相比傳統的3D方法，業內通常會採用一個2D預訓練的生成模型（如擴散模型），在圖像數據庫上進行訓練。在進行3D生成時，我們需要將生成的2D圖像映射到3D模型上，其中需要加入一個稱為“蒸餾”的中間步驟。由於3D模型具有空間結構，我們需要考慮物體的3D屬性。因此，我們需要從各個角度觀察物體並渲染出對應的2D圖像，然後將其對準到預訓練模型中，這樣就能夠生成3D資產等。但是，這種方法也存在一些局限性。比如它生成的結果通常過於飽和或者過於平滑，缺乏細節和紋理等信息。為了解決這個問題，我們需探索更底層的技術。我們發現，使用蒸餾算法去尋找單個3D模型存在一些本質困難，需要從基礎原理上進行克服。已有算法在目標函數中尋找某種極值，類似於“貪心算法(Greedy algorithm)”，它只會尋找最優解，為了達到這個目的，已有工作改變目標函數使得在某些區域更高，在其他區域則更平均，這種目標函數調整的方法可以很快地找到最終的解決方案。為了克服上述方法的困難，**我們重新定義了文到3D的生成問題，將其視為從3D模型可能服從的某個分佈中進行採樣，然後將其渲染並與預訓練的2D模型進行對齊。 **這種採樣方法的好處在於：2D模型本身是一個概率模型，描述信息比貪心尋優要更豐富；為此，我們推導出了一種新的變分蒸餾算法，並使用它在基本相同的時間下生成了很多非常細節和復雜的3D場景，包括高分辨率的資產。我们的方法重点在于它降低了或者完全去掉了对3D训练数据的依赖，并显著提高生成的质量。最近与做图形学的从业者交流，他们也觉得这个效果相当惊艳。让我们看到了能够生成高质量3D图像的巨大潜力。對於歧義的處理方面。對於相同的文本輸入，不同的人可能會有不同的理解，例如“Apple”這個詞可能指蘋果、蘋果公司或其產品。在我們的模型中，使用基於概率的採樣方法可以生成多種可能的結果，從而解決歧義問題。 **長期來看，消除歧義需要更多的線索和對齊來提高可控性和精確性，如文本和圖像或其他模態數據的對齊。 **在語言和多模態領域中，最終的意義與相關的上下文相關。目前，我們正在與不同行業客戶合作，進一步改進我們的3D生成技術，使其更加成熟。在3D領域，高質量的3D資產具有很高的價值，例如游戲資產創建場景中，傳統的公司通常使用幾何學或圖形學等傳統方法來構建和維護3D資產庫，時間投入大，我們的技術能夠大幅提高創作效率，減少時間成本。