AI狂飆時代，我們究竟如何才能相信AI？

Question

作者：陳永偉來源：經濟觀察報**導讀****壹||** **AI工具對人們的生產力產生了巨大的推動作用，也給人們的生活帶來了巨大的便利。但是，當AI被人們大規模使用之後，也產生了很多問題。這些問題中，最為關鍵的可能是五個“失”，即失業、失真、失格、失陷和失控。 ****貳||** **在2017年之後，隨著AI技術的突飛猛進，關於可信AI的技術的研究也蓬勃發展。在學術領域，以可信AI為題的論文數量不斷增加，關於滿足可信AI要求的技術的研究日益深入。在實踐領域，越來越多的國家開始按照可信AI的標準來涉及關於AI的規制規則。 ****叁|| 要實現可信AI並不是一件容易的事情，它需要政府、企業、社會以及技術等多方力量的協同才能實現。 **![](https://img-cdn.gateio.im/social/moments-bab2147faf-bb254e46d9-dd1a6f-7649e1) 圖片來源：由無界AI生成當地時間6月22日，紐約南區法院作出判決：Levidow，Levidow & Oberman律師事務所因向法院提供虛假信息，行為惡劣，被處以5000美元的罰款。引起關注的原因是，在這例判決中，虛假信息的提供並非是律師出於利益而故意知法犯法，而是因為他們過於相信了AI的能力。今年3月，該律所的律師彼得·洛杜卡（Peter LoDuca）和史蒂文·施瓦茨（Steven Schwartz）接受了客戶羅伯托·馬塔（Roberto Mata）的委託，承擔了他和阿維安卡航空公司之間的一起官司。由於美國是判例法的國家，法官在進行裁量時非常在意已有的判例，所以按照慣例，他們需要在起草的文書當中將已有的案例進行整理和綜述。相關的案例往往汗牛充棟，如果依靠人力來進行整理，通常需要很長的時間。恰恰在這個時候，ChatGPT火遍全網。於是，兩位律師就決定用ChatGPT來幫他們完成這些工作。 ChatGPT很快就生成出了一份完整的文書，不僅格式工整、論證嚴密，還特別加入了很多相關的案例。他們把這份AI創作的文書略作修改後，就呈交給了法庭。審案的法官凱文·卡斯特（Kevin Castel）在讀了提交的文書後，對其中提及的幾個案例感到十分疑惑，在他的印像中，似乎從來沒有聽過這些案例。在經過了一番查找之後，他終於確認這些案例根本就不存在。兩位律師在接受詢問時辯稱，自己只是用AI輔助撰寫了文書，當看到文書中引用的那些案例時，只是覺得AI幫他們找到了自己不知道的案例，並不是故意捏造案例欺騙法庭，屬於無心之失。儘管如此，卡斯特法官依然認為兩位律師“放棄了自己應盡的責任”，且在文書被質疑之後，兩人“依然繼續堅持虛假意見”。基於以上判斷，卡斯特法官作出了處罰決定。這起律師因引用ChatGPT提供的虛假信息而被罰的事件看似荒誕，但卻折射出一個非常重要的問題——在AI狂飆的時代，我們究竟如何才能相信AI？## **AI時代的五個“失”**近年來，隨著算力和算法技術的突破，AI技術取得了突飛猛進的發展，迅速從科幻走入了人們的日常生活。尤其是在去年11月ChatGPT橫空出世之後，生成式AI向人們展示出了自己的強大力量，各種大模型如雨後春筍一樣湧現，並實現了大規模的商業化。現在，人們已經可以用非常低的成本用上ChatGPT、Stable Diffusion以及Midjourney等AI產品。AI工具對人們的生產力產生了巨大的推動作用，也給人們的生活帶來了巨大的便利。但是，當AI被人們大規模使用之後，也產生了很多問題。這些問題中，最為關鍵的可能是五個“失”，即失業、失真、失格、失陷和失控。**（1）失業**所謂“失業”，顧名思義，即AI帶來的技術性失業問題。由於AI的生產效率要遠高於人類，因此在AI工具被普遍使用之後，很多人類的崗位就面臨被替代的風險。尤其是生成式AI崛起之後，AI替代的目標人群已不再限於從事低收入重複性工作的工人，很多高薪的白領人士也面臨著被AI替代的風險。**（2）失真**所謂“失真”，指的是AI（主要是生成式AI）的應用讓人們很難對文字、圖片，乃至視頻的真偽進行鑑別，“有圖有真相”由此成為了歷史。“失真”問題可以分為“假的真”和“真的假”。其中，“假的真”指的是人們在使用AI工具時，AI在未經人授意的情況下生成的虛假內容。雖然這些內容的生成未必出於人們主觀的惡意，但在某些情況下卻可能引發很多的麻煩，比如本文開頭提到的案例。而“真的假”則是人們基於主觀故意，利用AI工具進行的造假行為。前幾年，在“深度偽造”（deepfake）技術面世後，就有人利用這一技術進行詐騙、編造虛假信息、傳播色情內容等違法犯罪行為。但在當時，由於使用這一技術的成本很高，所以相關犯罪的發生率並不是特別高。隨著生成式AI的廣泛應用，造假的成本大幅降低，犯罪分子只需要用非常低的成本就可以輕易造出大量的虛假內容，而要識別這些內容的成本則大幅上升了。可以預見，此消彼長之下，如不加以乾涉，利用AI來造假犯罪的情況將會出現暴漲。**(3) 取消資格**所謂“失格”，指的是在AI的應用過程中，會出現一些違背倫理道德的問題。第一個典型問題就是歧視。以語言模型為例，由於語言模型是以互聯網上的文本資料作為訓練材料的，所以如不加干預，它就會將文本當中蘊含的種族歧視、性別歧視等內容也一併繼承下來。雖然現在的AI提供商已經用了很多方法來克服這個問題，比如OpenAI在訓練ChatGPT時就應用了“人類反饋的強化學習”（Reinforcement Learning from Human Feedback，簡稱RL－HF）算法來對其進行糾正，從而讓其輸出的內容質量有了很大的改善，但在現實中，AI模型輸出歧視性內容的情況依然並不鮮見。例如，有人曾做過一個實驗，要求ChatGPT編寫一個程序，從一組簡歷中挑出最具有成為優秀科學家潛質的人。結果發現，在ChatGPT編寫的程序中，性別和種族被作為了解釋變量，白人男性會被認為比其他人具有更高的概率成為優秀科學家。很顯然，這樣的模型是具有非常強烈的性別歧視和種族歧視色彩的。第二個重要問題是信息繭房問題。目前，很多App都應用AI進行個性化推薦。這時，雖然推薦的內容可以更符合用戶的需要，但久而久之，也會讓用戶陷入信息繭房，難以接觸到自己不認同的各種信息。信息繭房的潛在危害是巨大的：在微觀層面，它可能導致用戶認知能力的退化；在宏觀層面，它則可能導致群體觀點的極化，從而造成不同觀點之間群體的對立。第三個重要的問題是隱私和信息洩露。在AI的訓練和使用過程中，都需要用到大量的數據，在這個過程中就很難避免蒐集和使用人們的個人數據，因此就會涉及隱私的利用和洩露問題。尤其是生成式AI普及之後，人們可以很容易地直接和AI交互來完成各項工作，在此過程中輸入的個人信息就面臨著被洩露的問題。**（4）失陷**所謂“失陷”，指的是AI難以應對外部攻擊或突發情況的干擾或攻擊，從而導致模型難以正常發揮其作用。在這些干擾中，有一些是源於非人為因素，而另一些則源於人為的破壞。具體來說，這些干擾可以分為如下幾種：第一種是“隨機攻擊”。這一類干擾主要是由一些外部因素引發的。比如，在一些特殊的情況下，某些即時產生的參數可能超出了模型預先設定的處理閾限，這就可能導致AI模型不能正常使用。第二種是“白盒攻擊”。它指的是供給者在知道了AI模型的具體結構之後，對模型發起的攻擊。由於這類攻擊是有的放矢，所以其破壞性是非常高的。第三種是“黑盒攻擊”。這類攻擊是相對於“白盒攻擊”而言的。在這種情形下，供給者並不知道作為攻擊目標的模型的具體結構，因而只能通過與模型的交互，觀測輸入輸出的結果，進而對模型的結構進行推理，並依此發動攻擊。以人臉識別為例，AI是通過臉上的某些關鍵特徵來對人臉進行識別的。因此，即使攻擊者並不知道原模型的具體結構，但只要通過反複測試就可以推算出其重點關注的是哪些特徵。在破解了這些信息之後，就可以對應地做出騙過AI的“假臉”。第四類是所謂的盲盒攻擊。在這種情形下，供給者並不知道AI模型的結構，但卻可以明確地知道它判斷的規則（類似於我們不知道盲盒中會出現什麼，但卻知道其中各種可能性出現的概率）。這時，它們就可以利用規則，發起對應的攻擊。如果無法對上述的幾類干擾或攻擊進行有效的應對，AI模型在現實當中就是十分脆弱的。**（5）失控**所謂“失控”，指的是人們對於AI的控制將變得越來越難。這個問題分為兩個方面：一方面，最近的AI發展是都是建築在深度學習模型的基礎之上的，而這類模型的可解釋性是非常低的。對於以往的機器學習模型，無論是回歸還是分類樹，人們都可以很容易地解釋明白模型的確切用途，以及模型中每一個參數的涵義。但是，深度學習模型卻是由複雜的神經網絡構成的，其中包含著數以億計的參數和神經元，這些神經元之間的關係錯綜複雜，人們也難以對其進行解釋。隨著ChatGPT的出現，一些學者發現借助於ChatGPT的能力似乎可以對某些神經網絡模型進行解釋，這似乎為AI的可解釋性帶來了一線曙光。不過，這又產生了一個問題：ChatGPT本身就是一個通過深度學習構建的龐大模型，甚至連它的設計者都坦承自己並不確知它的強大能力是如何“湧現”出來的。在這種情況下，用ChatGPT去解釋其他的深度學習模型就只能算是用未知去解釋未知。我們又如何可以知道它的解釋是否是正確的呢？既然在深度學習時代，連AI程序的可解釋都做不到，那麼希望通過直接調整程序來對AI進行控制，就是一件更加難以實現的事情了。另一方面，近年來隨著AI技術的發展，AI模型在很多方向上的能力都已經凌駕於人類之上。這在讓人感到欣喜的同時，也讓人感到憂慮，因為當AI的能力超越人類之後，萬一其覺醒了自我意志，那麼在《終結者》、《黑客帝國》等電影中預言的AI奴役人類或毀滅人類的劇情是不是就不再是科幻。退一步講，即使AI並沒有覺醒自我意志，只會按照人類的指令行事，但如果當它的能力凌駕於人類，人類無法隨時更改先前下達的指令時，它依然是十分危險的。例如，在不少關於AI的哲學書中，都會提到一個思想實驗：人類給AI下達了生產鉛筆的命令。鉛筆為了完成這個指令，就會不斷砍伐地球上的樹木來製作筆桿。由於AI在執行能力上已經超越了人類，所以人類在發現了先前指令中存在的問題後也難以阻止AI的行為。最終，地球上的樹木被砍完了，生態完全崩潰，人類也隨之滅亡了。儘管在現實中，這個思想實驗所預言的情景幾乎不可能上演，但當人類不再能隨時控制AI的行為時，類似的問題就可能會出現，而這可能帶來的損失將是十分巨大的。尤其是，當AI被黑客或入侵者植入了某個非法的目標後，如果AI的使用者不能及時對其進行糾正，那麼後果將可能相當嚴重。在以上五類問題中，除了第一個問題“失業”外，其餘四個問題都涉及了AI的可信性問題。不難看到，如果不能有效地回應“失真”、“失格”、“失陷”和“失控”，人們就很難在使用過程當中信任AI這個工具，這無論是對於AI的普及、生產的發展，還是社會的進步而言，都是不利的。也正是因為這個原因，所以實現AI的可信化就成了當前AI領域最為關注的熱點之一。## **可信AI的歷史和標準**可信AI（Trustworthy AI）的概念最早出現在學術界。例如，在2015年的一篇論文中，就提出了AI要被用戶信任所需要滿足的一系列條件，包括有用性、無害性、自主性、公正性和和邏輯性等。然後這個概念被各國政府和國際組織接受，並逐步以此為依據建立了相關的法律、法規和指導文件。在2017年之後，隨著AI技術的突飛猛進，關於可信AI的技術的研究也蓬勃發展。在學術領域，以可信AI為題的論文數量不斷增加，關於滿足可信AI要求的技術的研究日益深入。在實踐領域，越來越多的國家開始按照可信AI的標準來涉及關於AI的規制規則。僅在最近，美國就發布了《人工智能權利法案藍圖》，提出了規制AI的五項原則；英國發布了《支持創新的人工智能監管方法》，對安全性、透明性、公平性、問責制、競爭等問題進行了規定；歐洲議會通過《人工智能法案》提案的談判授權草案，其中也體現了可信AI的基本思路。在我國，可信AI的概念是由何積豐院士2017年在香山科學會議的第36次學術研討會上首次引入的。隨後，這一概念就引起了政府和產業界的共同重視。 2017年12月，工信部印發了《促進新一代人工智能產業發展三年行動計劃（2018-2020）》，其中對可信AI的基本思想進行了借鑒。然後，包括騰訊、阿里、百度、京東等在內的高科技公司都圍繞著可信AI提出了自己的標準和實施規劃。在各個機構的文件中，關於可信AI的表述略有一些不同。我在對這些文件進行了學習和參考之後，認為如下幾個標準可能是最重要的：一是穩健（robust，又被譯為魯棒），即AI系統應該具有抵抗惡意攻擊或者外部干擾的能力。這一標準主要是針對上面提到的“失陷”問題而提出的。只有當一個AI系統具有充足的穩健性，可以在面臨各種攻擊或乾擾時依然正常工作，履行其主要職能時，它才是安全可靠的，才可能得到用戶的信任。二是透明和可解釋（transparent and explainable）。顯然，這一標準主要是針對前面的“失控”問題提出的。在實踐當中，關於透明和可解釋究竟指什麼，存在著不小的爭議性。一些觀點認為，這個標準意味著應該向用戶公開所有的AI程序代碼，以及使用的數據。在我看來，這樣做不但沒有可能而且沒有必要。一方面，現在的很多AI都是企業的知識資產，如果強制要求公開代碼等核心信息，就意味著嚴重侵犯知識產權；另一方面，如前所述，在AI進入了深度學習時代之後，即使公開了代碼，也很難讓人完整理解每一個具體參數背後所蘊含的確切含義。相比之下，我認為比較可行的一個思路是，對AI模型中的各個組件都給出清晰的功能說明，讓用戶知道它們的大致原理究竟如何，到底可以實現哪些功能；對使用的訓練數據的來源、樣本量、代表性等信息進行標明，並對其可能存在的問題和不足進行說明。這樣，既可以讓用戶做到心中有數，又可以有效保護模型開發者的知識產權，從而在兩者之間取得一個比較好的平衡。三是可驗證（verifiable）。這指的是AI模型應該保證其功能是可評估的，保證其生成的內容是可以驗證真偽的。這一點，主要是針對前面提到的“失真”問題提出的。一些觀點認為，應當要求AI模型的開發者要保證其模型生成內容的真實性。這一點是很難實現的。事實上，所謂生成式AI，其生成的內容本來就是原來的世界中沒有的，或者說，就是“假”的。但這種“假”，如果沒有對人造成困擾，就不會產生任何問題。比如，我們用Midjourney生成一張梵高風格的圖片來自己欣賞或者打印出來作為家裡的裝飾，那就完全不會對他人造成影響。只有當人們用這些生成的內容去進行欺騙，或者這些內容被無意地傳播、混淆之後，它的“假”才可能成為一個問題。因此，只要可以通過技術的手段，將生成的內容和真實的內容區分開，那麼“假”就不再會成為問題。四是公平性（fair）。這指的是，AI模型在開發、訓練和應用的過程當中，應當保證公平，不應該對特定的用戶群體進行歧視。這一標準涉及很多方面的內容，具體來說，它要求模型在開發階段，其基本的原理不應該是具有歧視性的；在訓練階段，應該盡量避免使用可能產生歧視性的材料，並應該用技術的手段來對可能產生的歧視問題進行糾正；在應用的過程當中，不應該對不同的人群區別對待等。五是隱私保護（privacy）。這一標準主要要求AI模型在訓練的過程當中應當尊重人們的個人信息和隱私，並提升對信息的保護程度，盡量做到不侵犯、不洩露個人信息和隱私。六是可問責（accountable）。也就是說，當它出了什麼問題，必須要有人來為這些問題負責。當然，至少到目前為止，AI還沒有覺醒意識。因為不能被視為是和人類一樣的主體，無法承擔和人類一樣的責任，因此為它來承擔責任的就必須是某個人。但這個責任究竟應該由AI的開發者，還是AI的使用者來承擔，或者說是由雙方來進行分擔，依然是一個值得討論的問題。需要指出的是，除了以上的幾個標準外，不少文獻中還將安全性（safe）、包容性（inclusiveness）、被遺忘權（right to be forgotten）、為人類造福等標準列入可信AI的範疇。在我看來，這些內容或多或少可以被歸併到上面所說的幾個標準當中，或者由前面提到的標準闡發出來。因此限於篇幅，這兒就不再贅述了。## **用好多方合力實現可信AI**要實現可信AI並不是一件容易的事情，它需要政府、企業、社會以及技術等多方力量的協同才能實現。首先，政府作為監管者，需要為可信AI制定相關的標準和操作指南，並依據標準對AI的開發者和使用者進行監督。一方面，它需要根據不同的應用場景、不同的模型類別制定不同的規則，尤其是對一些必須遵守的底線規則做出明確的規定，同時做好和現有法律法規之間的銜接工作。唯有如此，AI的開發者和使用者在實踐當中才能做到有規可依，而不用被不必要的不確定性干擾。另一方面，它需要扮演好監督和執法的角色。對於一些突出的，或者俱有共性的問題，應當及時處理，從而為行業樹立相應的規範。這裡需要指出的是，由於AI技術目前的發展依然十分迅速，還沒有達到一個穩定狀態。這意味著，對於這個過程中出現的問題，政府在處理時應當具有一定的審慎性，要做到“讓子彈多飛一會兒”，看清楚了情況再出手，在處理問題時也要注意方式方法。如果盲目下手，管得過快、管得過多，也可能會對AI的發展造成負面的影響。其次，相關的企業應當對可信AI的具體實現制定具體的實施方案以及詳細的標準。相比於政府，企業是更接近於市場，也更了解技術的。對於AI模型的技術特徵，以及優勢劣勢，它們都要比政府了解得更多。因此，如果說政府的責任是給可信AI提出了一個大的框架的話，那麼企業就應該是這個大框架內的具體實踐者。它們應該在這個框架下，結合市場和技術的特點，給出更為具體的方案，並採用自律的方式來對此進行實施。再次，用戶也應該扮演好反饋者和監督者的角色，提出自己的訴求、反映自己的問題，並對企業實施可信AI的行為進行監督。隨著AI的普及，社會上的每一個人都會成為AI的使用者和利益相關者，對於AI的可信性問題，他們是最有發言權的。只有讓他們的聲音充分地得到表達，可信AI的標準制定以及相關技術的開發才是最有價值的。最後，應當充分依靠技術的力量。相關的規則固然重要，但歸根到底，可信AI的實現還是要依靠技術的力量。事實上，很多利用規則難以解決的問題，都可以用技術的手段得到解決。舉例來說，在生成式AI產生後，“失真”問題就一直讓監管部門非常頭疼，但事實上，依靠新的技術，這個問題或許並不難破解。例如穀歌之前就推出了一種肉眼不可見，但可以用機器識別的電子水印技術，將它應用在生成的圖像或者視頻上，就可以有效地保證它們是可以驗證的。至於文字內容的可驗證性，則可以仿效新必應（New Bing）搜索。當它引述某個內容時，會在生成的內容後面附上參考的文獻，這樣用戶就可以根據需要對生成內容的真偽自行鑑別。總而言之，可信AI的實現並非易事，但如果我們用好各方的合力，這個目標就一定可以實現。