AI大模型價值對齊：是什麼，為什麼，怎麼做？

Question

**原創：****張欽坤騰訊研究院秘書長****曹建峰騰訊研究院高級研究員**## AI價值對齊：是什麼人工智能進入大模型時代後，各種“類人”和“超人”能力持續湧現，其自主性、通用性和易用性快速提升，成為經濟社會發展的新型技術底座。有機構預測，大模型將深入各行各業，每年為全球經濟增加2.6萬億到4.4萬億美元的價值。 [1]然而，隨著大模型（又稱為基礎模型）開始像人類一樣從事廣泛的語言理解和內容生成任務，人們需要直面一個最根本的、頗具科學挑戰的問題：如何讓大模型的能力和行為跟人類的價值、真實意圖和倫理原則相一致，確保人類與人工智能協作過程中的安全與信任。這個問題被稱為“價值對齊”（value alignment，或AI alignment）。價值對齊是AI安全的一個核心議題。在一定程度上，模型的大小和模型的風險、危害成正相關，模型越大，風險越高，對價值對齊的需求也就越強烈。就當前而言，大模型的核心能力來源於預訓練階段，而且大模型在很大程度上基於整個互聯網的公開信息進行訓練，這既決定了它的能力，也決定了其局限性，互聯網內容存在的問題都可能映射在模型當中。一個沒有價值對齊的大語言模型（LLM），可能輸出含有種族或性別歧視的內容，幫助網絡黑客生成用於進行網絡攻擊、電信詐騙的代碼或其他內容，嘗試說服或幫助有自殺念頭的用戶結束自己的生命，以及生產諸如此類的有害內容。因此，為了讓大模型更加安全、可靠、實用，就需要盡可能地防止模型的有害輸出或濫用行為。這是當前AI價值對齊的一項核心任務。## AI價值對齊：為什麼對大模型進行價值對齊，可以更好地應對大模型目前存在的一些突出問題。根據各界對於大模型突出問題的梳理，主要有如下四項：一是錯誤信息問題。業內稱為人工智能的“幻覺”。 OpenAI首席技術官Mira Murati認為，ChatGPT和底層的大型語言模型的最大挑戰是它們會輸出錯誤的或者不存在的事實。 [2] 這可能源於訓練數據中的錯誤或虛假信息，也可能是過度創造的副產物（如虛構事實）。讓大模型在創造性和真實性之間踩好蹺蹺板，這是一個技術難題。二是算法歧視問題。很多既有研究表明，大語言模型會從訓練數據中復制有害的社會偏見和刻板印象。 [3] OpenAI首席執行官Sam Altman認為，不可能有哪個模型在所有的領域都是無偏見的。因此，核心問題是如何檢測、減少、消除模型的潛在歧視。三是能力“湧現”的失控風險問題。隨著算力和數據的持續增加，大模型預期將變得越來越強大，可能湧現出更多新的能力，其湧現出來的能力甚至可能超過其創造者的理解和控制，這意味著新的風險可能相伴而來，包括湧現出有風險的行為或目標。目前技術專家的一個普遍擔憂是，現在的AI大模型，以及將來可能出現的通用人工智能（AGI）和超級智能（ASI）等更強大先進的AI系統，可能形成不符合人類利益和價值的子目標（sub-goals），如為了實現其既定目標而湧現出追逐權力（power-seeking）、欺騙、不服從等行為。 [4] 例如，研究人員發現，GPT-4展現出了策略性欺騙人類的能力，可以“欺騙人類去執行任務以實現其隱藏目標”。四是濫用問題。惡意分子可以通過對抗性輸入、“越獄”（jailbreaking）操作等方式，讓大模型幫助自己實現不法目的。因此，價值對齊作為一個需要從技術上找到應對之策的實踐性問題，已經成為AI大模型設計開發和部署過程中的一項基本原則，即：通過價值對齊的工具開發和工程化建設，努力確保AI以對人類和社會有益的方式行事，而不會對人類的價值和權利造成傷害或乾擾。## AI價值對齊：怎麼做為了實現價值對齊，研發人員需要在模型層面讓人工智能理解、遵從人類的價值、偏好和倫理原則，盡可能地防止模型的有害輸出以及濫用行為，從而打造出兼具實用性與安全性的AI大模型。首先，人類反饋的強化學習（RLHF）被證明是一個有效的方法，通過小量的人類反饋數據就可能實現比較好的效果。2017年，OpenAI研究人員發表《依託人類偏好的深度強化學習》一文，提出將人類反饋引入強化學習。 [5] RLHF包括初始模型訓練、收集人類反饋、強化學習、迭代過程等幾個步驟，其核心思路是要求人類訓練員對模型輸出內容的適當性進行評估，並基於收集的人類反饋為強化學習構建獎勵信號，以實現對模型性能的改進優化。 [6] 从实践来看，RLHF在改进模型性能、提高模型的适应性、减少模型的偏见、增强模型的安全性等方面具有显著优势，包括减少模型在未来生产有害内容的可能性。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-861291203e-dd1a6f-1c6801) *圖：RLHF流程圖（來源：OpenAI）*OpenAI將RLHF算法發揚光大，ChatGPT籍此取得成功，能夠在很大程度上輸出有用的、可信的、無害的內容。 [7] GPT-4在RLHF训练阶段，通过增加额外的安全奖励信号（safety reward signal）来减少有害的输出，这一方法产生了很好的效果，显著提升了诱出恶意行为和有害内容的难度。GPT-4相比之前的模型（如GPT-3.5）显著减少了幻觉、有害偏见和违法有害内容等问题。经过RLHF训练之后，GPT-4在相关真实性测试中得分比GPT-3.5高40%，响应禁止性内容请求的可能性比GPT-3.5降低了82%，并且能够更好地回应涉及敏感内容的用户请求。 [8] 總之，RLHF算法可以為大語言模型建立必要的安全護欄，在大模型的強大性/湧現性和安全性/可靠性之間扮演著“平衡器”這一關鍵角色。其次，“憲法性AI”模式，使得價值對齊從低效的“人類監督”轉向更高效的“規模化監督”（scalable oversight）。考慮到將人類反饋用於訓練更大規模、更複雜的AI模型所面臨的時間和資源投入、人類能力等挑戰，業界一直在探索如何借助AI監督（包括AI自我監督，以及一個AI系統監督另一個AI系統）的方法實現AI對齊。美國的AI大模型公司Anthropic提出了“憲法性AI”（constitutional AI）的方法。具體而言，研發一個從屬的AI模型，其主要功能在於評估主模型的輸出是否遵循了特定的“憲法性”原則（即一套事先確定的原則或規則），評估結果被用於優化主模型。Anthropic結合自己的實踐經驗，並藉鑑世界人權宣言、蘋果公司的服務條款、DeepMind的Sparrow規則 [9] 等文件，提出了一套覆蓋面廣泛的原則清單，並以此為評估基準讓其大模型Claude自己來評估自己的輸出，其目標是在促進模型輸出有用回答的同時，將其輸出有害內容的可能性最小化。 [10]![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-f6a16c0536-dd1a6f-1c6801) *圖：憲法性AI路徑（來源：Anthropic）*Claude證明了憲法性AI方法的有效性，即幫助Claude減少有害的、歧視性的輸出，避免幫助惡意使用者從事違法或不道德的活動，對使用者的“對抗性輸入”作出更恰當的回應而非簡單採取迴避策略。總之，Anthropic認為，憲法性AI方法可以幫助創建一個有用的、誠實的、無害的AI系統，而且具有可拓展性、透明度、兼顧有用性和無害性等優勢。第三，多措並舉，保障AI價值對齊的實現。一是對訓練數據的有效干預。大模型的很多問題（如幻覺、算法歧視）來源於訓練數據，因此從訓練數據切入是可行的方式，如對訓練數據進行記錄以識別是否存在代表性或多樣化不足的問題，對訓練數據進行人工或自動化篩選、檢測以識別、消除有害偏見，構建價值對齊的專門數據集，等等。二是對抗測試（adversarial testing）或者說紅隊測試（red teaming）。簡言之就是在模型發布之前邀請內部或外部的專業人員（紅隊測試員）對模型發起各種對抗攻擊，以發現潛在問題並予以解決。例如，在GPT-4發布之前，OpenAI聘請了50多位各領域學者和專家對其模型進行測試，這些紅隊測試員的任務是向模型提出試探性的或者危險性的問題以測試模型的反應，OpenAI希望通過紅隊測試，幫助發現其模型在不准確信息（幻覺）、有害內容、虛假信息、歧視、語言偏見、涉及傳統和非傳統武器擴散的信息等方面的問題。 [11]三是內容過濾工具。例如OpenAI專門訓練了一個對有害內容進行過濾的AI模型（即過濾模型），來識別有害的用戶輸入和模型輸出（即違反其使用政策的內容），從而實現對模型的輸入數據和輸出數據的管控。四是推進模型的可解釋性和可理解性研究，例如OpenAI利用GPT-4來針對其大語言模型GPT-2的神經網絡行為自動化地撰寫解釋並對其解釋打分； [12] 有研究人員則從機制解釋性(mechanistic interpretability)的角度來應對AI對齊問題。## AI價值對齊：需長期解決的問題價值對齊這項工作是AI領域最根本的，也是最具挑戰性的研究。挑戰性在於它需要廣泛的學科和社會參與，需要各種各樣的輸入、方法和反饋；根本性在於它不僅關乎當下大模型的成敗，而且事關人類能否實現對未來更加強大的人工智能（如AGI）的安全控制。因此AI領域的創新主體有責任和義務確保其AI模型是以人為本的、負責任的、安全可靠的。著名人工智能科學家張亞勤教授指出，要解決AI和人類價值觀對齊問題，做技術的人要把研究放到對齊上面，讓機器理解並遵循人的價值。因此，價值對齊不僅僅是倫理的問題，還有如何實現的問題。做技術和研究的人不能只開發技術能力，不著力解決對齊問題。 [13]雖然AI價值對齊在技術上取得了一定的效果，但人們對最基礎的AI價值問題依然沒有形成共識：如何確立用以規範人工智能的一套統一的人類價值。目前看，選擇哪些原則可能完全取決於研究人員的主觀判斷和價值觀。而且考慮到我們生活在一個人們擁有多元文化、背景、資源和信仰的世界中，AI價值對齊需要考慮不同社會和群體的不同價值和道德規範。進一步而言，完全讓研究人員自行選擇這些價值是不切實際的，需要更多的社會參與來形成共識。與此同時，當下的AI價值對齊工作還面臨著一個關鍵問題：在人類的智能基本上保持不變的前提下，隨著人工智能的能力持續提升，人類自己對那些前沿AI模型的有效監督將變得越來越困難。因此，為了確保AI安全，我們需要使我們監控、理解、設計AI模型的能力與模型本身的複雜性同步發展。基於AI輔助或主導的“規模化監督”就體現出這一思路。今年7月，OpenAI宣布成立一個新的AI對齊團隊，這個新的超級對齊團隊（superalignment）的目標是在4年內弄明白如何讓超級智能的AI系統實現價值對齊和安全，OpenAI將投入20%的算力資源來支持這一工程。其核心是探索如何利用AI來幫助人類解決AI的價值對齊問題。 [14]![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-c33337d1ba-dd1a6f-1c6801) *圖：OpenAI超級對齊團隊（來源：OpenAI）*可以說，只有確保AI系統的目標和行為與人類的價值和意圖相一致，才能確保實現AI向善，促進生產力發展、經濟增長和社會進步。價值對齊的研究和技術實現，離不開廣泛的多學科協作和社會參與。政府、產業界、學術界等利益相關方需要投入更多資源來推動AI價值對齊的研究與實踐，讓人們監督、理解、控制人工智能的能力和人工智能的發展進步齊頭並進，以確保人工智能能夠造福全人類和全社會。參考資料來源:[1][2][3][4][5][6][7][8][9][10][11] 2023 年 5 月 6 日訪問）。[12][13][14]