從模擬到創新：人工智能從遊戲中學到了什麼？

Question

**王樞** 騰訊研究院博士後**孟靖之** 騰訊研究院實習生![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-14769b697c-dd1a6f-1c6801) *圖片來源：由無界AI工俱生成*7月13日《Science》雜誌刊發名為《遊戲持續驅動著人工智能發展進步》文章，詳細論述了遊戲與人工智能的發展關係，認為“遊戲為通用智能工作提供了前景廣闊的應用領域，將游戲作為研究人工智能的平台，給價值2000億美元全球電子遊戲產業帶來了直接的助益。” [1]那麼，遊戲與人工智能之間到底有著怎樣的關係，遊戲究竟是如何推動人工智能的發展與進步，而這些又會對人們的生活帶來哪些影響？## **協同共生：遊戲與人工智能的相輔相成**回顧整個信息科學或計算機科學的發展歷史，不難發現遊戲幾乎貫穿著整個人工智能研究的發展過程，人工智能領域中每一次里程碑式的突破都與遊戲密切相關。此前，廈門大學遊戲哲學研究中心等從理論、硬件、應用三個層面論述了遊戲與人工智能發展之間的關係 [2] ：**遊戲啟發人工智能理論，助力人工智能研究發展。 **從1950年信息之父香農以國際象棋為對像開始研究人工智能，到人工智能先驅塞繆爾基於國際跳棋發明強化學習算法。國際象棋、跳棋等棋類游戲一直被認為是“AI研究的果蠅”，即低成本、可感知地快速驗證問題的媒介。如今，遊戲產業的快速發展直接促進了人工智能理論研究的繁榮。 1971年到2015年間，與遊戲相關的人工智能研究論文數量不足1000篇，但從2015年AlphaGO戰勝三屆歐洲圍棋冠軍選手樊麾後，與遊戲相關的人工智能研究出現爆發式增長，2015—2022年的7年裡，相關論文數量就達到1625篇，其中有17篇論文成為《自然》（Nature）和《科學》（Science）的封面文章。 [3]**遊戲推動人工智能算力基礎設施GPU（圖形顯卡）創新迭代。 **以芯片公司英偉達為例，從1995-2022年英偉達遊戲及數據中心業務營收及總營收變化情況來看，早期英偉達收入幾乎全部來自於遊戲業務，依托遊戲業務的英偉達完成了資金積累，並構築起技術壁壘，為後續轉型蓄力。如今，英偉達憑藉在遊戲顯卡的豐富技術積累和高額研發投入，快速崛起為人工智能芯片的龍頭，目前英偉達在AI訓練芯片市場佔有率高達95% [4] 。遊戲顯卡积累的許多技術，也成為英偉達GPU的關鍵底層能力，被運用到自動駕駛、醫療、生命科學、能源、金融服務、製造業等更多領域。**遊戲為人工智能提供可控訓練環境與清晰測量標準。 **遊戲中包含著目標、規則和挑戰，解決挑戰的過程就體現了智能。因此，當創造一個能夠完成某種遊戲的程序時，可以認為這個程序將在一定程度上擁有某種“類人”的“智能” 。一方面，遊戲中具有豐富的人機交互場景和穩定可控的規則，能夠解決人工智能科研場景缺失問題。另一方面，遊戲為人工智能提供清晰測量標準，用遊戲中清晰、可量化的規則評估人工智能的能力，可大幅提陞技術迭代與測試效率。伴隨著技術迭代與應用創新，越來越多的企業、高校和科研機構開始基於遊戲開展人工智能創新研究。遊戲人工智研究已從最初致力於創造類人水平的智能體，實現在完美信息/非完美信息環境中與人類進行對抗（例如基於《星際爭霸2》的人工智能AlphaStar，基於《DOTA2》的人工智能OpenAIFive等），延伸至關注遊戲（虛擬環境）中各類內容的自動生成，從而進一步提升人機交互體驗。在前不久，2023世界人工智能大會上，多所高校聯合發起“遊戲人工智能高校聯合研究中心”，聚焦遊戲與人工智能產業之間的發展關係。## **從簡單規則到復雜模擬：人類教AI學會“行走與奔跑”**在眾多關注交互體驗的遊戲人工智能研究中，比較典型的當屬智能體的動作生成。智能體是能夠根據不同的內外條件做出動作和反應的、被機器控制的虛擬或現實客體，典型代表是遊戲中的非玩家控制角色（NPC）。智能體動作生成技術主要研究如何讓智能體的行為動作能夠像真人一樣流暢和自然，進一步提升人機交互體驗。如果說人工智能研究中計算機視覺、自然語言處理等領域分別關注圖像、文字、語言理解方面的能力，那麼智能體動作生成對應著人工智能對行為動作控制的領域。歷史地看，動作生成技術的發展經歷了從簡單規則到復雜模擬的過程，從最早的有限狀態機到運動匹配算法，再到基於機器學習的作生成，通過模擬人類行為動作，智能體逐漸學會了像人類一樣的行走與奔跑。**（一）基於規則匹配的動作生成**1、基於狀態機的動作生成在虛擬環境中，智能體的各種動作，如行走、跑步、跳躍、攻擊等，被視為不同的狀態。早期的開發者通常會使用“狀態機”來控制智能體的行為動作，其做法是將智能體不同的動作根據不同的條件拼接到一起。該做法的優勢在於能明確定義狀態間的轉換規則，例如行走狀態可轉變為跑步或跳躍。下圖為遊戲中智能體使用的有限狀態機。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-228f0b860b-dd1a6f-1c6801) 圖1 遊戲中的狀態機示意圖 [5]不難發現，該做法的優勢在於能明確定義狀態間的轉換規則，例如行走狀態可轉變為跑步或跳躍；局限在於處理複雜的行為交互和預見未來的狀態變化，可能有困難。由於需要手寫邏輯從一個節點跳到另一個節點，對於高度複雜的系統，狀態機的設計和維護可能會變得極為複雜和費時。2、基於運動匹配的動作生成為了解決狀態機的應用局限，遊戲人工智能科學家們開始探索更高效的動作生成方案，運動匹配技術(Motion Matching)應運而生。相比狀態機，該技術不再需要手動拼接不同的動作捕捉數據片段，而是使用動作捕捉數據建立一個動作姿態數據庫，根據智能體當前的狀態和目標狀態，實時選擇和混合最合適的動作片段。由此，可根據角色的實時狀態和環境因素，實現更複雜和精細的動畫控制，讓智能體呈現出更自然、流暢的動作效果。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-924e05e3d9-dd1a6f-1c6801) 圖2 Motin Matching流程示意圖 [6]當然，運動匹配技術在實踐中也存在一定的局限，比如在使用時需要把所有的動畫數據都保留在內存裡，對內存佔用較大；所有的動畫都是數據庫中已有的內容，無法實現動作動畫的創新。即便是《荒野大鏢客2》這樣將NPC做得足夠逼真的遊戲大作中，也只是實現了“運動匹配”。雖然遊戲為馬設計了數百種不同的動作動畫，甚至連喘氣都有上百種不同的音，但這些都不是真正的智能，只是由龐大的狀態機規則和動畫資源堆疊而成。**（二）基於機器學習的智能體動作生成**無論是基於狀態機還是運動匹配技術，本質上都並未實現真正的智能動作生成，在落地應用過程中都存在著系統複雜且損耗大的問題。那麼，有沒有一種方法可以在訓練模型時隨心所欲地添加盡可能多的動作數據，在運行遊戲時也不需要把這些額外數據放進內存裡的方案呢？為此，海內外學界和業界進行了許多探索，嘗試基於機器學習實現智能體動作的自動生成。在海外，美國EA公司於2021年開發出HyperMotion技術，極大提升了FIFA系列遊戲中智能體動作的逼真程度和響應速度。該技術方案首先利用動作捕捉技術捕捉了22名人類職業足球運動員在比賽中超過870萬幀的動作數據，然後使用機器學習算法從870萬幀數據中不斷學習，最終實現遊戲內智能體動作的實時生成。 [7]在國內，2019年以來騰訊就嘗試將自回歸神經網絡模型（ARNN）應用到智能體的動作生成解決方案中，並取得突破性進展。 ARNN是一種廣泛應用於分析和處理時間序列數據的機器學習算法，經常用在天氣、股市預測等場景。如果能將其用在動作領域，就能實現通過大量真人動作捕捉從而輸入數據訓練，讓AI模型預測出動作序列幀的下一幀，最終連貫生成完整、自然的動作。為實現這一目標，2019年天美J3工作室的《逆戰手游》團隊聯手騰訊RoboticsX實驗室，基於ARNN模型的研究，開啟並逐漸完成了遊戲及機器人領域的交叉前沿技術——“智能體動作生成技術”研發。該技術以ARNN模型原理為基石，學習動作捕捉數據，通過數據驅動的自適應算法，讓NPC或機器人能根據玩家操作或環境變化等外界不同反應，自動生成更像真實生物的動作、反應與表達。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-6ea606f7e2-dd1a6f-1c6801) 圖3 智能體動作生成技術示意圖**騰訊逆戰手游團隊提出的這一套基於ARNN的動作生成技術解決方案，在業內實現了多個突破：**第一，為了落地自回歸神經網絡算法，研究人員從零建立起完整的工具鏈，並通過動作捕捉、動畫預處理、訓練與調優等步驟，建立起完整的製作管線。為了解決該技術在移動端應用時可能存在的網絡同步和性能優化問題，團隊採用了軌跡匹配技術、融合動畫技術以及相應算法層面的解決方案，極大提升了整體的效果表現，降低了神經網絡推理的內存開銷。第二，研究團隊聯合騰訊RoboticsX實驗室，將智能體動作生成技術應用於四足機器人，幫助其實現智能控制、決策，並大幅提升訓練效率。在算法本身的應用上，這套技術能幫助機器人提升思考能力，幫助機器人進行自主決策，自動根據外界反應，生成更像真實生物的動作、反應與表達。在持續的研究與訓練下，搭載該技術的機器人經過大量模擬訓練之後，已經學會了走、跑、跳、站立等真狗的動作，並能夠靈活運用這些姿態去完成匍匐前進、跨欄跑、障礙物之間跑酷穿梭等各種任務；即使臨時碰到預先不知道的障礙物，也能輕輕一閃，靈巧避開，自主修改運動軌跡，用不同路線方案完成既定目標（如下圖）。 [8]![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-0ec9e168c9-dd1a6f-1c6801) 圖4 騰訊自主研發多模態四足機器人## **從模仿到超越：遊戲人工智能影響現實世界**基於遊戲環境，人類已經教會了人工智能如何更好地在虛擬環境中實現“行走與奔跑“，但遊戲人工智能研究的價值並不止於此。正如《Science》雜誌文章中提到，“在遊戲中取得人工智能方面的進展，也將是朝著在現實世界中運行更強大、更靈活的人工智能係統所邁出的重要一步。”**人工智能在遊戲中通過“模仿”學到的十八般武藝，在多種現實問題和場景中都具有可遷移的、通用的特性與價值。 **在國內外學界和業界的實踐中，來自科研機構和企業的研究人員也在嘗試將更多的遊戲人工智能技術應用與其他領域，用遊戲AI連接實體經濟，在更多領域形成數字生產力：在醫療診斷領域，遊戲人工智能的相關技術在醫學研究和臨床實踐等醫療健康領域也有所引用，包括個性化篩查、診斷、預後、監測、風險建模、藥物發現和治療反應預測等等。尤其是在提高疾病識別和診斷的速度以及準確性方面，遊戲人工智能技術提供了有效的支持。遊戲人工智能技術還可以通過歷史數據模擬患者病情或手術的虛擬場景，通過強化學習來為醫療決策提供支持，同時也使得機器人輔助手術成為可能。在教育活動領域，遊戲人工智能也擁有著巨大的應用潛力。一方面，人們可以參考遊戲人工智能的研究成果，創建或完善“基於遊戲的學習”（Gamebased learning）、“遊戲化教育”（Gamification in Education）等新形式的教學活動，從而在傳統教學的過程中融入遊戲所特有的要素、機制，達成提升學習效果的目的；另一方面，人們也可以利用《我的世界》《星際爭霸》《王者榮耀》等遊戲環境，來幫助人工智能教學活動的進行（事實上，當前強化學習的教學活動，幾乎不可能脫離遊戲環境來進行）。 [9]可以預見的是，在未來一段時間中，讓遊戲人工智能技術走出遊戲環境將成為一個主要的應用方向。我們也期待，遊戲人工智能能夠在走出虛擬世界後，助力各行各業的創新發展。感謝騰訊天美J3工作室多位專家在本文寫作過程中給予的指導。**參考資料來源:**[1] Wurman,P R.、Stone, P. 和 Spranger, M (2023) 通過遊戲改進人工智能。科學，381（6654），147-148。[2] 廈門大學遊戲哲學研究中心等《遊戲人工智能產業觀察報告》[3] 中科院團隊最新研究：遊戲科技已成為人工智能創新發展的重要驅動力.[4] 從遊戲到AI加速：英偉達向左，AMD向右.[5] 霍爾頓，丹尼爾“神經網絡和機器學習的角色控制”。[6] 霍爾頓，丹尼爾“神經網絡和機器學習的角色控制”。[7] FIFA22 超動技術[8] 騰訊機器人最新動態：跟真狗學“奔跑跳躍”[9] 廈門大學遊戲哲學研究中心《遊戲人工智能發展報告2023》