猩猩學會玩《我的世界》，方法竟和GPT-4智能體相通？

Question

原文來源：新智元![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-817f1b7fd1-dd1a6f-1c6801) 圖片來源：由無界AI‌ 生成注意，這位玩家正在熟練地玩著《我的世界》，ta游刃有餘地進行著收集零食和打碎積木的操作。鏡頭一轉，我們才發現：玩家的真實身份，竟然是一隻猩猩！沒錯，這是一項來自「猩猩行動計劃（Ape Initiative）」的非人類生物神經網絡實驗。而實驗的主角Kanzi，是一隻42歲的倭黑猩猩。經過訓練後，它學會了各種技能，挑戰了鄉村、沙漠神殿、下界傳送門等環境，一路通關到達終點。而AI專家發現，猩猩訓練師教會它學技能的過程，竟然跟人類教AI玩Minecraft有諸多類似之處，比如上下文強化學習、RLHF、模仿學習、課程學習等。## **當猩猩學會玩《我的世界》**Kanzi是來自Ape Initiative的一隻倭黑猩猩，它是世界上最聰明的猩猩之一，聽得懂英語，還會使用觸摸屏。在Ape Initiative，Kanzi能接觸到各種電子觸摸屏，這或許為它快速上手《我的世界》打好了基礎。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-3b1cd0d717-dd1a6f-1c6801) 人們第一次向Kanzi展示《我的世界》時，它一坐到屏幕前就發現了綠色的箭頭，然後用手指劃向了這個目標物上。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-b8adf23fc2-dd1a6f-1c6801) ### **學習三種技能**才不過幾秒鐘，Kanzi就發現了該怎樣在《我的世界》中移動。隨後，它還學會了收集獎勵。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-adf467c768-dd1a6f-1c6801) 每收集一個獎勵，它都會得到花生、葡萄、蘋果之類的零食獎勵。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-174f8cc831-dd1a6f-1c6801) Kanzi的操作越來越嫻熟。它會分辨和目標箭頭同樣是綠色柱形的障礙物，在收集獎勵時繞開它們。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-d15213ebd5-dd1a6f-1c6801) 當然，Kanzi也會遇到難關。它需要使用break工具擊碎大的積木塊，但這個操作，它此前從未見過。眼看Kanzi卡住了，人類在旁邊開始幫忙，指著所需的工具按鈕。然而Kanzi看完後仍然沒能領悟。人類只好親自上手，用工具敲碎了木塊。 Kanzi看完後若有所思，在所有人期待的目光中，它也有樣學樣，點擊按鈕後擊碎了木塊。人們瞬間爆發出歡呼。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-f6b5082eab-dd1a6f-1c6801) 現在，Kanzi的技能樹已經集齊了兩樣：收集零食、打碎積木。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-d060b9e587-dd1a6f-1c6801) 在學習山洞技能的時候，工作人員發現，如果從試圖擊碎的木塊上滑落，Kanzi就會直接走掉。因此，人們為它特別定制了一個任務——在一個到處都是鑽石牆的山洞中擊碎木塊，來證明它掌握了收藏和擊碎的技能。在山洞裡一切都很順利，然而，Kanzi卻遇到了一個問題：它在牆角被卡住了。此時，就需要人類伸出援手。最終，Kanzi到達了洞穴底部，擊碎了最後一道牆。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-d1d3d35671-dd1a6f-1c6801) 人群爆發出歡呼，Kanzi也高興得和工作人員擊掌。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-abdf6e6a54-dd1a6f-1c6801) ### **騙過人類**接下來，有意思的來了：工作人員邀請了一位人類玩家，和Kanzi一起玩遊戲，當然，他對於Kanzi的身份並不知情。工作人員打算看一看，這位玩家會在多長時間後意識到，和自己一起玩遊戲的並不是人類。開始，這位小哥只是覺得，對方的移動速度慢到不可思議，當Kanzi的畫面被展現到眼前，小哥直接被嚇到後仰。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-f301cf8384-dd1a6f-1c6801)## **走出迷宮**之後再玩《我的世界》，Kanzi越戰越勇。每當Kanzi收集到一個獎勵，人們就會用歡呼的形式肯定它的行為，如果它失敗了，訓練員也會用鼓掌和歡呼鼓勵它繼續進行遊戲。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-cba51defa7-dd1a6f-1c6801) 這時，它已經學會解鎖地下迷宮的地圖：![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-36bde9ea64-dd1a6f-1c6801) 擊碎面前的障礙物：![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-5c85364070-dd1a6f-1c6801) 找到紫水晶：![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-0cf19e0192-dd1a6f-1c6801) 當Kanzi卡住的時候，它會出去散散心，拿回一根木棍放到自己旁邊。就算不幸失敗，Kanzi也會點擊按鈕，讓自己重生。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-5fbb28924d-dd1a6f-1c6801) 最後一關，是一個充滿分岔路的巨大迷宮。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-f612834435-dd1a6f-1c6801) 因為遲遲無法走出迷宮，Kanzi焦躁起來，開始拿著樹枝尖叫，或者氣得把樹枝折斷。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-1a083c00e0-dd1a6f-1c6801) 最終，它讓自己平靜下來繼續闖關，走出了迷宮。立刻，掌聲和歡呼聲把Kanzi包圍了。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-1b46b0b748-dd1a6f-1c6801) 看來，《我的世界》是被Kanzi這只倭黑猩猩玩明白了。**教猩猩和教AI的相似之處**看著一隻倭黑猩猩熟練地玩著電子遊戲，多少會有點讓人覺得有些荒誕和不可思議。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-6aafab8128-dd1a6f-1c6801) 英偉達高級科學家Jim Fan對此評論道——儘管Kanzi和它的祖先們一生從未見過《我的世界》，但它很快就適應了電子屏幕上顯示的《我的世界》中的紋理和物理特性。而這與它們一直以來接觸和生活的自然環境截然不同。這種泛化水平遠遠超出了現今為止最強大的視覺模型。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-6ee39c6559-dd1a6f-1c6801) 訓練動物玩《我的世界》的技巧本質上與訓練人工智能的原則是相同的：**- 基於上下文的強化學習：**每當Kanzi在遊戲中達到標記的里程碑時，他就會得到一個水果或花生，激勵他繼續遵循遊戲中的規則。**- RLHF：**Kanzi並不理解人類的語言，但它能看到訓練人員為他加油打氣，還會偶爾給出回應。來自訓練人員的歡呼給了Kanzi一個強烈的信號：它走在正確的道路上。**- 模仿學習：**訓練員為Kanzi演示瞭如何完成任務之後，它就立即掌握了相關操作的含義。演示的效果遠遠超出比單獨使用獎勵的策略。**- 課程學習（Curriculum learning）：**訓練員和Kanzi從非常簡單的環境開始，逐步教導Kanzi掌握控制技能。最後，Kanzi能夠穿越複雜的洞穴、迷宮和下界。不僅如此，即便是使用了類似的訓練技巧，動物的視覺系統就能在極短的時間內識別和適應新的環境，而AI視覺模型則會花費更多的時間和訓練成本，甚至常常難以達到理想效果。我們再次陷入莫拉維克悖論（Moravec's paradox）的深淵：人工智能與人類的能力表現相反。在我們認為無需思考或作為本能的低級智能活動中（如感知和運動控制），人工智能表現很糟糕。但在需要推理、抽象的高級智能活動中（如邏輯推理和語言理解），人工智能卻很容易超越人類。這正好對應了這個實驗呈現的結果：我們最好的人工智能（GPT-4）在理解語言方面接近人類水平，但在感知、識別方面遠遠落後於動物。**網友：原來猩猩打遊戲也會生氣**###Kanzi和LLMs都可以玩《我的世界》，但Kanzi的學習方式和LLMs之間存在著不可小覷的差異，我們要注意這一點。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-3faa1a4b33-dd1a6f-1c6801) 面對Kanzi優異的學習能力，網友們開始了惡搞。有人預見6年以後的世界將成為猩球大戰......![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-3b013ba983-dd1a6f-1c6801) 或者是猩猩喝可樂，融入人類社會......![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-3202fced5e-dd1a6f-1c6801) 甚至馬老闆也中槍了，被做成了「猴版」馬斯克。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-2480e7eb17-dd1a6f-1c6801) 也有人說，Kanzi是第一個擁有遊戲玩家憤怒的非人類，ta很滿意。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-715705d4a7-dd1a6f-1c6801) 「如果Kanzi有自己的遊戲頻道，我會老老實實看的。」![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-e2175d6681-dd1a6f-1c6801) 「在玩遊戲上，人類與倭黑猩猩沒有太大區別。我們都受到獎勵的激勵，以執行某些任務並完成目標，唯一的區別是獎勵的實際內容。」「在《我的世界》中，Kanzi 開採鑽石的獎勵更即時、更原始（食物），而我們開採鑽石的獎勵則更延遲且與遊戲相關。總之，有點瘋狂。」![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-869b21f3c0-dd1a6f-1c6801) 先是GPT學會了玩《我的世界》，現在倭黑猩猩也可以玩了，這讓人不禁開始期待能用上Neuralink的未來。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-dfb0403770-dd1a6f-1c6801) **Jim Fan教AI智能體玩《我的世界》**在教AI玩Minecraft上，人類早已積累了許多先進經驗。早在今年5月，Jim Fan團隊就曾把英偉達的AI智能體接入GPT-4，做出了一個全新的AI智能體Voyager。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-ef88be9204-dd1a6f-1c6801) Voyager不僅性能完胜AutoGPT，而且還可以在遊戲中進行全場景的終身學習！它可以自主寫代碼獨霸《我的世界》，完全無需人類插手。可以說，Voyager出現後，我們離通用人工智能AGI，又近了一步。**真·數字生命**接入GPT-4之後，Voyager根本不用人類操心，完全就是自學成才。它不僅掌握了挖掘、建房屋、收集、打獵這些基本的生存技能，還學會了自個進行開放式探索。通過自我驅動，它不斷擴充著自己的物品和裝備，配備不同等級的盔甲，用盾牌格擋上海，用柵欄圈養動物。大語言模型的出現，給構建具身智能體帶來了全新的可能性。因為基於LLM的智能體可以利用預訓練模型中蘊含的世界知識，生成一致的行動計劃或可執行策略。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-9cf172f309-dd1a6f-1c6801) Jim Fan：我們在BabyAGI/AutoGPT之前就有了這個想法，花了很多時間找出最好的無梯度架構而在智能體中引入GPT-4，就開啟了一種全新的範式（靠代碼執行「訓練」，而非靠梯度下降），讓智能體擺脫了無法終身學習的缺陷。OpenAI科學家Karpathy也對此盛讚：這是個用於高級技能的「無梯度架構」。在這裡，LLM就相當於是前額葉皮層，通過代碼生成了較低級的mineflayer API。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-f16c34102d-dd1a6f-1c6801) **3個關鍵組件**為了讓Voyager成為有效的終身學習智能體，來自英偉達、加州理工學院等機構的團隊提出了3個關鍵組件：**1. 一個迭代提示機制，能結合遊戲反饋、執行錯誤和自我驗證來改進程序****2. 一個技能代碼庫，用來存儲和檢索複雜行為****3. 一個自動教程，可以最大化智能體的探索**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-acd05c2cfc-dd1a6f-1c6801) 首先，Voyager會嘗試使用一個流行的Minecraft Java API（Mineflayer）來編寫一個實現特定目標的程序。遊戲環境反饋和Java執行錯誤（如果有的話）會幫助GPT-4改進程序。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-680a7324c1-dd1a6f-1c6801)> 左：環境反饋。 GPT-4意識到在製作木棒之前還需要2塊木板。> 右：執行錯誤。 GPT-4意識到它應該製作一把木斧，而不是一把「相思木」斧，因為Minecraft中並沒有「相思木」斧。通過提供智能體當前的狀態和任務，GPT-4會告訴程序是否完成了任務。此外，如果任務失敗了，GPT-4還會提出批評，建議如何完成任務。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-ce8a34628a-dd1a6f-1c6801) 自我驗證其次，Voyager通過在向量數據庫中存儲成功的程序，逐步建立一個技能庫。每個程序可以通過其文檔字符串的嵌入來檢索。複雜的技能是通過組合簡單的技能來合成的，這會使Voyager的能力隨著時間的推移迅速增長，並緩解災難性遺忘。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-e021d2bee3-dd1a6f-1c6801)> 上：添加技能。每個技能都由其描述的嵌入索引，可以在將來的類似情況中檢索。> 下：檢索技能。當面對自動課程提出的新任務時，會進行查詢並識別前5個相關技能。第三，自動課程會根據智能體當前的技能水平和世界狀態，提出合適的探索任務。例如，如果它發現自己在沙漠而非森林中，就學習採集沙子和仙人掌，而不是鐵。課程是由GPT-4基於「發現盡可能多樣化的東西」這個目標生成的。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-f55d31b096-dd1a6f-1c6801) 自動課程作為第一個由LLM驅動、可以終身學習的具身智能體，Voyager的訓練過程和猩猩訓練過程的相似之處，可以給我們許多啟示。參考資料：