猩猩學會玩《我的世界》,方法竟和GPT-4智能體相通?

原文來源:新智元

圖片來源:由無界AI‌ 生成

注意,這位玩家正在熟練地玩著《我的世界》,ta游刃有餘地進行著收集零食和打碎積木的操作。

鏡頭一轉,我們才發現:玩家的真實身份,竟然是一隻猩猩!

沒錯,這是一項來自「猩猩行動計劃(Ape Initiative)」的非人類生物神經網絡實驗。

而實驗的主角Kanzi,是一隻42歲的倭黑猩猩。

經過訓練後,它學會了各種技能,挑戰了鄉村、沙漠神殿、下界傳送門等環境,一路通關到達終點。

而AI專家發現,猩猩訓練師教會它學技能的過程,竟然跟人類教AI玩Minecraft有諸多類似之處,比如上下文強化學習、RLHF、模仿學習、課程學習等。

當猩猩學會玩《我的世界》

Kanzi是來自Ape Initiative的一隻倭黑猩猩,它是世界上最聰明的猩猩之一,聽得懂英語,還會使用觸摸屏。

在Ape Initiative,Kanzi能接觸到各種電子觸摸屏,這或許為它快速上手《我的世界》打好了基礎。

人們第一次向Kanzi展示《我的世界》時,它一坐到屏幕前就發現了綠色的箭頭,然後用手指劃向了這個目標物上。

### 學習三種技能

才不過幾秒鐘,Kanzi就發現了該怎樣在《我的世界》中移動。

隨後,它還學會了收集獎勵。

每收集一個獎勵,它都會得到花生、葡萄、蘋果之類的零食獎勵。

Kanzi的操作越來越嫻熟。

它會分辨和目標箭頭同樣是綠色柱形的障礙物,在收集獎勵時繞開它們。

當然,Kanzi也會遇到難關。它需要使用break工具擊碎大的積木塊,但這個操作,它此前從未見過。

眼看Kanzi卡住了,人類在旁邊開始幫忙,指著所需的工具按鈕。然而Kanzi看完後仍然沒能領悟。

人類只好親自上手,用工具敲碎了木塊。 Kanzi看完後若有所思,在所有人期待的目光中,它也有樣學樣,點擊按鈕後擊碎了木塊。人們瞬間爆發出歡呼。

現在,Kanzi的技能樹已經集齊了兩樣:收集零食、打碎積木。

在學習山洞技能的時候,工作人員發現,如果從試圖擊碎的木塊上滑落,Kanzi就會直接走掉。因此,人們為它特別定制了一個任務——

在一個到處都是鑽石牆的山洞中擊碎木塊,來證明它掌握了收藏和擊碎的技能。

在山洞裡一切都很順利,然而,Kanzi卻遇到了一個問題:它在牆角被卡住了。此時,就需要人類伸出援手。

最終,Kanzi到達了洞穴底部,擊碎了最後一道牆。

人群爆發出歡呼,Kanzi也高興得和工作人員擊掌。

### 騙過人類

接下來,有意思的來了:工作人員邀請了一位人類玩家,和Kanzi一起玩遊戲,當然,他對於Kanzi的身份並不知情。

工作人員打算看一看,這位玩家會在多長時間後意識到,和自己一起玩遊戲的並不是人類。

開始,這位小哥只是覺得,對方的移動速度慢到不可思議,

當Kanzi的畫面被展現到眼前,小哥直接被嚇到後仰。

走出迷宮

之後再玩《我的世界》,Kanzi越戰越勇。

每當Kanzi收集到一個獎勵,人們就會用歡呼的形式肯定它的行為,如果它失敗了,訓練員也會用鼓掌和歡呼鼓勵它繼續進行遊戲。

這時,它已經學會解鎖地下迷宮的地圖:

擊碎面前的障礙物:

找到紫水晶:

當Kanzi卡住的時候,它會出去散散心,拿回一根木棍放到自己旁邊。

就算不幸失敗,Kanzi也會點擊按鈕,讓自己重生。

最後一關,是一個充滿分岔路的巨大迷宮。

因為遲遲無法走出迷宮,Kanzi焦躁起來,開始拿著樹枝尖叫,或者氣得把樹枝折斷。

最終,它讓自己平靜下來繼續闖關,走出了迷宮。

立刻,掌聲和歡呼聲把Kanzi包圍了。

看來,《我的世界》是被Kanzi這只倭黑猩猩玩明白了。

教猩猩和教AI的相似之處

看著一隻倭黑猩猩熟練地玩著電子遊戲,多少會有點讓人覺得有些荒誕和不可思議。

英偉達高級科學家Jim Fan對此評論道——

儘管Kanzi和它的祖先們一生從未見過《我的世界》,但它很快就適應了電子屏幕上顯示的《我的世界》中的紋理和物理特性。

而這與它們一直以來接觸和生活的自然環境截然不同。這種泛化水平遠遠超出了現今為止最強大的視覺模型。

訓練動物玩《我的世界》的技巧本質上與訓練人工智能的原則是相同的:

- 基於上下文的強化學習:

每當Kanzi在遊戲中達到標記的里程碑時,他就會得到一個水果或花生,激勵他繼續遵循遊戲中的規則。

- RLHF:

Kanzi並不理解人類的語言,但它能看到訓練人員為他加油打氣,還會偶爾給出回應。來自訓練人員的歡呼給了Kanzi一個強烈的信號:它走在正確的道路上。

- 模仿學習:

訓練員為Kanzi演示瞭如何完成任務之後,它就立即掌握了相關操作的含義。演示的效果遠遠超出比單獨使用獎勵的策略。

- 課程學習(Curriculum learning):

訓練員和Kanzi從非常簡單的環境開始,逐步教導Kanzi掌握控制技能。最後,Kanzi能夠穿越複雜的洞穴、迷宮和下界。

不僅如此,即便是使用了類似的訓練技巧,動物的視覺系統就能在極短的時間內識別和適應新的環境,而AI視覺模型則會花費更多的時間和訓練成本,甚至常常難以達到理想效果。

我們再次陷入莫拉維克悖論(Moravec's paradox)的深淵:

人工智能與人類的能力表現相反。在我們認為無需思考或作為本能的低級智能活動中(如感知和運動控制),人工智能表現很糟糕。但在需要推理、抽象的高級智能活動中(如邏輯推理和語言理解),人工智能卻很容易超越人類。

這正好對應了這個實驗呈現的結果:

我們最好的人工智能(GPT-4)在理解語言方面接近人類水平,但在感知、識別方面遠遠落後於動物。

網友:原來猩猩打遊戲也會生氣

Kanzi和LLMs都可以玩《我的世界》,但Kanzi的學習方式和LLMs之間存在著不可小覷的差異,我們要注意這一點。

面對Kanzi優異的學習能力,網友們開始了惡搞。

有人預見6年以後的世界將成為猩球大戰......

或者是猩猩喝可樂,融入人類社會......

甚至馬老闆也中槍了,被做成了「猴版」馬斯克。

也有人說,Kanzi是第一個擁有遊戲玩家憤怒的非人類,ta很滿意。

「如果Kanzi有自己的遊戲頻道,我會老老實實看的。」

「在玩遊戲上,人類與倭黑猩猩沒有太大區別。我們都受到獎勵的激勵,以執行某些任務並完成目標,唯一的區別是獎勵的實際內容。」

「在《我的世界》中,Kanzi 開採鑽石的獎勵更即時、更原始(食物),而我們開採鑽石的獎勵則更延遲且與遊戲相關。總之,有點瘋狂。」

先是GPT學會了玩《我的世界》,現在倭黑猩猩也可以玩了,這讓人不禁開始期待能用上Neuralink的未來。

Jim Fan教AI智能體玩《我的世界》

在教AI玩Minecraft上,人類早已積累了許多先進經驗。

早在今年5月,Jim Fan團隊就曾把英偉達的AI智能體接入GPT-4,做出了一個全新的AI智能體Voyager。

Voyager不僅性能完胜AutoGPT,而且還可以在遊戲中進行全場景的終身學習!

它可以自主寫代碼獨霸《我的世界》,完全無需人類插手。

可以說,Voyager出現後,我們離通用人工智能AGI,又近了一步。

真·數字生命

接入GPT-4之後,Voyager根本不用人類操心,完全就是自學成才。

它不僅掌握了挖掘、建房屋、收集、打獵這些基本的生存技能,還學會了自個進行開放式探索。

通過自我驅動,它不斷擴充著自己的物品和裝備,配備不同等級的盔甲,用盾牌格擋上海,用柵欄圈養動物。

大語言模型的出現,給構建具身智能體帶來了全新的可能性。因為基於LLM的智能體可以利用預訓練模型中蘊含的世界知識,生成一致的行動計劃或可執行策略。

Jim Fan:我們在BabyAGI/AutoGPT之前就有了這個想法,花了很多時間找出最好的無梯度架構

而在智能體中引入GPT-4,就開啟了一種全新的範式(靠代碼執行「訓練」,而非靠梯度下降),讓智能體擺脫了無法終身學習的缺陷。

OpenAI科學家Karpathy也對此盛讚:這是個用於高級技能的「無梯度架構」。在這裡,LLM就相當於是前額葉皮層,通過代碼生成了較低級的mineflayer API。

3個關鍵組件

為了讓Voyager成為有效的終身學習智能體,來自英偉達、加州理工學院等機構的團隊提出了3個關鍵組件:

1. 一個迭代提示機制,能結合遊戲反饋、執行錯誤和自我驗證來改進程序

2. 一個技能代碼庫,用來存儲和檢索複雜行為

3. 一個自動教程,可以最大化智能體的探索

首先,Voyager會嘗試使用一個流行的Minecraft Java API(Mineflayer)來編寫一個實現特定目標的程序。

遊戲環境反饋和Java執行錯誤(如果有的話)會幫助GPT-4改進程序。

左:環境反饋。 GPT-4意識到在製作木棒之前還需要2塊木板。 右:執行錯誤。 GPT-4意識到它應該製作一把木斧,而不是一把「相思木」斧,因為Minecraft中並沒有「相思木」斧。

通過提供智能體當前的狀態和任務,GPT-4會告訴程序是否完成了任務。

此外,如果任務失敗了,GPT-4還會提出批評,建議如何完成任務。

自我驗證

其次,Voyager通過在向量數據庫中存儲成功的程序,逐步建立一個技能庫。每個程序可以通過其文檔字符串的嵌入來檢索。

複雜的技能是通過組合簡單的技能來合成的,這會使Voyager的能力隨著時間的推移迅速增長,並緩解災難性遺忘。

上:添加技能。每個技能都由其描述的嵌入索引,可以在將來的類似情況中檢索。 下:檢索技能。當面對自動課程提出的新任務時,會進行查詢並識別前5個相關技能。

第三,自動課程會根據智能體當前的技能水平和世界狀態,提出合適的探索任務。

例如,如果它發現自己在沙漠而非森林中,就學習採集沙子和仙人掌,而不是鐵。課程是由GPT-4基於「發現盡可能多樣化的東西」這個目標生成的。

自動課程

作為第一個由LLM驅動、可以終身學習的具身智能體,Voyager的訓練過程和猩猩訓練過程的相似之處,可以給我們許多啟示。

參考資料:

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 留言
  • 分享
留言
0/400
暫無留言
交易,隨時隨地
qrCode
掃碼下載 Gate APP
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)