穩健,是 Gate 持續增長的核心動力。
真正的成長,不是順風順水,而是在市場低迷時依然堅定前行。我們或許能預判牛熊市的大致節奏,但絕無法精準預測它們何時到來。特別是在熊市週期,才真正考驗一家交易所的實力。
Gate 今天發布了2025年第二季度的報告。作爲內部人,看到這些數據我也挺驚喜的——用戶規模突破3000萬,現貨交易量逆勢環比增長14%,成爲前十交易所中唯一實現雙位數增長的平台,並且登頂全球第二大交易所;合約交易量屢創新高,全球化戰略穩步推進。
更重要的是,穩健並不等於守成,而是在面臨嚴峻市場的同時,還能持續創造新的增長空間。
歡迎閱讀完整報告:https://www.gate.com/zh/announcements/article/46117
猩猩學會玩《我的世界》,方法竟和GPT-4智能體相通?
原文來源:新智元
注意,這位玩家正在熟練地玩著《我的世界》,ta游刃有餘地進行著收集零食和打碎積木的操作。
鏡頭一轉,我們才發現:玩家的真實身份,竟然是一隻猩猩!
沒錯,這是一項來自「猩猩行動計劃(Ape Initiative)」的非人類生物神經網絡實驗。
而實驗的主角Kanzi,是一隻42歲的倭黑猩猩。
經過訓練後,它學會了各種技能,挑戰了鄉村、沙漠神殿、下界傳送門等環境,一路通關到達終點。
而AI專家發現,猩猩訓練師教會它學技能的過程,竟然跟人類教AI玩Minecraft有諸多類似之處,比如上下文強化學習、RLHF、模仿學習、課程學習等。
當猩猩學會玩《我的世界》
Kanzi是來自Ape Initiative的一隻倭黑猩猩,它是世界上最聰明的猩猩之一,聽得懂英語,還會使用觸摸屏。
在Ape Initiative,Kanzi能接觸到各種電子觸摸屏,這或許為它快速上手《我的世界》打好了基礎。
才不過幾秒鐘,Kanzi就發現了該怎樣在《我的世界》中移動。
隨後,它還學會了收集獎勵。
它會分辨和目標箭頭同樣是綠色柱形的障礙物,在收集獎勵時繞開它們。
眼看Kanzi卡住了,人類在旁邊開始幫忙,指著所需的工具按鈕。然而Kanzi看完後仍然沒能領悟。
人類只好親自上手,用工具敲碎了木塊。 Kanzi看完後若有所思,在所有人期待的目光中,它也有樣學樣,點擊按鈕後擊碎了木塊。人們瞬間爆發出歡呼。
在一個到處都是鑽石牆的山洞中擊碎木塊,來證明它掌握了收藏和擊碎的技能。
在山洞裡一切都很順利,然而,Kanzi卻遇到了一個問題:它在牆角被卡住了。此時,就需要人類伸出援手。
最終,Kanzi到達了洞穴底部,擊碎了最後一道牆。
接下來,有意思的來了:工作人員邀請了一位人類玩家,和Kanzi一起玩遊戲,當然,他對於Kanzi的身份並不知情。
工作人員打算看一看,這位玩家會在多長時間後意識到,和自己一起玩遊戲的並不是人類。
開始,這位小哥只是覺得,對方的移動速度慢到不可思議,
當Kanzi的畫面被展現到眼前,小哥直接被嚇到後仰。
走出迷宮
之後再玩《我的世界》,Kanzi越戰越勇。
每當Kanzi收集到一個獎勵,人們就會用歡呼的形式肯定它的行為,如果它失敗了,訓練員也會用鼓掌和歡呼鼓勵它繼續進行遊戲。
就算不幸失敗,Kanzi也會點擊按鈕,讓自己重生。
立刻,掌聲和歡呼聲把Kanzi包圍了。
教猩猩和教AI的相似之處
看著一隻倭黑猩猩熟練地玩著電子遊戲,多少會有點讓人覺得有些荒誕和不可思議。
儘管Kanzi和它的祖先們一生從未見過《我的世界》,但它很快就適應了電子屏幕上顯示的《我的世界》中的紋理和物理特性。
而這與它們一直以來接觸和生活的自然環境截然不同。這種泛化水平遠遠超出了現今為止最強大的視覺模型。
- 基於上下文的強化學習:
每當Kanzi在遊戲中達到標記的里程碑時,他就會得到一個水果或花生,激勵他繼續遵循遊戲中的規則。
- RLHF:
Kanzi並不理解人類的語言,但它能看到訓練人員為他加油打氣,還會偶爾給出回應。來自訓練人員的歡呼給了Kanzi一個強烈的信號:它走在正確的道路上。
- 模仿學習:
訓練員為Kanzi演示瞭如何完成任務之後,它就立即掌握了相關操作的含義。演示的效果遠遠超出比單獨使用獎勵的策略。
- 課程學習(Curriculum learning):
訓練員和Kanzi從非常簡單的環境開始,逐步教導Kanzi掌握控制技能。最後,Kanzi能夠穿越複雜的洞穴、迷宮和下界。
不僅如此,即便是使用了類似的訓練技巧,動物的視覺系統就能在極短的時間內識別和適應新的環境,而AI視覺模型則會花費更多的時間和訓練成本,甚至常常難以達到理想效果。
我們再次陷入莫拉維克悖論(Moravec's paradox)的深淵:
人工智能與人類的能力表現相反。在我們認為無需思考或作為本能的低級智能活動中(如感知和運動控制),人工智能表現很糟糕。但在需要推理、抽象的高級智能活動中(如邏輯推理和語言理解),人工智能卻很容易超越人類。
這正好對應了這個實驗呈現的結果:
我們最好的人工智能(GPT-4)在理解語言方面接近人類水平,但在感知、識別方面遠遠落後於動物。
網友:原來猩猩打遊戲也會生氣
Kanzi和LLMs都可以玩《我的世界》,但Kanzi的學習方式和LLMs之間存在著不可小覷的差異,我們要注意這一點。
有人預見6年以後的世界將成為猩球大戰......
「在《我的世界》中,Kanzi 開採鑽石的獎勵更即時、更原始(食物),而我們開採鑽石的獎勵則更延遲且與遊戲相關。總之,有點瘋狂。」
在教AI玩Minecraft上,人類早已積累了許多先進經驗。
早在今年5月,Jim Fan團隊就曾把英偉達的AI智能體接入GPT-4,做出了一個全新的AI智能體Voyager。
它可以自主寫代碼獨霸《我的世界》,完全無需人類插手。
可以說,Voyager出現後,我們離通用人工智能AGI,又近了一步。
真·數字生命
接入GPT-4之後,Voyager根本不用人類操心,完全就是自學成才。
它不僅掌握了挖掘、建房屋、收集、打獵這些基本的生存技能,還學會了自個進行開放式探索。
通過自我驅動,它不斷擴充著自己的物品和裝備,配備不同等級的盔甲,用盾牌格擋上海,用柵欄圈養動物。
大語言模型的出現,給構建具身智能體帶來了全新的可能性。因為基於LLM的智能體可以利用預訓練模型中蘊含的世界知識,生成一致的行動計劃或可執行策略。
而在智能體中引入GPT-4,就開啟了一種全新的範式(靠代碼執行「訓練」,而非靠梯度下降),讓智能體擺脫了無法終身學習的缺陷。
OpenAI科學家Karpathy也對此盛讚:這是個用於高級技能的「無梯度架構」。在這裡,LLM就相當於是前額葉皮層,通過代碼生成了較低級的mineflayer API。
為了讓Voyager成為有效的終身學習智能體,來自英偉達、加州理工學院等機構的團隊提出了3個關鍵組件:
1. 一個迭代提示機制,能結合遊戲反饋、執行錯誤和自我驗證來改進程序
2. 一個技能代碼庫,用來存儲和檢索複雜行為
3. 一個自動教程,可以最大化智能體的探索
遊戲環境反饋和Java執行錯誤(如果有的話)會幫助GPT-4改進程序。
通過提供智能體當前的狀態和任務,GPT-4會告訴程序是否完成了任務。
此外,如果任務失敗了,GPT-4還會提出批評,建議如何完成任務。
其次,Voyager通過在向量數據庫中存儲成功的程序,逐步建立一個技能庫。每個程序可以通過其文檔字符串的嵌入來檢索。
複雜的技能是通過組合簡單的技能來合成的,這會使Voyager的能力隨著時間的推移迅速增長,並緩解災難性遺忘。
第三,自動課程會根據智能體當前的技能水平和世界狀態,提出合適的探索任務。
例如,如果它發現自己在沙漠而非森林中,就學習採集沙子和仙人掌,而不是鐵。課程是由GPT-4基於「發現盡可能多樣化的東西」這個目標生成的。
作為第一個由LLM驅動、可以終身學習的具身智能體,Voyager的訓練過程和猩猩訓練過程的相似之處,可以給我們許多啟示。
參考資料: