穩健,是 Gate 持續增長的核心動力。
真正的成長,不是順風順水,而是在市場低迷時依然堅定前行。我們或許能預判牛熊市的大致節奏,但絕無法精準預測它們何時到來。特別是在熊市週期,才真正考驗一家交易所的實力。
Gate 今天發布了2025年第二季度的報告。作爲內部人,看到這些數據我也挺驚喜的——用戶規模突破3000萬,現貨交易量逆勢環比增長14%,成爲前十交易所中唯一實現雙位數增長的平台,並且登頂全球第二大交易所;合約交易量屢創新高,全球化戰略穩步推進。
更重要的是,穩健並不等於守成,而是在面臨嚴峻市場的同時,還能持續創造新的增長空間。
歡迎閱讀完整報告:https://www.gate.com/zh/announcements/article/46117
單GPU運行數千環境、800萬步模擬只需3秒,斯坦福開發超強遊戲引擎
現階段,AI 智能體彷彿無所不能,玩遊戲、模仿人類完成各種任務,而這些智能體基本是在復雜環境中訓練而成的。不僅如此,隨著學習任務變得越來越複雜,模擬環境的複雜性也隨之增加,從而增加了模擬環境的成本。
即使擁有超級計算規模資源的公司和機構,訓練好一個可用的智能體也可能需要數天的時間才能完成。
這阻礙了該領域的進展,降低了訓練先進AI 智能體的實用性。為了解決環境模擬的高成本問題,最近的研究努力從根本上重新設計模擬器,以在訓練智能體時實現更高的效率。這些工作共享批量模擬的思想,即在單個模擬器引擎內同時執行許多獨立的環境(訓練實例)。
本文,來自斯坦福大學等機構的研究者,他們提出了一個名為Madrona 的強化學習遊戲引擎,可以在單個GPU 上並行運行數千個環境,將智能體的訓練時間從幾小時縮減到幾分鐘。
具體而言,Madrona 是一款研究型遊戲引擎,專為創建學習環境而設計,可以在單個GPU 上同時運行數千個環境實例,並且以極高的吞吐量(每秒數百萬個聚合步驟)執行。 Madrona 的目標是讓研究人員更輕鬆地為各種任務創建新的高性能環境,從而使AI 智能體訓練的速度提高幾個數量級。
Madrona 具有以下特點:
作者之一、斯坦福大學計算機科學副教授Kayvon Fatahalian 表示,在一款讓多個智能體玩烹飪遊戲Overcooked 上,借助Madrona 遊戲引擎,模擬800 萬個環境步驟的時間從一小時縮短到三秒。
**基於Madrona 搭建的環境模擬器有哪些? **
Madrona 本身不是一個RL 環境模擬器,而是一個遊戲引擎或框架。開發者藉助它可以更容易地實現自己的新的環境模擬器,從而通過在GPU 上運行批次模擬並將模擬輸出與學習代碼緊密結合來實現高性能。
下面是基於Madrona 搭建的一些環境模擬器。
馬德羅納逃生室
Madrona Escape Room 是一個簡單的3D 環境,使用了Madrona 的ECS API 以及物理和渲染功能。在這個簡單任務中,智能體必須學習按下紅色按鈕並推動其他顏色的箱子以通過一系列房間。
Overcooked AI 環境是一個基於協作電子遊戲的多智能體學習環境(多人協作烹飪遊戲),這裡對它進行了高通量Madrona 重寫。
捉迷藏
2019 年9 月,OpenAI 智能體上演了捉迷藏攻防大戰,自創套路與反套路。這裡使用Madrona 對「Hide and Seek」環境進行了復現。
Hanabi 是一個基於Madrona 遊戲引擎的Hanabi 紙牌遊戲的實現,也是一個協作式Dec-POMDP。該環境基於DeepMind 的Hanabi 環境,並支持部分MAPPO 實現。
Cartpole 是一個典型的RL 訓練環境,它與構建在Madrona 遊戲引擎之上的gym 實現有相同的動力學。
GitHub 地址:
Overcooked 烹飪遊戲:一分鐘內訓練最佳智能體
在數千個廚房中煮過頭:在一分鐘內培訓表現最佳的特工
論文作者之一、斯坦福大學本科生Bidipta Sarkar 撰寫博客詳細介紹了訓練智能體玩Overcooked 烹飪遊戲的過程。 Overcooked 是一款流行的烹飪遊戲, 也可以作為協作多智能體研究的基準。
就Overcooked 烹飪遊戲而言,大約需要800 萬步的遊戲經驗,才能訓練一對在Overcooked 狹窄房間佈局(下圖)中收斂到穩定均衡策略的智能體。 Overcooked 的開源實現使用Python 編寫,在8 核AMD CPU 上每秒運行2000 步,因此生成必要的智能體經驗需要花費1 個小時以上。
考慮到Overcooked 是一個簡單的環境,讓模擬速度難住似乎很愚蠢。因此Sarkar 試著看看Overcooked 環境模擬的速度是否可以提升,這就需要用到Madrona 遊戲引擎。
利用Madrona 遊戲引擎,Sarkar 得到了一個原始Overcooked Python 實現的即插即用的GPU 加速版替代。當並行模擬1000 個Overcooked 環境時,GPU 加速後的實現在A40 GPU 上每秒可以生成350 萬步經驗。
作為結果,模擬800 萬個環境步驟的時間從1 小時縮短至了3 秒,從而可以使用A40 GPU 在短短1 分鐘內訓練一個策略。
該模擬器的速度為在Overcooked 中執行廣泛的超參數掃描打開了新的可能性,尤其是在以往訓練單個策略所需的時間內有了訓練多個策略的可能。
最後,Sarkar 意識到與創建GPU 加速環境的現有替代方案(如PyTorch、Taichi Lang、Direct CUDA C++)相比,將Overcooked 移植到Madrona 的過程更加地順利。
博客詳情:
參考鏈接: