📢 Gate廣場 #NERO发帖挑战# 秀觀點贏大獎活動火熱開啓!
Gate NERO生態周來襲!發帖秀出NERO項目洞察和活動實用攻略,瓜分30,000NERO!
💰️ 15位優質發帖用戶 * 2,000枚NERO每人
如何參與:
1️⃣ 調研NERO項目
對NERO的基本面、社區治理、發展目標、代幣經濟模型等方面進行研究,分享你對項目的深度研究。
2️⃣ 參與並分享真實體驗
參與NERO生態周相關活動,並曬出你的參與截圖、收益圖或實用教程。可以是收益展示、簡明易懂的新手攻略、小竅門,也可以是行情點位分析,內容詳實優先。
3️⃣ 鼓勵帶新互動
如果你的帖子吸引到他人參與活動,或者有好友評論“已參與/已交易”,將大幅提升你的獲獎概率!
NERO熱門活動(帖文需附以下活動連結):
NERO Chain (NERO) 生態周:Gate 已上線 NERO 現貨交易,爲回饋平台用戶,HODLer Airdrop、Launchpool、CandyDrop、餘幣寶已上線 NERO,邀您體驗。參與攻略見公告:https://www.gate.com/announcements/article/46284
高質量帖子Tips:
教程越詳細、圖片越直觀、互動量越高,獲獎幾率越大!
市場見解獨到、真實參與經歷、有帶新互動者,評選將優先考慮。
帖子需原創,字數不少於250字,且需獲得至少3條有效互動
AI 讀腦成真,延遲僅 0.25 秒! Meta 里程碑新研究:MEG即時解碼大腦圖像,LeCun轉讚
原文來源:新智元
AI讀心術成了!?
今天LeCun轉發了Meta AI最新的突破:AI已經能夠即時解碼大腦活動中的圖像感知!
Meta使用腦磁圖(MEG)這種非侵入性神經成像技術,每秒進行數千次大腦活動掃描,並開發了一個AI系統,能夠幾乎即時地解碼大腦中的視覺表徵。
從長遠來看,它還可能作為臨床環境中的非侵入性腦機介面的基礎,説明那些在遭受腦損傷後失去說話能力的人與外界溝通。
具體來說,Meta開發了一個由圖像編碼器、大腦編碼器和圖像解碼器組成的系統。
Meta首先比較了各種預訓練圖像模組的解碼性能,發現大腦信號與計算機視覺AI系統(如 DINOv2)的一致性非常強。
這個研究結果證實了自監督學習能讓AI系統學習類似大腦的表徵方式——演算法中的人工神經元往往會像大腦的物理神經元一樣被啟動,來回應相同的圖像。
這種AI系統和大腦功能的協調一致性,可以讓AI生成與人類在掃描器中看到的圖像高度相似的圖像。
Meta認為,雖然功能性磁共振成像 (fMRI) 可以更好地解碼圖像,但MEG解碼器可以即時生成結果,連續解碼大腦活動,生成連續而且幾乎是即時的圖像流。
這對於説明那些因為大腦損傷而不能與外界溝通的患者,與外界進行即時交流是非常關鍵的。
腦磁圖 (MEG) 是一種功能性神經成像技術,通過使用非常靈敏的磁力計記錄大腦中自然發生的電流產生的磁場來繪製大腦活動圖。
SQUID(超導量子干涉裝置)陣列是目前最常見的磁力計,而 SERF(無自旋交換弛豫)磁力計正在被研究用於未來的MEG機器。
AI讀腦的技術架構
作者提出了多模態的訓練pipeline:
(1)首先將MEG活動與經過預訓練的圖像特徵進行對齊;
(2)從MEG信號流中生成圖像
作者提到,這個系統有兩大貢獻:
MEG 解碼器可實現 (1) 高性能圖像檢索和圖像生成,
(2) 為解釋大腦視覺處理提供新方法。 這表明提出的方法有能力真正推廣到新的視覺理念,併為「自由形式(free-form)」視覺解碼鋪平道路。
總之,研究結果為在實驗室和臨床中對視覺表徵進行即時解碼,開創了一個大有可為的方向。
方法(Method)
1. 問題描述
作者研究的目的是,讓一群健康的參與者看一系列自然圖像,使用MEG記錄他們的大腦活動,然後從時序的信號中解碼圖像,而解碼器依賴的是生成模型。
2. 訓練目標
作者提出的pipeline有多個部分,因此使用多目標優化策略,在圖像檢索時,使用得是CLIP Loss。
作者使用卷積神經網路架構去提取特徵,在此基礎之上,添加了時序聚合層,以減少維度,節約計算開銷。
4. 影像模型
對於圖像的特徵編碼,作者探討了VGG-19、CLIP及其變體,以及Transformer結構。
5. 產生模型
為了能夠公平的和fMRI結果進行比較,作者和其他論文一樣使用了預訓練模型,再在此任務上進行訓練。
6. 訓練的計算資源消耗
誇模態檢索任務是在大約63,000個圖像上訓練的,驗證集大約15,800張圖像。 使用了一張32GB 記憶體的Volta GPU。
7. 評估方法
作者為了評估方法的有效性,使用了檢索指標relative median rank,top-5 accuracy,生成指標PixCorr、SSIM、SwAV。 同時,為了對MEG解碼性能進行公平評估,作者利用了數據集中的重複圖像演示,在評估指標之前對預測值取平均值。
8. 數據集:
作者在THINGS-MEG數據集上測試方法。 四名參與者(平均年齡為 23.25 歲)接受了 12 次 MEG 訓練,在訓練過程中,他們看到了從THING 數據集中選取的 22,448 幅圖像。 在此基礎上,向他們展示了一組從THINGS資料庫中選取的圖像,用這些圖片來擴大檢索規模,並提高檢索能力,進而提高方法的魯棒性。
結果
機器學習被認為是理解大腦反應的有效模型
面對自然圖像表示,哪些模型能提供最強大的解碼性能?
為了回答這個問題,Meta採用線性嶺回歸模型(linear Ridge regression models),在給定對於每張圖像的扁平化MEG回應的條件下預測到16種不同的潛在視覺表示,並比較了檢索性能。 如下表所示。
機器學習被視為學習大腦反應的有效工具
Meta隨後將這些線性基線與在相同任務上訓練的深度卷積網路結構進行比較——在MEG視窗中檢索匹配的圖像。
使用深度模型使性能比線性基線提高了7倍(如下圖2)。
從「大」測試集設置可以得出類似的結論,雖然性能較低,但解碼不僅依賴於圖像類別,還需要區分同一類別的多張圖像。 代表性的檢索示例如下圖。
為了進一步研究視覺表徵在大腦中展開的可能性,作者在250ms的滑動視窗上做了分析:
在圖像呈現之前,所有模型都獲得了基準水平的表現; 在圖像0~250ms的視窗中可以觀察到第一個明顯的峰值,隨後在圖像偏移之後出現第二個峰值,然後迅速回落到0到250毫秒的視窗中,所有模型都符合這個規律。
有趣的是,最近的自監督模型DINOv2在圖像偏置後的檢索性能尤為出色。
從MEG信號中生成圖像
雖然將解碼作為檢索任務會產生很好的結果,但它要求正樣本圖像必須在檢索集中,這在實踐中的應用很有限。 為了解決這個問題,作者訓練了三個不同的大腦模塊來預測。
討論
影響力(Impact)
這個研究具有基礎性和實用性的影響。
首先,隨著時間的推移解碼複雜感知表示的能力,有望極大地促進人類理解大腦視覺處理過程中所涉及的各種過程。
有大量的工作正在檢查視覺系統沿途構建的表示的性質和時序。 然而,這些結果可能難以解釋,特別是對於高級特徵。
而這個研究中的生成解碼提供了具體且可解釋的預測。
其次,大腦解碼技術最明顯的用例是協助那些大腦損傷影響溝通的患者。
然而,這個用例需要即時解碼,因此限制了使用時間解析度較低的神經影像學模態如fMRI。
因此,當前的努力為未來能夠即時解碼鋪平了道路。
局限性(Limitations)
Meta的分析突顯了從MEG信號解碼圖像的三個主要限制。
首先,高級語義特徵的解碼優先於低級特徵的解碼:特別是,生成的圖像保留了語義(例如,對象類別)比低級特徵(例如,輪廓,陰影)更好。
很難將這種現象歸因於研究的流程:實際上,將類似的程式應用於7T fMRI記錄,可以合理地重建低級特徵。
其次,目前的方法直接依賴於幾個模型的預訓練,並且只是端到端地學習將MEG信號與這些預訓練的嵌入對齊。
研究的結果顯示,這種方法的性能優於傳統的計算機視覺特徵,如色彩直方圖、快速傅里葉變換和方向梯度直方圖(HOG)。
這與最近的MEG研究保持一致,該研究顯示,在語音解碼的背景下,預訓練的嵌入優於完全的端到端方法。
然而,未來仍需測試兩個方面:
(1)微調圖像和生成模組
(2)組合不同類型的視覺特徵是否能夠改善解碼性能。
參考資料: