AI 讀腦成真，延遲僅 0.25 秒！ Meta 里程碑新研究：MEG即時解碼大腦圖像，LeCun轉讚

巴比特_

2023-10-19 06:27:42

原文來源：新智元

圖片來源：由無界 AI生成

AI讀心術成了！？

今天LeCun轉發了Meta AI最新的突破：AI已經能夠即時解碼大腦活動中的圖像感知！

這項研究是由FAIR-Paris 與巴黎文理大學（PSL）巴黎高師（ENS）合作完成，是在利用腦磁圖（MEG）信號重建視覺和語音輸入方面取得的一個新的里程碑。

論文位址：

Meta使用腦磁圖（MEG）這種非侵入性神經成像技術，每秒進行數千次大腦活動掃描，並開發了一個AI系統，能夠幾乎即時地解碼大腦中的視覺表徵。

這個系統可以即時部署，根據大腦活動重建大腦在每個瞬間感知和處理的圖像。

可以說，這項研究開闢了一條前所未有的新途徑，能夠幫助科學界瞭解圖像如何在大腦中表示，從而進一步揭示人類智慧的其他方面。

從長遠來看，它還可能作為臨床環境中的非侵入性腦機介面的基礎，説明那些在遭受腦損傷後失去說話能力的人與外界溝通。

具體來說，Meta開發了一個由圖像編碼器、大腦編碼器和圖像解碼器組成的系統。

圖像編碼器在大腦之外獨立構建一組豐富的圖像表示。然後，大腦編碼器學習將MEG信號與這些構建出來的圖像進行嵌入對齊。

最後，圖像解碼器根據這些大腦表徵生成可信的圖像。

Meta首先比較了各種預訓練圖像模組的解碼性能，發現大腦信號與計算機視覺AI系統（如 DINOv2）的一致性非常強。

這個研究結果證實了自監督學習能讓AI系統學習類似大腦的表徵方式——演算法中的人工神經元往往會像大腦的物理神經元一樣被啟動，來回應相同的圖像。

這種AI系統和大腦功能的協調一致性，可以讓AI生成與人類在掃描器中看到的圖像高度相似的圖像。

基於這個原理，Meta在一個公開的MEG數據集上訓練出了這個系統。

Meta認為，雖然功能性磁共振成像（fMRI）可以更好地解碼圖像，但MEG解碼器可以即時生成結果，連續解碼大腦活動，生成連續而且幾乎是即時的圖像流。

這對於説明那些因為大腦損傷而不能與外界溝通的患者，與外界進行即時交流是非常關鍵的。

**前置知識，什麼是腦磁圖（MEG）？ **

腦磁圖（MEG）是一種功能性神經成像技術，通過使用非常靈敏的磁力計記錄大腦中自然發生的電流產生的磁場來繪製大腦活動圖。

SQUID（超導量子干涉裝置）陣列是目前最常見的磁力計，而 SERF（無自旋交換弛豫）磁力計正在被研究用於未來的MEG機器。

MEG 的應用包括感知和認知大腦過程的基礎研究、手術切除前定位受病理影響的區域、確定大腦各個部分的功能以及神經反饋。這可以應用於臨床環境中以查找異常位置，也可以應用於實驗環境中以簡單地測量大腦活動。

科恩博士在麻省理工學院的遮罩室，使用 SQUID 測試了第一個MEG

AI讀腦的技術架構

作者提出了多模態的訓練pipeline：

（1）首先將MEG活動與經過預訓練的圖像特徵進行對齊;

（2）從MEG信號流中生成圖像

圖1：（A）方法，凍住預訓練模型（B）處理方案，與圖像生成不同，圖像檢索可以在對齊的次空間中進行，但要求在檢索集中有正樣本圖像。

作者提到，這個系統有兩大貢獻：

MEG 解碼器可實現（1）高性能圖像檢索和圖像生成，

（2）為解釋大腦視覺處理提供新方法。這表明提出的方法有能力真正推廣到新的視覺理念，併為「自由形式（free-form）」視覺解碼鋪平道路。

總之，研究結果為在實驗室和臨床中對視覺表徵進行即時解碼，開創了一個大有可為的方向。

方法（Method）

1. 問題描述

作者研究的目的是，讓一群健康的參與者看一系列自然圖像，使用MEG記錄他們的大腦活動，然後從時序的信號中解碼圖像，而解碼器依賴的是生成模型。

2. 訓練目標

作者提出的pipeline有多個部分，因此使用多目標優化策略，在圖像檢索時，使用得是CLIP Loss。

為了評估生成圖像的品質，使用MSE Loss，

最後，作者使用帶權重的凸組合方式，將CLIP和MSE損失組合起來，進而完成訓練目標。

3. 腦模型

作者使用卷積神經網路架構去提取特徵，在此基礎之上，添加了時序聚合層，以減少維度，節約計算開銷。

4. 影像模型

對於圖像的特徵編碼，作者探討了VGG-19、CLIP及其變體，以及Transformer結構。

5. 產生模型

為了能夠公平的和fMRI結果進行比較，作者和其他論文一樣使用了預訓練模型，再在此任務上進行訓練。

6. 訓練的計算資源消耗

誇模態檢索任務是在大約63,000個圖像上訓練的，驗證集大約15,800張圖像。使用了一張32GB 記憶體的Volta GPU。

7. 評估方法

作者為了評估方法的有效性，使用了檢索指標relative median rank，top-5 accuracy，生成指標PixCorr、SSIM、SwAV。同時，為了對MEG解碼性能進行公平評估，作者利用了數據集中的重複圖像演示，在評估指標之前對預測值取平均值。

8. 數據集：

THINGS數據集

作者在THINGS-MEG數據集上測試方法。四名參與者（平均年齡為 23.25 歲）接受了 12 次 MEG 訓練，在訓練過程中，他們看到了從THING 數據集中選取的 22,448 幅圖像。在此基礎上，向他們展示了一組從THINGS資料庫中選取的圖像，用這些圖片來擴大檢索規模，並提高檢索能力，進而提高方法的魯棒性。

結果

機器學習被認為是理解大腦反應的有效模型

面對自然圖像表示，哪些模型能提供最強大的解碼性能？

為了回答這個問題，Meta採用線性嶺回歸模型（linear Ridge regression models），在給定對於每張圖像的扁平化MEG回應的條件下預測到16種不同的潛在視覺表示，並比較了檢索性能。如下表所示。

所有的圖像嵌入都展現了高於隨機水準的檢索性能，但監督和文本/圖像對齊模型（如 VGG， CLIP）獲得了最高的檢索分數。

機器學習被視為學習大腦反應的有效工具

Meta隨後將這些線性基線與在相同任務上訓練的深度卷積網路結構進行比較——在MEG視窗中檢索匹配的圖像。

使用深度模型使性能比線性基線提高了7倍（如下圖2）。

多種圖像嵌入類型都展現出良好的檢索性能，其中 VGG-19（監督學習）、CLIP-Vision（文本/圖像對齊）和DINOv2（自監督學習）的前五準確率分別為：70.33 ± 2.80%、68.66 ± 2.84%、68.00 ± 2.86%（計算了平均圖像度量的標準誤差）。

從「大」測試集設置可以得出類似的結論，雖然性能較低，但解碼不僅依賴於圖像類別，還需要區分同一類別的多張圖像。代表性的檢索示例如下圖。

時間解析度級別的圖像檢索

為了進一步研究視覺表徵在大腦中展開的可能性，作者在250ms的滑動視窗上做了分析：

在圖像呈現之前，所有模型都獲得了基準水平的表現; 在圖像0~250ms的視窗中可以觀察到第一個明顯的峰值，隨後在圖像偏移之後出現第二個峰值，然後迅速回落到0到250毫秒的視窗中，所有模型都符合這個規律。

有趣的是，最近的自監督模型DINOv2在圖像偏置後的檢索性能尤為出色。

為了更好地理解解碼指標的含義，下圖展示了通過將原有測試集與由3,659張參與者未見過的圖片組成的附加集，在這上測試了檢索結果。

可以出看，解碼器利用了圖像與偏置相關的大腦反應，並早在250ms時，類別資訊就主導了這些視覺表徵。

從MEG信號中生成圖像

雖然將解碼作為檢索任務會產生很好的結果，但它要求正樣本圖像必須在檢索集中，這在實踐中的應用很有限。為了解決這個問題，作者訓練了三個不同的大腦模塊來預測。

根據表格1中的評估指標，生成的圖像在視覺上表現出相對較高的品質，多個生成的圖像正確地呈現了語義類別。然而，這些生成的圖像似乎包含來真實圖像的低級視覺資訊。

討論

影響力（Impact）

這個研究具有基礎性和實用性的影響。

首先，隨著時間的推移解碼複雜感知表示的能力，有望極大地促進人類理解大腦視覺處理過程中所涉及的各種過程。

有大量的工作正在檢查視覺系統沿途構建的表示的性質和時序。然而，這些結果可能難以解釋，特別是對於高級特徵。

而這個研究中的生成解碼提供了具體且可解釋的預測。

其次，大腦解碼技術最明顯的用例是協助那些大腦損傷影響溝通的患者。

然而，這個用例需要即時解碼，因此限制了使用時間解析度較低的神經影像學模態如fMRI。

因此，當前的努力為未來能夠即時解碼鋪平了道路。

局限性（Limitations）

Meta的分析突顯了從MEG信號解碼圖像的三個主要限制。

首先，高級語義特徵的解碼優先於低級特徵的解碼：特別是，生成的圖像保留了語義（例如，對象類別）比低級特徵（例如，輪廓，陰影）更好。

很難將這種現象歸因於研究的流程：實際上，將類似的程式應用於7T fMRI記錄，可以合理地重建低級特徵。

相反，這個結果與MEG的空間解析度（≈ cm）遠低於7T fMRI的（≈ mm）這個事實相呼應。

其次，目前的方法直接依賴於幾個模型的預訓練，並且只是端到端地學習將MEG信號與這些預訓練的嵌入對齊。

研究的結果顯示，這種方法的性能優於傳統的計算機視覺特徵，如色彩直方圖、快速傅里葉變換和方向梯度直方圖（HOG）。

這與最近的MEG研究保持一致，該研究顯示，在語音解碼的背景下，預訓練的嵌入優於完全的端到端方法。

然而，未來仍需測試兩個方面：

（1）微調圖像和生成模組

（2）組合不同類型的視覺特徵是否能夠改善解碼性能。

參考資料：

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

讚賞
點讚
留言
分享

留言

0/400

暫無留言