用 AI 模型重構人類大腦成像過程，Meta 發佈重磅研究

2023-10-26 01:36:15

原文來源：AIGC開放社區

圖片來源：由無界AI生成

全球社交、科技巨頭Meta（Facebook、Instagram等母公司）在官網公佈了一項重磅研究，通過MEG（腦磁圖）開發了一種AI模型用於解碼人類大腦中視覺活動的成像過程，並公佈了論文。

據悉，這是一種每秒可進行數千次大腦活動偵測的，非侵入式神經成像技術，可即時重構出大腦在每一刻感知和處理的圖像。可為科學界理解大腦如何表達、形成圖像，提供了重要研究基礎。

從應用場景來看，該技術能更好地理解、控制ChatGPT、Stable Difusion等AI模型的神經網路行動、神經元，提升內容輸出準確率降低風險，向AGI（通用人工智慧）演變奠定了基石。

放眼更大的目標，將加速「腦機介面」在臨床方面的研發進程，説明那些遭受腦損傷失去說話能力的人。

論文位址：

技術原理

從Meta發佈的論文來看，Meta通過MEG開發的AI模型原理並不複雜，主要包含圖像編輯、大腦、圖像解碼三大模組。

當我們的大腦進行活動時，會產生微弱的電流。根據物理定律，這些電流會引起周圍磁場的變化。 利用MEG高度敏感的儀器檢測這些磁場變化，從而獲得腦部活動的數據。

具體來說，MEG使用特殊的超導扼流計作為探測器。這些扼流計由超導環路組成，可以精確地捕捉到磁場的微小波動。

探測器的位置經過精心設計，覆蓋頭部周圍，測試者只需要坐在MEG儀器中保持頭部靜止即可。

，時長00：31

MEG重構實驗者大腦成像，每個圖像大約每1.5秒呈現一次。

雖然大腦電流活動引起的磁場強度非常微小，但MEG的探測器經過放大和處理就可以清晰地記錄下來。

MEG包含200-300個探測器，每個探測器的位置都對應大腦的特定區域。這樣，MEG可以獲得高時間解析度的全頭腦活動數據。

，時長00：22

一旦獲得原始的MEG數據，研究人員就可以利用強大的神經網路對其進行解碼，提取重要的視覺資訊，用於重構大腦圖像。

Meta表示，最初想使用功能磁共振成像（fMRI）來搜集人類大腦的電流資訊，但在圖像解析度、圖像間隔以及連續性方面都不如MEG。

圖像編輯模組

該模組基於多個預訓練的計算機視覺模型，從輸入圖像中提取語義特徵向量，作為解碼的目標表示。研究人員比較了監督學習模型、圖像-文本匹配模型、自監督模型等，發現CLIP和DINO的表現最佳。

CLIP（Contrastive Language-Image Pretraining）通過圖像-文本匹配進行預訓練，獲得泛化能力強的視覺語義特徵。 DINO（Distributional Iniance for Normalization）是一種自監督對比學習方法。

以CLIP為例，可以提取圖像模組（CLIP-Vision）的平均特徵或分類標記（CLS）特徵，文本模組（CLIP-Text）的平均特徵，並拼接組合作為圖像的語義特徵表示。

大腦模組

該模組使用卷積神經網路，用於輸入MEG數據窗口，輸出是預測的圖像特徵向量。需要端到端訓練，學習將MEG的數據映射到圖像輸出的latent space。

研究人員使用了卷積神經網路結構，包含殘差塊和膨脹卷積塊，可以捕捉MEG時序資訊。同時添加注意力層、主體專屬層等機制。

為了進行圖像檢索，大腦模組以CLIP損失函數為目標，學習最大化匹配圖像的特徵相似度。為進行圖像生成，大腦模組以MSE損失為目標，直接預測圖像模組的特徵。

圖像解碼模組

為了更好地解碼圖像，研究人員使用了latent diffusion擴散模型，將大腦模塊預測的特徵向量作為條件，可以生成與輸入圖像語義一致的新圖像。

將大腦模組輸出的CLIP語義特徵和AutoKL特徵作為條件，指導模型生成語義一致的圖像。利用DDIM採樣演算法，以及雜訊引導等技巧，逐步從雜訊分佈生成清晰的圖像。一般採用50步採樣過程。

最后，使用感知指标(SSIM)和语义指标(CLIP相似度、SwAV特征相关度) ，評估圖像的解碼、生成品質。

實驗測試方面，研究人員使用包含4名參與者的MEG數據集THINGS-MEG，該數據集包含22,448張唯一的自然圖像。

通過MEG的測試，研究人員發現大腦對圖像的反應，主要集中在刺激出現后0-250ms的時間段，生成的圖像能夠保留語義資訊。雖然生成的圖像不是很完美，但結果表明重構的圖像保留了豐富的高級特徵。

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

留言

0/400

暫無留言