AIモデルで人間の脳イメージングプロセスを再構築し、Metaは大ヒット研究を発表します

オリジナルソース: AIGCオープンコミュニティ

画像ソース:無制限のAIによって生成

世界的なソーシャルおよびテクノロジーの巨人であるメタ(Facebook、Instagram、その他の親会社)は、公式Webサイトで大ヒット研究を発表し、MEG(脳磁図)を介してAIモデルを開発し、人間の脳の視覚活動のイメージングプロセスを解読し、論文を発表しました。

これは、毎秒数千の脳活動を検出できる非侵襲的なニューロイメージング技術であり、脳が各瞬間に知覚および処理する画像をリアルタイムで再構築できると報告されています。 これは、科学界が脳がどのように画像を表現および形成するかを理解するための重要な研究基盤を提供します。

アプリケーションシナリオの観点から、このテクノロジーは、ChatGPTやStable DifusionなどのAIモデルのニューラルネットワークの動作とニューロンをよりよく理解および制御し、コンテンツ出力の精度を向上させ、リスクを軽減し、AGI(一般的な人工知能)の進化の基礎を築くことができます。

より大きな目標を見ると、「ブレインコンピュータインターフェース」の臨床開発を加速し、脳に損傷を受けて話す能力を失った人々を助けるでしょう。

論文住所:

技術原則

Metaが発表した論文から判断すると、MetaがMEGを通じて開発したAIモデルは複雑ではなく、主に画像編集、脳、画像デコードの3つのモジュールが含まれています。

私たちの脳が活動しているとき、微弱な電流が発生します。 物理法則によると、これらの電流は周囲の磁場に変化を引き起こします。 MEGの高感度機器を使用してこれらの磁場の変化を検出し、脳活動に関するデータを取得します

具体的には、MEGは検出器として特殊な超伝導チョークメーターを使用しています。 これらのチョークメータは、磁場の小さな変動を正確に捉えることができる超伝導ループで構成されています。

検出器の位置は頭の周りの領域をカバーするように慎重に設計されており、テスターはMEG機器に座るだけでヘッドを静止させることができます。

、再生時間 00:31

MEGは実験者の脳画像を再構成し、各画像は約1.5秒ごとに提示されました。

脳の電気的活動によって引き起こされる磁場の強さは非常に小さいですが、MEG検出器は、増幅および処理されると、それをはっきりと記録できます。

MEGには200〜300個の検出器があり、それぞれが脳の特定の領域に配置されています。 このようにして、MEGは高い時間分解能で全脳活動データを得ることができます。

、再生時間 00:22

生のMEGデータが取得されると、研究者は強力なニューラルネットワークを使用してそれをデコードし、脳画像の再構築に使用できる重要な視覚情報を抽出できます。

Metaは当初、機能的磁気共鳴画像法(fMRI)を使用して人間の脳に関する電気的情報を収集したいと考えていたが、画像の解像度、画像の間隔、連続性の点でMEGに劣っていたと述べた。

画像編集モジュール

このモジュールは、複数の事前トレーニング済みコンピュータービジョンモデルに基づいて、デコードのターゲット表現として入力画像から意味的特徴ベクトルを抽出します。 研究者らは、教師あり学習モデル、画像とテキストのマッチングモデル、自己教師ありモデルなどを比較し、CLIPとDINOが最も優れたパフォーマンスを発揮したことを発見しました。

CLIP(コントラスティブ言語-画像事前トレーニング)は、強力な汎化能力を備えた視覚的意味特徴を取得するために、画像とテキストのマッチングを通じて事前にトレーニングされます。 DINO(正規化のための分布開始)は、自己教師ありの対照学習法です。

CLIPを例にとると、画像モジュール(CLIP-Vision)の平均特徴量または分類マーク(CLS)特徴量とテキストモジュール(CLIP-Text)の平均特徴量を抽出し、スプライシングの組み合わせを画像の意味的特徴表現として用いることができる。

ブレインモジュール

このモジュールは、入力MEGデータウィンドウに畳み込みニューラルネットワークを使用し、出力は予測された画像特徴ベクトルです。 MEGのデータを画像出力の潜在空間にマッピングする方法を学ぶには、エンドツーエンドのトレーニングが必要です。

研究者らは、MEGタイミング情報をキャプチャできる残差ブロックと拡張畳み込みブロックを含む畳み込みニューラルネットワーク構造を使用しました。 同時に、注意層や主語排他的層などのメカニズムが追加されます。

画像検索のために、脳モジュールはCLIP損失関数をターゲットとし、一致した画像の特徴類似性を最大化するように学習する。 画像生成の場合、脳モジュールは、MSE損失をターゲットとして画像モジュールの特性を直接予測します。

画像デコードモジュール

画像をよりよく解読するために、研究者は、入力画像の意味と一致する新しい画像を生成できる条件として、脳モジュールによって予測された特徴ベクトルを取る潜在拡散モデルを使用しました。

ブレインモジュールによって出力されたCLIPセマンティック特徴とAutoKL特徴は、モデルが意味的に一貫した画像を生成するように導くための条件として使用されました。 DDIMサンプリングアルゴリズムとノイズガイダンスなどの手法を使用して、ノイズ分布から鮮明な画像を徐々に生成します。 一般的には50ステップのサンプリング・プロセスが使用されます。

最后,使用感知指标(SSIM)和语义指标(CLIP相似度、SwAV特征相关度) を使用して、画像のデコードと生成の品質を評価します。

実験的テストのために、研究者は22,448のユニークな自然画像を含む4人の参加者のMEGデータセットであるTHINGS-MEGを使用しました。

MEGのテストを通じて、研究者らは、主に刺激が現れてから0〜250ミリ秒の期間に焦点を当てた画像に対する脳の反応が、意味情報を保持できる画像を生成することを発見しました。 結果の画像は完全ではありませんが、結果は、再構築された画像が高レベルの特徴の豊富なコレクションを保持していることを示しています。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • 共有
コメント
0/400
コメントなし
  • ピン
いつでもどこでも暗号資産取引
qrCode
スキャンしてGateアプリをダウンロード
コミュニティ
日本語
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)