Реконструируя процесс визуализации человеческого мозга с помощью моделей искусственного интеллекта, Meta публикует сенсационные исследования

Первоисточник: AIGC Open Community

Источник изображения: Generated by Unbounded AI

Глобальный социальный и технологический гигант Meta (Facebook, Instagram и другие материнские компании) объявил о блокбастере на своем официальном сайте, разработал модель искусственного интеллекта с помощью МЭГ (магнитоэнцефалографии) для расшифровки процесса визуализации зрительной активности в человеческом мозге и опубликовал статью.

Сообщается, что это неинвазивная технология нейровизуализации, которая может обнаруживать тысячи мозговых активностей в секунду, которая может реконструировать изображение, которое мозг воспринимает и обрабатывает в каждый момент времени в режиме реального времени. Она обеспечивает важную исследовательскую основу для научного сообщества, чтобы понять, как мозг выражает и формирует образы.

С точки зрения прикладных сценариев эта технология может лучше понимать и контролировать действия нейронных сетей и нейронов моделей ИИ, таких как ChatGPT и Stable Difusion, повысить точность вывода контента и снизить риски, а также заложить краеугольный камень эволюции AGI (общего искусственного интеллекта).

Если смотреть на более масштабную цель, то это ускорит клиническую разработку «интерфейсов мозг-компьютер» и поможет тем, кто пострадал от повреждения мозга и потерял способность говорить.

Адрес доклада:

Технические принципы

Судя по документу, опубликованному Meta, модель ИИ, разработанная Meta через MEG, не является сложной, и в основном включает в себя три модуля: редактирование изображений, мозг и декодирование изображений.

Когда наш мозг активен, генерируется слабый электрический ток. Согласно законам физики, эти токи вызывают изменения в окружающем магнитном поле. ** Обнаружение этих изменений магнитного поля с помощью высокочувствительных приборов MEG для получения данных об активности мозга**.

В частности, МЭГ использует в качестве детектора специальный сверхпроводящий дросселер. Эти дроссели состоят из сверхпроводящей петли, которая может точно улавливать небольшие флуктуации магнитного поля.

Положение детектора тщательно спроектировано таким образом, чтобы охватить область вокруг головы, и тестировщику нужно только сесть в прибор MEG, чтобы удерживать голову неподвижно.

, продолжительность 00:31

МЭГ реконструировала изображение мозга экспериментатора, и каждое изображение предъявлялось примерно каждые 1,5 секунды.

Несмотря на то, что сила магнитного поля, вызванного электрической активностью мозга, очень мала, детектор МЭГ может четко регистрировать его, когда он усиливается и обрабатывается.

МЭГ содержит 200-300 детекторов, каждый из которых расположен в определенной области мозга. Таким образом, МЭГ может получать данные об активности всего мозга с высоким временным разрешением.

, продолжительность 00:22

После того, как необработанные данные МЭГ получены, исследователи могут использовать мощные нейронные сети для их декодирования и извлечения важной визуальной информации, которая может быть использована для реконструкции изображений мозга.

Meta заявила, что изначально хотела использовать функциональную магнитно-резонансную томографию (фМРТ) для сбора электрической информации о человеческом мозге, но она уступала МЭГ с точки зрения разрешения изображения, расстояния между изображениями и непрерывности.

Модуль редактирования изображений

Основываясь на нескольких предварительно обученных моделях компьютерного зрения, модуль извлекает векторы семантических признаков из входных изображений в качестве целевых представлений для декодирования. Исследователи сравнили модели обучения с учителем, модели сопоставления изображений и текста, модели с самоконтролем и многое другое, и обнаружили, что CLIP и DINO показали лучшие результаты.

CLIP (Contrastive Language-Image Pretraining) предварительно обучается путем сопоставления изображения и текста для получения визуальных семантических признаков с сильной способностью к обобщению. DINO (Distributional Iniance for Normalization) — это метод контрастивного обучения с самоконтролем.

Взяв в качестве примера CLIP, можно извлечь признак среднего признака или классификационной метки (CLS) модуля изображения (CLIP-Vision) и средний признак текстового модуля (CLIP-Text), а комбинацию сплайсинга можно использовать в качестве представления семантического признака изображения.

Модуль мозга

В этом модуле используется сверточная нейронная сеть для окна входных данных MEG, а на выходе - прогнозируемый вектор признаков изображения. Для того, чтобы научиться сопоставлять данные MEG со скрытым пространством выходного изображения, требуется сквозное обучение.

Исследователи использовали структуру сверточной нейронной сети, содержащую остаточные блоки и расширенные сверточные блоки, которые могут захватывать информацию о времени МЭГ. В то же время добавляются такие механизмы, как слой внимания и субъектно-эксклюзивный слой.

Для получения изображений модуль мозга нацеливается на функцию потери CLIP и учится максимизировать сходство признаков совпадающего изображения. Для генерации изображений модуль мозга напрямую предсказывает характеристики модуля изображения с потерей MSE в качестве мишени.

Модуль декодирования изображений

Чтобы лучше расшифровать изображения, исследователи использовали модель латентной диффузии, которая принимает векторы признаков, предсказанные модулем мозга, в качестве условий, которые могут генерировать новые изображения, согласующиеся с семантикой входных изображений.

Семантические признаки CLIP и функции AutoKL, выводимые модулем мозга, использовались в качестве условий, направляющих модель для генерации семантически согласованных изображений. Алгоритмы и методы дискретизации DDIM, такие как управление шумом, используются для постепенного создания четких изображений на основе распределения шума. Обычно используется 50-ступенчатый процесс отбора проб.

最后,使用感知指标(SSIM)和语义指标(CLIP相似度、SwAV特征相关度) для оценки качества декодирования и генерации изображения.

Для экспериментального тестирования исследователи использовали THINGS-MEG, набор данных MEG из 4 участников, содержащий 22 448 уникальных природных изображений.

С помощью тестов MEG исследователи обнаружили, что реакция мозга на изображения, в основном сосредоточенная на периоде времени от 0 до 250 мс после появления стимула, производила изображения, способные сохранять семантическую информацию. Несмотря на то, что полученное изображение не является идеальным, результаты показывают, что восстановленное изображение сохраняет богатую коллекцию высокоуровневых объектов.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить