Мозг ИИ считывает с задержкой всего 0,25 секунды! Новое исследование Meta Milestone: МЭГ расшифровывает изображения мозга в режиме реального времени, нравится Лекуну
Сегодня Лекун рассказал о последнем прорыве Meta AI: искусственный интеллект смог расшифровать восприятие изображений в активности мозга в режиме реального времени!
Исследование, проведенное FAIR-Paris в сотрудничестве с Школой искусств и искусств и наук (PSL) (ENS), является новой вехой в использовании сигналов магнитоэнцефалографии (МЭГ) для реконструкции визуального и речевого ввода.
Адрес доклада:
Используя магнитоэнцефалографию (МЭГ), неинвазивный метод нейровизуализации, Meta сканирует тысячи сканирований активности мозга в секунду и разработала систему искусственного интеллекта, способную расшифровывать визуальные представления в мозге практически в режиме реального времени.
Эта система может быть развернута в режиме реального времени, реконструируя изображения, которые мозг воспринимает и обрабатывает в каждый момент времени на основе мозговой активности.
Возможно, это исследование открывает беспрецедентный новый путь, чтобы помочь научному сообществу понять, как изображения представлены в мозге, проливая дополнительный свет на другие аспекты человеческого интеллекта.
В долгосрочной перспективе он также может служить основой для неинвазивных интерфейсов мозг-компьютер в клинических условиях, помогая тем, кто потерял способность говорить после черепно-мозговой травмы, общаться с внешним миром.
В частности, Meta разработала систему, состоящую из кодировщика изображений, кодировщика мозга и декодера изображений.
Кодировщики изображений независимо друг от друга конструируют богатый набор представлений изображений за пределами мозга. Затем кодировщик мозга учится встраивать и выравнивать сигнал МЭГ с этими сконструированными изображениями.
Наконец, декодер изображений генерирует правдоподобные изображения, основанные на этих представлениях мозга.
Сначала Meta сравнила производительность декодирования различных предварительно обученных модулей изображений и обнаружила, что сигналы мозга очень хорошо согласуются с системами искусственного интеллекта компьютерного зрения, такими как DINOv2.
Полученные результаты подтверждают, что самоконтролируемое обучение позволяет системам искусственного интеллекта изучать репрезентации, подобные мозгу — искусственные нейроны в алгоритмах, как правило, активируются так же, как и физические нейроны в мозге, чтобы реагировать на те же изображения.
Такая координация системы ИИ и функций мозга позволяет ИИ создавать изображения, очень похожие на те, которые видит человек в сканере.
Основываясь на этом принципе, Meta обучила систему на общедоступном наборе данных MEG.
Meta считает, что в то время как функциональная магнитно-резонансная томография (фМРТ) может лучше декодировать изображения, декодеры МЭГ могут генерировать результаты в режиме реального времени, непрерывно декодируя активность мозга, генерируя непрерывный и почти реальный поток изображений.
Это ключ к помощи пациентам, которые не могут общаться с внешним миром из-за повреждения мозга и общаться с внешним миром в режиме реального времени.
**Что такое магнитоэнцефалография (МЭГ)? **
Магнитоэнцефалография (МЭГ) — это метод функциональной нейровизуализации, который отображает активность мозга с помощью очень чувствительного магнитометра для записи магнитного поля, создаваемого естественными электрическими токами в мозге.
Матрицы SQUID (сверхпроводящий квантовый интерферометр) в настоящее время являются наиболее распространенными магнитометрами, в то время как магнитометры SERF (Spin Free Exchange Relaxation) изучаются для будущих МЭГ-машин.
Применение МЭГ включает в себя фундаментальные исследования перцептивных и когнитивных процессов мозга, локализацию патологически пораженных участков перед хирургической резекцией, определение функции различных частей мозга и нейробиоуправление. Это может быть применено в клинических условиях для поиска аномальных мест или в экспериментальных условиях для простого измерения активности мозга.
Доктор Коэн протестировал первую МЭГ с помощью SQUID в экранированной комнате в Массачусетском технологическом институте
Доктор Коэн протестировал первую МЭГ с помощью SQUID в экранированной комнате в Массачусетском технологическом институте
Техническая архитектура чтения мозга ИИ
Автор предлагает мультимодальный конвейер обучения:
(1) Активность МЭГ сначала согласовывается с предварительно обученными характеристиками изображения;
(2) Генерация изображений из потоков сигналов МЭГ
Рисунок 1: (A) Метод, Замораживание предварительно обученной модели (B) Схема обработки, в отличие от генерации изображений, извлечение изображений может быть выполнено в выровненном подпространстве, но требует положительных образцов изображений в наборе для извлечения.
Авторы отмечают, что эта система имеет два основных вклада:
MEG-декодеры обеспечивают (1) высокопроизводительное извлечение и генерацию изображений,
(2) Предоставить новые методы интерпретации визуальной обработки в мозге. Это показывает, что предложенный метод обладает способностью действительно обобщать новые визуальные идеи и прокладывать путь к визуальному декодированию «свободной формы».
Короче говоря, результаты исследования открыли перспективное направление для декодирования визуальных представлений в реальном времени в лаборатории и клинике.
Метод
1. Описание проблемы
Цель исследования авторов состояла в том, чтобы группа здоровых участников посмотрела на серию естественных изображений, записала их мозговую активность с помощью MEG, а затем расшифровала изображения из сигналов временных рядов, на что декодер опирается на генеративные модели.
2. Цели тренинга
Конвейер, предложенный авторами, состоит из нескольких частей, поэтому используется стратегия многокритериальной оптимизации, а при извлечении изображений используется CLIP Loss.
Для оценки качества сгенерированного изображения, MSE Loss,
Наконец, авторы используют взвешенную выпуклую комбинацию для объединения потерь CLIP и MSE для достижения цели обучения.
3. Модель мозга
Для извлечения признаков автор использует сверточную нейросетевую архитектуру, на основе которой добавляется слой агрегации временных рядов для уменьшения размерности и экономии вычислительных накладных расходов.
4. Модель изображения
Для кодирования признаков изображений авторы исследуют VGG-19, CLIP и его варианты, а также структуру Transformer.
5. Создать модель
Для того, чтобы иметь возможность справедливо сравнивать результаты фМРТ, авторы использовали предварительно обученную модель, как и в других работах, и обучались на этой задаче.
6. Потребление вычислительных ресурсов для обучения
Задача поиска модальности ссоры была обучена примерно на 63 000 изображений, а проверочный набор составил около 15 800 изображений. Используется графический процессор Volta с 32 ГБ оперативной памяти.
7. Методология оценки
Для оценки эффективности метода авторы использовали относительный медианный ранг поискового индекса, точность топ-5 и сгенерировали показатели PixCorr, SSIM, SwAV. В то же время, чтобы объективно оценить эффективность декодирования МЭГ, авторы используют повторные демонстрации изображений в наборе данных для усреднения прогнозируемых значений перед оценкой показателей.
8. Набор данных:
Набор данных THINGS
АВТОРЫ ТЕСТИРУЮТ МЕТОД НА НАБОРЕ ДАННЫХ THINGS-MEG. Четыре участника (средний возраст 23,25 года) прошли 12 тренингов MEG, и в процессе обучения они увидели 22 448 изображений, отобранных из набора данных THING. На этой основе им показывают набор изображений, выбранных из базы данных THINGS, и эти изображения используются для расширения масштаба поиска и улучшения возможности поиска, тем самым повышая надежность метода.
Результат
Машинное обучение считается эффективной моделью для понимания реакций мозга**
Какие модели обеспечивают наиболее высокую производительность декодирования для естественного представления изображения?
Чтобы ответить на этот вопрос, Meta использовала модели линейной гребневой регрессии для прогнозирования 16 различных потенциальных визуальных представлений с учетом сглаженного отклика MEG для каждого изображения и сравнила производительность извлечения. Это показано в следующей таблице.
Все встраиваемые изображения показали более высокую производительность, чем при случайном извлечении, но модели с учителем и выравниванием текста и изображения (например, VGG, CLIP) получили самые высокие оценки извлечения.
Машинное обучение рассматривается как эффективный инструмент для изучения реакций мозга**
Затем Meta сравнивает эти линейные базовые линии с глубокими сверточными сетевыми структурами, обученными на той же задаче — получении совпадающих изображений в окне MEG.
Использование модели глубины привело к 7-кратному повышению производительности по сравнению с линейным базовым уровнем (рис. 2 ниже).
Различные типы встраивания изображений показали хорошую производительность поиска, среди которых пять основных показателей точности VGG-19 (контролируемое обучение), CLIP-Vision (выравнивание текста/изображения) и DINOv2 (самоконтролируемое обучение): 70,33 ± 2,80%, 68,66 ± 2,84%, 68,00 ± 2,86% (вычисляется стандартная ошибка средней метрики изображения).
Аналогичный вывод можно сделать и из настройки «большого» тестового набора, хотя производительность ниже, декодирование зависит не только от класса изображения, но и требует различения нескольких изображений одной категории. Пример репрезентативного поиска показан на рисунке ниже.
Получение изображений на уровне временного разрешения
Для дальнейшего изучения возможности развертывания визуальных представлений в мозге авторы проанализировали скользящее окно в 250 мс:
Все модели достигали эталонного уровня представления до рендеринга изображения; Первый очевидный пик можно наблюдать в окне 0~250 мс изображения, затем второй пик после сдвига изображения, а затем быстро упасть обратно в окно от 0 до 250 мс, все модели соответствуют этому закону.
Интересно, что недавняя самоконтролируемая модель DINOv2 особенно хорошо показывает себя после смещения изображения.
Чтобы лучше понять значение метрики декодирования, на рисунке ниже показано, что результаты поиска были протестированы на исходном тестовом наборе с дополнительным набором, состоящим из 3 659 изображений, которые участники никогда не видели.
Можно видеть, что декодер использует реакции мозга, связанные со смещением изображения, и уже через 250 мс информация о категориях доминировала в этих визуальных представлениях.
Генерация изображений из MEG-сигналов
Несмотря на то, что декодирование как задача поиска дает хорошие результаты, оно требует, чтобы положительные изображения образцов были в наборе для извлечения, что имеет ограниченное применение на практике. Чтобы решить эту проблему, авторы обучили три разных модуля мозга предсказывать.
Согласно оценочным метрикам, приведенным в таблице 1, сгенерированные изображения визуально показали относительно высокое качество, а несколько сгенерированных изображений корректно представляли семантические категории. Однако эти сгенерированные изображения, по-видимому, содержат низкоуровневую визуальную информацию из реального изображения.
Обсуждать
Удар
Данное исследование имеет фундаментальное и практическое значение.
Во-первых, способность расшифровывать сложные перцептивные представления с течением времени, как ожидается, значительно продвинет человеческое понимание различных процессов, участвующих в визуальной обработке мозга.
В настоящее время проводится большая работа по изучению природы и времени репрезентаций, создаваемых системами зрения. Однако эти результаты может быть трудно интерпретировать, особенно для расширенных функций.
Генеративное декодирование в этом исследовании дает конкретные и интерпретируемые прогнозы.
Во-вторых, наиболее очевидным вариантом использования технологии декодирования мозга является помощь пациентам, у которых повреждение мозга влияет на коммуникацию.
Однако этот вариант использования требует декодирования в режиме реального времени, что ограничивает использование методов нейровизуализации с более низким временным разрешением, таких как фМРТ.
В результате, текущие усилия прокладывают путь к декодированию в реальном времени в будущем.
Ограничения
Анализ Meta выявил три основных ограничения в декодировании изображений из MEG-сигналов.
Во-первых, декодирование высокоуровневых семантических признаков имеет приоритет над декодированием низкоуровневых признаков: в частности, результирующее изображение сохраняет семантику (например, категории объектов) лучше, чем низкоуровневые признаки (например, контуры, тени).
Это явление трудно отнести к ходу исследования: на самом деле, применение аналогичной процедуры к записям фМРТ 7Т делает целесообразным реконструкцию низкоуровневых признаков.
Напротив, этот результат перекликается с тем фактом, что пространственное разрешение (≈ см) МЭГ намного ниже, чем у 7Тл фМРТ (≈ мм).
Во-вторых, текущий подход напрямую полагается на предварительное обучение нескольких моделей и обучается только сквозному обучению для выравнивания сигналов МЭГ с этими предварительно обученными вложениями.
Результаты исследования показывают, что этот метод превосходит традиционные функции компьютерного зрения, такие как цветные гистограммы, быстрые преобразования Фурье и направленные градиентные гистограммы (HOG).
Это согласуется с недавними исследованиями MEG, которые показали, что предварительно обученные встраивания превосходят полные комплексные подходы в контексте декодирования речи.
Тем не менее, два аспекта все еще нуждаются в тестировании в будущем:
(1) Тонкая настройка изображения и создание модуля
(2) Может ли сочетание различных типов визуальных функций повысить производительность декодирования.
Ресурсы:
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
Мозг ИИ считывает с задержкой всего 0,25 секунды! Новое исследование Meta Milestone: МЭГ расшифровывает изображения мозга в режиме реального времени, нравится Лекуну
Первоисточник: Shin Ji Yuan
Чтение мыслей с помощью ИИ готово!?
Сегодня Лекун рассказал о последнем прорыве Meta AI: искусственный интеллект смог расшифровать восприятие изображений в активности мозга в режиме реального времени!
Используя магнитоэнцефалографию (МЭГ), неинвазивный метод нейровизуализации, Meta сканирует тысячи сканирований активности мозга в секунду и разработала систему искусственного интеллекта, способную расшифровывать визуальные представления в мозге практически в режиме реального времени.
В долгосрочной перспективе он также может служить основой для неинвазивных интерфейсов мозг-компьютер в клинических условиях, помогая тем, кто потерял способность говорить после черепно-мозговой травмы, общаться с внешним миром.
В частности, Meta разработала систему, состоящую из кодировщика изображений, кодировщика мозга и декодера изображений.
Сначала Meta сравнила производительность декодирования различных предварительно обученных модулей изображений и обнаружила, что сигналы мозга очень хорошо согласуются с системами искусственного интеллекта компьютерного зрения, такими как DINOv2.
Полученные результаты подтверждают, что самоконтролируемое обучение позволяет системам искусственного интеллекта изучать репрезентации, подобные мозгу — искусственные нейроны в алгоритмах, как правило, активируются так же, как и физические нейроны в мозге, чтобы реагировать на те же изображения.
Такая координация системы ИИ и функций мозга позволяет ИИ создавать изображения, очень похожие на те, которые видит человек в сканере.
Meta считает, что в то время как функциональная магнитно-резонансная томография (фМРТ) может лучше декодировать изображения, декодеры МЭГ могут генерировать результаты в режиме реального времени, непрерывно декодируя активность мозга, генерируя непрерывный и почти реальный поток изображений.
Это ключ к помощи пациентам, которые не могут общаться с внешним миром из-за повреждения мозга и общаться с внешним миром в режиме реального времени.
Магнитоэнцефалография (МЭГ) — это метод функциональной нейровизуализации, который отображает активность мозга с помощью очень чувствительного магнитометра для записи магнитного поля, создаваемого естественными электрическими токами в мозге.
Матрицы SQUID (сверхпроводящий квантовый интерферометр) в настоящее время являются наиболее распространенными магнитометрами, в то время как магнитометры SERF (Spin Free Exchange Relaxation) изучаются для будущих МЭГ-машин.
Техническая архитектура чтения мозга ИИ
Автор предлагает мультимодальный конвейер обучения:
(1) Активность МЭГ сначала согласовывается с предварительно обученными характеристиками изображения;
(2) Генерация изображений из потоков сигналов МЭГ
Авторы отмечают, что эта система имеет два основных вклада:
MEG-декодеры обеспечивают (1) высокопроизводительное извлечение и генерацию изображений,
(2) Предоставить новые методы интерпретации визуальной обработки в мозге. Это показывает, что предложенный метод обладает способностью действительно обобщать новые визуальные идеи и прокладывать путь к визуальному декодированию «свободной формы».
Короче говоря, результаты исследования открыли перспективное направление для декодирования визуальных представлений в реальном времени в лаборатории и клинике.
Метод
1. Описание проблемы
Цель исследования авторов состояла в том, чтобы группа здоровых участников посмотрела на серию естественных изображений, записала их мозговую активность с помощью MEG, а затем расшифровала изображения из сигналов временных рядов, на что декодер опирается на генеративные модели.
2. Цели тренинга
Конвейер, предложенный авторами, состоит из нескольких частей, поэтому используется стратегия многокритериальной оптимизации, а при извлечении изображений используется CLIP Loss.
Для извлечения признаков автор использует сверточную нейросетевую архитектуру, на основе которой добавляется слой агрегации временных рядов для уменьшения размерности и экономии вычислительных накладных расходов.
4. Модель изображения
Для кодирования признаков изображений авторы исследуют VGG-19, CLIP и его варианты, а также структуру Transformer.
5. Создать модель
Для того, чтобы иметь возможность справедливо сравнивать результаты фМРТ, авторы использовали предварительно обученную модель, как и в других работах, и обучались на этой задаче.
6. Потребление вычислительных ресурсов для обучения
Задача поиска модальности ссоры была обучена примерно на 63 000 изображений, а проверочный набор составил около 15 800 изображений. Используется графический процессор Volta с 32 ГБ оперативной памяти.
7. Методология оценки
Для оценки эффективности метода авторы использовали относительный медианный ранг поискового индекса, точность топ-5 и сгенерировали показатели PixCorr, SSIM, SwAV. В то же время, чтобы объективно оценить эффективность декодирования МЭГ, авторы используют повторные демонстрации изображений в наборе данных для усреднения прогнозируемых значений перед оценкой показателей.
8. Набор данных:
АВТОРЫ ТЕСТИРУЮТ МЕТОД НА НАБОРЕ ДАННЫХ THINGS-MEG. Четыре участника (средний возраст 23,25 года) прошли 12 тренингов MEG, и в процессе обучения они увидели 22 448 изображений, отобранных из набора данных THING. На этой основе им показывают набор изображений, выбранных из базы данных THINGS, и эти изображения используются для расширения масштаба поиска и улучшения возможности поиска, тем самым повышая надежность метода.
Результат
Машинное обучение считается эффективной моделью для понимания реакций мозга**
Какие модели обеспечивают наиболее высокую производительность декодирования для естественного представления изображения?
Чтобы ответить на этот вопрос, Meta использовала модели линейной гребневой регрессии для прогнозирования 16 различных потенциальных визуальных представлений с учетом сглаженного отклика MEG для каждого изображения и сравнила производительность извлечения. Это показано в следующей таблице.
Машинное обучение рассматривается как эффективный инструмент для изучения реакций мозга**
Затем Meta сравнивает эти линейные базовые линии с глубокими сверточными сетевыми структурами, обученными на той же задаче — получении совпадающих изображений в окне MEG.
Использование модели глубины привело к 7-кратному повышению производительности по сравнению с линейным базовым уровнем (рис. 2 ниже).
Аналогичный вывод можно сделать и из настройки «большого» тестового набора, хотя производительность ниже, декодирование зависит не только от класса изображения, но и требует различения нескольких изображений одной категории. Пример репрезентативного поиска показан на рисунке ниже.
Для дальнейшего изучения возможности развертывания визуальных представлений в мозге авторы проанализировали скользящее окно в 250 мс:
Все модели достигали эталонного уровня представления до рендеринга изображения; Первый очевидный пик можно наблюдать в окне 0~250 мс изображения, затем второй пик после сдвига изображения, а затем быстро упасть обратно в окно от 0 до 250 мс, все модели соответствуют этому закону.
Интересно, что недавняя самоконтролируемая модель DINOv2 особенно хорошо показывает себя после смещения изображения.
Генерация изображений из MEG-сигналов
Несмотря на то, что декодирование как задача поиска дает хорошие результаты, оно требует, чтобы положительные изображения образцов были в наборе для извлечения, что имеет ограниченное применение на практике. Чтобы решить эту проблему, авторы обучили три разных модуля мозга предсказывать.
Обсуждать
Удар
Данное исследование имеет фундаментальное и практическое значение.
Во-первых, способность расшифровывать сложные перцептивные представления с течением времени, как ожидается, значительно продвинет человеческое понимание различных процессов, участвующих в визуальной обработке мозга.
В настоящее время проводится большая работа по изучению природы и времени репрезентаций, создаваемых системами зрения. Однако эти результаты может быть трудно интерпретировать, особенно для расширенных функций.
Генеративное декодирование в этом исследовании дает конкретные и интерпретируемые прогнозы.
Во-вторых, наиболее очевидным вариантом использования технологии декодирования мозга является помощь пациентам, у которых повреждение мозга влияет на коммуникацию.
Однако этот вариант использования требует декодирования в режиме реального времени, что ограничивает использование методов нейровизуализации с более низким временным разрешением, таких как фМРТ.
В результате, текущие усилия прокладывают путь к декодированию в реальном времени в будущем.
Ограничения
Анализ Meta выявил три основных ограничения в декодировании изображений из MEG-сигналов.
Во-первых, декодирование высокоуровневых семантических признаков имеет приоритет над декодированием низкоуровневых признаков: в частности, результирующее изображение сохраняет семантику (например, категории объектов) лучше, чем низкоуровневые признаки (например, контуры, тени).
Это явление трудно отнести к ходу исследования: на самом деле, применение аналогичной процедуры к записям фМРТ 7Т делает целесообразным реконструкцию низкоуровневых признаков.
Во-вторых, текущий подход напрямую полагается на предварительное обучение нескольких моделей и обучается только сквозному обучению для выравнивания сигналов МЭГ с этими предварительно обученными вложениями.
Результаты исследования показывают, что этот метод превосходит традиционные функции компьютерного зрения, такие как цветные гистограммы, быстрые преобразования Фурье и направленные градиентные гистограммы (HOG).
Это согласуется с недавними исследованиями MEG, которые показали, что предварительно обученные встраивания превосходят полные комплексные подходы в контексте декодирования речи.
Тем не менее, два аспекта все еще нуждаются в тестировании в будущем:
(1) Тонкая настройка изображения и создание модуля
(2) Может ли сочетание различных типов визуальных функций повысить производительность декодирования.
Ресурсы: