Мозок штучного інтелекту зчитує зчитування із затримкою всього в 0,25 секунди! Нове дослідження Meta: MEG розшифровує зображення мозку в режимі реального часу, подобається Лекуну

Першоджерело: Shin Ji Yuan

Джерело зображення: Створено Unbounded AI

Штучний інтелект читає думки!?

Сьогодні LeCun представив останній прорив Meta AI: штучний інтелект зміг розшифрувати сприйняття зображень у мозковій активності в режимі реального часу!

Дослідження, проведене FAIR-Paris у співпраці з Ecole des Arts et des Arts and Sciences (PSL) (ENS), є новою віхою у використанні сигналів магнітоенцефалографії (MEG) для реконструкції візуального та мовного введення.

Паперова адреса:

Використовуючи магнітоенцефалографію (МЕГ), неінвазивний метод нейровізуалізації, Meta сканує тисячі сканувань мозкової активності на секунду та розробила систему штучного інтелекту, здатну розшифровувати візуальні уявлення в мозку майже в режимі реального часу.

Ця система може бути розгорнута в режимі реального часу, реконструюючи зображення, які мозок сприймає і обробляє в кожен момент на основі мозкової активності.

Можливо, це дослідження відкриває безпрецедентно новий шлях, щоб допомогти науковому співтовариству зрозуміти, як зображення представлені в мозку, проливаючи додаткове світло на інші аспекти людського інтелекту.

У довгостроковій перспективі він також може служити основою для неінвазивних інтерфейсів мозок-комп'ютер у клінічних умовах, допомагаючи тим, хто втрачає здатність говорити після перенесеної черепно-мозкової травми, спілкуватися із зовнішнім світом.

Зокрема, Meta розробила систему, що складається з кодера зображень, кодера мозку та декодера зображень.

Кодери зображень самостійно конструюють багатий набір зображень за межами мозку. Потім кодувальник мозку вчиться вбудовувати та узгоджувати сигнал МЕГ із цими побудованими зображеннями.

Нарешті, декодер зображень генерує правдоподібні зображення на основі цих уявлень мозку.

Meta спочатку порівняла продуктивність декодування різних попередньо навчених модулів зображень і виявила, що сигнали мозку дуже узгоджуються з системами штучного інтелекту комп'ютерного зору, такими як DINOv2.

Отримані дані підтверджують, що самоконтрольоване навчання дозволяє системам штучного інтелекту вивчати уявлення, подібні до мозкових — штучні нейрони в алгоритмах, як правило, активуються так само, як фізичні нейрони в мозку, щоб реагувати на ті самі зображення.

Ця координація системи штучного інтелекту та функцій мозку дозволяє штучному інтелекту створювати зображення, які дуже схожі на ті, які бачать люди в сканері.

Ґрунтуючись на цьому принципі, Meta навчила систему на загальнодоступному наборі даних MEG.

Meta вважає, що в той час як функціональна магнітно-резонансна томографія (фМРТ) може краще декодувати зображення, декодери MEG можуть генерувати результати в режимі реального часу, безперервно декодуючи активність мозку, генеруючи безперервний і майже в реальному часі потік зображень.

Це ключ до допомоги пацієнтам, які не можуть спілкуватися із зовнішнім світом через пошкодження мозку та спілкуватися із зовнішнім світом у режимі реального часу.

** Що таке магнітоенцефалографія (МЕГ)? **

Магнітоенцефалографія (МЕГ) — це метод функціональної нейровізуалізації, який відображає активність мозку за допомогою дуже чутливого магнітометра для реєстрації магнітного поля, створеного природними електричними струмами в мозку.

Масиви SQUID (Superconducting Quantum Interferometer) в даний час є найпоширенішими магнітометрами, в той час як магнітометри SERF (Spin Free Exchange Relaxation) вивчаються для майбутніх машин MEG.

Застосування МЕГ включає фундаментальні дослідження перцептивних і когнітивних процесів мозку, виявлення патологічно уражених ділянок перед хірургічною резекцією, визначення функції різних частин мозку та нейрозворотний зв'язок. Це може бути застосовано в клінічних умовах для пошуку аномальних місць або в експериментальних умовах для простого вимірювання активності мозку.

Доктор Коен протестував першу МЕГ за допомогою SQUID в екранованій кімнаті Массачусетського технологічного інституту

Доктор Коен протестував першу МЕГ за допомогою SQUID в екранованій кімнаті Массачусетського технологічного інституту

Технічна архітектура зчитування мозку штучним інтелектом

Автор пропонує мультимодальний навчальний конвеєр:

(1) активність МЕГ спочатку узгоджується з попередньо навченими рисами зображення;

(2) Створення зображень із потоків сигналів MEG

Рисунок 1: (A) Метод, попередньо навчена модель заморожування (B) Схема обробки, на відміну від генерації зображень, пошук зображень може бути виконаний у вирівняному підпросторі, але вимагає позитивних зразків зображень у наборі для пошуку.

Автори зазначають, що ця система має два основні внески:

Декодери MEG забезпечують (1) високопродуктивний пошук зображень і генерацію зображень,

(2) Запропонуйте нові методи інтерпретації візуальної обробки в мозку. Це свідчить про те, що запропонований метод має здатність дійсно узагальнювати до нових візуальних ідей і прокладати шлях до візуального декодування «вільної форми».

Одним словом, результати дослідження відкрили перспективний напрямок для розшифровки візуальних уявлень в реальному часі в лабораторії і клініці.

Метод

1. Опис проблеми

Мета дослідження авторів полягала в тому, щоб група здорових учасників подивилася на серію природних зображень, зареєструвала свою мозкову активність за допомогою МЕГ, а потім розшифрувала зображення з сигналів часових рядів, які декодер покладається на генеративні моделі.

2. Цілі тренінгу

Конвеєр, запропонований авторами, складається з кількох частин, тому використовується багатоцільова стратегія оптимізації, а при отриманні зображень використовується CLIP Loss.

Щоб оцінити якість зображення, що генерується, MSE Loss,

Нарешті, автори використовують зважену опуклу комбінацію для об'єднання втрат CLIP і MSE для досягнення навчальної мети.

3. Модель мозку

Автор використовує архітектуру згорткової нейронної мережі для вилучення ознак, і на цій основі додається шар агрегації часових рядів для зменшення розмірності та економії обчислювальних накладних витрат.

4. Модель зображення

Для кодування зображень автори досліджують VGG-19, CLIP та його варіанти, а також структуру Transformer.

5. Створити модель

Для того, щоб мати можливість чесно порівняти результати фМРТ, автори використовували попередньо навчену модель, як і в інших роботах, і тренувалися виконувати це завдання.

6. Обчислюйте витрату ресурсів на навчання

Завдання на пошук сварки було навчено приблизно на 63 000 зображеннях, а набір валідації становив близько 15 800 зображень. Використовується графічний процесор Volta з 32 ГБ оперативної пам'яті.

7. Методологія оцінювання

Для того, щоб оцінити ефективність методу, автори використовували пошуковий індекс відносного медіанного рангу, топ-5 точності, а також формували показники PixCorr, SSIM, SwAV. У той же час, щоб справедливо оцінити ефективність декодування MEG, автори використовують повторювані демонстрації зображень у наборі даних для усереднення прогнозованих значень перед оцінкою показників.

8. Набір даних:

Набір даних THINGS

АВТОРИ ТЕСТУЮТЬ МЕТОД НА НАБОРІ ДАНИХ THINGS-MEG. Четверо учасників (середній вік 23,25 року) пройшли 12 тренінгів MEG, і в процесі навчання вони побачили 22 448 зображень, вибраних з набору даних THING. На цій основі їм показується набір зображень, вибраних з бази даних THINGS, і ці зображення використовуються для розширення масштабу пошуку та покращення здатності до пошуку, тим самим покращуючи надійність методу.

Результат

Машинне навчання вважається ефективною моделлю для розуміння реакцій мозку**

Які моделі пропонують найпотужнішу продуктивність декодування для природного представлення зображення?

Щоб відповісти на це питання, Meta використала лінійні регресійні моделі гребеня, щоб передбачити 16 різних потенційних візуальних представлень, враховуючи сплощену відповідь MEG для кожного зображення, і порівняла продуктивність пошуку. Це показано в наступній таблиці.

Усі вбудовування зображень продемонстрували вищу продуктивність, ніж випадковий пошук, але контрольовані моделі та моделі вирівнювання тексту/зображення (наприклад, VGG, CLIP) досягли найвищих показників пошуку.

Машинне навчання розглядається як ефективний інструмент для вивчення реакцій мозку**

Потім Meta порівнює ці лінійні базові лінії з глибокими згортковими мережевими структурами, навченими на тому ж завданні – отриманні відповідних зображень у вікні MEG.

Використання моделі глибини призвело до 7-кратного підвищення продуктивності в порівнянні з лінійним базовим рівнем (рис. 2 нижче).

Різноманітні типи вбудовування зображень показали хорошу продуктивність пошуку, серед яких п'ять найкращих показників точності VGG-19 (контрольоване навчання), CLIP-Vision (вирівнювання тексту/зображення) та DINOv2 (самоконтрольоване навчання) становили: 70,33 ± 2,80%, 68,66 ± 2,84%, 68,00 ± 2,86% (розрахована стандартна похибка середньої метрики зображення).

Аналогічний висновок можна зробити і з налаштування «великого» тестового набору, хоча продуктивність нижча, декодування залежить не тільки від класу зображення, але й потребує розрізнення кількох зображень однієї категорії. Приклад репрезентативного пошуку показаний на малюнку нижче.

Отримання зображень на рівні часової роздільної здатності

Для подальшого дослідження можливості розгортання візуальних уявлень у мозку автори проаналізували на розсувному вікні 250 мс:

Усі моделі досягли еталонного рівня представлення до того, як зображення було відрендерено; Перший очевидний пік можна спостерігати у вікні 0~250 мс зображення, за ним слідує другий пік після зсуву зображення, а потім швидко падає назад до вікна від 0 до 250 мс, усі моделі дотримуються цього закону.

Цікаво, що нещодавня модель DINOv2 із самонаглядом особливо добре показує себе після зміщення зображення.

Щоб краще зрозуміти значення метрики розшифровки, на малюнку нижче показано, що результати пошуку були протестовані на оригінальному тестовому наборі з додатковим набором, що складається з 3 659 зображень, які учасники ніколи не бачили.

Видно, що декодер використовує реакції мозку, пов'язані з упередженістю зображення, і вже на 250 мс інформація про категорії домінувала над цими візуальними уявленнями.

Генерація зображень з сигналів MEG

Хоча декодування як завдання пошуку дає хороші результати, воно вимагає, щоб позитивні зразки зображень були в наборі для пошуку, що має обмежене застосування на практиці. Щоб вирішити цю проблему, автори навчили три різні модулі мозку прогнозувати.

Згідно з оціночними метриками в таблиці 1, згенеровані зображення показали відносно високу якість візуально, а кілька згенерованих зображень правильно представили семантичні категорії. Однак ці згенеровані зображення, схоже, містять низькорівневу візуальну інформацію з реального зображення.

Обговорити

Вплив

Це дослідження має фундаментальні та практичні наслідки.

По-перше, очікується, що здатність декодувати складні перцептивні репрезентації з часом значно покращить розуміння людиною різних процесів, пов'язаних із візуальною обробкою мозку.

Проводиться велика робота з вивчення природи і часу уявлень, побудованих на цьому шляху системами зору. Однак ці результати може бути важко інтерпретувати, особливо для розширених функцій.

Генеративне декодування в цьому дослідженні забезпечує конкретні та інтерпретовані прогнози.

По-друге, найбільш очевидним варіантом використання технології декодування мозку є допомога пацієнтам, пошкодження мозку яких впливає на комунікацію.

Однак цей варіант використання вимагає декодування в реальному часі, що обмежує використання методів нейровізуалізації з нижчою часовою роздільною здатністю, таких як фМРТ.

Як наслідок, поточні зусилля прокладають шлях до декодування в реальному часі в майбутньому.

Обмеження

Аналіз Meta виділив три основні обмеження в декодуванні зображень з сигналів MEG.

По-перше, декодування високорівневих семантичних ознак має пріоритет над декодуванням низькорівневих ознак: зокрема, результуюче зображення зберігає семантику (наприклад, категорії об'єктів) краще, ніж низькорівневі ознаки (наприклад, контури, тіні).

Цей феномен складно віднести до перебігу дослідження: насправді, застосування аналогічної процедури до записів фМРТ 7Т робить розумним реконструкцію низькорівневих ознак.

Натомість, цей результат перегукується з тим фактом, що просторова роздільна здатність (≈ см) МЕГ набагато нижча, ніж у 7Т фМРТ (≈ мм).

По-друге, нинішній підхід безпосередньо покладається на попереднє навчання кількох моделей і лише наскрізно вчиться вирівнювати сигнали MEG з цими попередньо навченими вкладеннями.

Результати дослідження показують, що цей метод перевершує традиційні функції комп'ютерного зору, такі як колірні гістограми, швидкі перетворення Фур'є та гістограми спрямованих градієнтів (HOG).

Це узгоджується з нещодавніми дослідженнями MEG, які показали, що попередньо навчені вкладення перевершують повні наскрізні підходи в контексті декодування мови.

Однак у майбутньому ще потрібно протестувати два аспекти:

(1) Налаштуйте зображення та згенеруйте модуль

(2) Чи може поєднання різних типів візуальних функцій покращити продуктивність декодування.

Ресурси:

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити