Глобальний соціальний і технологічний гігант Meta (Facebook, Instagram та інші материнські компанії) на своєму офіційному сайті анонсував дослідження-блокбастер, розробив модель штучного інтелекту за допомогою МЕГ (магнітоенцефалографії) для розшифровки процесу візуалізації зорової активності в мозку людини та опублікував статтю.
Повідомляється, що це неінвазивна технологія нейровізуалізації, яка може виявляти тисячі активностей мозку в секунду, що може реконструювати зображення, яке мозок сприймає і обробляє в кожен момент в режимі реального часу. Це забезпечує важливу дослідницьку базу для наукової спільноти, щоб зрозуміти, як мозок виражає та формує образи.
З точки зору сценаріїв застосування, ця технологія може краще розуміти та контролювати дії нейронних мереж та нейрони моделей штучного інтелекту, таких як ChatGPT та Stable Difusion, підвищити точність виведення контенту та знизити ризики, а також закласти наріжний камінь для еволюції AGI (загального штучного інтелекту).
Якщо поглянути на більш широку мету, то це прискорить клінічний розвиток «інтерфейсів мозок-комп'ютер» і допоможе тим, хто зазнав пошкодження мозку і втратив здатність говорити.
Паперова адреса:
Технічні принципи
Судячи зі статті, опублікованої Meta, модель штучного інтелекту, розроблена Meta за допомогою MEG, не є складною і в основному включає три модулі: редагування зображень, мозок і декодування зображень.
Коли наш мозок активний, генерується слабкий електричний струм. За законами фізики ці струми викликають зміни в навколишньому магнітному полі. Виявляйте ці зміни магнітного поля за допомогою високочутливих приладів MEG для отримання даних про активність мозку.
Зокрема, в якості детектора MEG використовує спеціальний надпровідний дросельний дросельний метр. Ці дроселі складаються з надпровідної петлі, яка може точно вловлювати невеликі коливання магнітного поля.
Положення детектора ретельно продумано так, щоб охопити область навколо голови, і тестувальнику потрібно лише сидіти в приладі MEG, щоб голова залишалася нерухомою.
, тривалість 00:31
МЕГ реконструювала зображення мозку експериментатора, і кожне зображення представлялося приблизно кожні 1,5 секунди.
Хоча сила магнітного поля, викликаного електричною активністю мозку, дуже мала, МЕГ-детектор може чітко зафіксувати його, коли воно посилюється і обробляється.
МЕГ містить 200-300 детекторів, кожен з яких розташований у певній ділянці мозку. Таким чином, МЕГ може отримати дані про активність всього мозку з високою часовою роздільною здатністю.
, тривалість 00:22
Після того, як необроблені дані MEG будуть отримані, дослідники можуть використовувати потужні нейронні мережі, щоб розшифрувати їх і витягти важливу візуальну інформацію, яка може бути використана для реконструкції зображень мозку.
Meta заявила, що спочатку хотіла використовувати функціональну магнітно-резонансну томографію (фМРТ) для збору електричної інформації про людський мозок, але вона поступалася MEG з точки зору роздільної здатності зображення, відстані між зображеннями та безперервності.
Модуль редагування зображень
Ґрунтуючись на кількох попередньо навчених моделях комп'ютерного зору, модуль витягує вектори семантичних ознак із вхідних зображень як цільові представлення для декодування. Дослідники порівняли моделі навчання з учителем, моделі зіставлення зображень і тексту, моделі з самонаглядом тощо та виявили, що CLIP і DINO показали найкращі результати.
CLIP (Contrastive Language-Image Pretraining) попередньо навчається за допомогою зіставлення зображень і тексту для отримання візуальних семантичних особливостей із сильною здатністю до узагальнення. DINO (Distributional Iniance for Normalization) – це метод контрастивного навчання з самоконтролем.
На прикладі CLIP можна виділити середню ознаку або знак класифікації (CLS) модуля зображення (CLIP-Vision) і середню ознаку текстового модуля (CLIP-Text), а комбінацію зрощування можна використовувати як представлення семантичної ознаки зображення.
Мозковий модуль
Цей модуль використовує згорткову нейронну мережу для вхідного вікна даних MEG, а вихід є вектором передбачуваних ознак зображення. Наскрізне навчання потрібне, щоб навчитися відображати дані MEG у латентному просторі виводу зображення.
Дослідники використовували структуру згорткової нейронної мережі, що містить залишкові блоки та розширені згорткові блоки, які можуть захоплювати інформацію про час MEG. У той же час додаються такі механізми, як шар уваги і виключний для суб'єкта.
Для отримання зображень мозковий модуль націлений на функцію втрати CLIP і вчиться максимізувати схожість ознак зіставленого зображення. Для генерації зображень мозковий модуль безпосередньо прогнозує характеристики модуля зображення з втратою MSE як мішенню.
Модуль декодування зображень
Щоб краще розшифрувати зображення, дослідники використовували модель латентної дифузії, яка приймає вектори ознак, передбачені модулем мозку, як умови, які можуть генерувати нові зображення, які відповідають семантиці вхідних зображень.
Семантичні особливості CLIP та функції AutoKL, що виводяться мозковим модулем, були використані як умови для керівництва моделлю для генерації семантично узгоджених зображень. Алгоритми дискретизації DDIM і такі методи, як наведення шуму, використовуються для поступового створення чітких зображень з розподілу шуму. Зазвичай використовується 50-етапний процес відбору проб.
最后,使用感知指标(SSIM)和语义指标(CLIP相似度、SwAV特征相关度) для оцінки якості декодування та генерації зображення.
Для експериментального тестування дослідники використовували THINGS-MEG, набір даних MEG з 4 учасників, що містить 22 448 унікальних природних зображень.
За допомогою тестів MEG дослідники виявили, що реакція мозку на зображення, в основному зосереджена на часовому проміжку від 0 до 250 мс після появи стимулу, виробляла зображення, здатні зберігати семантичну інформацію. Хоча отримане зображення не є ідеальним, результати показують, що реконструйоване зображення зберігає багату колекцію високорівневих функцій.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
Реконструюючи процес візуалізації людського мозку за допомогою моделей штучного інтелекту, Meta публікує дослідження-блокбастери
Першоджерело: AIGC Open Community
Глобальний соціальний і технологічний гігант Meta (Facebook, Instagram та інші материнські компанії) на своєму офіційному сайті анонсував дослідження-блокбастер, розробив модель штучного інтелекту за допомогою МЕГ (магнітоенцефалографії) для розшифровки процесу візуалізації зорової активності в мозку людини та опублікував статтю.
Повідомляється, що це неінвазивна технологія нейровізуалізації, яка може виявляти тисячі активностей мозку в секунду, що може реконструювати зображення, яке мозок сприймає і обробляє в кожен момент в режимі реального часу. Це забезпечує важливу дослідницьку базу для наукової спільноти, щоб зрозуміти, як мозок виражає та формує образи.
З точки зору сценаріїв застосування, ця технологія може краще розуміти та контролювати дії нейронних мереж та нейрони моделей штучного інтелекту, таких як ChatGPT та Stable Difusion, підвищити точність виведення контенту та знизити ризики, а також закласти наріжний камінь для еволюції AGI (загального штучного інтелекту).
Якщо поглянути на більш широку мету, то це прискорить клінічний розвиток «інтерфейсів мозок-комп'ютер» і допоможе тим, хто зазнав пошкодження мозку і втратив здатність говорити.
Паперова адреса:
Судячи зі статті, опублікованої Meta, модель штучного інтелекту, розроблена Meta за допомогою MEG, не є складною і в основному включає три модулі: редагування зображень, мозок і декодування зображень.
Коли наш мозок активний, генерується слабкий електричний струм. За законами фізики ці струми викликають зміни в навколишньому магнітному полі. Виявляйте ці зміни магнітного поля за допомогою високочутливих приладів MEG для отримання даних про активність мозку.
Зокрема, в якості детектора MEG використовує спеціальний надпровідний дросельний дросельний метр. Ці дроселі складаються з надпровідної петлі, яка може точно вловлювати невеликі коливання магнітного поля.
Положення детектора ретельно продумано так, щоб охопити область навколо голови, і тестувальнику потрібно лише сидіти в приладі MEG, щоб голова залишалася нерухомою.
, тривалість 00:31
МЕГ реконструювала зображення мозку експериментатора, і кожне зображення представлялося приблизно кожні 1,5 секунди.
Хоча сила магнітного поля, викликаного електричною активністю мозку, дуже мала, МЕГ-детектор може чітко зафіксувати його, коли воно посилюється і обробляється.
МЕГ містить 200-300 детекторів, кожен з яких розташований у певній ділянці мозку. Таким чином, МЕГ може отримати дані про активність всього мозку з високою часовою роздільною здатністю.
, тривалість 00:22
Після того, як необроблені дані MEG будуть отримані, дослідники можуть використовувати потужні нейронні мережі, щоб розшифрувати їх і витягти важливу візуальну інформацію, яка може бути використана для реконструкції зображень мозку.
Meta заявила, що спочатку хотіла використовувати функціональну магнітно-резонансну томографію (фМРТ) для збору електричної інформації про людський мозок, але вона поступалася MEG з точки зору роздільної здатності зображення, відстані між зображеннями та безперервності.
Модуль редагування зображень
Ґрунтуючись на кількох попередньо навчених моделях комп'ютерного зору, модуль витягує вектори семантичних ознак із вхідних зображень як цільові представлення для декодування. Дослідники порівняли моделі навчання з учителем, моделі зіставлення зображень і тексту, моделі з самонаглядом тощо та виявили, що CLIP і DINO показали найкращі результати.
CLIP (Contrastive Language-Image Pretraining) попередньо навчається за допомогою зіставлення зображень і тексту для отримання візуальних семантичних особливостей із сильною здатністю до узагальнення. DINO (Distributional Iniance for Normalization) – це метод контрастивного навчання з самоконтролем.
Мозковий модуль
Цей модуль використовує згорткову нейронну мережу для вхідного вікна даних MEG, а вихід є вектором передбачуваних ознак зображення. Наскрізне навчання потрібне, щоб навчитися відображати дані MEG у латентному просторі виводу зображення.
Дослідники використовували структуру згорткової нейронної мережі, що містить залишкові блоки та розширені згорткові блоки, які можуть захоплювати інформацію про час MEG. У той же час додаються такі механізми, як шар уваги і виключний для суб'єкта.
Модуль декодування зображень
Щоб краще розшифрувати зображення, дослідники використовували модель латентної дифузії, яка приймає вектори ознак, передбачені модулем мозку, як умови, які можуть генерувати нові зображення, які відповідають семантиці вхідних зображень.
Семантичні особливості CLIP та функції AutoKL, що виводяться мозковим модулем, були використані як умови для керівництва моделлю для генерації семантично узгоджених зображень. Алгоритми дискретизації DDIM і такі методи, як наведення шуму, використовуються для поступового створення чітких зображень з розподілу шуму. Зазвичай використовується 50-етапний процес відбору проб.
Для експериментального тестування дослідники використовували THINGS-MEG, набір даних MEG з 4 учасників, що містить 22 448 унікальних природних зображень.