Le géant mondial des réseaux sociaux et de la technologie Meta (Facebook, Instagram et d’autres sociétés mères) a annoncé une étude à succès sur son site officiel, a développé un modèle d’IA grâce à la MEG (magnétoencéphalographie) pour décoder le processus d’imagerie de l’activité visuelle dans le cerveau humain et a publié un article.
Il s’agirait d’une technologie de neuroimagerie non invasive capable de détecter des milliers d’activités cérébrales par seconde, ce qui permet de reconstruire en temps réel l’image que le cerveau perçoit et traite à chaque instant. Il fournit une base de recherche importante à la communauté scientifique pour comprendre comment le cerveau exprime et forme des images.
Du point de vue des scénarios d’application, cette technologie permet de mieux comprendre et contrôler les actions des réseaux neuronaux et les neurones des modèles d’IA tels que ChatGPT et Stable Difusion, d’améliorer la précision de la sortie de contenu et de réduire les risques, et de poser la pierre angulaire de l’évolution de l’IAG (intelligence artificielle générale).
D’un point de vue plus large, il permettra d’accélérer le développement clinique des « interfaces cerveau-ordinateur » et d’aider ceux qui ont subi des lésions cérébrales et perdu la capacité de parler.
Adresse papier :
Principes techniques
À en juger par l’article publié par Meta, le modèle d’IA développé par Meta via MEG n’est pas compliqué et comprend principalement trois modules : l’édition d’images, le cerveau et le décodage d’images.
Lorsque notre cerveau est actif, un faible courant électrique est généré. Selon les lois de la physique, ces courants provoquent des changements dans le champ magnétique environnant. Détectez ces changements de champ magnétique à l’aide des instruments très sensibles du MEG pour obtenir des données sur l’activité cérébrale.
Plus précisément, MEG utilise un compteur d’étranglement supraconducteur spécial comme détecteur. Ces étrangleurs sont constitués d’une boucle supraconductrice capable de capturer avec précision de petites fluctuations du champ magnétique.
La position du détecteur est soigneusement conçue pour couvrir la zone autour de la tête, et le testeur n’a qu’à s’asseoir dans l’instrument MEG pour maintenir la tête immobile.
, durée 00 :31
Le MEG a reconstruit l’image cérébrale de l’expérimentateur, et chaque image a été présentée environ toutes les 1,5 seconde.
Bien que l’intensité du champ magnétique causé par l’activité électrique du cerveau soit très faible, le détecteur MEG peut clairement l’enregistrer lorsqu’il est amplifié et traité.
Le MEG contient 200 à 300 détecteurs, chacun situé dans une zone spécifique du cerveau. De cette façon, le MEG peut obtenir des données sur l’activité du cerveau entier avec une haute résolution temporelle.
, durée 00 :22
Une fois les données MEG brutes obtenues, les chercheurs peuvent utiliser de puissants réseaux neuronaux pour les décoder et en extraire des informations visuelles importantes qui peuvent être utilisées pour reconstruire des images cérébrales.
Meta a déclaré qu’elle souhaitait initialement utiliser l’imagerie par résonance magnétique fonctionnelle (IRMf) pour collecter des informations électriques sur le cerveau humain, mais qu’elle était inférieure à la MEG en termes de résolution d’image, d’espacement et de continuité des images.
Module d’édition d’images
Basé sur plusieurs modèles de vision par ordinateur pré-entraînés, le module extrait les vecteurs de caractéristiques sémantiques des images d’entrée en tant que représentations cibles pour le décodage. Les chercheurs ont comparé des modèles d’apprentissage supervisé, des modèles d’appariement image-texte, des modèles auto-supervisés, etc., et ont constaté que CLIP et DINO étaient les plus performants.
CLIP (Contrastive Language-Image Pretraining) est pré-entraîné par correspondance image-texte pour obtenir des caractéristiques sémantiques visuelles avec une forte capacité de généralisation. DINO (Distributional Iniance for Normalization) est une méthode d’apprentissage contrastif auto-supervisée.
Si l’on prend l’exemple de CLIP, il est possible d’extraire la caractéristique moyenne ou la caractéristique de marque de classification (CLS) du module d’image (CLIP-Vision) et la caractéristique moyenne du module de texte (CLIP-Text), et la combinaison d’épissage peut être utilisée comme représentation sémantique de l’image.
Module Cerveau
Ce module utilise un réseau de neurones convolutifs pour la fenêtre de données MEG d’entrée et la sortie est le vecteur de caractéristiques d’image prédit. Une formation de bout en bout est nécessaire pour apprendre à mapper les données de MEG à l’espace latent de la sortie de l’image.
Les chercheurs ont utilisé une structure de réseau neuronal convolutif contenant des blocs résiduels et des blocs convolutifs étendus qui peuvent capturer des informations de synchronisation MEG. Dans le même temps, des mécanismes tels que la couche d’attention et la couche exclusive au sujet sont ajoutés.
Pour la récupération d’images, le module cérébral cible la fonction de perte CLIP et apprend à maximiser la similarité des caractéristiques de l’image correspondante. Pour la génération d’images, le module cérébral prédit directement les caractéristiques du module d’image avec la perte MSE comme cible.
Module de décodage d’image
Pour mieux décoder les images, les chercheurs ont utilisé le modèle de diffusion latente, qui prend les vecteurs de caractéristiques prédits par le module cérébral comme conditions permettant de générer de nouvelles images cohérentes avec la sémantique des images d’entrée.
Les caractéristiques sémantiques CLIP et les caractéristiques AutoKL générées par le module cérébral ont été utilisées comme conditions pour guider le modèle afin de générer des images sémantiquement cohérentes. Des algorithmes d’échantillonnage DDIM et des techniques telles que le guidage du bruit sont utilisés pour générer progressivement des images claires à partir de la distribution du bruit. Un processus d’échantillonnage en 50 étapes est généralement utilisé.
最后,使用感知指标(SSIM)和语义指标(CLIP相似度、SwAV特征相关度) pour évaluer la qualité de décodage et de génération de l’image.
Pour les tests expérimentaux, les chercheurs ont utilisé THINGS-MEG, un ensemble de données MEG à 4 participants contenant 22 448 images naturelles uniques.
Grâce aux tests du MEG, les chercheurs ont constaté que la réponse du cerveau aux images, principalement axée sur la période de temps de 0 à 250 ms après l’apparition du stimulus, produisait des images capables de retenir des informations sémantiques. Bien que l’image résultante ne soit pas parfaite, les résultats montrent que l’image reconstruite conserve une riche collection de caractéristiques de haut niveau.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
Reconstruire le processus d’imagerie du cerveau humain avec des modèles d’IA, Meta publie une recherche à succès
Source originale : Communauté ouverte de l’AIGC
Le géant mondial des réseaux sociaux et de la technologie Meta (Facebook, Instagram et d’autres sociétés mères) a annoncé une étude à succès sur son site officiel, a développé un modèle d’IA grâce à la MEG (magnétoencéphalographie) pour décoder le processus d’imagerie de l’activité visuelle dans le cerveau humain et a publié un article.
Il s’agirait d’une technologie de neuroimagerie non invasive capable de détecter des milliers d’activités cérébrales par seconde, ce qui permet de reconstruire en temps réel l’image que le cerveau perçoit et traite à chaque instant. Il fournit une base de recherche importante à la communauté scientifique pour comprendre comment le cerveau exprime et forme des images.
Du point de vue des scénarios d’application, cette technologie permet de mieux comprendre et contrôler les actions des réseaux neuronaux et les neurones des modèles d’IA tels que ChatGPT et Stable Difusion, d’améliorer la précision de la sortie de contenu et de réduire les risques, et de poser la pierre angulaire de l’évolution de l’IAG (intelligence artificielle générale).
D’un point de vue plus large, il permettra d’accélérer le développement clinique des « interfaces cerveau-ordinateur » et d’aider ceux qui ont subi des lésions cérébrales et perdu la capacité de parler.
Adresse papier :
À en juger par l’article publié par Meta, le modèle d’IA développé par Meta via MEG n’est pas compliqué et comprend principalement trois modules : l’édition d’images, le cerveau et le décodage d’images.
Lorsque notre cerveau est actif, un faible courant électrique est généré. Selon les lois de la physique, ces courants provoquent des changements dans le champ magnétique environnant. Détectez ces changements de champ magnétique à l’aide des instruments très sensibles du MEG pour obtenir des données sur l’activité cérébrale.
Plus précisément, MEG utilise un compteur d’étranglement supraconducteur spécial comme détecteur. Ces étrangleurs sont constitués d’une boucle supraconductrice capable de capturer avec précision de petites fluctuations du champ magnétique.
La position du détecteur est soigneusement conçue pour couvrir la zone autour de la tête, et le testeur n’a qu’à s’asseoir dans l’instrument MEG pour maintenir la tête immobile.
, durée 00 :31
Le MEG a reconstruit l’image cérébrale de l’expérimentateur, et chaque image a été présentée environ toutes les 1,5 seconde.
Bien que l’intensité du champ magnétique causé par l’activité électrique du cerveau soit très faible, le détecteur MEG peut clairement l’enregistrer lorsqu’il est amplifié et traité.
Le MEG contient 200 à 300 détecteurs, chacun situé dans une zone spécifique du cerveau. De cette façon, le MEG peut obtenir des données sur l’activité du cerveau entier avec une haute résolution temporelle.
, durée 00 :22
Une fois les données MEG brutes obtenues, les chercheurs peuvent utiliser de puissants réseaux neuronaux pour les décoder et en extraire des informations visuelles importantes qui peuvent être utilisées pour reconstruire des images cérébrales.
Meta a déclaré qu’elle souhaitait initialement utiliser l’imagerie par résonance magnétique fonctionnelle (IRMf) pour collecter des informations électriques sur le cerveau humain, mais qu’elle était inférieure à la MEG en termes de résolution d’image, d’espacement et de continuité des images.
Module d’édition d’images
Basé sur plusieurs modèles de vision par ordinateur pré-entraînés, le module extrait les vecteurs de caractéristiques sémantiques des images d’entrée en tant que représentations cibles pour le décodage. Les chercheurs ont comparé des modèles d’apprentissage supervisé, des modèles d’appariement image-texte, des modèles auto-supervisés, etc., et ont constaté que CLIP et DINO étaient les plus performants.
CLIP (Contrastive Language-Image Pretraining) est pré-entraîné par correspondance image-texte pour obtenir des caractéristiques sémantiques visuelles avec une forte capacité de généralisation. DINO (Distributional Iniance for Normalization) est une méthode d’apprentissage contrastif auto-supervisée.
Module Cerveau
Ce module utilise un réseau de neurones convolutifs pour la fenêtre de données MEG d’entrée et la sortie est le vecteur de caractéristiques d’image prédit. Une formation de bout en bout est nécessaire pour apprendre à mapper les données de MEG à l’espace latent de la sortie de l’image.
Les chercheurs ont utilisé une structure de réseau neuronal convolutif contenant des blocs résiduels et des blocs convolutifs étendus qui peuvent capturer des informations de synchronisation MEG. Dans le même temps, des mécanismes tels que la couche d’attention et la couche exclusive au sujet sont ajoutés.
Module de décodage d’image
Pour mieux décoder les images, les chercheurs ont utilisé le modèle de diffusion latente, qui prend les vecteurs de caractéristiques prédits par le module cérébral comme conditions permettant de générer de nouvelles images cohérentes avec la sémantique des images d’entrée.
Les caractéristiques sémantiques CLIP et les caractéristiques AutoKL générées par le module cérébral ont été utilisées comme conditions pour guider le modèle afin de générer des images sémantiquement cohérentes. Des algorithmes d’échantillonnage DDIM et des techniques telles que le guidage du bruit sont utilisés pour générer progressivement des images claires à partir de la distribution du bruit. Un processus d’échantillonnage en 50 étapes est généralement utilisé.
Pour les tests expérimentaux, les chercheurs ont utilisé THINGS-MEG, un ensemble de données MEG à 4 participants contenant 22 448 images naturelles uniques.