El gigante mundial de las redes sociales y la tecnología Meta (Facebook, Instagram y otras empresas matrices) anunció un estudio de gran éxito en su sitio web oficial, desarrolló un modelo de IA a través de MEG (magnetoencefalografía) para decodificar el proceso de obtención de imágenes de la actividad visual en el cerebro humano y publicó un artículo.
Se reporta que se trata de una tecnología de neuroimagen no invasiva que puede detectar miles de actividades cerebrales por segundo, lo que permite reconstruir la imagen que el cerebro percibe y procesa en cada momento en tiempo real. Proporciona una importante base de investigación para que la comunidad científica comprenda cómo el cerebro expresa y forma imágenes.
Desde la perspectiva de los escenarios de aplicación, esta tecnología puede comprender y controlar mejor las acciones de la red neuronal y las neuronas de los modelos de IA como ChatGPT y Stable Difusion, mejorar la precisión de la salida de contenido y reducir los riesgos, y sentar las bases para la evolución de AGI (inteligencia artificial general).
En cuanto al objetivo más amplio, acelerará el desarrollo clínico de las "interfaces cerebro-computadora" y ayudará a aquellos que han sufrido daño cerebral y han perdido la capacidad de hablar.
Dirección del papel:
Principios técnicos
A juzgar por el documento publicado por Meta, el modelo de IA desarrollado por Meta a través de MEG no es complicado e incluye principalmente tres módulos: edición de imágenes, cerebro y decodificación de imágenes.
Cuando nuestro cerebro está activo, se genera una corriente eléctrica débil. De acuerdo con las leyes de la física, estas corrientes causan cambios en el campo magnético circundante. Detecte estos cambios en el campo magnético utilizando los instrumentos altamente sensibles de MEG para obtener datos sobre la actividad cerebral.
Específicamente, MEG utiliza un medidor de estrangulador superconductor especial como detector. Estos estrangulómetros consisten en un bucle superconductor que puede capturar con precisión pequeñas fluctuaciones en el campo magnético.
La posición del detector está cuidadosamente diseñada para cubrir el área alrededor de la cabeza, y el probador solo necesita sentarse en el instrumento MEG para mantener la cabeza quieta.
, duración 00:31
MEG reconstruyó la imagen cerebral del experimentador, y cada imagen se presentó aproximadamente cada 1,5 segundos.
Aunque la fuerza del campo magnético causado por la actividad eléctrica del cerebro es muy pequeña, el detector MEG puede registrarlo claramente cuando se amplifica y procesa.
MEG contiene entre 200 y 300 detectores, cada uno ubicado en un área específica del cerebro. De esta manera, MEG puede obtener datos de actividad de todo el cerebro con alta resolución temporal.
, duración 00:22
Una vez que se obtienen los datos de MEG sin procesar, los investigadores pueden usar poderosas redes neuronales para decodificarlos y extraer información visual importante que se puede usar para reconstruir imágenes cerebrales.
Meta dijo que inicialmente quería utilizar imágenes de resonancia magnética funcional (fMRI) para recopilar información eléctrica sobre el cerebro humano, pero era inferior a MEG en términos de resolución de imagen, espaciado de imágenes y continuidad.
Módulo de edición de imágenes
Basado en múltiples modelos de visión artificial previamente entrenados, el módulo extrae vectores de características semánticas de las imágenes de entrada como representaciones de destino para la decodificación. Los investigadores compararon modelos de aprendizaje supervisado, modelos de coincidencia de imagen y texto, modelos autosupervisados y más, y encontraron que CLIP y DINO funcionaron mejor.
CLIP (Contrastive Language-Image Pretraining) se entrena previamente a través de la coincidencia imagen-texto para obtener características semánticas visuales con una fuerte capacidad de generalización. DINO (Distributional Iniance for Normalization) es un método de aprendizaje contrastivo autosupervisado.
Tomando CLIP como ejemplo, se puede extraer la característica promedio o la característica de marca de clasificación (CLS) del módulo de imagen (CLIP-Vision) y la característica promedio del módulo de texto (CLIP-Text), y la combinación de empalme se puede usar como la representación de la característica semántica de la imagen.
Módulo Cerebral
Este módulo utiliza una red neuronal convolucional para la ventana de datos MEG de entrada y la salida es el vector de características de imagen predicho. Se requiere capacitación de extremo a extremo para aprender a mapear los datos de MEG al espacio latente de la salida de la imagen.
Los investigadores utilizaron una estructura de red neuronal convolucional que contiene bloques residuales y bloques convolucionales expandidos que pueden capturar información de sincronización de MEG. Al mismo tiempo, se añaden mecanismos como la capa de atención y la capa exclusiva del sujeto.
Para la recuperación de imágenes, el módulo cerebral se dirige a la función de pérdida CLIP y aprende a maximizar la similitud de características de la imagen coincidente. Para la generación de imágenes, el módulo cerebral predice directamente las características del módulo de imagen con la pérdida de MSE como objetivo.
Módulo de decodificación de imágenes
Para decodificar mejor las imágenes, los investigadores utilizaron el modelo de difusión latente, que toma los vectores de características predichos por el módulo cerebral como condiciones que pueden generar nuevas imágenes que son consistentes con la semántica de las imágenes de entrada.
Las características semánticas de CLIP y las características de AutoKL generadas por el módulo cerebral se utilizaron como condiciones para guiar el modelo a generar imágenes semánticamente consistentes. Los algoritmos y técnicas de muestreo DDIM, como la guía por ruido, se utilizan para generar gradualmente imágenes claras a partir de la distribución del ruido. Por lo general, se utiliza un proceso de muestreo de 50 pasos.
最后,使用感知指标(SSIM)和语义指标(CLIP相似度、SwAV特征相关度) para evaluar la calidad de decodificación y generación de la imagen.
Para las pruebas experimentales, los investigadores utilizaron THINGS-MEG, un conjunto de datos MEG de 4 participantes que contiene 22.448 imágenes naturales únicas.
A través de las pruebas de MEG, los investigadores encontraron que la respuesta del cerebro a las imágenes, centrada principalmente en el período de tiempo de 0 a 250 ms después de la aparición del estímulo, producía imágenes capaces de retener información semántica. Aunque la imagen resultante no es perfecta, los resultados muestran que la imagen reconstruida conserva una rica colección de características de alto nivel.
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
Reconstruyendo el proceso de obtención de imágenes del cerebro humano con modelos de IA, Meta publica una investigación de gran éxito
Fuente original: AIGC Open Community
El gigante mundial de las redes sociales y la tecnología Meta (Facebook, Instagram y otras empresas matrices) anunció un estudio de gran éxito en su sitio web oficial, desarrolló un modelo de IA a través de MEG (magnetoencefalografía) para decodificar el proceso de obtención de imágenes de la actividad visual en el cerebro humano y publicó un artículo.
Se reporta que se trata de una tecnología de neuroimagen no invasiva que puede detectar miles de actividades cerebrales por segundo, lo que permite reconstruir la imagen que el cerebro percibe y procesa en cada momento en tiempo real. Proporciona una importante base de investigación para que la comunidad científica comprenda cómo el cerebro expresa y forma imágenes.
Desde la perspectiva de los escenarios de aplicación, esta tecnología puede comprender y controlar mejor las acciones de la red neuronal y las neuronas de los modelos de IA como ChatGPT y Stable Difusion, mejorar la precisión de la salida de contenido y reducir los riesgos, y sentar las bases para la evolución de AGI (inteligencia artificial general).
En cuanto al objetivo más amplio, acelerará el desarrollo clínico de las "interfaces cerebro-computadora" y ayudará a aquellos que han sufrido daño cerebral y han perdido la capacidad de hablar.
Dirección del papel:
A juzgar por el documento publicado por Meta, el modelo de IA desarrollado por Meta a través de MEG no es complicado e incluye principalmente tres módulos: edición de imágenes, cerebro y decodificación de imágenes.
Cuando nuestro cerebro está activo, se genera una corriente eléctrica débil. De acuerdo con las leyes de la física, estas corrientes causan cambios en el campo magnético circundante. Detecte estos cambios en el campo magnético utilizando los instrumentos altamente sensibles de MEG para obtener datos sobre la actividad cerebral.
Específicamente, MEG utiliza un medidor de estrangulador superconductor especial como detector. Estos estrangulómetros consisten en un bucle superconductor que puede capturar con precisión pequeñas fluctuaciones en el campo magnético.
La posición del detector está cuidadosamente diseñada para cubrir el área alrededor de la cabeza, y el probador solo necesita sentarse en el instrumento MEG para mantener la cabeza quieta.
, duración 00:31
MEG reconstruyó la imagen cerebral del experimentador, y cada imagen se presentó aproximadamente cada 1,5 segundos.
Aunque la fuerza del campo magnético causado por la actividad eléctrica del cerebro es muy pequeña, el detector MEG puede registrarlo claramente cuando se amplifica y procesa.
MEG contiene entre 200 y 300 detectores, cada uno ubicado en un área específica del cerebro. De esta manera, MEG puede obtener datos de actividad de todo el cerebro con alta resolución temporal.
, duración 00:22
Una vez que se obtienen los datos de MEG sin procesar, los investigadores pueden usar poderosas redes neuronales para decodificarlos y extraer información visual importante que se puede usar para reconstruir imágenes cerebrales.
Meta dijo que inicialmente quería utilizar imágenes de resonancia magnética funcional (fMRI) para recopilar información eléctrica sobre el cerebro humano, pero era inferior a MEG en términos de resolución de imagen, espaciado de imágenes y continuidad.
Módulo de edición de imágenes
Basado en múltiples modelos de visión artificial previamente entrenados, el módulo extrae vectores de características semánticas de las imágenes de entrada como representaciones de destino para la decodificación. Los investigadores compararon modelos de aprendizaje supervisado, modelos de coincidencia de imagen y texto, modelos autosupervisados y más, y encontraron que CLIP y DINO funcionaron mejor.
CLIP (Contrastive Language-Image Pretraining) se entrena previamente a través de la coincidencia imagen-texto para obtener características semánticas visuales con una fuerte capacidad de generalización. DINO (Distributional Iniance for Normalization) es un método de aprendizaje contrastivo autosupervisado.
Módulo Cerebral
Este módulo utiliza una red neuronal convolucional para la ventana de datos MEG de entrada y la salida es el vector de características de imagen predicho. Se requiere capacitación de extremo a extremo para aprender a mapear los datos de MEG al espacio latente de la salida de la imagen.
Los investigadores utilizaron una estructura de red neuronal convolucional que contiene bloques residuales y bloques convolucionales expandidos que pueden capturar información de sincronización de MEG. Al mismo tiempo, se añaden mecanismos como la capa de atención y la capa exclusiva del sujeto.
Módulo de decodificación de imágenes
Para decodificar mejor las imágenes, los investigadores utilizaron el modelo de difusión latente, que toma los vectores de características predichos por el módulo cerebral como condiciones que pueden generar nuevas imágenes que son consistentes con la semántica de las imágenes de entrada.
Las características semánticas de CLIP y las características de AutoKL generadas por el módulo cerebral se utilizaron como condiciones para guiar el modelo a generar imágenes semánticamente consistentes. Los algoritmos y técnicas de muestreo DDIM, como la guía por ruido, se utilizan para generar gradualmente imágenes claras a partir de la distribución del ruido. Por lo general, se utiliza un proceso de muestreo de 50 pasos.
Para las pruebas experimentales, los investigadores utilizaron THINGS-MEG, un conjunto de datos MEG de 4 participantes que contiene 22.448 imágenes naturales únicas.