¡El cerebro de la IA lee para hacerse realidad con un retraso de solo 0,25 segundos! Nuevo estudio de Meta Milestone: MEG decodifica imágenes cerebrales en tiempo real, le gusta a LeCun

Fuente original: Shin Ji Yuan

Fuente de la imagen: Generado por Unbounded AI

¿¡La lectura de la mente de la IA está hecha!?

Hoy, LeCun ha presentado el último avance de Meta AI: ¡la IA ha sido capaz de decodificar la percepción de imágenes en la actividad cerebral en tiempo real!

El estudio, realizado por FAIR-Paris en colaboración con la Escuela de Artes y Ciencias (PSL) (ENS), es un nuevo hito en el uso de señales de magnetoencefalografía (MEG) para reconstruir la información visual y del habla.

Dirección del papel:

Utilizando la magnetoencefalografía (MEG), una técnica de neuroimagen no invasiva, Meta escanea miles de escaneos de actividad cerebral por segundo y desarrolló un sistema de IA capaz de decodificar representaciones visuales en el cerebro casi en tiempo real.

Este sistema se puede desplegar en tiempo real, reconstruyendo imágenes que el cerebro percibe y procesa en cada momento en función de la actividad cerebral.

Podría decirse que esta investigación abre una nueva vía sin precedentes para ayudar a la comunidad científica a comprender cómo se representan las imágenes en el cerebro, arrojando más luz sobre otros aspectos de la inteligencia humana.

A largo plazo, también puede servir como base para interfaces cerebro-computadora no invasivas en entornos clínicos, ayudando a aquellos que pierden la capacidad de hablar después de sufrir una lesión cerebral a comunicarse con el mundo exterior.

En concreto, Meta ha desarrollado un sistema que consta de un codificador de imágenes, un codificador cerebral y un decodificador de imágenes.

Los codificadores de imágenes construyen de forma independiente un rico conjunto de representaciones de imágenes fuera del cerebro. Luego, el codificador cerebral aprende a incrustar y alinear la señal MEG con estas imágenes construidas.

Finalmente, el decodificador de imágenes genera imágenes creíbles basadas en estas representaciones cerebrales.

Meta comparó primero el rendimiento de decodificación de varios módulos de imagen preentrenados y descubrió que las señales cerebrales son muy consistentes con los sistemas de IA de visión por computadora como DINOv2.

Los hallazgos confirman que el aprendizaje autosupervisado permite que los sistemas de IA aprendan representaciones similares a las del cerebro: las neuronas artificiales en los algoritmos tienden a activarse de la misma manera que las neuronas físicas en el cerebro para responder a las mismas imágenes.

Esta coordinación del sistema de IA y la función cerebral permite que la IA produzca imágenes muy similares a las que ven los humanos en un escáner.

Basándose en este principio, Meta entrenó el sistema con un conjunto de datos MEG disponible públicamente.

Meta cree que, si bien las imágenes por resonancia magnética funcional (fMRI) pueden decodificar mejor las imágenes, los decodificadores MEG pueden generar resultados en tiempo real, decodificando continuamente la actividad cerebral, generando un flujo continuo y casi en tiempo real de imágenes.

Esto es clave para ayudar a los pacientes que no pueden comunicarse con el mundo exterior debido a un daño cerebral y comunicarse con el mundo exterior en tiempo real.

**Premisa, ¿qué es la magnetoencefalografía (MEG)? **

La magnetoencefalografía (MEG) es una técnica de neuroimagen funcional que mapea la actividad cerebral mediante el uso de un magnetómetro muy sensible para registrar el campo magnético generado por las corrientes eléctricas naturales en el cerebro.

Las matrices SQUID (Superconducting Quantum Interferometer) son actualmente los magnetómetros más comunes, mientras que los magnetómetros SERF (Spin Free Exchange Relaxation) se están estudiando para futuras máquinas MEG.

Las aplicaciones de la MEG incluyen la investigación básica sobre los procesos cerebrales perceptivos y cognitivos, la localización de áreas patológicamente afectadas antes de la resección quirúrgica, la determinación de la función de varias partes del cerebro y la neurorretroalimentación. Esto se puede aplicar en un entorno clínico para encontrar ubicaciones anormales, o en un entorno experimental para simplemente medir la actividad cerebral.

El Dr. Cohen probó el primer MEG usando SQUID en una sala blindada en el MIT

El Dr. Cohen probó el primer MEG usando SQUID en una sala blindada en el MIT

Arquitectura técnica de la lectura cerebral de IA

El autor propone un pipeline de entrenamiento multimodal:

(1) La actividad MEG se alinea primero con las características de imagen previamente entrenadas;

(2) Generar imágenes a partir de flujos de señal MEG

Figura 1: (A) Método, congelar modelo preentrenado (B) Esquema de procesamiento, a diferencia de la generación de imágenes, la recuperación de imágenes se puede realizar en un subespacio alineado, pero requiere imágenes de muestra positivas en el conjunto de recuperación.

Los autores mencionan que este sistema tiene dos grandes contribuciones:

Los decodificadores MEG permiten (1) la recuperación y generación de imágenes de alto rendimiento,

(2) Proporcionar nuevos métodos para interpretar el procesamiento visual en el cerebro. Esto demuestra que el método propuesto tiene la capacidad de generalizar realmente a nuevas ideas visuales y allanar el camino para la decodificación visual de "forma libre".

En resumen, los resultados del estudio han abierto una dirección prometedora para la decodificación en tiempo real de representaciones visuales en el laboratorio y la clínica.

Método

1. Descripción del problema

El objetivo del estudio de los autores era que un grupo de participantes sanos observara una serie de imágenes naturales, registrara su actividad cerebral utilizando MEG y luego decodificara las imágenes de las señales de series temporales, que el decodificador se basa en modelos generativos.

2. Objetivos de la formación

El pipeline propuesto por los autores tiene varias partes, por lo que se utiliza una estrategia de optimización multiobjetivo, y se utiliza CLIP Loss al recuperar imágenes.

Para evaluar la calidad de la imagen generada, MSE Loss,

Finalmente, los autores utilizan una combinación convexa ponderada para combinar las pérdidas de CLIP y MSE para completar el objetivo de entrenamiento.

3. Modelo cerebral

El autor utiliza la arquitectura de red neuronal convolucional para extraer características y, sobre esta base, se agrega una capa de agregación de series temporales para reducir la dimensionalidad y ahorrar sobrecarga computacional.

4. Modelo de imagen

Para la codificación de características de imágenes, los autores exploran VGG-19, CLIP y sus variantes, así como la estructura del transformador.

5. Generar modelo

Para poder comparar de manera justa los resultados de la resonancia magnética funcional, los autores utilizaron un modelo preentrenado como otros artículos y entrenados en esta tarea.

6. Consumo de recursos informáticos para el entrenamiento

La tarea de recuperación de la modalidad de pelea se entrenó con unas 63.000 imágenes y el conjunto de validación fue de unas 15.800 imágenes. Se utiliza una GPU Volta con 32 GB de RAM.

7. Metodología de evaluación

Con el fin de evaluar la efectividad del método, los autores utilizaron el índice de búsqueda rango medio relativo, precisión top-5 y generaron los indicadores PixCorr, SSIM, SwAV. Al mismo tiempo, con el fin de evaluar de manera justa el rendimiento de la decodificación de MEG, los autores hacen uso de demostraciones de imágenes repetidas en el conjunto de datos para promediar los valores predichos antes de evaluar los indicadores.

8. Conjunto de datos:

Conjunto de datos THINGS

LOS AUTORES PRUEBAN EL MÉTODO EN EL CONJUNTO DE DATOS THINGS-MEG. Cuatro participantes (con una edad media de 23,25 años) se sometieron a 12 entrenamientos de MEG y, durante el proceso de entrenamiento, vieron 22.448 imágenes seleccionadas del conjunto de datos de THING. Sobre esta base, se les muestra un conjunto de imágenes seleccionadas de la base de datos THINGS, y estas imágenes se utilizan para ampliar la escala de recuperación y mejorar la capacidad de recuperación, mejorando así la robustez del método.

Resultado

El aprendizaje automático se considera un modelo eficaz para comprender las respuestas cerebrales**

¿Qué modelos ofrecen el rendimiento de decodificación más potente para la representación natural de imágenes?

Para responder a esta pregunta, Meta utilizó modelos de regresión de crestas lineales para predecir 16 representaciones visuales potenciales diferentes dada la respuesta MEG aplanada para cada imagen, y comparó el rendimiento de recuperación. Esto se muestra en la siguiente tabla.

Todas las incrustaciones de imágenes mostraron un rendimiento de recuperación superior al aleatorio, pero los modelos supervisados y de alineación de texto/imagen (por ejemplo, VGG, CLIP) lograron las puntuaciones de recuperación más altas.

El aprendizaje automático se considera una herramienta eficaz para aprender las respuestas cerebrales**

A continuación, Meta compara estas líneas de base lineales con estructuras de red convolucionales profundas entrenadas en la misma tarea: recuperar imágenes coincidentes en la ventana MEG.

El uso del modelo de profundidad dio como resultado una mejora del rendimiento de 7 veces con respecto a una línea de base lineal (Figura 2 a continuación).

Una variedad de tipos de incrustación de imágenes mostraron un buen rendimiento de recuperación, entre los cuales las cinco principales tasas de precisión de VGG-19 (aprendizaje supervisado), CLIP-Vision (alineación de texto/imagen) y DINOv2 (aprendizaje autosupervisado) fueron: 70,33 ± 2,80%, 68,66 ± 2,84%, 68,00 ± 2,86% (calculado el error estándar de la métrica de imagen promedio).

Se puede llegar a una conclusión similar a partir de la configuración del conjunto de prueba "grande", aunque el rendimiento es menor, la decodificación no solo depende de la clase de imagen, sino que también debe distinguir varias imágenes de la misma categoría. En la siguiente figura se muestra un ejemplo de búsqueda representativo.

Recuperación de imágenes en el nivel de resolución de tiempo

Para investigar más a fondo la posibilidad de que las representaciones visuales se desarrollen en el cerebro, los autores analizaron una ventana deslizante de 250 ms:

Todos los modelos lograron una representación de nivel de referencia antes de que se renderizara la imagen; El primer pico obvio se puede observar en la ventana de 0 ~ 250 ms de la imagen, seguido del segundo pico después del cambio de imagen, y luego retrocediendo rápidamente a la ventana de 0 a 250 ms, todos los modelos cumplen con esta ley.

Curiosamente, el reciente modelo autosupervisado DINOv2 funciona particularmente bien después del sesgo de la imagen.

Para comprender mejor el significado de la métrica de decodificación, la siguiente figura muestra que los resultados de la búsqueda se probaron en el conjunto de prueba original con un conjunto adicional que consta de 3.659 imágenes que los participantes nunca habían visto.

Se puede ver que el decodificador aprovecha las respuestas cerebrales asociadas con el sesgo de la imagen, y ya a los 250 ms, la información de la categoría dominaba estas representaciones visuales.

Generar imágenes a partir de señales MEG

Aunque la decodificación como tarea de recuperación produce buenos resultados, requiere que las imágenes de muestra positivas estén en el conjunto de recuperación, lo que tiene una aplicación limitada en la práctica. Para resolver este problema, los autores entrenaron tres módulos cerebrales diferentes para predecir.

De acuerdo con las métricas de evaluación de la Tabla 1, las imágenes generadas mostraron una calidad visual relativamente alta, y varias imágenes generadas presentaron correctamente las categorías semánticas. Sin embargo, estas imágenes generadas parecen contener información visual de bajo nivel de la imagen real.

Discutir

Impacto

Esta investigación tiene implicaciones fundamentales y prácticas.

En primer lugar, se espera que la capacidad de decodificar representaciones perceptivas complejas a lo largo del tiempo haga avanzar en gran medida la comprensión humana de los diversos procesos involucrados en el procesamiento visual del cerebro.

Se está realizando una gran cantidad de trabajo que examina la naturaleza y el tiempo de las representaciones construidas a lo largo del camino por los sistemas de visión. Sin embargo, estos resultados pueden ser difíciles de interpretar, especialmente para las funciones avanzadas.

La decodificación generativa en este estudio proporciona predicciones concretas e interpretables.

En segundo lugar, el caso de uso más obvio de la tecnología de decodificación cerebral es ayudar a los pacientes cuyo daño cerebral afecta a la comunicación.

Sin embargo, este caso de uso requiere decodificación en tiempo real, lo que limita el uso de modalidades de neuroimagen con menor resolución temporal, como la resonancia magnética funcional.

Como resultado, los esfuerzos actuales allanan el camino para la decodificación en tiempo real en el futuro.

Limitaciones

El análisis de Meta puso de manifiesto tres limitaciones principales a la hora de decodificar imágenes a partir de señales MEG.

En primer lugar, la decodificación de características semánticas de alto nivel tiene prioridad sobre la decodificación de características de bajo nivel: en particular, la imagen resultante conserva la semántica (por ejemplo, categorías de objetos) mejor que las características de bajo nivel (por ejemplo, contornos, sombras).

Es difícil atribuir este fenómeno al flujo del estudio: de hecho, la aplicación de un procedimiento similar a los registros de resonancia magnética funcional de 7T hace que sea razonable reconstruir las características de bajo nivel.

En cambio, este resultado se hace eco del hecho de que la resolución espacial (≈ cm) de MEG es mucho menor que la de 7T fMRI (≈ mm).

En segundo lugar, el enfoque actual se basa directamente en el entrenamiento previo de varios modelos y solo aprende de extremo a extremo para alinear las señales de MEG con estas incrustaciones previamente entrenadas.

Los resultados del estudio muestran que este método supera las características tradicionales de visión por computadora, como los histogramas de color, las transformadas rápidas de Fourier y los histogramas de gradiente direccional (HOG).

Esto es consistente con estudios recientes de MEG que mostraron que las incrustaciones preentrenadas son superiores a los enfoques completos de extremo a extremo en el contexto de la decodificación de voz.

Sin embargo, hay dos aspectos que aún deben probarse en el futuro:

(1) Ajuste la imagen y genere el módulo

(2) Si la combinación de diferentes tipos de características visuales puede mejorar el rendimiento de la decodificación.

Recursos:

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Compartir
Comentar
0/400
Sin comentarios
Opere con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)