O cérebro da IA lê para se tornar realidade com um atraso de apenas 0,25 segundos! Novo estudo da Meta Milestone: MEG decodifica imagens cerebrais em tempo real, LeCun gosta
Hoje LeCun encaminhou o mais recente avanço da Meta AI: a IA foi capaz de decodificar a perceção de imagem na atividade cerebral em tempo real!
O estudo, feito pela FAIR-Paris em colaboração com a École des Arts et des Arts and Sciences (PSL) (ENS), é um novo marco no uso de sinais de magnetoencefalografia (MEG) para reconstruir a entrada visual e de fala.
Endereço em papel:
Usando magnetoencefalografia (MEG), uma técnica de neuroimagem não invasiva, a Meta escaneia milhares de varreduras de atividade cerebral por segundo e desenvolveu um sistema de IA capaz de decodificar representações visuais no cérebro quase em tempo real.
Este sistema pode ser implantado em tempo real, reconstruindo imagens que o cérebro percebe e processa a cada momento com base na atividade cerebral.
Indiscutivelmente, esta pesquisa abre um novo caminho sem precedentes para ajudar a comunidade científica a entender como as imagens são representadas no cérebro, lançando mais luz sobre outros aspetos da inteligência humana.
A longo prazo, pode também servir de base para interfaces cérebro-computador não invasivas em contextos clínicos, ajudando aqueles que perdem a capacidade de falar depois de sofrerem lesões cerebrais a comunicar com o mundo exterior.
Especificamente, a Meta desenvolveu um sistema que consiste em um codificador de imagem, um codificador cerebral e um decodificador de imagem.
Os codificadores de imagem constroem de forma independente um rico conjunto de representações de imagem fora do cérebro. O codificador cerebral então aprende a incorporar e alinhar o sinal MEG com essas imagens construídas.
Finalmente, o decodificador de imagem gera imagens críveis com base nessas representações cerebrais.
A Meta primeiro comparou o desempenho de decodificação de vários módulos de imagem pré-treinados e descobriu que os sinais cerebrais são muito consistentes com sistemas de IA de visão computacional, como o DINOv2.
As descobertas confirmam que a aprendizagem autosupervisionada permite que os sistemas de IA aprendam representações semelhantes ao cérebro – os neurónios artificiais nos algoritmos tendem a ser ativados da mesma forma que os neurónios físicos no cérebro para responder às mesmas imagens.
Essa coordenação do sistema de IA e da função cerebral permite que a IA produza imagens altamente semelhantes às vistas por humanos em um scanner.
Com base nesse princípio, a Meta treinou o sistema em um conjunto de dados MEG disponível publicamente.
A Meta acredita que, enquanto a ressonância magnética funcional (fMRI) pode decodificar melhor as imagens, os decodificadores MEG podem gerar resultados em tempo real, decodificando continuamente a atividade cerebral, gerando um fluxo contínuo e quase em tempo real de imagens.
Isso é fundamental para ajudar os pacientes que são incapazes de se comunicar com o mundo exterior devido a danos cerebrais e se comunicar com o mundo exterior em tempo real.
**Premissa, o que é magnetoencefalografia (MEG)? **
A magnetoencefalografia (MEG) é uma técnica de neuroimagem funcional que mapeia a atividade cerebral usando um magnetômetro muito sensível para registrar o campo magnético gerado por correntes elétricas naturais no cérebro.
As matrizes SQUID (Superconducting Quantum Interferometer) são atualmente os magnetômetros mais comuns, enquanto os magnetômetros SERF (Spin Free Exchange Relaxation) estão sendo estudados para futuras máquinas MEG.
As aplicações do MEG incluem pesquisa básica sobre processos cerebrais percetivos e cognitivos, localizando áreas patologicamente afetadas antes da ressecção cirúrgica, determinando a função de várias partes do cérebro e neurofeedback. Isso pode ser aplicado em um ambiente clínico para encontrar locais anormais, ou em um ambiente experimental para simplesmente medir a atividade cerebral.
O Dr. Cohen testou o primeiro MEG usando SQUID em uma sala blindada no MIT
O Dr. Cohen testou o primeiro MEG usando SQUID em uma sala blindada no MIT
Arquitetura técnica de leitura cerebral de IA
O autor propõe um pipeline de treinamento multimodal:
(1) A atividade MEG é primeiramente alinhada com recursos de imagem pré-treinados;
(2) Gerar imagens de fluxos de sinal MEG
Figura 1: (A) Método, modelo pré-treinado de congelamento (B) Esquema de processamento, ao contrário da geração de imagens, a recuperação de imagens pode ser realizada em subespaço alinhado, mas requer imagens de amostra positivas no conjunto de recuperação.
Os autores referem que este sistema tem duas grandes contribuições:
Os decodificadores MEG permitem (1) recuperação de imagem de alto desempenho e geração de imagem,
(2) Fornecer novos métodos para interpretar o processamento visual no cérebro. Isso mostra que o método proposto tem a capacidade de realmente generalizar para novas ideias visuais e abrir caminho para a decodificação visual de "forma livre".
Em suma, os resultados do estudo abriram uma direção promissora para a decodificação em tempo real de representações visuais no laboratório e na clínica.
Método
1. Descrição do problema
O objetivo do estudo dos autores era fazer com que um grupo de participantes saudáveis olhasse para uma série de imagens naturais, registrasse sua atividade cerebral usando MEG e, em seguida, decodificasse as imagens dos sinais de séries temporais, que o decodificador se baseia em modelos generativos.
2. Objetivos da Formação
O pipeline proposto pelos autores tem várias partes, portanto, uma estratégia de otimização multiobjetivo é usada, e o CLIP Loss é usado ao recuperar imagens.
Para avaliar a qualidade da imagem gerada, MSE Loss,
Finalmente, os autores usam uma combinação convexa ponderada para combinar perdas de CLIP e MPE para completar a meta de treinamento.
3. Modelo Cerebral
O autor usa a arquitetura de rede neural convolucional para extrair recursos e, com base nisso, uma camada de agregação de séries temporais é adicionada para reduzir a dimensionalidade e economizar sobrecarga computacional.
4. Modelo de Imagem
Para a codificação de imagens, os autores exploram VGG-19, CLIP e suas variantes, bem como a estrutura do Transformer.
5. Gerar modelo
Para poder comparar de forma justa os resultados da RMf, os autores utilizaram um modelo pré-treinado como outros artigos e treinados nesta tarefa.
6. Calcular o consumo de recursos para treinamento
A tarefa de recuperação da modalidade de disputa foi treinada em cerca de 63.000 imagens e o conjunto de validação foi de cerca de 15.800 imagens. É utilizada uma GPU Volta com 32GB de RAM.
7. Metodologia de avaliação
Para avaliar a efetividade do método, os autores utilizaram o índice de busca mediana relativa, precisão top-5 e geraram os indicadores PixCorr, SSIM, SwAV. Ao mesmo tempo, a fim de avaliar de forma justa o desempenho da decodificação MEG, os autores fazem uso de demonstrações de imagens repetidas no conjunto de dados para calcular a média dos valores previstos antes de avaliar os indicadores.
8. Conjunto de dados:
Conjunto de dados THINGS
OS AUTORES TESTAM O MÉTODO NO CONJUNTO DE DADOS THINGS-MEG. Quatro participantes (idade média de 23,25 anos) passaram por 12 treinamentos MEG e, durante o processo de treinamento, viram 22.448 imagens selecionadas do conjunto de dados THING. Com base nisso, eles são mostrados um conjunto de imagens selecionadas do banco de dados THINGS, e essas imagens são usadas para expandir a escala de recuperação e melhorar a capacidade de recuperação, melhorando assim a robustez do método.
Resultado
A aprendizagem automática é considerada um modelo eficaz para compreender as respostas cerebrais**
Quais modelos oferecem o desempenho de decodificação mais poderoso para representação natural de imagens?
Para responder a esta pergunta, a Meta usou modelos de regressão linear de cristas para prever 16 representações visuais potenciais diferentes dada a resposta MEG achatada para cada imagem, e comparou o desempenho de recuperação. Isso é mostrado na tabela a seguir.
Todas as incorporações de imagens exibiram um desempenho de recuperação superior ao aleatório, mas os modelos supervisionados e de alinhamento texto/imagem (por exemplo, VGG, CLIP) alcançaram as pontuações de recuperação mais altas.
Aprendizagem automática vista como uma ferramenta eficaz para aprender respostas cerebrais**
Em seguida, a Meta compara essas linhas de base lineares com estruturas de rede convolucionais profundas treinadas na mesma tarefa – recuperando imagens correspondentes na janela MIG.
O uso do modelo de profundidade resultou em uma melhoria de desempenho de 7x em relação a uma linha de base linear (Figura 2 abaixo).
Uma variedade de tipos de incorporação de imagem mostrou bom desempenho de recuperação, entre os quais as cinco principais taxas de precisão de VGG-19 (aprendizagem supervisionada), CLIP-Vision (alinhamento texto/imagem) e DINOv2 (aprendizagem autosupervisionada) foram: 70,33 ± 2,80%, 68,66 ± 2,84%, 68,00 ± 2,86% (calculado o erro padrão da métrica média da imagem).
Uma conclusão semelhante pode ser tirada da configuração do conjunto de teste "grande", embora o desempenho seja menor, a decodificação não depende apenas da classe de imagem, mas também precisa distinguir várias imagens da mesma categoria. Um exemplo de pesquisa representativo é mostrado na figura abaixo.
Recuperação de imagem no nível de resolução de tempo
Para investigar melhor a possibilidade de representações visuais se desdobrarem no cérebro, os autores analisaram em uma janela deslizante de 250ms:
Todos os modelos alcançaram representação de nível de benchmark antes da imagem ser renderizada; O primeiro pico óbvio pode ser observado na janela de 0 ~ 250ms da imagem, seguido pelo segundo pico após o deslocamento da imagem, e depois caindo rapidamente de volta para a janela de 0 a 250ms, todos os modelos cumprem esta lei.
Curiosamente, o recente modelo auto-supervisionado DINOv2 tem um desempenho particularmente bom após o enviesamento da imagem.
Para entender melhor o significado da métrica de decodificação, a figura abaixo mostra que os resultados da pesquisa foram testados no conjunto de teste original com um conjunto adicional composto por 3.659 imagens que os participantes nunca tinham visto.
Pode-se ver que o decodificador aproveita as respostas cerebrais associadas ao viés da imagem e, a partir de 250ms, as informações de categoria dominaram essas representações visuais.
Gerar imagens a partir de sinais MEG
Embora a decodificação como uma tarefa de recuperação produza bons resultados, ela requer que as imagens de amostra positivas estejam no conjunto de recuperação, o que tem aplicação limitada na prática. Para resolver este problema, os autores treinaram três módulos cerebrais diferentes para prever.
De acordo com as métricas de avaliação da Tabela 1, as imagens geradas apresentaram qualidade visual relativamente alta, e múltiplas imagens geradas apresentaram corretamente as categorias semânticas. No entanto, essas imagens geradas parecem conter informações visuais de baixo nível da imagem real.
Debate
Impacto
Esta investigação tem implicações fundamentais e práticas.
Em primeiro lugar, espera-se que a capacidade de decodificar representações percetivas complexas ao longo do tempo promova muito a compreensão humana dos vários processos envolvidos no processamento visual do cérebro.
Há muito trabalho sendo feito examinando a natureza e o tempo das representações construídas ao longo do caminho pelos sistemas de visão. No entanto, esses resultados podem ser difíceis de interpretar, especialmente para recursos avançados.
A decodificação generativa neste estudo fornece previsões concretas e interpretáveis.
Em segundo lugar, o caso de uso mais óbvio para a tecnologia de descodificação cerebral é ajudar pacientes cujos danos cerebrais afetam a comunicação.
No entanto, este caso de uso requer decodificação em tempo real, limitando assim o uso de modalidades de neuroimagem com menor resolução temporal, como a RMf.
Como resultado, os esforços atuais abrem caminho para a decodificação em tempo real no futuro.
Limitações
A análise da Meta destacou três limitações principais na decodificação de imagens de sinais MEG.
Primeiro, a decodificação de recursos semânticos de alto nível tem precedência sobre a decodificação de recursos de baixo nível: em particular, a imagem resultante retém semântica (por exemplo, categorias de objetos) melhor do que recursos de baixo nível (por exemplo, contornos, sombras).
É difícil atribuir esse fenômeno ao fluxo do estudo: de fato, a aplicação de um procedimento semelhante aos registros de fMRI 7T torna razoável reconstruir características de baixo nível.
Em vez disso, este resultado ecoa o fato de que a resolução espacial (≈ cm) do MEG é muito menor do que a do 7T fMRI (≈ mm).
Em segundo lugar, a abordagem atual depende diretamente do pré-treinamento de vários modelos e só aprende de ponta a ponta para alinhar os sinais MEG com essas incorporações pré-treinadas.
Os resultados do estudo mostram que este método supera os recursos tradicionais de visão computacional, como histogramas de cores, transformadas rápidas de Fourier e histogramas de gradiente direcional (HOG).
Isso é consistente com estudos MEG recentes que mostraram que incorporações pré-treinadas são superiores às abordagens completas de ponta a ponta no contexto da decodificação de fala.
No entanto, há ainda dois aspetos que têm de ser testados no futuro:
(1) Ajuste a imagem e gere o módulo
(2) Se a combinação de diferentes tipos de características visuais pode melhorar o desempenho da descodificação.
Recursos:
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
O cérebro da IA lê para se tornar realidade com um atraso de apenas 0,25 segundos! Novo estudo da Meta Milestone: MEG decodifica imagens cerebrais em tempo real, LeCun gosta
Fonte original: Shin Ji Yuan
A leitura da mente da IA está feita!?
Hoje LeCun encaminhou o mais recente avanço da Meta AI: a IA foi capaz de decodificar a perceção de imagem na atividade cerebral em tempo real!
Usando magnetoencefalografia (MEG), uma técnica de neuroimagem não invasiva, a Meta escaneia milhares de varreduras de atividade cerebral por segundo e desenvolveu um sistema de IA capaz de decodificar representações visuais no cérebro quase em tempo real.
A longo prazo, pode também servir de base para interfaces cérebro-computador não invasivas em contextos clínicos, ajudando aqueles que perdem a capacidade de falar depois de sofrerem lesões cerebrais a comunicar com o mundo exterior.
Especificamente, a Meta desenvolveu um sistema que consiste em um codificador de imagem, um codificador cerebral e um decodificador de imagem.
A Meta primeiro comparou o desempenho de decodificação de vários módulos de imagem pré-treinados e descobriu que os sinais cerebrais são muito consistentes com sistemas de IA de visão computacional, como o DINOv2.
As descobertas confirmam que a aprendizagem autosupervisionada permite que os sistemas de IA aprendam representações semelhantes ao cérebro – os neurónios artificiais nos algoritmos tendem a ser ativados da mesma forma que os neurónios físicos no cérebro para responder às mesmas imagens.
Essa coordenação do sistema de IA e da função cerebral permite que a IA produza imagens altamente semelhantes às vistas por humanos em um scanner.
A Meta acredita que, enquanto a ressonância magnética funcional (fMRI) pode decodificar melhor as imagens, os decodificadores MEG podem gerar resultados em tempo real, decodificando continuamente a atividade cerebral, gerando um fluxo contínuo e quase em tempo real de imagens.
Isso é fundamental para ajudar os pacientes que são incapazes de se comunicar com o mundo exterior devido a danos cerebrais e se comunicar com o mundo exterior em tempo real.
A magnetoencefalografia (MEG) é uma técnica de neuroimagem funcional que mapeia a atividade cerebral usando um magnetômetro muito sensível para registrar o campo magnético gerado por correntes elétricas naturais no cérebro.
As matrizes SQUID (Superconducting Quantum Interferometer) são atualmente os magnetômetros mais comuns, enquanto os magnetômetros SERF (Spin Free Exchange Relaxation) estão sendo estudados para futuras máquinas MEG.
Arquitetura técnica de leitura cerebral de IA
O autor propõe um pipeline de treinamento multimodal:
(1) A atividade MEG é primeiramente alinhada com recursos de imagem pré-treinados;
(2) Gerar imagens de fluxos de sinal MEG
Os autores referem que este sistema tem duas grandes contribuições:
Os decodificadores MEG permitem (1) recuperação de imagem de alto desempenho e geração de imagem,
(2) Fornecer novos métodos para interpretar o processamento visual no cérebro. Isso mostra que o método proposto tem a capacidade de realmente generalizar para novas ideias visuais e abrir caminho para a decodificação visual de "forma livre".
Em suma, os resultados do estudo abriram uma direção promissora para a decodificação em tempo real de representações visuais no laboratório e na clínica.
Método
1. Descrição do problema
O objetivo do estudo dos autores era fazer com que um grupo de participantes saudáveis olhasse para uma série de imagens naturais, registrasse sua atividade cerebral usando MEG e, em seguida, decodificasse as imagens dos sinais de séries temporais, que o decodificador se baseia em modelos generativos.
2. Objetivos da Formação
O pipeline proposto pelos autores tem várias partes, portanto, uma estratégia de otimização multiobjetivo é usada, e o CLIP Loss é usado ao recuperar imagens.
O autor usa a arquitetura de rede neural convolucional para extrair recursos e, com base nisso, uma camada de agregação de séries temporais é adicionada para reduzir a dimensionalidade e economizar sobrecarga computacional.
4. Modelo de Imagem
Para a codificação de imagens, os autores exploram VGG-19, CLIP e suas variantes, bem como a estrutura do Transformer.
5. Gerar modelo
Para poder comparar de forma justa os resultados da RMf, os autores utilizaram um modelo pré-treinado como outros artigos e treinados nesta tarefa.
6. Calcular o consumo de recursos para treinamento
A tarefa de recuperação da modalidade de disputa foi treinada em cerca de 63.000 imagens e o conjunto de validação foi de cerca de 15.800 imagens. É utilizada uma GPU Volta com 32GB de RAM.
7. Metodologia de avaliação
Para avaliar a efetividade do método, os autores utilizaram o índice de busca mediana relativa, precisão top-5 e geraram os indicadores PixCorr, SSIM, SwAV. Ao mesmo tempo, a fim de avaliar de forma justa o desempenho da decodificação MEG, os autores fazem uso de demonstrações de imagens repetidas no conjunto de dados para calcular a média dos valores previstos antes de avaliar os indicadores.
8. Conjunto de dados:
OS AUTORES TESTAM O MÉTODO NO CONJUNTO DE DADOS THINGS-MEG. Quatro participantes (idade média de 23,25 anos) passaram por 12 treinamentos MEG e, durante o processo de treinamento, viram 22.448 imagens selecionadas do conjunto de dados THING. Com base nisso, eles são mostrados um conjunto de imagens selecionadas do banco de dados THINGS, e essas imagens são usadas para expandir a escala de recuperação e melhorar a capacidade de recuperação, melhorando assim a robustez do método.
Resultado
A aprendizagem automática é considerada um modelo eficaz para compreender as respostas cerebrais**
Quais modelos oferecem o desempenho de decodificação mais poderoso para representação natural de imagens?
Para responder a esta pergunta, a Meta usou modelos de regressão linear de cristas para prever 16 representações visuais potenciais diferentes dada a resposta MEG achatada para cada imagem, e comparou o desempenho de recuperação. Isso é mostrado na tabela a seguir.
Aprendizagem automática vista como uma ferramenta eficaz para aprender respostas cerebrais**
Em seguida, a Meta compara essas linhas de base lineares com estruturas de rede convolucionais profundas treinadas na mesma tarefa – recuperando imagens correspondentes na janela MIG.
O uso do modelo de profundidade resultou em uma melhoria de desempenho de 7x em relação a uma linha de base linear (Figura 2 abaixo).
Uma conclusão semelhante pode ser tirada da configuração do conjunto de teste "grande", embora o desempenho seja menor, a decodificação não depende apenas da classe de imagem, mas também precisa distinguir várias imagens da mesma categoria. Um exemplo de pesquisa representativo é mostrado na figura abaixo.
Para investigar melhor a possibilidade de representações visuais se desdobrarem no cérebro, os autores analisaram em uma janela deslizante de 250ms:
Todos os modelos alcançaram representação de nível de benchmark antes da imagem ser renderizada; O primeiro pico óbvio pode ser observado na janela de 0 ~ 250ms da imagem, seguido pelo segundo pico após o deslocamento da imagem, e depois caindo rapidamente de volta para a janela de 0 a 250ms, todos os modelos cumprem esta lei.
Curiosamente, o recente modelo auto-supervisionado DINOv2 tem um desempenho particularmente bom após o enviesamento da imagem.
Gerar imagens a partir de sinais MEG
Embora a decodificação como uma tarefa de recuperação produza bons resultados, ela requer que as imagens de amostra positivas estejam no conjunto de recuperação, o que tem aplicação limitada na prática. Para resolver este problema, os autores treinaram três módulos cerebrais diferentes para prever.
Debate
Impacto
Esta investigação tem implicações fundamentais e práticas.
Em primeiro lugar, espera-se que a capacidade de decodificar representações percetivas complexas ao longo do tempo promova muito a compreensão humana dos vários processos envolvidos no processamento visual do cérebro.
Há muito trabalho sendo feito examinando a natureza e o tempo das representações construídas ao longo do caminho pelos sistemas de visão. No entanto, esses resultados podem ser difíceis de interpretar, especialmente para recursos avançados.
A decodificação generativa neste estudo fornece previsões concretas e interpretáveis.
Em segundo lugar, o caso de uso mais óbvio para a tecnologia de descodificação cerebral é ajudar pacientes cujos danos cerebrais afetam a comunicação.
No entanto, este caso de uso requer decodificação em tempo real, limitando assim o uso de modalidades de neuroimagem com menor resolução temporal, como a RMf.
Como resultado, os esforços atuais abrem caminho para a decodificação em tempo real no futuro.
Limitações
A análise da Meta destacou três limitações principais na decodificação de imagens de sinais MEG.
Primeiro, a decodificação de recursos semânticos de alto nível tem precedência sobre a decodificação de recursos de baixo nível: em particular, a imagem resultante retém semântica (por exemplo, categorias de objetos) melhor do que recursos de baixo nível (por exemplo, contornos, sombras).
É difícil atribuir esse fenômeno ao fluxo do estudo: de fato, a aplicação de um procedimento semelhante aos registros de fMRI 7T torna razoável reconstruir características de baixo nível.
Em segundo lugar, a abordagem atual depende diretamente do pré-treinamento de vários modelos e só aprende de ponta a ponta para alinhar os sinais MEG com essas incorporações pré-treinadas.
Os resultados do estudo mostram que este método supera os recursos tradicionais de visão computacional, como histogramas de cores, transformadas rápidas de Fourier e histogramas de gradiente direcional (HOG).
Isso é consistente com estudos MEG recentes que mostraram que incorporações pré-treinadas são superiores às abordagens completas de ponta a ponta no contexto da decodificação de fala.
No entanto, há ainda dois aspetos que têm de ser testados no futuro:
(1) Ajuste a imagem e gere o módulo
(2) Se a combinação de diferentes tipos de características visuais pode melhorar o desempenho da descodificação.
Recursos: