Reconstruindo o processo de imagem do cérebro humano com modelos de IA, Meta publica pesquisa de sucesso

Fonte original: AIGC Open Community

Fonte da imagem: Gerado por Unbounded AI

A gigante global de tecnologia e social Meta (Facebook, Instagram e outras empresas-mãe) anunciou um estudo de sucesso em seu site oficial, desenvolveu um modelo de IA através do MEG (magnetoencefalografia) para decodificar o processo de imagem da atividade visual no cérebro humano e publicou um artigo.

É relatado que esta é uma tecnologia de neuroimagem não invasiva que pode detetar milhares de atividades cerebrais por segundo, que pode reconstruir a imagem que o cérebro percebe e processa em cada momento em tempo real. Ele fornece uma base de pesquisa importante para a comunidade científica entender como o cérebro expressa e forma imagens.

Do ponto de vista dos cenários de aplicação, esta tecnologia pode compreender e controlar melhor as ações da rede neural e os neurónios de modelos de IA como o ChatGPT e o Stable Difusion, melhorar a precisão da saída de conteúdos e reduzir os riscos, e lançar a pedra angular para a evolução da AGI (inteligência artificial geral).

Olhando para o objetivo maior, irá acelerar o desenvolvimento clínico de "interfaces cérebro-computador" e ajudar aqueles que sofreram danos cerebrais e perderam a capacidade de falar.

Endereço em papel:

Princípios Técnicos

A julgar pelo artigo divulgado pela Meta, o modelo de IA desenvolvido pela Meta através do MEG não é complicado, e inclui principalmente três módulos: edição de imagem, cérebro e decodificação de imagem.

Quando nosso cérebro está ativo, uma corrente elétrica fraca é gerada. De acordo com as leis da física, essas correntes causam mudanças no campo magnético circundante. Detetar essas alterações do campo magnético usando os instrumentos altamente sensíveis do MEG para obter dados sobre a atividade cerebral.

Especificamente, o MEG usa um medidor de estrangulamento supercondutor especial como detetor. Estes estrangulamentos consistem em um loop supercondutor que pode capturar com precisão pequenas flutuações no campo magnético.

A posição do detetor é cuidadosamente projetada para cobrir a área ao redor da cabeça, e o testador só precisa se sentar no instrumento MEG para manter a cabeça parada.

, duração 00:31

O MEG reconstruiu a imagem cerebral do experimentador, e cada imagem foi apresentada aproximadamente a cada 1,5 segundo.

Embora a força do campo magnético causado pela atividade elétrica do cérebro seja muito pequena, o detetor MEG pode registrá-lo claramente quando é amplificado e processado.

MEG contém 200-300 detetores, cada um localizado em uma área específica do cérebro. Desta forma, o MEG pode obter dados de atividade cerebral total com alta resolução temporal.

, duração 00:22

Uma vez que os dados brutos do MEG são obtidos, os pesquisadores podem usar poderosas redes neurais para decodificá-los e extrair informações visuais importantes que podem ser usadas para reconstruir imagens cerebrais.

A Meta disse que inicialmente queria usar imagens de ressonância magnética funcional (fMRI) para coletar informações elétricas sobre o cérebro humano, mas era inferior ao MEG em termos de resolução de imagem, espaçamento de imagem e continuidade.

Módulo de Edição de Imagem

Com base em vários modelos de visão computacional pré-treinados, o módulo extrai vetores de recursos semânticos de imagens de entrada como representações de destino para decodificação. Os pesquisadores compararam modelos de aprendizagem supervisionada, modelos de correspondência imagem-texto, modelos autosupervisionados e muito mais, e descobriram que o CLIP e o DINO tiveram o melhor desempenho.

O CLIP (Contrastive Language-Image Pretraining) é pré-treinado através da correspondência imagem-texto para obter recursos semânticos visuais com forte capacidade de generalização. DINO (Distributional Iniance for Normalization) é um método de aprendizagem contrastiva auto-supervisionado.

Tomando CLIP como exemplo, o recurso médio ou marca de classificação (CLS) do módulo de imagem (CLIP-Vision) e o recurso médio do módulo de texto (CLIP-Text) podem ser extraídos, e a combinação de emenda pode ser usada como a representação semântica da imagem.

Módulo Cérebro

Este módulo usa uma rede neural convolucional para a janela de dados MEG de entrada e a saída é o vetor de recurso de imagem previsto. É necessário treinamento de ponta a ponta para aprender a mapear os dados do MEG para o espaço latente da saída da imagem.

Os pesquisadores usaram uma estrutura de rede neural convolucional contendo blocos residuais e blocos convolucionais expandidos que podem capturar informações de tempo MEG. Ao mesmo tempo, mecanismos como camada de atenção e camada exclusiva do assunto são adicionados.

Para a recuperação de imagem, o módulo cerebral tem como alvo a função de perda de CLIP e aprende a maximizar a semelhança de recursos da imagem correspondente. Para a geração de imagens, o módulo cerebral prevê diretamente as características do módulo de imagem com a perda de MSE como alvo.

Módulo de Descodificação de Imagem

Para melhor decodificar as imagens, os pesquisadores usaram o modelo de difusão latente, que toma os vetores de feição previstos pelo módulo cerebral como condições que podem gerar novas imagens que são consistentes com a semântica das imagens de entrada.

As características semânticas do CLIP e as características do AutoKL produzidas pelo módulo cerebral foram usadas como condições para orientar o modelo a gerar imagens semanticamente consistentes. Algoritmos de amostragem DDIM e técnicas como orientação de ruído são usados para gerar gradualmente imagens claras a partir da distribuição de ruído. É geralmente utilizado um processo de amostragem de 50 etapas.

最后,使用感知指标(SSIM)和语义指标(CLIP相似度、SwAV特征相关度) para avaliar a qualidade de decodificação e geração da imagem.

Para testes experimentais, os pesquisadores usaram o THINGS-MEG, um conjunto de dados MEG de 4 participantes contendo 22.448 imagens naturais únicas.

Através dos testes do MEG, os pesquisadores descobriram que a resposta do cérebro às imagens, focada principalmente no período de tempo de 0-250 ms após o estímulo aparecer, produziu imagens capazes de reter informações semânticas. Embora a imagem resultante não seja perfeita, os resultados mostram que a imagem reconstruída mantém uma rica coleção de recursos de alto nível.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Partilhar
Comentar
0/400
Nenhum comentário
  • Pino
Negocie cripto em qualquer lugar e a qualquer hora
qrCode
Digitalizar para transferir a aplicação Gate
Novidades
Português (Portugal)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)