Tái tạo lại quá trình chụp ảnh não người bằng mô hình AI, Meta công bố nghiên cứu bom tấn

Nguồn gốc: Cộng đồng mở AIGC

Nguồn hình ảnh: Được tạo bởi Unbounded AI

Gã khổng lồ công nghệ và xã hội toàn cầu Meta (Facebook, Instagram và các công ty mẹ khác) đã công bố một nghiên cứu bom tấn trên trang web chính thức của mình, phát triển mô hình AI thông qua MEG (chụp từ não) để giải mã quá trình hình ảnh của hoạt động thị giác trong não người và xuất bản một bài báo.

Được biết, đây là một công nghệ hình ảnh thần kinh không xâm lấn có thể phát hiện hàng ngàn hoạt động của não mỗi giây, có thể tái tạo lại hình ảnh mà não nhận thức và xử lý tại mỗi thời điểm trong thời gian thực. Nó cung cấp một cơ sở nghiên cứu quan trọng cho cộng đồng khoa học để hiểu cách bộ não thể hiện và hình thành hình ảnh.

Từ góc độ của các kịch bản ứng dụng, công nghệ này có thể hiểu và kiểm soát tốt hơn các hành động mạng thần kinh và tế bào thần kinh của các mô hình AI như ChatGPT và Difusion ổn định, cải thiện độ chính xác của đầu ra nội dung và giảm rủi ro, đồng thời đặt nền tảng cho sự phát triển của AGI (trí tuệ nhân tạo nói chung).

Nhìn vào mục tiêu lớn hơn, nó sẽ đẩy nhanh sự phát triển lâm sàng của "giao diện não-máy tính" và giúp những người bị tổn thương não và mất khả năng nói.

Địa chỉ giấy:

Nguyên tắc kỹ thuật

Đánh giá từ bài báo do Meta phát hành, mô hình AI do Meta phát triển thông qua MEG không phức tạp và chủ yếu bao gồm ba mô-đun: chỉnh sửa hình ảnh, não bộ và giải mã hình ảnh.

Khi não của chúng ta hoạt động, một dòng điện yếu được tạo ra. Theo các định luật vật lý, những dòng điện này gây ra những thay đổi trong từ trường xung quanh. ** Phát hiện những thay đổi từ trường này bằng cách sử dụng các công cụ có độ nhạy cao của MEG để lấy dữ liệu về hoạt động của não **.

Cụ thể, MEG sử dụng máy đo cuộn cảm siêu dẫn đặc biệt làm máy dò. Những chokemeter này bao gồm một vòng siêu dẫn có thể nắm bắt chính xác các dao động nhỏ trong từ trường.

Vị trí của máy dò được thiết kế cẩn thận để che khu vực xung quanh đầu và người kiểm tra chỉ cần ngồi trong dụng cụ MEG để giữ yên đầu.

, thời lượng: 00:31

MEG tái tạo lại hình ảnh não của người thí nghiệm và mỗi hình ảnh được trình bày khoảng 1,5 giây một lần.

Mặc dù cường độ của từ trường gây ra bởi hoạt động điện của não là rất nhỏ, máy dò MEG có thể ghi lại rõ ràng khi nó được khuếch đại và xử lý.

MEG chứa 200-300 máy dò, mỗi máy nằm ở một khu vực cụ thể của não. Bằng cách này, MEG có thể thu được dữ liệu hoạt động toàn bộ não với độ phân giải thời gian cao.

, thời lượng 00:22

Khi thu được dữ liệu MEG thô, các nhà nghiên cứu có thể sử dụng mạng lưới thần kinh mạnh mẽ để giải mã nó và trích xuất thông tin hình ảnh quan trọng có thể được sử dụng để tái tạo hình ảnh não.

Meta cho biết ban đầu họ muốn sử dụng hình ảnh cộng hưởng từ chức năng (fMRI) để thu thập thông tin điện về não người, nhưng nó kém hơn MEG về độ phân giải hình ảnh, khoảng cách hình ảnh và tính liên tục.

** Mô-đun chỉnh sửa hình ảnh **

Dựa trên nhiều mô hình thị giác máy tính được đào tạo trước, mô-đun trích xuất các vectơ tính năng ngữ nghĩa từ hình ảnh đầu vào làm biểu diễn đích để giải mã. Các nhà nghiên cứu đã so sánh các mô hình học tập có giám sát, mô hình đối sánh hình ảnh-văn bản, mô hình tự giám sát, v.v. và thấy rằng CLIP và DINO hoạt động tốt nhất.

CLIP (Contrastive Language-Image Pretraining) được đào tạo trước thông qua kết hợp hình ảnh-văn bản để có được các tính năng ngữ nghĩa trực quan với khả năng khái quát hóa mạnh mẽ. DINO (Distributional Iniance for Normalization) là một phương pháp học tập tương phản tự giám sát.

Lấy CLIP làm ví dụ, tính năng trung bình hoặc dấu phân loại (CLS) của mô-đun hình ảnh (CLIP-Vision) và tính năng trung bình của mô-đun văn bản (CLIP-Text) có thể được trích xuất và kết hợp nối có thể được sử dụng làm biểu diễn tính năng ngữ nghĩa của hình ảnh.

** Mô-đun não **

Mô-đun này sử dụng mạng nơ-ron tích chập cho cửa sổ dữ liệu MEG đầu vào và đầu ra là vectơ tính năng hình ảnh được dự đoán. Đào tạo từ đầu đến cuối là cần thiết để học cách ánh xạ dữ liệu của MEG với không gian tiềm ẩn của đầu ra hình ảnh.

Các nhà nghiên cứu đã sử dụng cấu trúc mạng nơ-ron tích chập chứa các khối còn lại và các khối tích chập mở rộng có thể nắm bắt thông tin thời gian MEG. Đồng thời, các cơ chế như lớp chú ý và lớp dành riêng cho chủ đề được thêm vào.

Để truy xuất hình ảnh, mô-đun não nhắm mục tiêu chức năng mất CLIP và học cách tối đa hóa tính năng tương tự của hình ảnh phù hợp. Để tạo hình ảnh, mô-đun não dự đoán trực tiếp các đặc tính của mô-đun hình ảnh với mục tiêu mất MSE.

** Mô-đun giải mã hình ảnh **

Để giải mã tốt hơn các hình ảnh, các nhà nghiên cứu đã sử dụng mô hình khuếch tán tiềm ẩn, lấy các vectơ tính năng được dự đoán bởi mô-đun não làm điều kiện có thể tạo ra hình ảnh mới phù hợp với ngữ nghĩa của hình ảnh đầu vào.

Các tính năng ngữ nghĩa CLIP và các tính năng AutoKL được xuất ra bởi mô-đun não được sử dụng làm điều kiện để hướng dẫn mô hình tạo ra hình ảnh nhất quán về mặt ngữ nghĩa. Các thuật toán và kỹ thuật lấy mẫu DDIM như hướng dẫn tiếng ồn được sử dụng để dần dần tạo ra hình ảnh rõ ràng từ phân phối nhiễu. Quy trình lấy mẫu 50 bước thường được sử dụng.

最后,使用感知指标(SSIM)和语义指标(CLIP相似度、SwAV特征相关度) để đánh giá chất lượng giải mã và tạo ra hình ảnh.

Để thử nghiệm thực nghiệm, các nhà nghiên cứu đã sử dụng THINGS-MEG, một bộ dữ liệu MEG 4 người tham gia chứa 22.448 hình ảnh tự nhiên độc đáo.

Thông qua các thử nghiệm của MEG, các nhà nghiên cứu phát hiện ra rằng phản ứng của não đối với hình ảnh, chủ yếu tập trung vào khoảng thời gian 0-250 ms sau khi kích thích xuất hiện, tạo ra hình ảnh có khả năng giữ lại thông tin ngữ nghĩa. Mặc dù hình ảnh thu được không hoàn hảo, kết quả cho thấy hình ảnh được tái tạo vẫn giữ được một bộ sưu tập phong phú các tính năng cấp cao.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Chia sẻ
Bình luận
0/400
Không có bình luận
  • Ghim
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)