Hôm nay, LeCun đã chuyển tiếp bước đột phá mới nhất của Meta AI: AI đã có thể giải mã nhận thức hình ảnh trong hoạt động của não trong thời gian thực!
Nghiên cứu, được thực hiện bởi FAIR-Paris phối hợp với Ecole des Arts et des Arts and Sciences (PSL) (ENS), là một cột mốc mới trong việc sử dụng tín hiệu từ não đồ (MEG) để tái tạo đầu vào hình ảnh và giọng nói.
Địa chỉ giấy:
Sử dụng từ não đồ (MEG), một kỹ thuật hình ảnh thần kinh không xâm lấn, Meta quét hàng nghìn lần quét hoạt động não mỗi giây và phát triển một hệ thống AI có khả năng giải mã các biểu diễn trực quan trong não gần như theo thời gian thực.
Hệ thống này có thể được triển khai trong thời gian thực, tái tạo lại hình ảnh mà não nhận thức và xử lý tại mỗi thời điểm dựa trên hoạt động của não.
Có thể cho rằng, nghiên cứu này mở ra một con đường mới chưa từng có để giúp cộng đồng khoa học hiểu cách hình ảnh được thể hiện trong não, làm sáng tỏ thêm các khía cạnh khác của trí thông minh con người.
Về lâu dài, nó cũng có thể là cơ sở cho các giao diện não-máy tính không xâm lấn trong môi trường lâm sàng, giúp những người mất khả năng nói sau khi bị chấn thương não giao tiếp với thế giới bên ngoài.
Cụ thể, Meta đã phát triển một hệ thống bao gồm bộ mã hóa hình ảnh, bộ mã hóa não và bộ giải mã hình ảnh.
Bộ mã hóa hình ảnh độc lập xây dựng một tập hợp các biểu diễn hình ảnh phong phú bên ngoài não. Bộ mã hóa não sau đó học cách nhúng và căn chỉnh tín hiệu MEG với những hình ảnh được xây dựng này.
Cuối cùng, bộ giải mã hình ảnh tạo ra những hình ảnh đáng tin cậy dựa trên những biểu diễn não này.
Meta lần đầu tiên so sánh hiệu suất giải mã của các mô-đun hình ảnh được đào tạo trước khác nhau và nhận thấy rằng tín hiệu não rất phù hợp với các hệ thống AI thị giác máy tính như DINOv2.
Các phát hiện xác nhận rằng học tập tự giám sát cho phép các hệ thống AI học các biểu diễn giống như não - các tế bào thần kinh nhân tạo trong các thuật toán có xu hướng được kích hoạt giống như các tế bào thần kinh vật lý trong não để phản ứng với cùng một hình ảnh.
Sự phối hợp giữa hệ thống AI và chức năng não này cho phép AI tạo ra hình ảnh rất giống với hình ảnh mà con người nhìn thấy trong máy quét.
Dựa trên nguyên tắc này, Meta đã đào tạo hệ thống trên bộ dữ liệu MEG có sẵn công khai.
Meta tin rằng trong khi chụp cộng hưởng từ chức năng (fMRI) có thể giải mã hình ảnh tốt hơn, bộ giải mã MEG có thể tạo ra kết quả trong thời gian thực, liên tục giải mã hoạt động của não, tạo ra luồng hình ảnh liên tục và gần như thời gian thực.
Đây là chìa khóa để giúp những bệnh nhân không thể giao tiếp với thế giới bên ngoài vì tổn thương não và giao tiếp với thế giới bên ngoài trong thời gian thực.
**Tiền đề, từ não đồ (MEG) là gì? **
Magnetoencephalography (MEG) là một kỹ thuật hình ảnh thần kinh chức năng lập bản đồ hoạt động của não bằng cách sử dụng một từ kế rất nhạy để ghi lại từ trường được tạo ra bởi dòng điện tự nhiên trong não.
Các mảng SQUID (Giao thoa kế lượng tử siêu dẫn) hiện là từ kế phổ biến nhất, trong khi từ kế SERF (Spin Free Exchange Relaxation) đang được nghiên cứu cho các máy MEG trong tương lai.
Các ứng dụng của MEG bao gồm nghiên cứu cơ bản về các quá trình nhận thức và nhận thức của não, xác định vị trí các khu vực bị ảnh hưởng bệnh lý trước khi phẫu thuật cắt bỏ, xác định chức năng của các bộ phận khác nhau của não và phản hồi thần kinh. Điều này có thể được áp dụng trong môi trường lâm sàng để tìm các vị trí bất thường, hoặc trong môi trường thử nghiệm để đo lường hoạt động của não.
Tiến sĩ Cohen đã thử nghiệm MEG đầu tiên sử dụng SQUID trong một căn phòng được che chắn tại MIT
Tiến sĩ Cohen đã thử nghiệm MEG đầu tiên sử dụng SQUID trong một căn phòng được che chắn tại MIT
**Kiến trúc kỹ thuật đọc não AI **
Tác giả đề xuất một đường ống đào tạo đa phương thức:
(1) Hoạt động MEG trước tiên được liên kết với các tính năng hình ảnh được đào tạo trước;
(2) Tạo hình ảnh từ các luồng tín hiệu MEG
Hình 1: (A) Phương pháp, Freeze Pretrained Model (B) Sơ đồ xử lý, không giống như tạo ảnh, việc truy xuất hình ảnh có thể được thực hiện trong không gian con được căn chỉnh, nhưng yêu cầu hình ảnh mẫu dương tính trong bộ truy xuất.
Các tác giả đề cập rằng hệ thống này có hai đóng góp chính:
Bộ giải mã MEG cho phép (1) truy xuất hình ảnh hiệu suất cao và tạo hình ảnh,
(2) Cung cấp các phương pháp mới để giải thích xử lý hình ảnh trong não. Điều này cho thấy phương pháp được đề xuất có khả năng thực sự khái quát hóa các ý tưởng trực quan mới và mở đường cho việc giải mã trực quan "dạng tự do".
Nói tóm lại, kết quả của nghiên cứu đã mở ra một hướng đi đầy hứa hẹn để giải mã thời gian thực các biểu diễn trực quan trong phòng thí nghiệm và phòng khám.
Phương pháp
1. Mô tả vấn đề
Mục tiêu của nghiên cứu của các tác giả là để một nhóm người tham gia khỏe mạnh nhìn vào một loạt các hình ảnh tự nhiên, ghi lại hoạt động não của họ bằng MEG, và sau đó giải mã các hình ảnh từ các tín hiệu chuỗi thời gian, mà bộ giải mã dựa trên các mô hình thế hệ.
2. Mục tiêu đào tạo
Quy trình do các tác giả đề xuất có nhiều phần, do đó, chiến lược tối ưu hóa đa mục tiêu được sử dụng và CLIP Loss được sử dụng khi truy xuất hình ảnh.
Để đánh giá chất lượng của hình ảnh được tạo, MSE Loss,
Cuối cùng, các tác giả sử dụng kết hợp lồi có trọng số để kết hợp tổn thất CLIP và MSE để hoàn thành mục tiêu đào tạo.
3. Mô hình não
Tác giả sử dụng kiến trúc mạng nơ-ron tích chập để trích xuất các tính năng và trên cơ sở này, một lớp tổng hợp chuỗi thời gian được thêm vào để giảm tính chiều và tiết kiệm chi phí tính toán.
4. Mô hình hình ảnh
Để mã hóa tính năng của hình ảnh, các tác giả khám phá VGG-19, CLIP và các biến thể của nó, cũng như cấu trúc Transformer .
5. Tạo mô hình
Để có thể so sánh công bằng kết quả fMRI, các tác giả đã sử dụng mô hình được đào tạo trước như các bài báo khác và được đào tạo về nhiệm vụ này.
6. Điện toán mức tiêu thụ tài nguyên cho đào tạo
Nhiệm vụ truy xuất phương thức cãi vã đã được đào tạo trên khoảng 63.000 hình ảnh và bộ xác nhận là khoảng 15.800 hình ảnh. GPU Volta với 32GB RAM được sử dụng.
7. Phương pháp đánh giá
Để đánh giá hiệu quả của phương pháp, các tác giả đã sử dụng chỉ số tìm kiếm xếp hạng trung bình tương đối, độ chính xác top 5 và tạo ra các chỉ số PixCorr, SSIM, SwAV. Đồng thời, để đánh giá công bằng hiệu suất giải mã MEG, các tác giả sử dụng các minh họa hình ảnh lặp đi lặp lại trong tập dữ liệu để tính trung bình các giá trị dự đoán trước khi đánh giá các chỉ số.
8. Tập dữ liệu:
Tập dữ liệu THINGS
CÁC TÁC GIẢ KIỂM TRA PHƯƠNG PHÁP TRÊN TẬP DỮ LIỆU THINGS-MEG. Bốn người tham gia (độ tuổi trung bình 23,25 tuổi) đã trải qua 12 khóa đào tạo MEG và trong quá trình đào tạo, họ đã thấy 22.448 hình ảnh được chọn từ bộ dữ liệu THING. Trên cơ sở này, chúng được hiển thị một tập hợp các hình ảnh được chọn từ cơ sở dữ liệu THINGS và những hình ảnh này được sử dụng để mở rộng quy mô truy xuất và cải thiện khả năng truy xuất, do đó cải thiện tính mạnh mẽ của phương pháp.
Kết quả
Học máy được coi là một mô hình hiệu quả để hiểu phản ứng của não **
Mô hình nào cung cấp hiệu suất giải mã mạnh mẽ nhất để biểu diễn hình ảnh tự nhiên?
Để trả lời câu hỏi này, Meta đã sử dụng các mô hình hồi quy sườn núi tuyến tính để dự đoán 16 biểu diễn hình ảnh tiềm năng khác nhau dựa trên phản hồi MEG phẳng cho mỗi hình ảnh và so sánh hiệu suất truy xuất. Điều này được hiển thị trong bảng sau.
Tất cả các nhúng hình ảnh thể hiện hiệu suất truy xuất cao hơn ngẫu nhiên, nhưng các mô hình căn chỉnh văn bản / hình ảnh được giám sát và giám sát (ví dụ: VGG, CLIP) đạt được điểm truy xuất cao nhất.
Học máy được coi là một công cụ hiệu quả để học các phản ứng của não **
Meta sau đó so sánh các đường cơ sở tuyến tính này với các cấu trúc mạng tích chập sâu được đào tạo trên cùng một nhiệm vụ - truy xuất các hình ảnh phù hợp trong cửa sổ MEG.
Sử dụng mô hình độ sâu dẫn đến cải thiện hiệu suất gấp 7 lần so với đường cơ sở tuyến tính (Hình 2 bên dưới).
Một loạt các loại nhúng hình ảnh cho thấy hiệu suất truy xuất tốt, trong đó năm tỷ lệ chính xác hàng đầu của VGG-19 (học có giám sát), CLIP-Vision (căn chỉnh văn bản / hình ảnh) và DINOv2 (học tự giám sát) là: 70,33 ± 2,80%, 68,66 ± 2,84%, 68,00 ± 2,86% (tính sai số tiêu chuẩn của số liệu hình ảnh trung bình).
Một kết luận tương tự có thể được rút ra từ cài đặt bộ thử nghiệm "lớn", mặc dù hiệu suất thấp hơn, việc giải mã không chỉ phụ thuộc vào lớp hình ảnh mà còn cần phân biệt nhiều hình ảnh cùng loại. Một ví dụ tìm kiếm đại diện được hiển thị trong hình dưới đây.
Truy xuất hình ảnh ở mức độ phân giải thời gian
Để điều tra thêm về khả năng biểu diễn trực quan mở ra trong não, các tác giả đã phân tích trên một cửa sổ trượt 250ms:
Tất cả các mô hình đều đạt được biểu diễn mức chuẩn trước khi hình ảnh được hiển thị; Đỉnh rõ ràng đầu tiên có thể được quan sát trong cửa sổ 0 ~ 250ms của hình ảnh, tiếp theo là đỉnh thứ hai sau khi dịch chuyển hình ảnh, và sau đó nhanh chóng rơi trở lại cửa sổ từ 0 đến 250ms, tất cả các mô hình đều tuân thủ luật này.
Thật thú vị, mô hình tự giám sát gần đây DINOv2 hoạt động đặc biệt tốt sau khi sai lệch hình ảnh.
Để hiểu rõ hơn về ý nghĩa của số liệu giải mã, hình dưới đây cho thấy kết quả tìm kiếm đã được kiểm tra trên bộ thử nghiệm ban đầu với một bộ bổ sung bao gồm 3.659 hình ảnh mà những người tham gia chưa từng thấy.
Có thể thấy rằng bộ giải mã tận dụng các phản ứng của não liên quan đến độ lệch của hình ảnh và ngay từ 250ms, thông tin danh mục đã thống trị các biểu diễn trực quan này.
Tạo hình ảnh từ tín hiệu MEG
Mặc dù giải mã như một tác vụ truy xuất tạo ra kết quả tốt, nhưng nó đòi hỏi hình ảnh mẫu dương tính phải nằm trong bộ truy xuất, điều này có ứng dụng hạn chế trong thực tế. Để giải quyết vấn đề này, các tác giả đã đào tạo ba mô-đun não khác nhau để dự đoán.
Theo các số liệu đánh giá trong Bảng 1, các hình ảnh được tạo ra cho thấy chất lượng tương đối cao về mặt hình ảnh và nhiều hình ảnh được tạo ra đã trình bày chính xác các danh mục ngữ nghĩa. Tuy nhiên, những hình ảnh được tạo ra này dường như chứa thông tin hình ảnh cấp thấp từ hình ảnh thực.
Thảo luận
Tác động
Nghiên cứu này có ý nghĩa cơ bản và thực tiễn.
Đầu tiên, khả năng giải mã các biểu diễn nhận thức phức tạp theo thời gian dự kiến sẽ thúc đẩy đáng kể sự hiểu biết của con người về các quá trình khác nhau liên quan đến quá trình xử lý hình ảnh của não.
Có rất nhiều công việc đang được thực hiện để kiểm tra bản chất và thời gian của các biểu diễn được xây dựng trên đường đi bởi các hệ thống thị giác. Tuy nhiên, những kết quả này có thể khó diễn giải, đặc biệt là đối với các tính năng nâng cao.
Việc giải mã thế hệ trong nghiên cứu này cung cấp các dự đoán cụ thể và có thể giải thích được.
Thứ hai, trường hợp sử dụng rõ ràng nhất cho công nghệ giải mã não là hỗ trợ bệnh nhân bị tổn thương não ảnh hưởng đến giao tiếp.
Tuy nhiên, trường hợp sử dụng này yêu cầu giải mã thời gian thực, do đó hạn chế sử dụng các phương thức hình ảnh thần kinh với độ phân giải thời gian thấp hơn như fMRI.
Kết quả là, những nỗ lực hiện tại mở đường cho việc giải mã thời gian thực trong tương lai.
Hạn chế
Phân tích của Meta nhấn mạnh ba hạn chế chính trong việc giải mã hình ảnh từ tín hiệu MEG.
Đầu tiên, việc giải mã các tính năng ngữ nghĩa cấp cao được ưu tiên hơn việc giải mã các tính năng cấp thấp: đặc biệt, hình ảnh thu được giữ lại ngữ nghĩa (ví dụ: danh mục đối tượng) tốt hơn các tính năng cấp thấp (ví dụ: đường viền, bóng).
Thật khó để gán hiện tượng này cho dòng chảy của nghiên cứu: trên thực tế, áp dụng một quy trình tương tự cho các bản ghi fMRI 7T làm cho việc tái tạo lại các tính năng cấp thấp trở nên hợp lý.
Thay vào đó, kết quả này lặp lại thực tế là độ phân giải không gian (≈ cm) của MEG thấp hơn nhiều so với 7T fMRI (≈ mm).
Thứ hai, cách tiếp cận hiện tại trực tiếp dựa vào việc đào tạo trước một số mô hình và chỉ học từ đầu đến cuối để căn chỉnh tín hiệu MEG với các nhúng được đào tạo trước này.
Kết quả nghiên cứu cho thấy phương pháp này vượt trội hơn các tính năng thị giác máy tính truyền thống như biểu đồ màu, biến đổi Fourier nhanh và biểu đồ gradient định hướng (HOG).
Điều này phù hợp với các nghiên cứu MEG gần đây cho thấy rằng các nhúng được đào tạo trước vượt trội so với các phương pháp tiếp cận đầu cuối đầy đủ trong bối cảnh giải mã giọng nói.
Tuy nhiên, hai khía cạnh vẫn cần được kiểm tra trong tương lai:
(1) Tinh chỉnh hình ảnh và tạo mô-đun
(2) Liệu việc kết hợp các loại tính năng hình ảnh khác nhau có thể cải thiện hiệu suất giải mã hay không.
Tài nguyên:
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
Bộ não AI đọc để trở thành sự thật với độ trễ chỉ 0,25 giây! Meta Milestone Nghiên cứu mới: MEG giải mã hình ảnh não trong thời gian thực, LeCun thích
Nguồn gốc: Shin Ji Yuan
AI đọc suy nghĩ xong rồi!?
Hôm nay, LeCun đã chuyển tiếp bước đột phá mới nhất của Meta AI: AI đã có thể giải mã nhận thức hình ảnh trong hoạt động của não trong thời gian thực!
Sử dụng từ não đồ (MEG), một kỹ thuật hình ảnh thần kinh không xâm lấn, Meta quét hàng nghìn lần quét hoạt động não mỗi giây và phát triển một hệ thống AI có khả năng giải mã các biểu diễn trực quan trong não gần như theo thời gian thực.
Về lâu dài, nó cũng có thể là cơ sở cho các giao diện não-máy tính không xâm lấn trong môi trường lâm sàng, giúp những người mất khả năng nói sau khi bị chấn thương não giao tiếp với thế giới bên ngoài.
Cụ thể, Meta đã phát triển một hệ thống bao gồm bộ mã hóa hình ảnh, bộ mã hóa não và bộ giải mã hình ảnh.
Meta lần đầu tiên so sánh hiệu suất giải mã của các mô-đun hình ảnh được đào tạo trước khác nhau và nhận thấy rằng tín hiệu não rất phù hợp với các hệ thống AI thị giác máy tính như DINOv2.
Các phát hiện xác nhận rằng học tập tự giám sát cho phép các hệ thống AI học các biểu diễn giống như não - các tế bào thần kinh nhân tạo trong các thuật toán có xu hướng được kích hoạt giống như các tế bào thần kinh vật lý trong não để phản ứng với cùng một hình ảnh.
Sự phối hợp giữa hệ thống AI và chức năng não này cho phép AI tạo ra hình ảnh rất giống với hình ảnh mà con người nhìn thấy trong máy quét.
Meta tin rằng trong khi chụp cộng hưởng từ chức năng (fMRI) có thể giải mã hình ảnh tốt hơn, bộ giải mã MEG có thể tạo ra kết quả trong thời gian thực, liên tục giải mã hoạt động của não, tạo ra luồng hình ảnh liên tục và gần như thời gian thực.
Đây là chìa khóa để giúp những bệnh nhân không thể giao tiếp với thế giới bên ngoài vì tổn thương não và giao tiếp với thế giới bên ngoài trong thời gian thực.
Magnetoencephalography (MEG) là một kỹ thuật hình ảnh thần kinh chức năng lập bản đồ hoạt động của não bằng cách sử dụng một từ kế rất nhạy để ghi lại từ trường được tạo ra bởi dòng điện tự nhiên trong não.
Các mảng SQUID (Giao thoa kế lượng tử siêu dẫn) hiện là từ kế phổ biến nhất, trong khi từ kế SERF (Spin Free Exchange Relaxation) đang được nghiên cứu cho các máy MEG trong tương lai.
**Kiến trúc kỹ thuật đọc não AI **
Tác giả đề xuất một đường ống đào tạo đa phương thức:
(1) Hoạt động MEG trước tiên được liên kết với các tính năng hình ảnh được đào tạo trước;
(2) Tạo hình ảnh từ các luồng tín hiệu MEG
Các tác giả đề cập rằng hệ thống này có hai đóng góp chính:
Bộ giải mã MEG cho phép (1) truy xuất hình ảnh hiệu suất cao và tạo hình ảnh,
(2) Cung cấp các phương pháp mới để giải thích xử lý hình ảnh trong não. Điều này cho thấy phương pháp được đề xuất có khả năng thực sự khái quát hóa các ý tưởng trực quan mới và mở đường cho việc giải mã trực quan "dạng tự do".
Nói tóm lại, kết quả của nghiên cứu đã mở ra một hướng đi đầy hứa hẹn để giải mã thời gian thực các biểu diễn trực quan trong phòng thí nghiệm và phòng khám.
Phương pháp
1. Mô tả vấn đề
Mục tiêu của nghiên cứu của các tác giả là để một nhóm người tham gia khỏe mạnh nhìn vào một loạt các hình ảnh tự nhiên, ghi lại hoạt động não của họ bằng MEG, và sau đó giải mã các hình ảnh từ các tín hiệu chuỗi thời gian, mà bộ giải mã dựa trên các mô hình thế hệ.
2. Mục tiêu đào tạo
Quy trình do các tác giả đề xuất có nhiều phần, do đó, chiến lược tối ưu hóa đa mục tiêu được sử dụng và CLIP Loss được sử dụng khi truy xuất hình ảnh.
Tác giả sử dụng kiến trúc mạng nơ-ron tích chập để trích xuất các tính năng và trên cơ sở này, một lớp tổng hợp chuỗi thời gian được thêm vào để giảm tính chiều và tiết kiệm chi phí tính toán.
4. Mô hình hình ảnh
Để mã hóa tính năng của hình ảnh, các tác giả khám phá VGG-19, CLIP và các biến thể của nó, cũng như cấu trúc Transformer .
5. Tạo mô hình
Để có thể so sánh công bằng kết quả fMRI, các tác giả đã sử dụng mô hình được đào tạo trước như các bài báo khác và được đào tạo về nhiệm vụ này.
6. Điện toán mức tiêu thụ tài nguyên cho đào tạo
Nhiệm vụ truy xuất phương thức cãi vã đã được đào tạo trên khoảng 63.000 hình ảnh và bộ xác nhận là khoảng 15.800 hình ảnh. GPU Volta với 32GB RAM được sử dụng.
7. Phương pháp đánh giá
Để đánh giá hiệu quả của phương pháp, các tác giả đã sử dụng chỉ số tìm kiếm xếp hạng trung bình tương đối, độ chính xác top 5 và tạo ra các chỉ số PixCorr, SSIM, SwAV. Đồng thời, để đánh giá công bằng hiệu suất giải mã MEG, các tác giả sử dụng các minh họa hình ảnh lặp đi lặp lại trong tập dữ liệu để tính trung bình các giá trị dự đoán trước khi đánh giá các chỉ số.
8. Tập dữ liệu:
CÁC TÁC GIẢ KIỂM TRA PHƯƠNG PHÁP TRÊN TẬP DỮ LIỆU THINGS-MEG. Bốn người tham gia (độ tuổi trung bình 23,25 tuổi) đã trải qua 12 khóa đào tạo MEG và trong quá trình đào tạo, họ đã thấy 22.448 hình ảnh được chọn từ bộ dữ liệu THING. Trên cơ sở này, chúng được hiển thị một tập hợp các hình ảnh được chọn từ cơ sở dữ liệu THINGS và những hình ảnh này được sử dụng để mở rộng quy mô truy xuất và cải thiện khả năng truy xuất, do đó cải thiện tính mạnh mẽ của phương pháp.
Kết quả
Học máy được coi là một mô hình hiệu quả để hiểu phản ứng của não **
Mô hình nào cung cấp hiệu suất giải mã mạnh mẽ nhất để biểu diễn hình ảnh tự nhiên?
Để trả lời câu hỏi này, Meta đã sử dụng các mô hình hồi quy sườn núi tuyến tính để dự đoán 16 biểu diễn hình ảnh tiềm năng khác nhau dựa trên phản hồi MEG phẳng cho mỗi hình ảnh và so sánh hiệu suất truy xuất. Điều này được hiển thị trong bảng sau.
Học máy được coi là một công cụ hiệu quả để học các phản ứng của não **
Meta sau đó so sánh các đường cơ sở tuyến tính này với các cấu trúc mạng tích chập sâu được đào tạo trên cùng một nhiệm vụ - truy xuất các hình ảnh phù hợp trong cửa sổ MEG.
Sử dụng mô hình độ sâu dẫn đến cải thiện hiệu suất gấp 7 lần so với đường cơ sở tuyến tính (Hình 2 bên dưới).
Một kết luận tương tự có thể được rút ra từ cài đặt bộ thử nghiệm "lớn", mặc dù hiệu suất thấp hơn, việc giải mã không chỉ phụ thuộc vào lớp hình ảnh mà còn cần phân biệt nhiều hình ảnh cùng loại. Một ví dụ tìm kiếm đại diện được hiển thị trong hình dưới đây.
Để điều tra thêm về khả năng biểu diễn trực quan mở ra trong não, các tác giả đã phân tích trên một cửa sổ trượt 250ms:
Tất cả các mô hình đều đạt được biểu diễn mức chuẩn trước khi hình ảnh được hiển thị; Đỉnh rõ ràng đầu tiên có thể được quan sát trong cửa sổ 0 ~ 250ms của hình ảnh, tiếp theo là đỉnh thứ hai sau khi dịch chuyển hình ảnh, và sau đó nhanh chóng rơi trở lại cửa sổ từ 0 đến 250ms, tất cả các mô hình đều tuân thủ luật này.
Thật thú vị, mô hình tự giám sát gần đây DINOv2 hoạt động đặc biệt tốt sau khi sai lệch hình ảnh.
Tạo hình ảnh từ tín hiệu MEG
Mặc dù giải mã như một tác vụ truy xuất tạo ra kết quả tốt, nhưng nó đòi hỏi hình ảnh mẫu dương tính phải nằm trong bộ truy xuất, điều này có ứng dụng hạn chế trong thực tế. Để giải quyết vấn đề này, các tác giả đã đào tạo ba mô-đun não khác nhau để dự đoán.
Thảo luận
Tác động
Nghiên cứu này có ý nghĩa cơ bản và thực tiễn.
Đầu tiên, khả năng giải mã các biểu diễn nhận thức phức tạp theo thời gian dự kiến sẽ thúc đẩy đáng kể sự hiểu biết của con người về các quá trình khác nhau liên quan đến quá trình xử lý hình ảnh của não.
Có rất nhiều công việc đang được thực hiện để kiểm tra bản chất và thời gian của các biểu diễn được xây dựng trên đường đi bởi các hệ thống thị giác. Tuy nhiên, những kết quả này có thể khó diễn giải, đặc biệt là đối với các tính năng nâng cao.
Việc giải mã thế hệ trong nghiên cứu này cung cấp các dự đoán cụ thể và có thể giải thích được.
Thứ hai, trường hợp sử dụng rõ ràng nhất cho công nghệ giải mã não là hỗ trợ bệnh nhân bị tổn thương não ảnh hưởng đến giao tiếp.
Tuy nhiên, trường hợp sử dụng này yêu cầu giải mã thời gian thực, do đó hạn chế sử dụng các phương thức hình ảnh thần kinh với độ phân giải thời gian thấp hơn như fMRI.
Kết quả là, những nỗ lực hiện tại mở đường cho việc giải mã thời gian thực trong tương lai.
Hạn chế
Phân tích của Meta nhấn mạnh ba hạn chế chính trong việc giải mã hình ảnh từ tín hiệu MEG.
Đầu tiên, việc giải mã các tính năng ngữ nghĩa cấp cao được ưu tiên hơn việc giải mã các tính năng cấp thấp: đặc biệt, hình ảnh thu được giữ lại ngữ nghĩa (ví dụ: danh mục đối tượng) tốt hơn các tính năng cấp thấp (ví dụ: đường viền, bóng).
Thật khó để gán hiện tượng này cho dòng chảy của nghiên cứu: trên thực tế, áp dụng một quy trình tương tự cho các bản ghi fMRI 7T làm cho việc tái tạo lại các tính năng cấp thấp trở nên hợp lý.
Thứ hai, cách tiếp cận hiện tại trực tiếp dựa vào việc đào tạo trước một số mô hình và chỉ học từ đầu đến cuối để căn chỉnh tín hiệu MEG với các nhúng được đào tạo trước này.
Kết quả nghiên cứu cho thấy phương pháp này vượt trội hơn các tính năng thị giác máy tính truyền thống như biểu đồ màu, biến đổi Fourier nhanh và biểu đồ gradient định hướng (HOG).
Điều này phù hợp với các nghiên cứu MEG gần đây cho thấy rằng các nhúng được đào tạo trước vượt trội so với các phương pháp tiếp cận đầu cuối đầy đủ trong bối cảnh giải mã giọng nói.
Tuy nhiên, hai khía cạnh vẫn cần được kiểm tra trong tương lai:
(1) Tinh chỉnh hình ảnh và tạo mô-đun
(2) Liệu việc kết hợp các loại tính năng hình ảnh khác nhau có thể cải thiện hiệu suất giải mã hay không.
Tài nguyên: