Otak AI membaca menjadi kenyataan dengan penundaan hanya 0,25 detik! Studi Baru Meta Milestone: MEG Menerjemahkan Gambar Otak Secara Real Time, LeCun Suka

Sumber asli: Shin Ji Yuan

Sumber gambar: Dihasilkan oleh Unbounded AI

Membaca pikiran AI sudah selesai !?

Hari ini LeCun meneruskan terobosan terbaru Meta AI: AI telah mampu memecahkan kode persepsi gambar dalam aktivitas otak secara real time!

Penelitian yang dilakukan oleh FAIR-Paris bekerja sama dengan Ecole des Arts et des Arts and Sciences (PSL) (ENS), merupakan tonggak baru dalam penggunaan sinyal magnetoencephalography (MEG) untuk merekonstruksi input visual dan ucapan.

Alamat kertas:

Menggunakan magnetoencephalography (MEG), teknik neuroimaging non-invasif, Meta memindai ribuan pemindaian aktivitas otak per detik dan mengembangkan sistem AI yang mampu memecahkan kode representasi visual di otak mendekati real time.

Sistem ini dapat digunakan secara real time, merekonstruksi gambar yang dirasakan dan diproses otak setiap saat berdasarkan aktivitas otak.

Bisa dibilang, penelitian ini membuka jalan baru yang belum pernah terjadi sebelumnya untuk membantu komunitas ilmiah memahami bagaimana gambar diwakili di otak, menjelaskan lebih lanjut tentang aspek-aspek lain dari kecerdasan manusia.

Dalam jangka panjang, ini juga dapat berfungsi sebagai dasar untuk antarmuka otak-komputer non-invasif dalam pengaturan klinis, membantu mereka yang kehilangan kemampuan untuk berbicara setelah menderita cedera otak untuk berkomunikasi dengan dunia luar.

Secara khusus, Meta telah mengembangkan sistem yang terdiri dari encoder gambar, encoder otak, dan decoder gambar.

Image encoder secara independen membangun serangkaian representasi gambar yang kaya di luar otak. Encoder otak kemudian belajar untuk menanamkan dan menyelaraskan sinyal MEG dengan gambar-gambar yang dibangun ini.

Akhirnya, decoder gambar menghasilkan gambar yang dapat dipercaya berdasarkan representasi otak ini.

Meta pertama kali membandingkan kinerja decoding dari berbagai modul gambar yang telah dilatih sebelumnya dan menemukan bahwa sinyal otak sangat konsisten dengan sistem AI visi komputer seperti DINOv2.

Temuan ini mengkonfirmasi bahwa pembelajaran yang diawasi sendiri memungkinkan sistem AI untuk mempelajari representasi seperti otak – neuron buatan dalam algoritma cenderung diaktifkan dengan cara yang sama seperti neuron fisik di otak untuk merespons gambar yang sama.

Koordinasi sistem AI dan fungsi otak ini memungkinkan AI menghasilkan gambar yang sangat mirip dengan yang dilihat manusia dalam pemindai.

Berdasarkan prinsip ini, Meta melatih sistem pada himpunan data MEG yang tersedia untuk umum.

Meta percaya bahwa sementara pencitraan resonansi magnetik fungsional (fMRI) dapat memecahkan kode gambar dengan lebih baik, dekoder MEG dapat menghasilkan hasil secara real time, terus menerus mendekode aktivitas otak, menghasilkan aliran gambar yang terus menerus dan hampir real-time.

Ini adalah kunci untuk membantu pasien yang tidak dapat berkomunikasi dengan dunia luar karena kerusakan otak dan berkomunikasi dengan dunia luar secara real time.

**Premis, apa itu magnetoencephalography (MEG)? **

Magnetoencephalography (MEG) adalah teknik neuroimaging fungsional yang memetakan aktivitas otak dengan menggunakan magnetometer yang sangat sensitif untuk merekam medan magnet yang dihasilkan oleh arus listrik alami di otak.

Array SQUID (Superconducting Quantum Interferometer) saat ini merupakan magnetometer yang paling umum, sementara magnetometer SERF (Spin Free Exchange Relaxation) sedang dipelajari untuk mesin MEG di masa depan.

Aplikasi MEG meliputi penelitian dasar tentang proses persepsi dan kognitif otak, menemukan daerah yang terkena dampak patologis sebelum reseksi bedah, menentukan fungsi berbagai bagian otak, dan neurofeedback. Ini dapat diterapkan dalam pengaturan klinis untuk menemukan lokasi abnormal, atau dalam pengaturan eksperimental untuk hanya mengukur aktivitas otak.

Dr. Cohen menguji MEG pertama menggunakan SQUID di ruang terlindung di MIT

Dr. Cohen menguji MEG pertama menggunakan SQUID di ruang terlindung di MIT

** Arsitektur teknis membaca otak AI **

Penulis mengusulkan pipa pelatihan multimodal:

(1) Aktivitas MEG pertama-tama diselaraskan dengan fitur gambar yang telah dilatih sebelumnya;

(2) Menghasilkan gambar dari aliran sinyal MEG

Gambar 1: (A) Metode, Freeze Pretrained Model (B) Skema pemrosesan, tidak seperti pembuatan gambar, pengambilan gambar dapat dilakukan dalam subruang yang selaras, tetapi membutuhkan gambar sampel positif dalam set pengambilan.

Para penulis menyebutkan bahwa sistem ini memiliki dua kontribusi utama:

Dekoder MEG memungkinkan (1) pengambilan gambar berkinerja tinggi dan pembuatan gambar,

(2) Menyediakan metode baru untuk menafsirkan pemrosesan visual di otak. Ini menunjukkan bahwa metode yang diusulkan memiliki kemampuan untuk benar-benar menggeneralisasi ide-ide visual baru dan membuka jalan bagi decoding visual "bentuk bebas".

Singkatnya, hasil penelitian telah membuka arah yang menjanjikan untuk decoding representasi visual real-time di laboratorium dan klinik.

Metode

1. Deskripsi Masalah

Tujuan dari penelitian penulis adalah untuk memiliki sekelompok peserta yang sehat melihat serangkaian gambar alami, merekam aktivitas otak mereka menggunakan MEG, dan kemudian memecahkan kode gambar dari sinyal deret waktu, yang bergantung pada model generatif.

2. Tujuan Pelatihan

Pipeline yang diusulkan oleh penulis memiliki beberapa bagian, sehingga strategi optimasi multi-objektif digunakan, dan CLIP Loss digunakan saat mengambil gambar.

Untuk mengevaluasi kualitas gambar yang dihasilkan, MSE Loss,

Akhirnya, penulis menggunakan kombinasi cembung tertimbang untuk menggabungkan kerugian CLIP dan UMK untuk menyelesaikan tujuan pelatihan.

3. Model Otak

Penulis menggunakan arsitektur jaringan saraf konvolusional untuk mengekstrak fitur, dan atas dasar ini, lapisan agregasi deret waktu ditambahkan untuk mengurangi dimensi dan menghemat overhead komputasi.

4. Model Gambar

Untuk pengkodean fitur gambar, penulis mengeksplorasi VGG-19, CLIP dan variannya, serta struktur Transformer.

5. Hasilkan Model

Agar dapat membandingkan hasil fMRI secara adil, penulis menggunakan model pra-terlatih seperti makalah lain dan dilatih untuk tugas ini.

6. Konsumsi sumber daya komputasi untuk pelatihan

Tugas pengambilan modalitas pertengkaran dilatih pada sekitar 63.000 gambar dan set validasi sekitar 15.800 gambar. GPU Volta dengan RAM 32GB digunakan.

7. Metodologi evaluasi

Untuk mengevaluasi efektivitas metode ini, penulis menggunakan indeks pencarian peringkat median relatif, akurasi top-5, dan menghasilkan indikator PixCorr, SSIM, SwAV. Pada saat yang sama, untuk mengevaluasi kinerja decoding MEG secara adil, penulis menggunakan demonstrasi gambar berulang dalam dataset untuk rata-rata nilai yang diprediksi sebelum mengevaluasi indikator.

8. Kumpulan data:

Himpunan data THINGS

PARA PENULIS MENGUJI METODE PADA DATASET THINGS-MEG. Empat peserta (usia rata-rata 23,25 tahun) menjalani 12 pelatihan MEG, dan selama proses pelatihan, mereka melihat 22.448 gambar yang dipilih dari dataset THING. Atas dasar ini, mereka ditunjukkan satu set gambar yang dipilih dari database THINGS, dan gambar-gambar ini digunakan untuk memperluas skala pengambilan dan meningkatkan kemampuan pengambilan, sehingga meningkatkan ketahanan metode.

Hasil

Pembelajaran mesin dianggap sebagai model yang efektif untuk memahami respons otak**

Model manakah yang menawarkan performa decoding paling dahsyat untuk representasi gambar alami?

Untuk menjawab pertanyaan ini, Meta menggunakan model regresi punggungan linier untuk memprediksi 16 representasi visual potensial yang berbeda mengingat respons MEG yang rata untuk setiap gambar, dan membandingkan kinerja pengambilan. Ini ditunjukkan dalam tabel berikut.

Semua penyematan gambar menunjukkan performa pengambilan yang lebih tinggi daripada acak, tetapi model penyelarasan teks dan penyelarasan teks/gambar yang diawasi (misalnya VGG, CLIP) mencapai skor pengambilan tertinggi.

Pembelajaran mesin dipandang sebagai alat yang efektif untuk mempelajari respons otak **

Meta kemudian membandingkan baseline linier ini dengan struktur jaringan konvolusional mendalam yang dilatih pada tugas yang sama – mengambil gambar yang cocok di jendela MEG.

Menggunakan model kedalaman menghasilkan peningkatan kinerja 7x pada garis dasar linier (Gambar 2 di bawah).

Berbagai jenis penyematan gambar menunjukkan kinerja pengambilan yang baik, di antaranya lima tingkat akurasi teratas VGG-19 (pembelajaran yang diawasi), CLIP-Vision (penyelarasan teks / gambar) dan DINOv2 (pembelajaran yang diawasi sendiri) adalah: 70,33 ± 2,80%, 68,66 ± 2,84%, 68,00 ± 2,86% (dihitung kesalahan standar metrik gambar rata-rata).

Kesimpulan serupa dapat ditarik dari pengaturan set uji "besar", meskipun kinerjanya lebih rendah, decoding tidak hanya tergantung pada kelas gambar, tetapi juga perlu membedakan beberapa gambar dari kategori yang sama. Contoh pencarian representatif ditunjukkan pada gambar di bawah ini.

Pengambilan gambar pada tingkat resolusi waktu

Untuk menyelidiki lebih lanjut kemungkinan representasi visual yang berlangsung di otak, penulis menganalisis pada jendela geser 250ms:

Semua model mencapai representasi tingkat benchmark sebelum gambar dirender; Puncak pertama yang jelas dapat diamati pada jendela 0 ~ 250ms gambar, diikuti oleh puncak kedua setelah pergeseran gambar, dan kemudian dengan cepat jatuh kembali ke jendela 0 hingga 250ms, semua model mematuhi hukum ini.

Menariknya, model DINOv2 yang diawasi sendiri baru-baru ini berkinerja sangat baik setelah bias gambar.

Untuk lebih memahami arti metrik decoding, gambar di bawah ini menunjukkan bahwa hasil pencarian diuji pada set tes asli dengan set tambahan yang terdiri dari 3.659 gambar yang belum pernah dilihat peserta.

Dapat dilihat bahwa decoder mengambil keuntungan dari respons otak yang terkait dengan bias gambar, dan pada awal 250ms, informasi kategori mendominasi representasi visual ini.

Hasilkan gambar dari sinyal MEG

Meskipun decoding sebagai tugas pengambilan menghasilkan hasil yang baik, itu mengharuskan gambar sampel positif harus dalam set pengambilan, yang memiliki aplikasi terbatas dalam praktiknya. Untuk mengatasi masalah ini, penulis melatih tiga modul otak yang berbeda untuk memprediksi.

Menurut metrik evaluasi pada Tabel 1, gambar yang dihasilkan menunjukkan kualitas visual yang relatif tinggi, dan beberapa gambar yang dihasilkan dengan benar menyajikan kategori semantik. Namun, gambar yang dihasilkan ini tampaknya mengandung informasi visual tingkat rendah dari gambar asli.

Bahas

Dampak

Penelitian ini memiliki implikasi mendasar dan praktis.

Pertama, kemampuan untuk memecahkan kode representasi persepsi yang kompleks dari waktu ke waktu diharapkan dapat sangat memajukan pemahaman manusia tentang berbagai proses yang terlibat dalam pemrosesan visual otak.

Ada banyak pekerjaan yang dilakukan untuk memeriksa sifat dan waktu representasi yang dibangun di sepanjang jalan oleh sistem visi. Namun, hasil ini bisa sulit ditafsirkan, terutama untuk fitur-fitur canggih.

Decoding generatif dalam penelitian ini memberikan prediksi yang konkret dan dapat ditafsirkan.

Kedua, kasus penggunaan yang paling jelas untuk teknologi decoding otak adalah untuk membantu pasien yang kerusakan otaknya mempengaruhi komunikasi.

Namun, kasus penggunaan ini memerlukan decoding real-time, sehingga membatasi penggunaan modalitas neuroimaging dengan resolusi temporal yang lebih rendah seperti fMRI.

Akibatnya, upaya saat ini membuka jalan bagi decoding real-time di masa depan.

Keterbatasan

Analisis Meta menyoroti tiga batasan utama dalam mendekode gambar dari sinyal MEG.

Pertama, decoding fitur semantik tingkat tinggi lebih diutamakan daripada decoding fitur tingkat rendah: khususnya, gambar yang dihasilkan mempertahankan semantik (misalnya, kategori objek) lebih baik daripada fitur tingkat rendah (misalnya, kontur, bayangan).

Sulit untuk mengaitkan fenomena ini dengan aliran penelitian: pada kenyataannya, menerapkan prosedur serupa dengan rekaman fMRI 7T membuatnya masuk akal untuk merekonstruksi fitur tingkat rendah.

Sebaliknya, hasil ini menggemakan fakta bahwa resolusi spasial (≈ cm) MEG jauh lebih rendah daripada 7T fMRI (≈ mm).

Kedua, pendekatan saat ini secara langsung bergantung pada pra-pelatihan beberapa model dan hanya belajar ujung ke ujung untuk menyelaraskan sinyal MEG dengan penyematan pra-terlatih ini.

Hasil penelitian menunjukkan bahwa metode ini mengungguli fitur visi komputer tradisional seperti histogram warna, transformasi Fourier cepat, dan histogram gradien terarah (HOG).

Ini konsisten dengan studi MEG baru-baru ini yang menunjukkan bahwa penyematan pra-terlatih lebih unggul daripada pendekatan end-to-end penuh dalam konteks decoding ucapan.

Namun, dua aspek masih perlu diuji di masa depan:

(1) Sempurnakan gambar dan hasilkan modul

(2) Apakah menggabungkan berbagai jenis fitur visual dapat meningkatkan kinerja decoding.

Sumber daya:

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Bagikan
Komentar
0/400
Tidak ada komentar
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)