Merekonstruksi proses pencitraan otak manusia dengan model AI, Meta menerbitkan penelitian blockbuster

Sumber asli: AIGC Open Community

Sumber gambar: Dihasilkan oleh Unbounded AI

Raksasa sosial dan teknologi global Meta (Facebook, Instagram, dan perusahaan induk lainnya) mengumumkan studi blockbuster di situs resminya, mengembangkan model AI melalui MEG (magnetoencephalography) untuk memecahkan kode proses pencitraan aktivitas visual di otak manusia, dan menerbitkan sebuah makalah.

Dilaporkan bahwa ini adalah teknologi neuroimaging non-invasif yang dapat mendeteksi ribuan aktivitas otak per detik, yang dapat merekonstruksi gambar yang dirasakan dan diproses otak setiap saat secara real time. Ini memberikan dasar penelitian penting bagi komunitas ilmiah untuk memahami bagaimana otak mengekspresikan dan membentuk gambar.

Dari perspektif skenario aplikasi, teknologi ini dapat lebih memahami dan mengendalikan tindakan jaringan saraf dan neuron model AI seperti ChatGPT dan Stable Difusion, meningkatkan akurasi output konten dan mengurangi risiko, dan meletakkan landasan bagi evolusi AGI (kecerdasan buatan umum).

Melihat tujuan yang lebih besar, itu akan mempercepat perkembangan klinis "antarmuka otak-komputer" dan membantu mereka yang menderita kerusakan otak dan kehilangan kemampuan untuk berbicara.

Alamat kertas:

Prinsip Teknis

Dilihat dari makalah yang dirilis oleh Meta, model AI yang dikembangkan oleh Meta melalui MEG tidak rumit, dan terutama mencakup tiga modul: pengeditan gambar, otak, dan decoding gambar.

Ketika otak kita aktif, arus listrik yang lemah dihasilkan. Menurut hukum fisika, arus ini menyebabkan perubahan medan magnet di sekitarnya. ** Mendeteksi perubahan medan magnet ini menggunakan instrumen MEG yang sangat sensitif untuk mendapatkan data tentang aktivitas otak **.

Secara khusus, MEG menggunakan choke meter superkonduktor khusus sebagai detektor. Chokemeter ini terdiri dari loop superkonduktor yang dapat secara akurat menangkap fluktuasi kecil di medan magnet.

Posisi detektor dirancang dengan hati-hati untuk menutupi area di sekitar kepala, dan penguji hanya perlu duduk di instrumen MEG untuk menjaga kepala tetap diam.

, durasi 00:31

MEG merekonstruksi gambar otak eksperimen, dan setiap gambar disajikan kira-kira setiap 1,5 detik.

Meskipun kekuatan medan magnet yang disebabkan oleh aktivitas listrik otak sangat kecil, detektor MEG dapat dengan jelas merekamnya ketika diperkuat dan diproses.

MEG berisi 200-300 detektor, masing-masing terletak di area spesifik otak. Dengan cara ini, MEG dapat memperoleh data aktivitas seluruh otak dengan resolusi temporal yang tinggi.

, durasi 00:22

Setelah data MEG mentah diperoleh, para peneliti dapat menggunakan jaringan saraf yang kuat untuk memecahkan kode dan mengekstrak informasi visual penting yang dapat digunakan untuk merekonstruksi gambar otak.

Meta mengatakan awalnya ingin menggunakan pencitraan resonansi magnetik fungsional (fMRI) untuk mengumpulkan informasi listrik tentang otak manusia, tetapi lebih rendah daripada MEG dalam hal resolusi gambar, jarak gambar dan kontinuitas.

Modul Pengeditan Gambar

Berdasarkan beberapa model visi komputer yang telah dilatih sebelumnya, modul ini mengekstrak vektor fitur semantik dari gambar input sebagai representasi target untuk decoding. Para peneliti membandingkan model pembelajaran yang diawasi, model pencocokan gambar-teks, model yang diawasi sendiri, dan banyak lagi, dan menemukan bahwa CLIP dan DINO berkinerja terbaik.

CLIP (Contrastive Language-Image Pretraining) dilatih sebelumnya melalui pencocokan gambar-teks untuk mendapatkan fitur semantik visual dengan kemampuan generalisasi yang kuat. DINO (Distributional Iniance for Normalization) adalah metode pembelajaran kontras yang diawasi sendiri.

Mengambil CLIP sebagai contoh, fitur rata-rata atau tanda klasifikasi (CLS) dari modul gambar (CLIP-Vision) dan fitur rata-rata modul teks (CLIP-Text) dapat diekstraksi, dan kombinasi penyambungan dapat digunakan sebagai representasi fitur semantik gambar.

** Modul Otak **

Modul ini menggunakan jaringan saraf konvolusional untuk jendela data MEG input dan outputnya adalah vektor fitur gambar yang diprediksi. Pelatihan end-to-end diperlukan untuk belajar memetakan data MEG ke ruang laten output gambar.

Para peneliti menggunakan struktur jaringan saraf konvolusional yang mengandung blok residu dan blok konvolusional yang diperluas yang dapat menangkap informasi waktu MEG. Pada saat yang sama, mekanisme seperti lapisan perhatian dan lapisan subjek-eksklusif ditambahkan.

Untuk pengambilan gambar, modul otak menargetkan fungsi kehilangan CLIP dan belajar memaksimalkan kesamaan fitur dari gambar yang cocok. Untuk pembuatan gambar, modul otak secara langsung memprediksi karakteristik modul gambar dengan kehilangan MSE sebagai target.

** Modul Decoding Gambar **

Untuk memecahkan kode gambar dengan lebih baik, para peneliti menggunakan model difusi laten, yang mengambil vektor fitur yang diprediksi oleh modul otak sebagai kondisi yang dapat menghasilkan gambar baru yang konsisten dengan semantik gambar input.

Fitur semantik CLIP dan output fitur AutoKL oleh modul otak digunakan sebagai kondisi untuk memandu model menghasilkan gambar yang konsisten secara semantik. Algoritma dan teknik pengambilan sampel DDIM seperti panduan noise digunakan untuk secara bertahap menghasilkan gambar yang jelas dari distribusi noise. Proses pengambilan sampel 50 langkah umumnya digunakan.

最后,使用感知指标(SSIM)和语义指标(CLIP相似度、SwAV特征相关度) untuk mengevaluasi decoding dan kualitas generasi gambar.

Untuk pengujian eksperimental, para peneliti menggunakan THINGS-MEG, dataset MEG 4-peserta yang berisi 22.448 gambar alami yang unik.

Melalui tes MEG, para peneliti menemukan bahwa respons otak terhadap gambar, terutama difokuskan pada periode waktu 0-250 ms setelah stimulus muncul, menghasilkan gambar yang mampu mempertahankan informasi semantik. Walaupun gambar yang dihasilkan tidak sempurna, namun hasilnya menunjukkan bahwa gambar yang direkonstruksi mempertahankan koleksi fitur tingkat tinggi yang kaya.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Bagikan
Komentar
0/400
Tidak ada komentar
  • Sematkan
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)