Yapay zeka beyni, yalnızca 0,25 saniyelik bir gecikmeyle gerçek olmak üzere okur! Meta Dönüm Noktası Yeni Çalışma: MEG, Beyin Görüntülerini Gerçek Zamanlı Olarak Çözüyor, LeCun Beğeniyor
Görüntü kaynağı: Sınırsız AI tarafından oluşturuldu
AI zihin okuma yapıldı!?
Bugün LeCun, Meta AI'nın en son atılımını iletti: AI, beyin aktivitesindeki görüntü algısını gerçek zamanlı olarak çözebildi!
FAIR-Paris tarafından Ecole des Arts et des Arts and Sciences (PSL) (ENS) ile işbirliği içinde yapılan çalışma, görsel ve konuşma girdisini yeniden yapılandırmak için manyetoensefalografi (MEG) sinyallerinin kullanımında yeni bir kilometre taşıdır.
Bildiri Adresi:
Meta, non-invaziv bir beyin görüntüleme tekniği olan manyetoensefalografiyi (MEG) kullanarak saniyede binlerce beyin aktivitesi taramasını tarar ve beyindeki görsel temsilleri neredeyse gerçek zamanlı olarak çözebilen bir yapay zeka sistemi geliştirdi.
Bu sistem, beynin her an algıladığı ve işlediği görüntüleri beyin aktivitesine dayalı olarak yeniden yapılandırarak gerçek zamanlı olarak konuşlandırılabilir.
Muhtemelen, bu araştırma, bilim camiasının görüntülerin beyinde nasıl temsil edildiğini anlamasına yardımcı olmak için benzeri görülmemiş yeni bir yol açıyor ve insan zekasının diğer yönlerine daha fazla ışık tutuyor.
Uzun vadede, klinik ortamlarda invaziv olmayan beyin-bilgisayar arayüzlerinin temelini oluşturabilir ve beyin hasarı geçirdikten sonra konuşma yeteneğini kaybedenlerin dış dünyayla iletişim kurmasına yardımcı olabilir.
Spesifik olarak Meta, bir görüntü kodlayıcı, bir beyin kodlayıcı ve bir görüntü kod çözücüden oluşan bir sistem geliştirmiştir.
Görüntü kodlayıcılar, beynin dışında bağımsız olarak zengin bir görüntü temsili kümesi oluşturur. Beyin kodlayıcı daha sonra MEG sinyalini bu oluşturulmuş görüntülerle gömmeyi ve hizalamayı öğrenir.
Son olarak, görüntü kod çözücü, bu beyin temsillerine dayalı olarak inandırıcı görüntüler üretir.
Meta ilk olarak önceden eğitilmiş çeşitli görüntü modüllerinin kod çözme performansını karşılaştırdı ve beyin sinyallerinin DINOv2 gibi bilgisayarla görme yapay zeka sistemleriyle çok tutarlı olduğunu buldu.
Bulgular, kendi kendini denetleyen öğrenmenin AI sistemlerinin beyin benzeri temsilleri öğrenmesine izin verdiğini doğrulamaktadır - algoritmalardaki yapay nöronlar, aynı görüntülere yanıt vermek için beyindeki fiziksel nöronlarla aynı şekilde aktive olma eğilimindedir.
Yapay zeka sistemi ve beyin işlevinin bu koordinasyonu, yapay zekanın bir tarayıcıda insanlar tarafından görülenlere oldukça benzer görüntüler üretmesini sağlar.
Bu ilkeye dayanarak Meta, sistemi halka açık bir MEG veri kümesi üzerinde eğitti.
Meta, işlevsel manyetik rezonans görüntüleme (fMRI) görüntülerin kodunu daha iyi çözebilirken, MEG kod çözücülerinin gerçek zamanlı olarak sonuçlar üretebileceğine, beyin aktivitesinin kodunu sürekli olarak çözebileceğine, sürekli ve neredeyse gerçek zamanlı bir görüntü akışı oluşturabileceğine inanıyor.
Bu, beyin hasarı nedeniyle dış dünyayla iletişim kuramayan ve dış dünyayla gerçek zamanlı olarak iletişim kuramayan hastalara yardım etmenin anahtarıdır.
**Öncül, manyetoensefalografi (MEG) nedir? **
Manyetoensefalografi (MEG), beyinde doğal olarak oluşan elektrik akımları tarafından üretilen manyetik alanı kaydetmek için çok hassas bir manyetometre kullanarak beyin aktivitesini haritalayan işlevsel bir beyin görüntüleme tekniğidir.
SQUID (Süper İletken Kuantum İnterferometresi) dizileri şu anda en yaygın manyetometrelerdir, SERF (Spin Free Exchange Relaxation) manyetometreleri ise gelecekteki MEG makineleri için incelenmektedir.
MEG'in uygulamaları, algısal ve bilişsel beyin süreçleri üzerine temel araştırmaları, cerrahi rezeksiyon öncesi patolojik olarak etkilenen alanların yerinin belirlenmesini, beynin çeşitli bölümlerinin işlevinin belirlenmesini ve neurofeedback'i içerir. Bu, anormal yerleri bulmak için klinik bir ortamda veya sadece beyin aktivitesini ölçmek için deneysel bir ortamda uygulanabilir.
Dr. Cohen, MIT'de korumalı bir odada SQUID kullanarak ilk MEG'i test etti
Dr. Cohen, MIT'de korumalı bir odada SQUID kullanarak ilk MEG'i test etti
AI beyin okumasının teknik mimarisi
Yazar çok modlu bir eğitim hattı önermektedir:
(1) MEG etkinliği önce önceden eğitilmiş görüntü özellikleriyle uyumlu hale getirilir;
(2) MEG sinyal akışlarından görüntüler oluşturun
Şekil 1: (A) Yöntem, Önceden Eğitilmiş Modeli Dondur (B) İşleme şeması, görüntü üretiminden farklı olarak, görüntü alma hizalanmış alt uzayda gerçekleştirilebilir, ancak geri alma kümesinde pozitif örnek görüntüler gerektirir.
Yazarlar bu sistemin iki büyük katkısı olduğunu belirtmektedir:
MEG kod çözücüler (1) yüksek performanslı görüntü alma ve görüntü oluşturma,
(2) Beyindeki görsel işlemeyi yorumlamak için yeni yöntemler sağlayın. Bu, önerilen yöntemin yeni görsel fikirlere gerçekten genelleme ve "serbest biçimli" görsel kod çözmenin önünü açma yeteneğine sahip olduğunu göstermektedir.
Kısacası, çalışmanın sonuçları, laboratuvarda ve klinikte görsel temsillerin gerçek zamanlı olarak çözülmesi için umut verici bir yön açmıştır.
Yöntem
1. Sorun Açıklaması
Yazarların çalışmasının amacı, bir grup sağlıklı katılımcının bir dizi doğal görüntüye bakmasını, MEG kullanarak beyin aktivitelerini kaydetmesini ve ardından kod çözücünün üretken modellere dayandığı zaman serisi sinyallerinden gelen görüntüleri çözmesini sağlamaktı.
2. Eğitim Hedefleri
Yazarlar tarafından önerilen ardışık düzen birden fazla parçaya sahiptir, bu nedenle çok amaçlı bir optimizasyon stratejisi kullanılır ve görüntüler alınırken CLIP Loss kullanılır.
Oluşturulan görüntünün kalitesini değerlendirmek için, MSE Kaybı,
Son olarak, yazarlar eğitim hedefini tamamlamak için CLIP ve MSE kayıplarını birleştirmek için ağırlıklı bir dışbükey kombinasyon kullanırlar.
3. Beyin Modeli
Yazar, özellikleri ayıklamak için evrişimli sinir ağı mimarisini kullanır ve bu temelde, boyutsallığı azaltmak ve hesaplama yükünden tasarruf etmek için bir zaman serisi toplama katmanı eklenir.
4. Görüntü Modeli
Görüntülerin özellik kodlaması için yazarlar VGG-19, CLIP ve varyantlarının yanı sıra Transformer yapısını keşfediyor.
5. Model Oluştur
fMRI sonuçlarını adil bir şekilde karşılaştırabilmek için, yazarlar diğer makaleler gibi önceden eğitilmiş bir model kullandılar ve bu görev üzerinde eğitildiler.
6. Eğitim için işlem kaynağı tüketimi
Kavga modalitesi alma görevi yaklaşık 63.000 görüntü üzerinde eğitildi ve doğrulama seti yaklaşık 15.800 görüntüydü. 32 GB RAM'e sahip bir Volta GPU kullanılır.
7. Değerlendirme metodolojisi
Yöntemin etkinliğini değerlendirmek için, yazarlar arama indeksi göreceli medyan sırasını, ilk 5 doğruluğunu kullandılar ve PixCorr, SSIM, SwAV göstergelerini oluşturdular. Aynı zamanda, MEG kod çözme performansını adil bir şekilde değerlendirmek için yazarlar, göstergeleri değerlendirmeden önce tahmin edilen değerlerin ortalamasını almak için veri kümesinde tekrarlanan görüntü gösterimlerinden yararlanırlar.
8. Veri seti:
THINGS veri kümesi
YAZARLAR YÖNTEMI THINGS-MEG VERI KÜMESI ÜZERINDE TEST EDIYOR. Dört katılımcı (yaş ortalaması 23.25 yıl) 12 MEG eğitiminden geçti ve eğitim sürecinde THING veri setinden seçilen 22.448 görüntü gördüler. Bu temelde, THINGS veritabanından seçilen bir dizi görüntü gösterilir ve bu görüntüler, geri alma ölçeğini genişletmek ve geri alma yeteneğini geliştirmek için kullanılır, böylece yöntemin sağlamlığı iyileştirilir.
Sonuç
Makine öğrenimi, beyin tepkilerini anlamak için etkili bir model olarak kabul edilir**
Doğal görüntü gösterimi için en güçlü kod çözme performansını hangi modeller sunar?
Bu soruyu yanıtlamak için Meta, her görüntü için düzleştirilmiş MEG yanıtı verilen 16 farklı potansiyel görsel temsili tahmin etmek için doğrusal sırt regresyon modellerini kullandı ve alma performansını karşılaştırdı. Bu, aşağıdaki tabloda gösterilmiştir.
Tüm görüntü yerleştirmeleri rastgele alma performansından daha yüksek performans sergiledi, ancak denetimli ve metin/görüntü hizalama modelleri (ör. VGG, CLIP) en yüksek alma puanlarını elde etti.
Makine öğrenimi, beyin tepkilerini öğrenmek için etkili bir araç olarak görülüyor**
Meta daha sonra bu doğrusal taban çizgilerini aynı görev üzerinde eğitilmiş derin evrişimli ağ yapılarıyla karşılaştırır - MEG penceresinde eşleşen görüntüleri alır.
Derinlik modelinin kullanılması, doğrusal bir taban çizgisine göre 7 kat performans iyileştirmesi ile sonuçlandı (aşağıdaki Şekil 2).
VGG-19 (denetimli öğrenme), CLIP-Vision (metin/görüntü hizalama) ve DINOv2'nin (kendi kendine denetimli öğrenme) ilk beş doğruluk oranı şunlardı: %70,33 ± %2,80, %68,66 ± %2,84, %68,00 ± %2,86 (ortalama görüntü metriğinin standart hatası hesaplanmıştır).
"Büyük" test seti ayarından da benzer bir sonuç çıkarılabilir, ancak performans daha düşük olmasına rağmen, kod çözme yalnızca görüntü sınıfına bağlı değildir, aynı zamanda aynı kategorideki birden çok görüntüyü ayırt etmesi gerekir. Temsili bir arama örneği aşağıdaki şekilde gösterilmiştir.
Zaman çözünürlüğü düzeyinde görüntü alma
Beyinde ortaya çıkan görsel temsillerin olasılığını daha fazla araştırmak için, yazarlar 250 ms'lik kayan bir pencerede analiz ettiler:
Tüm modeller, görüntü oluşturulmadan önce kıyaslama düzeyinde gösterim elde etti; İlk belirgin tepe noktası, görüntünün 0~250 ms'lik penceresinde gözlemlenebilir, ardından görüntü kaymasından sonra ikinci tepe noktası görülebilir ve ardından hızla 0 ila 250 ms'lik pencereye geri dönülebilir, tüm modeller bu yasaya uygundur.
İlginç bir şekilde, son kendi kendini denetleyen model DINOv2, görüntü yanlılığından sonra özellikle iyi performans gösteriyor.
Kod çözme metriğinin anlamını daha iyi anlamak için aşağıdaki şekil, arama sonuçlarının, katılımcıların hiç görmediği 3.659 görüntüden oluşan ek bir setle orijinal test setinde test edildiğini göstermektedir.
Kod çözücünün, görüntünün yanlılığıyla ilişkili beyin tepkilerinden yararlandığı ve 250 ms gibi erken bir tarihte, kategori bilgisinin bu görsel temsillere hakim olduğu görülebilir.
MEG sinyallerinden görüntüler oluşturun
Bir geri alma görevi olarak kod çözme iyi sonuçlar verse de, pozitif örnek görüntülerin pratikte sınırlı bir uygulamaya sahip olan alma kümesinde olmasını gerektirir. Bu sorunu çözmek için, yazarlar tahmin etmek için üç farklı beyin modülünü eğittiler.
Tablo 1'deki değerlendirme metriklerine göre, oluşturulan görüntüler görsel olarak nispeten yüksek kalite gösterdi ve birden fazla oluşturulan görüntüler anlamsal kategorileri doğru bir şekilde sundu. Ancak, oluşturulan bu görüntüler, gerçek görüntüden düşük seviyeli görsel bilgiler içeriyor gibi görünmektedir.
Tartışmak
Etki
Bu araştırmanın temel ve pratik sonuçları vardır.
İlk olarak, zaman içinde karmaşık algısal temsilleri çözme yeteneğinin, beynin görsel işlemesinde yer alan çeşitli süreçlerin insan anlayışını büyük ölçüde ilerletmesi bekleniyor.
Görme sistemleri tarafından yol boyunca inşa edilen temsillerin doğasını ve zamanlamasını inceleyen çok sayıda çalışma var. Ancak, özellikle gelişmiş özellikler için bu sonuçların yorumlanması zor olabilir.
Bu çalışmadaki üretken kod çözme, somut ve yorumlanabilir tahminler sağlar.
İkincisi, beyin kod çözme teknolojisinin en belirgin kullanım durumu, beyin hasarı iletişimi etkileyen hastalara yardımcı olmaktır.
Bununla birlikte, bu kullanım durumu gerçek zamanlı kod çözme gerektirir, bu nedenle fMRI gibi daha düşük zamansal çözünürlüğe sahip nörogörüntüleme modalitelerinin kullanımını sınırlar.
Sonuç olarak, mevcut çabalar gelecekte gerçek zamanlı kod çözmenin önünü açmaktadır.
Sınırlama
Meta'nın analizi, MEG sinyallerinden gelen görüntülerin kodunu çözmede üç ana sınırlamayı vurguladı.
İlk olarak, yüksek seviyeli anlamsal özelliklerin kodunun çözülmesi, düşük seviyeli özelliklerin kodunun çözülmesinden önceliklidir: özellikle, ortaya çıkan görüntü, semantik (örneğin, nesne kategorileri) düşük seviyeli özelliklerden (örneğin, konturlar, gölgeler) daha iyi korur.
Bu fenomeni çalışmanın akışına atfetmek zordur: aslında, 7T fMRI kayıtlarına benzer bir prosedür uygulamak, düşük seviyeli özelliklerin yeniden yapılandırılmasını makul hale getirir.
Bunun yerine, bu sonuç, MEG'nin uzamsal çözünürlüğünün (≈ cm) 7T fMRI'dan (≈ mm) çok daha düşük olduğu gerçeğini yansıtıyor.
İkincisi, mevcut yaklaşım doğrudan birkaç modelin ön eğitimine dayanır ve MEG sinyallerini bu önceden eğitilmiş yerleştirmelerle hizalamayı yalnızca uçtan uca öğrenir.
Çalışmanın sonuçları, bu yöntemin renk histogramları, hızlı Fourier dönüşümleri ve yönlü gradyan histogramları (HOG) gibi geleneksel bilgisayarla görme özelliklerinden daha iyi performans gösterdiğini göstermektedir.
Bu, önceden eğitilmiş yerleştirmelerin konuşma kod çözme bağlamında tam uçtan uca yaklaşımlardan daha üstün olduğunu gösteren son MEG çalışmalarıyla tutarlıdır.
Bununla birlikte, gelecekte iki yönün test edilmesi gerekmektedir:
(1) Görüntüye ince ayar yapın ve modülü oluşturun
(2) Farklı görsel özellik türlerini birleştirmenin kod çözme performansını iyileştirip iyileştiremeyeceği.
Kaynaklar:
View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Yapay zeka beyni, yalnızca 0,25 saniyelik bir gecikmeyle gerçek olmak üzere okur! Meta Dönüm Noktası Yeni Çalışma: MEG, Beyin Görüntülerini Gerçek Zamanlı Olarak Çözüyor, LeCun Beğeniyor
Orijinal kaynak: Shin Ji Yuan
AI zihin okuma yapıldı!?
Bugün LeCun, Meta AI'nın en son atılımını iletti: AI, beyin aktivitesindeki görüntü algısını gerçek zamanlı olarak çözebildi!
Meta, non-invaziv bir beyin görüntüleme tekniği olan manyetoensefalografiyi (MEG) kullanarak saniyede binlerce beyin aktivitesi taramasını tarar ve beyindeki görsel temsilleri neredeyse gerçek zamanlı olarak çözebilen bir yapay zeka sistemi geliştirdi.
Uzun vadede, klinik ortamlarda invaziv olmayan beyin-bilgisayar arayüzlerinin temelini oluşturabilir ve beyin hasarı geçirdikten sonra konuşma yeteneğini kaybedenlerin dış dünyayla iletişim kurmasına yardımcı olabilir.
Spesifik olarak Meta, bir görüntü kodlayıcı, bir beyin kodlayıcı ve bir görüntü kod çözücüden oluşan bir sistem geliştirmiştir.
Meta ilk olarak önceden eğitilmiş çeşitli görüntü modüllerinin kod çözme performansını karşılaştırdı ve beyin sinyallerinin DINOv2 gibi bilgisayarla görme yapay zeka sistemleriyle çok tutarlı olduğunu buldu.
Bulgular, kendi kendini denetleyen öğrenmenin AI sistemlerinin beyin benzeri temsilleri öğrenmesine izin verdiğini doğrulamaktadır - algoritmalardaki yapay nöronlar, aynı görüntülere yanıt vermek için beyindeki fiziksel nöronlarla aynı şekilde aktive olma eğilimindedir.
Yapay zeka sistemi ve beyin işlevinin bu koordinasyonu, yapay zekanın bir tarayıcıda insanlar tarafından görülenlere oldukça benzer görüntüler üretmesini sağlar.
Meta, işlevsel manyetik rezonans görüntüleme (fMRI) görüntülerin kodunu daha iyi çözebilirken, MEG kod çözücülerinin gerçek zamanlı olarak sonuçlar üretebileceğine, beyin aktivitesinin kodunu sürekli olarak çözebileceğine, sürekli ve neredeyse gerçek zamanlı bir görüntü akışı oluşturabileceğine inanıyor.
Bu, beyin hasarı nedeniyle dış dünyayla iletişim kuramayan ve dış dünyayla gerçek zamanlı olarak iletişim kuramayan hastalara yardım etmenin anahtarıdır.
Manyetoensefalografi (MEG), beyinde doğal olarak oluşan elektrik akımları tarafından üretilen manyetik alanı kaydetmek için çok hassas bir manyetometre kullanarak beyin aktivitesini haritalayan işlevsel bir beyin görüntüleme tekniğidir.
SQUID (Süper İletken Kuantum İnterferometresi) dizileri şu anda en yaygın manyetometrelerdir, SERF (Spin Free Exchange Relaxation) manyetometreleri ise gelecekteki MEG makineleri için incelenmektedir.
AI beyin okumasının teknik mimarisi
Yazar çok modlu bir eğitim hattı önermektedir:
(1) MEG etkinliği önce önceden eğitilmiş görüntü özellikleriyle uyumlu hale getirilir;
(2) MEG sinyal akışlarından görüntüler oluşturun
Yazarlar bu sistemin iki büyük katkısı olduğunu belirtmektedir:
MEG kod çözücüler (1) yüksek performanslı görüntü alma ve görüntü oluşturma,
(2) Beyindeki görsel işlemeyi yorumlamak için yeni yöntemler sağlayın. Bu, önerilen yöntemin yeni görsel fikirlere gerçekten genelleme ve "serbest biçimli" görsel kod çözmenin önünü açma yeteneğine sahip olduğunu göstermektedir.
Kısacası, çalışmanın sonuçları, laboratuvarda ve klinikte görsel temsillerin gerçek zamanlı olarak çözülmesi için umut verici bir yön açmıştır.
Yöntem
1. Sorun Açıklaması
Yazarların çalışmasının amacı, bir grup sağlıklı katılımcının bir dizi doğal görüntüye bakmasını, MEG kullanarak beyin aktivitelerini kaydetmesini ve ardından kod çözücünün üretken modellere dayandığı zaman serisi sinyallerinden gelen görüntüleri çözmesini sağlamaktı.
2. Eğitim Hedefleri
Yazarlar tarafından önerilen ardışık düzen birden fazla parçaya sahiptir, bu nedenle çok amaçlı bir optimizasyon stratejisi kullanılır ve görüntüler alınırken CLIP Loss kullanılır.
Yazar, özellikleri ayıklamak için evrişimli sinir ağı mimarisini kullanır ve bu temelde, boyutsallığı azaltmak ve hesaplama yükünden tasarruf etmek için bir zaman serisi toplama katmanı eklenir.
4. Görüntü Modeli
Görüntülerin özellik kodlaması için yazarlar VGG-19, CLIP ve varyantlarının yanı sıra Transformer yapısını keşfediyor.
5. Model Oluştur
fMRI sonuçlarını adil bir şekilde karşılaştırabilmek için, yazarlar diğer makaleler gibi önceden eğitilmiş bir model kullandılar ve bu görev üzerinde eğitildiler.
6. Eğitim için işlem kaynağı tüketimi
Kavga modalitesi alma görevi yaklaşık 63.000 görüntü üzerinde eğitildi ve doğrulama seti yaklaşık 15.800 görüntüydü. 32 GB RAM'e sahip bir Volta GPU kullanılır.
7. Değerlendirme metodolojisi
Yöntemin etkinliğini değerlendirmek için, yazarlar arama indeksi göreceli medyan sırasını, ilk 5 doğruluğunu kullandılar ve PixCorr, SSIM, SwAV göstergelerini oluşturdular. Aynı zamanda, MEG kod çözme performansını adil bir şekilde değerlendirmek için yazarlar, göstergeleri değerlendirmeden önce tahmin edilen değerlerin ortalamasını almak için veri kümesinde tekrarlanan görüntü gösterimlerinden yararlanırlar.
8. Veri seti:
YAZARLAR YÖNTEMI THINGS-MEG VERI KÜMESI ÜZERINDE TEST EDIYOR. Dört katılımcı (yaş ortalaması 23.25 yıl) 12 MEG eğitiminden geçti ve eğitim sürecinde THING veri setinden seçilen 22.448 görüntü gördüler. Bu temelde, THINGS veritabanından seçilen bir dizi görüntü gösterilir ve bu görüntüler, geri alma ölçeğini genişletmek ve geri alma yeteneğini geliştirmek için kullanılır, böylece yöntemin sağlamlığı iyileştirilir.
Sonuç
Makine öğrenimi, beyin tepkilerini anlamak için etkili bir model olarak kabul edilir**
Doğal görüntü gösterimi için en güçlü kod çözme performansını hangi modeller sunar?
Bu soruyu yanıtlamak için Meta, her görüntü için düzleştirilmiş MEG yanıtı verilen 16 farklı potansiyel görsel temsili tahmin etmek için doğrusal sırt regresyon modellerini kullandı ve alma performansını karşılaştırdı. Bu, aşağıdaki tabloda gösterilmiştir.
Makine öğrenimi, beyin tepkilerini öğrenmek için etkili bir araç olarak görülüyor**
Meta daha sonra bu doğrusal taban çizgilerini aynı görev üzerinde eğitilmiş derin evrişimli ağ yapılarıyla karşılaştırır - MEG penceresinde eşleşen görüntüleri alır.
Derinlik modelinin kullanılması, doğrusal bir taban çizgisine göre 7 kat performans iyileştirmesi ile sonuçlandı (aşağıdaki Şekil 2).
"Büyük" test seti ayarından da benzer bir sonuç çıkarılabilir, ancak performans daha düşük olmasına rağmen, kod çözme yalnızca görüntü sınıfına bağlı değildir, aynı zamanda aynı kategorideki birden çok görüntüyü ayırt etmesi gerekir. Temsili bir arama örneği aşağıdaki şekilde gösterilmiştir.
Beyinde ortaya çıkan görsel temsillerin olasılığını daha fazla araştırmak için, yazarlar 250 ms'lik kayan bir pencerede analiz ettiler:
Tüm modeller, görüntü oluşturulmadan önce kıyaslama düzeyinde gösterim elde etti; İlk belirgin tepe noktası, görüntünün 0~250 ms'lik penceresinde gözlemlenebilir, ardından görüntü kaymasından sonra ikinci tepe noktası görülebilir ve ardından hızla 0 ila 250 ms'lik pencereye geri dönülebilir, tüm modeller bu yasaya uygundur.
İlginç bir şekilde, son kendi kendini denetleyen model DINOv2, görüntü yanlılığından sonra özellikle iyi performans gösteriyor.
MEG sinyallerinden görüntüler oluşturun
Bir geri alma görevi olarak kod çözme iyi sonuçlar verse de, pozitif örnek görüntülerin pratikte sınırlı bir uygulamaya sahip olan alma kümesinde olmasını gerektirir. Bu sorunu çözmek için, yazarlar tahmin etmek için üç farklı beyin modülünü eğittiler.
Tartışmak
Etki
Bu araştırmanın temel ve pratik sonuçları vardır.
İlk olarak, zaman içinde karmaşık algısal temsilleri çözme yeteneğinin, beynin görsel işlemesinde yer alan çeşitli süreçlerin insan anlayışını büyük ölçüde ilerletmesi bekleniyor.
Görme sistemleri tarafından yol boyunca inşa edilen temsillerin doğasını ve zamanlamasını inceleyen çok sayıda çalışma var. Ancak, özellikle gelişmiş özellikler için bu sonuçların yorumlanması zor olabilir.
Bu çalışmadaki üretken kod çözme, somut ve yorumlanabilir tahminler sağlar.
İkincisi, beyin kod çözme teknolojisinin en belirgin kullanım durumu, beyin hasarı iletişimi etkileyen hastalara yardımcı olmaktır.
Bununla birlikte, bu kullanım durumu gerçek zamanlı kod çözme gerektirir, bu nedenle fMRI gibi daha düşük zamansal çözünürlüğe sahip nörogörüntüleme modalitelerinin kullanımını sınırlar.
Sonuç olarak, mevcut çabalar gelecekte gerçek zamanlı kod çözmenin önünü açmaktadır.
Sınırlama
Meta'nın analizi, MEG sinyallerinden gelen görüntülerin kodunu çözmede üç ana sınırlamayı vurguladı.
İlk olarak, yüksek seviyeli anlamsal özelliklerin kodunun çözülmesi, düşük seviyeli özelliklerin kodunun çözülmesinden önceliklidir: özellikle, ortaya çıkan görüntü, semantik (örneğin, nesne kategorileri) düşük seviyeli özelliklerden (örneğin, konturlar, gölgeler) daha iyi korur.
Bu fenomeni çalışmanın akışına atfetmek zordur: aslında, 7T fMRI kayıtlarına benzer bir prosedür uygulamak, düşük seviyeli özelliklerin yeniden yapılandırılmasını makul hale getirir.
İkincisi, mevcut yaklaşım doğrudan birkaç modelin ön eğitimine dayanır ve MEG sinyallerini bu önceden eğitilmiş yerleştirmelerle hizalamayı yalnızca uçtan uca öğrenir.
Çalışmanın sonuçları, bu yöntemin renk histogramları, hızlı Fourier dönüşümleri ve yönlü gradyan histogramları (HOG) gibi geleneksel bilgisayarla görme özelliklerinden daha iyi performans gösterdiğini göstermektedir.
Bu, önceden eğitilmiş yerleştirmelerin konuşma kod çözme bağlamında tam uçtan uca yaklaşımlardan daha üstün olduğunu gösteren son MEG çalışmalarıyla tutarlıdır.
Bununla birlikte, gelecekte iki yönün test edilmesi gerekmektedir:
(1) Görüntüye ince ayar yapın ve modülü oluşturun
(2) Farklı görsel özellik türlerini birleştirmenin kod çözme performansını iyileştirip iyileştiremeyeceği.
Kaynaklar: