يقرأ دماغ الذكاء الاصطناعي ليتحقق بتأخير قدره 0.25 ثانية فقط! دراسة جديدة ل Meta Milestone: تقوم MEG بفك تشفير صور الدماغ في الوقت الفعلي ، يحب LeCun

المصدر الأصلي: شين جي يوان

مصدر الصورة: تم إنشاؤه بواسطة الذكاء الاصطناعي غير محدود

الذكاء الاصطناعي تتم قراءة العقل !؟

أرسلت LeCun اليوم أحدث اختراق ل Meta الذكاء الاصطناعي: الذكاء الاصطناعي تمكنت من فك تشفير إدراك الصورة في نشاط الدماغ في الوقت الفعلي!

تعد الدراسة ، التي أجراها FAIR-Paris بالتعاون مع مدرسة الفنون والعلوم والعلوم (PSL) (ENS) ، علامة فارقة جديدة في استخدام إشارات التصوير المغناطيسي للدماغ (MEG) لإعادة بناء المدخلات البصرية والكلامية.

عنوان الورقة:

باستخدام التصوير المغناطيسي للدماغ (MEG) ، وهي تقنية تصوير عصبي غير جراحية ، تقوم Meta بمسح الآلاف من عمليات مسح نشاط الدماغ في الثانية وطورت نظاما الذكاء الاصطناعي قادرا على فك تشفير التمثيلات المرئية في الدماغ في الوقت الفعلي تقريبا.

يمكن نشر هذا النظام في الوقت الفعلي ، وإعادة بناء الصور التي يدركها الدماغ ويعالجها في كل لحظة بناء على نشاط الدماغ.

يمكن القول إن هذا البحث يفتح طريقا جديدا غير مسبوق لمساعدة المجتمع العلمي على فهم كيفية تمثيل الصور في الدماغ ، مما يلقي مزيدا من الضوء على جوانب أخرى من الذكاء البشري.

على المدى الطويل ، قد يكون أيضا بمثابة أساس لواجهات الدماغ الحاسوبية غير الغازية في الإعدادات السريرية ، مما يساعد أولئك الذين يفقدون القدرة على التحدث بعد تعرضهم لإصابة في الدماغ للتواصل مع العالم الخارجي.

على وجه التحديد ، طورت Meta نظاما يتكون من برنامج تشفير الصور ومشفر الدماغ ووحدة فك ترميز الصور.

تقوم أجهزة تشفير الصور بشكل مستقل ببناء مجموعة غنية من تمثيلات الصور خارج الدماغ. ثم يتعلم مشفر الدماغ تضمين ومحاذاة إشارة MEG مع هذه الصور المبنية.

أخيرا ، يولد جهاز فك ترميز الصور صورا قابلة للتصديق بناء على تمثيلات الدماغ هذه.

قارنت Meta أولا أداء فك التشفير للعديد من وحدات الصور المدربة مسبقا ووجدت أن إشارات الدماغ متسقة جدا مع أنظمة الذكاء الاصطناعي رؤية الكمبيوتر مثل DINOv2.

تؤكد النتائج أن التعلم الخاضع للإشراف الذاتي يسمح للأنظمة الذكاء الاصطناعي بتعلم تمثيلات تشبه الدماغ - تميل الخلايا العصبية الاصطناعية في الخوارزميات إلى التنشيط بنفس الطريقة التي تنشط بها الخلايا العصبية المادية في الدماغ للاستجابة لنفس الصور.

يسمح هذا التنسيق بين النظام الذكاء الاصطناعي ووظيفة الدماغ الذكاء الاصطناعي بإنتاج صور تشبه إلى حد كبير تلك التي يراها البشر في الماسح الضوئي.

بناء على هذا المبدأ ، قامت Meta بتدريب النظام على مجموعة بيانات MEG المتاحة للجمهور.

تعتقد Meta أنه في حين أن التصوير بالرنين المغناطيسي الوظيفي (fMRI) يمكنه فك تشفير الصور بشكل أفضل ، يمكن لأجهزة فك تشفير MEG توليد نتائج في الوقت الفعلي ، وفك تشفير نشاط الدماغ باستمرار ، وتوليد دفق مستمر وفي الوقت الفعلي تقريبا من الصور.

هذا هو المفتاح لمساعدة المرضى غير القادرين على التواصل مع العالم الخارجي بسبب تلف الدماغ والتواصل مع العالم الخارجي في الوقت الحقيقي.

** فرضية ، ما هو تخطيط الدماغ المغناطيسي (MEG)؟ **

التصوير المغناطيسي للدماغ (MEG) هو تقنية تصوير عصبي وظيفية ترسم خرائط لنشاط الدماغ باستخدام مقياس مغناطيسي حساس للغاية لتسجيل المجال المغناطيسي الناتج عن التيارات الكهربائية التي تحدث بشكل طبيعي في الدماغ.

تعد صفائف SQUID (مقياس التداخل الكمي فائق التوصيل) حاليا أكثر مقاييس المغنطيسية شيوعا ، بينما تتم دراسة مقاييس المغنطيسية SERF (استرخاء التبادل الحر للدوران) لآلات MEG المستقبلية.

تشمل تطبيقات MEG الأبحاث الأساسية حول عمليات الدماغ الإدراكية والمعرفية ، وتحديد المناطق المتأثرة مرضيا قبل الاستئصال الجراحي ، وتحديد وظيفة أجزاء مختلفة من الدماغ ، والارتجاع العصبي. يمكن تطبيق ذلك في بيئة سريرية للعثور على مواقع غير طبيعية ، أو في بيئة تجريبية لقياس نشاط الدماغ ببساطة.

اختبر الدكتور كوهين أول MEG باستخدام الحبار في غرفة محمية في معهد ماساتشوستس للتكنولوجيا

اختبر الدكتور كوهين أول MEG باستخدام الحبار في غرفة محمية في معهد ماساتشوستس للتكنولوجيا

** العمارة التقنية لقراءة الدماغ الذكاء الاصطناعي **

يقترح المؤلف خط أنابيب تدريب متعدد الوسائط:

(1) يتم محاذاة نشاط MEG أولا مع ميزات الصور المدربة مسبقا ؛

(2) توليد الصور من تدفقات إشارة MEG

الشكل 1: (أ) الطريقة ، تجميد النموذج المدرب مسبقا (ب) مخطط المعالجة ، على عكس توليد الصور ، يمكن إجراء استرجاع الصور في الفضاء الفرعي المحاذي ، ولكنه يتطلب صور عينة إيجابية في مجموعة الاسترجاع.

يذكر المؤلفون أن هذا النظام له مساهمتان رئيسيتان:

تتيح أجهزة فك ترميز MEG (1) استرجاع الصور عالية الأداء وتوليد الصور ،

(2) توفير طرق جديدة لتفسير المعالجة البصرية في الدماغ. هذا يدل على أن الطريقة المقترحة لديها القدرة على التعميم حقا على الأفكار المرئية الجديدة وتمهيد الطريق لفك التشفير البصري "الحر".

باختصار ، فتحت نتائج الدراسة اتجاها واعدا لفك تشفير التمثيلات المرئية في الوقت الفعلي في المختبر والعيادة.

أسلوب

1. وصف المشكلة

كان الهدف من دراسة المؤلفين هو جعل مجموعة من المشاركين الأصحاء ينظرون إلى سلسلة من الصور الطبيعية ، ويسجلون نشاط دماغهم باستخدام MEG ، ثم يفصلون تشفير الصور من إشارات السلاسل الزمنية ، والتي يعتمد عليها جهاز فك التشفير على النماذج التوليدية.

2. أهداف التدريب

يحتوي خط الأنابيب الذي اقترحه المؤلفون على أجزاء متعددة ، لذلك يتم استخدام استراتيجية تحسين متعددة الأهداف ، ويتم استخدام CLIP Loss عند استرداد الصور.

لتقييم جودة الصورة التي تم إنشاؤها ، MSE Loss ،

أخيرا ، يستخدم المؤلفون تركيبة محدبة مرجحة للجمع بين خسائر CLIP و MSE لإكمال هدف التدريب.

**3. نموذج الدماغ **

يستخدم المؤلف بنية الشبكة العصبية التلافيفية لاستخراج الميزات ، وعلى هذا الأساس ، تتم إضافة طبقة تجميع السلاسل الزمنية لتقليل الأبعاد وحفظ النفقات الحسابية.

4. نموذج الصورة

لترميز ميزات الصور ، يستكشف المؤلفون VGG-19 و CLIP ومتغيراته ، بالإضافة إلى بنية المحولات.

5. إنشاء نموذج

من أجل التمكن من مقارنة نتائج التصوير بالرنين المغناطيسي الوظيفي بشكل عادل ، استخدم المؤلفون نموذجا مدربا مسبقا مثل الأوراق الأخرى وتدربوا على هذه المهمة.

6. حساب استهلاك الموارد للتدريب

تم تدريب مهمة استرجاع طريقة الشجار على حوالي 63000 صورة وكانت مجموعة التحقق من الصحة حوالي 15800 صورة. يتم استخدام وحدة معالجة الرسومات Volta بسعة 32 جيجابايت من ذاكرة الوصول العشوائي.

7. منهجية التقييم

من أجل تقييم فعالية الطريقة ، استخدم المؤلفون الترتيب الوسيط النسبي لفهرس البحث ، ودقة أعلى 5 ، وأنشأوا مؤشرات PixCorr و SSIM و SwAV. في الوقت نفسه ، من أجل تقييم أداء فك تشفير MEG بشكل عادل ، يستفيد المؤلفون من عروض الصور المتكررة في مجموعة البيانات لمتوسط القيم المتوقعة قبل تقييم المؤشرات.

8. مجموعة البيانات:

مجموعة بيانات الأشياء

يختبر المؤلفون الطريقة على مجموعة بيانات THINGS-MEG. خضع أربعة مشاركين (متوسط العمر 23.25 عاما) ل 12 تدريبا على MEG ، وخلال عملية التدريب ، رأوا 22,448 صورة مختارة من مجموعة بيانات THING. على هذا الأساس ، يتم عرض مجموعة من الصور المختارة من قاعدة بيانات THINGS ، وتستخدم هذه الصور لتوسيع نطاق الاسترجاع وتحسين القدرة على الاسترجاع ، وبالتالي تحسين متانة الطريقة.

غب

يعتبر التعلم الآلي نموذجا فعالا لفهم استجابات الدماغ **

ما هي النماذج التي تقدم أقوى أداء لفك التشفير لتمثيل الصورة الطبيعية؟

للإجابة على هذا السؤال ، استخدمت Meta نماذج انحدار التلال الخطية للتنبؤ ب 16 تمثيلا مرئيا محتملا مختلفا بالنظر إلى استجابة MEG المسطحة لكل صورة ، ومقارنة أداء الاسترجاع. وهذا موضح في الجدول التالي.

أظهرت جميع عمليات تضمين الصور أداء استرجاع أعلى من أداء الاسترجاع العشوائي ، لكن نماذج محاذاة النص / الصورة الخاضعة للإشراف (مثل VGG و CLIP) حققت أعلى درجات الاسترجاع.

ينظر إلى التعلم الآلي على أنه أداة فعالة لتعلم استجابات الدماغ **

ثم يقارن Meta خطوط الأساس الخطية هذه بهياكل الشبكة التلافيفية العميقة المدربة على نفس المهمة - استرداد الصور المطابقة في نافذة MEG.

أدى استخدام نموذج العمق إلى تحسين الأداء بمقدار 7 أضعاف مقارنة بخط الأساس الخطي (الشكل 2 أدناه).

أظهرت مجموعة متنوعة من أنواع تضمين الصور أداء استرجاع جيدا ، من بينها أعلى خمسة معدلات دقة ل VGG-19 (التعلم الخاضع للإشراف) و CLIP-Vision (محاذاة النص / الصورة) و DINOv2 (التعلم تحت الإشراف الذاتي) كانت: 70.33 ± 2.80٪ ، 68.66 ± 2.84٪ ، 68.00 ± 2.86٪ (محسوبة الخطأ المعياري لمتوسط مقياس الصورة).

يمكن استخلاص استنتاج مماثل من إعداد مجموعة الاختبار "الكبيرة" ، على الرغم من أن الأداء أقل ، إلا أن فك التشفير لا يعتمد فقط على فئة الصورة ، ولكنه يحتاج أيضا إلى التمييز بين صور متعددة من نفس الفئة. يظهر مثال بحث تمثيلي في الشكل أدناه.

استرجاع الصور على مستوى دقة الوقت

لمزيد من التحقيق في إمكانية ظهور تمثيلات مرئية في الدماغ ، حلل المؤلفون على نافذة منزلقة تبلغ 250 مللي ثانية:

حققت جميع النماذج تمثيلا على المستوى المرجعي قبل عرض الصورة ؛ يمكن ملاحظة الذروة الواضحة الأولى في نافذة 0 ~ 250 مللي ثانية من الصورة ، تليها الذروة الثانية بعد تحول الصورة ، ثم تعود بسرعة إلى النافذة من 0 إلى 250 مللي ثانية ، وتتوافق جميع الطرز مع هذا القانون.

ومن المثير للاهتمام ، أن النموذج الأخير الخاضع للإشراف الذاتي DINOv2 يعمل بشكل جيد بشكل خاص بعد تحيز الصورة.

لفهم معنى مقياس فك التشفير بشكل أفضل ، يوضح الشكل أدناه أنه تم اختبار نتائج البحث على مجموعة الاختبار الأصلية مع مجموعة إضافية تتكون من 3,659 صورة لم يرها المشاركون من قبل.

يمكن ملاحظة أن وحدة فك التشفير تستفيد من استجابات الدماغ المرتبطة بتحيز الصورة ، وفي وقت مبكر من 250 مللي ثانية ، سيطرت معلومات الفئة على هذه التمثيلات المرئية.

** توليد الصور من إشارات MEG **

على الرغم من أن فك التشفير كمهمة استرجاع ينتج عنه نتائج جيدة ، إلا أنه يتطلب أن تكون صور العينة الإيجابية في مجموعة الاسترجاع ، والتي لها تطبيق محدود في الممارسة العملية. لحل هذه المشكلة ، قام المؤلفون بتدريب ثلاث وحدات دماغية مختلفة للتنبؤ.

وفقا لمقاييس التقييم في الجدول 1 ، أظهرت الصور التي تم إنشاؤها جودة عالية نسبيا بصريا ، وقدمت الصور المتعددة التي تم إنشاؤها الفئات الدلالية بشكل صحيح. ومع ذلك ، يبدو أن هذه الصور التي تم إنشاؤها تحتوي على معلومات مرئية منخفضة المستوى من الصورة الحقيقية.

ناقش

تأثير

هذا البحث له آثار أساسية وعملية.

أولا ، من المتوقع أن تؤدي القدرة على فك تشفير التمثيلات الإدراكية المعقدة بمرور الوقت إلى تعزيز الفهم البشري بشكل كبير للعمليات المختلفة التي تنطوي عليها المعالجة البصرية للدماغ.

هناك قدر كبير من العمل الذي يتم القيام به لدراسة طبيعة وتوقيت التمثيلات التي تم بناؤها على طول الطريق بواسطة أنظمة الرؤية. ومع ذلك ، قد يكون من الصعب تفسير هذه النتائج ، خاصة بالنسبة للميزات المتقدمة.

يوفر فك التشفير التوليدي في هذه الدراسة تنبؤات ملموسة وقابلة للتفسير.

ثانيا ، حالة الاستخدام الأكثر وضوحا لتقنية فك تشفير الدماغ هي مساعدة المرضى الذين يؤثر تلف دماغهم على التواصل.

ومع ذلك ، تتطلب حالة الاستخدام هذه فك التشفير في الوقت الفعلي ، مما يحد من استخدام طرق التصوير العصبي ذات الدقة الزمنية المنخفضة مثل التصوير بالرنين المغناطيسي الوظيفي.

نتيجة لذلك ، تمهد الجهود الحالية الطريق لفك التشفير في الوقت الفعلي في المستقبل.

القيود

سلط تحليل ميتا الضوء على ثلاثة قيود رئيسية في فك تشفير الصور من إشارات MEG.

أولا ، يكون لفك تشفير الميزات الدلالية عالية المستوى الأسبقية على فك تشفير الميزات منخفضة المستوى: على وجه الخصوص ، تحتفظ الصورة الناتجة بالدلالات (على سبيل المثال ، فئات الكائنات) بشكل أفضل من الميزات منخفضة المستوى (مثل الخطوط والظلال).

من الصعب أن نعزو هذه الظاهرة إلى تدفق الدراسة: في الواقع ، فإن تطبيق إجراء مماثل على تسجيلات التصوير بالرنين المغناطيسي الوظيفي 7T يجعل من المعقول إعادة بناء الميزات منخفضة المستوى.

بدلا من ذلك ، تعكس هذه النتيجة حقيقة أن الدقة المكانية (≈ سم) ل MEG أقل بكثير من دقة 7T fMRI (≈ مم).

ثانيا ، يعتمد النهج الحالي بشكل مباشر على التدريب المسبق للعديد من النماذج ويتعلم فقط من طرف إلى طرف لمواءمة إشارات MEG مع هذه التضمينات المدربة مسبقا.

أظهرت نتائج الدراسة أن هذه الطريقة تتفوق على ميزات رؤية الكمبيوتر التقليدية مثل الرسوم البيانية الملونة وتحويلات فورييه السريعة والرسوم البيانية المتدرجة الاتجاهية (HOG).

وهذا يتفق مع دراسات MEG الحديثة التي أظهرت أن عمليات التضمين المدربة مسبقا تتفوق على الأساليب الكاملة الشاملة في سياق فك تشفير الكلام.

ومع ذلك ، لا يزال هناك جانبان بحاجة إلى الاختبار في المستقبل:

(1) ضبط الصورة وإنشاء الوحدة

(2) ما إذا كان الجمع بين أنواع مختلفة من الميزات المرئية يمكن أن يحسن أداء فك التشفير.

موارد:

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • مشاركة
تعليق
0/400
لا توجد تعليقات
  • تثبيت