إعادة بناء عملية تصوير الدماغ البشري باستخدام نماذج الذكاء الاصطناعي ، تنشر Meta أبحاثا رائجة

المصدر الأصلي: مجتمع AIGC المفتوح

مصدر الصورة: تم إنشاؤه بواسطة الذكاء الاصطناعي غير محدود

أعلنت شركة Meta العالمية العملاقة للتكنولوجيا والاجتماعية (Facebook و Instagram وغيرها من الشركات الأم) عن دراسة رائجة على موقعها الرسمي على الإنترنت ، وطورت نموذجا الذكاء الاصطناعي من خلال MEG (التصوير المغناطيسي للدماغ) لفك شفرة عملية تصوير النشاط البصري في الدماغ البشري ، ونشرت ورقة.

يذكر أن هذه تقنية تصوير عصبي غير جراحية يمكنها اكتشاف الآلاف من أنشطة الدماغ في الثانية ، والتي يمكنها إعادة بناء الصورة التي يدركها الدماغ ويعالجها في كل لحظة في الوقت الفعلي. يوفر أساسا بحثيا مهما للمجتمع العلمي لفهم كيفية تعبير الدماغ عن الصور وتشكيلها.

من منظور سيناريوهات التطبيق ، يمكن لهذه التقنية أن تفهم وتتحكم بشكل أفضل في إجراءات الشبكة العصبية والخلايا العصبية لنماذج الذكاء الاصطناعي مثل ChatGPT و Stable Difusion ، وتحسين دقة إخراج المحتوى وتقليل المخاطر ، ووضع حجر الأساس لتطور AGI (الذكاء الاصطناعي العام).

بالنظر إلى الهدف الأكبر ، فإنه سيسرع التطوير السريري ل "واجهات الدماغ الحاسوبية" ويساعد أولئك الذين عانوا من تلف في الدماغ وفقدوا القدرة على الكلام.

عنوان الورقة:

المبادئ الفنية

انطلاقا من الورقة الصادرة عن Meta ، فإن نموذج الذكاء الاصطناعي الذي طورته Meta من خلال MEG ليس معقدا ، ويتضمن بشكل أساسي ثلاث وحدات: تحرير الصور ، والدماغ ، وفك تشفير الصور.

عندما يكون دماغنا نشطا ، يتم توليد تيار كهربائي ضعيف. وفقا لقوانين الفيزياء ، تسبب هذه التيارات تغيرات في المجال المغناطيسي المحيط. ** اكتشف هذه التغييرات في المجال المغناطيسي باستخدام أدوات MEG شديدة الحساسية للحصول على بيانات عن نشاط الدماغ **.

على وجه التحديد ، تستخدم MEG مقياس خنق خاص فائق التوصيل ككاشف. تتكون مقاييس الاختناق هذه من حلقة فائقة التوصيل يمكنها التقاط التقلبات الصغيرة في المجال المغناطيسي بدقة.

تم تصميم موضع الكاشف بعناية لتغطية المنطقة المحيطة بالرأس ، ويحتاج المختبر فقط إلى الجلوس في أداة MEG للحفاظ على ثبات الرأس.

، مدة 00:31

أعادت MEG بناء صورة دماغ المجرب ، وتم تقديم كل صورة كل 1.5 ثانية تقريبا.

على الرغم من أن قوة المجال المغناطيسي الناجم عن النشاط الكهربائي للدماغ صغيرة جدا ، إلا أن كاشف MEG يمكنه تسجيله بوضوح عند تضخيمه ومعالجته.

يحتوي MEG على 200-300 كاشف ، يقع كل منها في منطقة معينة من الدماغ. بهذه الطريقة ، يمكن ل MEG الحصول على بيانات نشاط الدماغ بالكامل بدقة زمنية عالية.

، مدة 00:22

بمجرد الحصول على بيانات MEG الخام ، يمكن للباحثين استخدام شبكات عصبية قوية لفك تشفيرها واستخراج المعلومات المرئية المهمة التي يمكن استخدامها لإعادة بناء صور الدماغ.

وقالت ميتا إنها أرادت في البداية استخدام التصوير بالرنين المغناطيسي الوظيفي (fMRI) لجمع المعلومات الكهربائية حول الدماغ البشري، لكنها كانت أدنى من MEG من حيث دقة الصورة وتباعد الصور والاستمرارية.

وحدة تحرير الصور

استنادا إلى العديد من نماذج الرؤية الحاسوبية المدربة مسبقا ، تستخرج الوحدة متجهات الميزة الدلالية من صور الإدخال كتمثيلات مستهدفة لفك التشفير. قارن الباحثون نماذج التعلم الخاضعة للإشراف ، ونماذج مطابقة الصور والنصوص ، والنماذج الخاضعة للإشراف الذاتي ، وأكثر من ذلك ، ووجدوا أن CLIP و DINO كان أداؤهما أفضل.

يتم تدريب CLIP (التدريب المسبق للغة التباينية والصورة) مسبقا من خلال مطابقة الصورة والنص للحصول على ميزات دلالية مرئية مع قدرة تعميم قوية. DINO (Distributional Iniance for Normalization) هي طريقة تعلم تفاضلية ذاتية الإشراف.

بأخذ CLIP كمثال ، يمكن استخراج ميزة متوسط الميزة أو علامة التصنيف (CLS) لوحدة الصورة (CLIP-Vision) والميزة المتوسطة لوحدة النص (CLIP-Text) ، ويمكن استخدام مجموعة الربط كتمثيل للميزة الدلالية للصورة.

** وحدة الدماغ **

تستخدم هذه الوحدة شبكة عصبية تلافيفية لنافذة بيانات MEG للإدخال والإخراج هو متجه ميزة الصورة المتوقعة. مطلوب تدريب شامل لتعلم كيفية تعيين بيانات MEG إلى المساحة الكامنة لإخراج الصورة.

استخدم الباحثون بنية شبكة عصبية تلافيفية تحتوي على كتل متبقية وكتل تلافيفية موسعة يمكنها التقاط معلومات توقيت MEG. في الوقت نفسه ، تتم إضافة آليات مثل طبقة الانتباه والطبقة الحصرية للموضوع.

لاسترجاع الصورة ، تستهدف وحدة الدماغ وظيفة فقدان CLIP وتتعلم تعظيم تشابه ميزة الصورة المتطابقة. لتوليد الصور ، تتنبأ وحدة الدماغ مباشرة بخصائص وحدة الصورة مع فقدان MSE كهدف.

** وحدة فك تشفير الصورة **

لفك تشفير الصور بشكل أفضل ، استخدم الباحثون نموذج الانتشار الكامن ، والذي يأخذ متجهات الميزات التي تنبأت بها وحدة الدماغ كظروف يمكن أن تولد صورا جديدة تتوافق مع دلالات الصور المدخلة.

تم استخدام الميزات الدلالية CLIP وإخراج ميزات AutoKL بواسطة وحدة الدماغ كشروط لتوجيه النموذج لتوليد صور متسقة لغويا. تستخدم خوارزميات وتقنيات أخذ عينات DDIM مثل توجيه الضوضاء لإنشاء صور واضحة تدريجيا من توزيع الضوضاء. يتم استخدام عملية أخذ العينات المكونة من 50 خطوة بشكل عام.

最后,使用感知指标(SSIM)和语义指标(CLIP相似度、SwAV特征相关度) لتقييم فك تشفير الصورة وتوليدها.

للاختبار التجريبي ، استخدم الباحثون THINGS-MEG ، وهي مجموعة بيانات MEG مكونة من 4 مشاركين تحتوي على 22،448 صورة طبيعية فريدة.

من خلال اختبارات MEG ، وجد الباحثون أن استجابة الدماغ للصور ، التي تركز بشكل أساسي على الفترة الزمنية من 0-250 مللي ثانية بعد ظهور التحفيز ، أنتجت صورا قادرة على الاحتفاظ بالمعلومات الدلالية. على الرغم من أن الصورة الناتجة ليست مثالية ، إلا أن النتائج تظهر أن الصورة المعاد بناؤها تحتفظ بمجموعة غنية من الميزات عالية المستوى.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • مشاركة
تعليق
0/400
لا توجد تعليقات
  • تثبيت