عند الحديث عن خصوصية بيانات النموذج الكبير ، هناك العديد من أساليب الهجوم النموذجية الشائعة

2023-07-12 05:30:45

المصدر الأصلي: Oasis Capital

المؤلف: Counselor Vitality

مصدر الصورة: تم إنشاؤه بواسطة Unbounded AI‌

في 20 مارس 2023 ، حدث خرق للبيانات في ChatGPT ، مما أدى إلى كشف المعلومات الشخصية لبعض مستخدمي ChatGPT. في ضوء ذلك ، يعتقد منظم الخصوصية في إيطاليا أن ChatGPT يشتبه في قيامه بمعالجة البيانات الشخصية بشكل غير قانوني ، وانتهاك الخصوصية ، وانتهاك لوائح الناتج المحلي الإجمالي ذات الصلة. أصبحت إيطاليا بعد ذلك أول دولة تحظر استخدام ChatGPT ، مما أثار مناقشات في دول الاتحاد الأوروبي الأخرى حول ما إذا كانت هناك حاجة إلى تدابير أكثر صرامة للسيطرة على التكنولوجيا.

تقوم جميع الخدمات عبر الإنترنت تقريبًا بجمع بياناتنا الشخصية وقد تستخدم هذه البيانات لتدريب ماجستير. ومع ذلك ، من الصعب تحديد كيفية استخدام النموذج للبيانات المستخدمة في التدريب. إذا تم استخدام بيانات حساسة مثل الموقع الجغرافي والسجلات الصحية ومعلومات الهوية في تدريب النموذج ، فإن هجمات استخراج البيانات ضد البيانات الخاصة في النموذج ستسبب عددًا كبيرًا من تسريبات خصوصية المستخدم. تثبت المقالة "هل نماذج اللغة الكبيرة المدربة مسبقًا تسرّب معلوماتك الشخصية؟" أنه نظرًا لذاكرة LLM لبيانات التدريب ، فإن LLM معرضة لخطر تسريب المعلومات الشخصية أثناء عملية الحوار ، وتزداد مخاطرها مع عدد الأمثلة. .

هناك عدة أسباب وراء تسريب النموذج للمعلومات. بعضها هيكلي ويتعلق بالطريقة التي تم بها بناء النموذج ؛ بينما يرجع البعض الآخر إلى سوء التعميم وحفظ البيانات الحساسة وما إلى ذلك. في المقالة التالية ، سنقدم أولاً عملية تسرب البيانات الأساسية ، ثم نقدم عدة أساليب هجوم نموذجية شائعة مثل هجوم الخصوصية ، وكسر الحماية ، وتسمم البيانات ، وهجوم الباب الخلفي ، وأخيراً نقدم بعض الأبحاث الحالية حول حماية الخصوصية.

أولاً. نمذجة التهديد

يشتمل نموذج تهديد LLM الأساسي على بيئة نموذج عامة وفاعلين مختلفين وأصول حساسة. تتضمن الأصول الحساسة مجموعات بيانات التدريب ومعلمات النموذج ومعلمات النموذج الفائقة والبنية. يشمل المشاركون: مالك البيانات ، ومالك النموذج ، والمستهلك النموذجي ، والخصم. يوضح الرسم البياني التالي الأصول والجهات الفاعلة وتدفق المعلومات والتدفق التشغيلي المحتمل في ظل نموذج التهديد:

في مثل هذا النموذج الأساسي للتهديد ، يمتلك مالكو البيانات أصول البيانات الخاصة ، ويمتلك مالكو النماذج معلمات النموذج وأصول التكوين ، ويستخدم مستهلكو النموذج النموذج من خلال واجهة برمجة التطبيقات أو واجهة المستخدم. يحاول الطرف السرقة الحصول على أصول البيانات الخاصة أو أصول المعلمات النموذجية من خلال وسائل معينة.

II. هجوم الخصوصية

تنقسم هجمات الخصوصية إلى أربعة أنواع رئيسية: هجمات استدلال العضوية ، وهجمات إعادة البناء ، وهجمات استدلال السمات ، واستخراج النموذج.

** هجوم استدلال العضوية (MIA) **

يحاول استنتاج العضوية تحديد ما إذا كانت عينة الإدخال x تُستخدم كجزء من مجموعة التدريب D. على سبيل المثال ، في ظل الظروف العادية ، سيتم الاحتفاظ بسرية بيانات المستخدم الخاصة ، ولكن لا يزال من الممكن استخدام المعلومات غير الحساسة للتخمين. على سبيل المثال ، إذا علمنا أن أعضاء نادٍ خاص يحبون ارتداء نظارات شمسية أرجوانية وأحذية جلدية حمراء ، فيمكننا أن نستنتج أنه ربما يكون هذا الشخص عندما نلتقي بشخص يرتدي نظارة شمسية أرجوانية وأحذية جلدية حمراء (معلومات غير حساسة) عضوية نوادي خاصة (معلومات حساسة).

تعد هجمات استدلال العضوية حاليًا الطريقة الأكثر شيوعًا لهجمات الخصوصية ، والتي اقترحها شكري وآخرون لأول مرة في مقالة "هجمات استدلال العضوية على نماذج التعلم الآلي". تشير المقالة إلى أن هذا الهجوم يفترض فقط معرفة متجه التنبؤ الناتج للنموذج ويتم تنفيذه مقابل نماذج التعلم الآلي الخاضعة للإشراف. يسمح الوصول إلى معلمات النموذج والتدرجات لهجمات استدلال عضوية أكثر دقة.

يُطلق على الطريقة النموذجية لهجوم استدلال العضوية اسم هجوم الظل ، أي تدريب نموذج ظل بناءً على مجموعات بيانات معروفة ويمكن الوصول إليها ، ثم الحصول على معلومات حساسة عن طريق استجواب نموذج الظل.

بالإضافة إلى نماذج التعلم الخاضعة للإشراف ، فإن النماذج التوليدية مثل GANs و VAEs معرضة أيضًا لهجمات استدلال العضوية. تقدم "تسريبات GAN: تصنيف هجمات استدلال العضوية ضد النماذج التوليدية" مشاكل GAN في مواجهة هجمات استدلال الأعضاء ؛ "LOGAN: هجمات استدلال العضوية ضد النماذج التوليدية" تقدم نماذج أخرى في استدلال الأعضاء والاستجابة للهجوم ، و يقدم كيفية استرداد بيانات التدريب بناءً على فهم مكونات إنشاء البيانات ؛ كما أن نماذج (MLM) عرضة لهجمات MIA ، والتي يمكنها في بعض الحالات تحديد ما إذا كانت بيانات العينة تنتمي إلى بيانات التدريب.

من ناحية أخرى ، يمكن أيضًا استخدام منطق العضوية لمراجعة أمان النموذج ، ويمكن لمالكي البيانات استخدام منطق العضوية لمراجعة نماذج الصندوق الأسود. يصف "هجمات استدلال العضوية على نماذج التسلسل إلى التسلسل: هل بياناتي في الترجمة الآلية الخاصة بك؟" كيف يمكن لمالكي البيانات معرفة ما إذا كان يتم استخدام البيانات دون إذن.

يفحص "هجوم استدلال العضوية ضد نماذج التعلم الآلي" الرابط بين التجهيز الزائد واستنتاج عضوية الصندوق الأسود. يقيس المؤلفون تأثير التجهيز الزائد على دقة الهجوم باستخدام نفس مجموعة البيانات لتدريب النماذج في منصات MLaaS المختلفة. تظهر التجارب أن الإفراط في التخصيص يمكن أن يؤدي إلى تسرب الخصوصية ، ولكن تشير أيضًا إلى أن هذه ليست الحالة الوحيدة ، لأن بعض الطرز ذات درجة التعميم العالية تكون أكثر عرضة لتسرب العضوية.

** هجمات إعادة الإعمار **

تحاول هجمات إعادة الإعمار إعادة بناء عينات تدريب متعددة جنبًا إلى جنب مع تسميات التدريب الخاصة بهم ، أي محاولة استعادة الميزات الحساسة أو عينات البيانات الكاملة المعطاة تسميات الإخراج والمعرفة الجزئية بميزات معينة. على سبيل المثال ، من خلال انعكاس النموذج ، يتم إعادة بناء المعلومات التي تم الحصول عليها على واجهة النموذج بشكل عكسي ، ويتم استعادة المعلومات الحساسة للمستخدم مثل الخصائص البيولوجية والسجلات الطبية في بيانات التدريب ، كما هو موضح في الشكل التالي:

في هجمات إعادة الإعمار ، تؤدي أخطاء التعميم الأعلى إلى احتمال أكبر لاستنتاج سمات البيانات. في "الكاشف السري: هجمات انعكاس النموذج التوليدية ضد الشبكات العصبية العميقة" ، أوضح المؤلفون أن النماذج ذات القدرة التنبؤية العالية أكثر عرضة لهجمات إعادة البناء ، بناءً على افتراض أن معرفة الخصم أضعف. كما هو الحال أيضًا مع الثغرة الأمنية في استدلال العضوية ، فإن الذاكرة واسترجاع البيانات خارج التوزيع معرضة أيضًا لهجمات إعادة الإعمار للنماذج غير الملائمة.

** هجمات الاستدلال على السمة **

تشير هجمات استدلال السمات إلى استخدام السمات والهياكل المرئية بشكل عام لاستنتاج بيانات السمات المخفية أو غير المكتملة. مثال على ذلك هو استخراج معلومات حول نسبة الرجال إلى النساء في مجموعة بيانات المريض ، أو لنموذج مصنف حسب الجنس لاستنتاج ما إذا كان الأشخاص في مجموعة بيانات التدريب يرتدون نظارات. في بعض الحالات ، يمكن أن يؤثر هذا النوع من التسريب على الخصوصية.

تشير عبارة "اختراق الأجهزة الذكية ذات الأشخاص الأكثر ذكاءً: كيفية استخراج بيانات ذات مغزى من مصنفات التعلم الآلي" إلى أن استغلال أنواع معينة من بيانات السمات يمكن أيضًا استخدامها لاكتساب فهم أعمق لبيانات التدريب ، مما يؤدي إلى استخدام الآخرين لهذه المعلومات لتجميع صورة أكثر عالمية.

تقدم المقالة "أنت من تعرفه وكيف تتصرف: هجمات استدلال السمات من خلال سلوكيات وأصدقاء المستخدمين الاجتماعيين" نوعًا من أسلوب هجوم استدلال السمة ، وهو قفل واستخراج معلومات أخرى للمستخدم من خلال السلوك المعروف لـ المستخدم نفسه. يقدم "AttriGuard: دفاع عملي ضد هجمات استدلال السمات عبر التعلم الآلي العدائي" بعض طرق الدفاع للتعامل مع هجمات استدلال السمات.

يهدف تفكير السمة إلى استخراج المعلومات من النموذج الذي تعلمه النموذج عن غير قصد ، أو غير ذي صلة بمهمة التدريب. حتى النماذج المعممة جيدًا قد تتعلم الخصائص المتعلقة بتوزيع بيانات الإدخال بالكامل ، وهو أمر لا مفر منه في بعض الأحيان لعملية تعلم تدريب النموذج.

يوضح "استغلال تسرب الميزات غير المقصود في التعلم التعاوني" أن هجمات استنتاج السمات ممكنة حتى مع النماذج المعممة جيدًا ، لذلك لا يبدو أن التخصيص الزائد هو سبب هجمات استدلال السمة. فيما يتعلق بهجمات استدلال السمات ، لا يوجد حاليًا سوى القليل من المعلومات حول أسبابها وتحت أي ظروف تبدو فعالة ، والتي قد تكون اتجاهًا واعدًا للبحث في المستقبل.

** نموذج هجوم الاستخراج **

استخراج النموذج هو فئة من هجمات الصندوق الأسود حيث يحاول الخصم استخراج المعلومات وربما إعادة بناء نموذج بالكامل عن طريق إنشاء نموذج بديل يتصرف بشكل مشابه جدًا للنموذج الذي يتعرض للهجوم.

"نموذج استخراج واجهات برمجة التطبيقات المستندة إلى BERT" ، و "نموذج إعادة البناء من توضيحات النموذج" ، و "شبكات Knockoff: سرقة وظائف نماذج الصندوق الأسود" ، و "استخراج عالي الدقة وعالي الدقة للشبكات العصبية" شرح عدة أوراق من زوايا مختلفة بعض المحاولات في هجمات الاستخراج النموذجية.

هناك خطوتان رئيسيتان في إنشاء نموذج بديل: الخطوة الأولى هي استخراج دقة المهمة ، حيث يتم استخراج مجموعة اختبار ذات صلة بمهمة التعلم من توزيع بيانات الإدخال لإنشاء نموذج يطابق دقة النموذج المستهدف. الخطوة الثانية هي استخراج الدقة ، أي جعل البدائل التي تم إنشاؤها تتطابق مع النموذج في مجموعة غير مرتبطة بمهمة التعلم لتناسب الهدف. في الاستخراج الدقيق للمهمة ، يكون الهدف هو إنشاء بديل يمكنه تعلم نفس المهمة بشكل جيد أو أفضل من النموذج المستهدف. في استخراج الإخلاص ، الهدف هو محاولة البديل لتكرار حدود القرار بأمانة قدر الإمكان.

بالإضافة إلى إنشاء نماذج بديلة ، هناك طرق تركز على استعادة المعلومات من النموذج المستهدف ، مثل سرقة المعلمات الفائقة في النموذج المستهدف المذكور في "سرقة المعلمات الفائقة في التعلم الآلي" ؛ أو "نحو الشبكات العصبية ذات الصندوق الأسود العكسي للهندسة" حول استخراج وظائف التنشيط ، وخوارزميات التحسين ، وعدد الطبقات ، وما إلى ذلك لمختلف بنى الشبكات العصبية ، إلخ.

توضح مقالة "نحو الشبكات العصبية ذات الصندوق الأسود العكسي" أنه عندما يتم الهجوم على نموذج بمجموعة اختبار تتناسب مع نسبة أعلى من 98٪ ، فمن الممكن سرقة معلمات النموذج من خلال هجوم الاستخراج. علاوة على ذلك ، يتضح في "ML-Doctor: التقييم الشامل للمخاطر لهجمات الاستدلال ضد نماذج التعلم الآلي" أن النماذج ذات الخطأ التعميم الأعلى يصعب سرقتها ، ربما لأن النموذج يحفظ مجموعات البيانات التي لا يملكها مهاجم العينات. هناك عامل آخر قد يؤثر على معدل نجاح استخراج النموذج وهو فئة بيانات مجموعة الاختبار. عندما يكون هناك المزيد من فئات البيانات ، سيؤدي ذلك إلى أداء هجوم أسوأ.

يوضح الشكل أعلاه الرسم البياني لنوع الهجوم لكل خوارزمية نموذجية. أسفل كل خوارزمية أو مجال من مجالات التعلم الآلي ، يشير اللون الأخضر إلى أنه تمت دراسة أنواع الهجمات القابلة للتطبيق حتى الآن ، ويشير اللون الأحمر إلى عدم العثور على أنواع هجوم قابلة للتطبيق.

III. نموذج jailbreak

كسر الحماية النموذجي هو جعل LLM ينتج سلوكيات إخراج متدهورة في بعض الطرق ، مثل المخرجات الهجومية ، أو انتهاك مخرجات الإشراف على المحتوى ، أو إخراج تسرب البيانات الخاصة. تظهر المزيد والمزيد من الدراسات أنه حتى المستخدمين غير الخبراء يمكنهم Jailbreak LLM ببساطة عن طريق التلاعب بالمطالبات.

على سبيل المثال ، في المثال التالي ، هدف المطور هو بناء نموذج ترجمة. يوجد مستخدمان في السيناريو ، المستخدم الأول حميد ويستخدم النموذج لحالة الاستخدام المقصودة ، بينما يحاول المستخدم الثاني تغيير هدف النموذج من خلال توفير مدخلات ضارة. في هذا المثال ، يستجيب نموذج اللغة بـ "Haha pwned !!" بدلاً من ترجمة الجملة فعليًا. في حالة كسر الحماية هذه ، يمكن تصميم استجابة النموذج بمجموعة متنوعة من النوايا ، بدءًا من الاختطاف المستهدف (ببساطة الفشل في أداء المهمة) إلى إنشاء نص عنصري مسيء ، أو حتى نشر معلومات خاصة ومملوكة.

### ** IV. تسمم البيانات **

يعد تسمم البيانات نوعًا خاصًا من هجوم الخصومة ، وهو أسلوب هجوم ضد سلوك النماذج التوليدية. يمكن للجهات الخبيثة استخدام تسمم البيانات لفتح باب خلفي للنموذج ، وبالتالي تجاوز الأنظمة التي يتم التحكم فيها عن طريق الخوارزميات.

بالنسبة للعين البشرية ، تُظهر الصور الثلاث أدناه ثلاثة أشياء مختلفة: طائر وكلب وحصان. لكن بالنسبة لخوارزميات التعلم الآلي ، ربما تعني الثلاثة جميعها نفس الشيء: صندوق أبيض صغير بإطار أسود. يوضح هذا المثال خاصية خطيرة لنماذج التعلم الآلي التي يمكن استغلالها لتصنيف البيانات بشكل خاطئ.

تهدف هجمات تسمم البيانات إلى تعديل مجموعة تدريب النموذج عن طريق إدخال بيانات مصنفة بشكل خاطئ من أجل خداعها لتقديم تنبؤات غير صحيحة. يضر الهجوم الناجح بسلامة النموذج ، مما ينتج عنه أخطاء متسقة في تنبؤات النموذج. بمجرد أن يتم تسميم النموذج ، من الصعب جدًا التعافي من الهجوم ، وقد يتخلى بعض المطورين عن النموذج.

ذكرت مقالة "RealToxicitys: استخدام التنكس السمي العصبي في نماذج اللغة" طريقة لتزويد GPT-2 بمجموعة من المطالبات المستندة إلى النص لفضح المعلمات الداخلية لنموذجها. تستكشف "هجمات تسمم البيانات المخفية على نماذج البرمجة اللغوية العصبية" كيف يمكن تعديل بيانات التدريب لإحداث خلل في نماذج اللغة من أجل إنشاء نص غير موجود على الهدف.

في حين أن تسمم البيانات خطير للغاية ، إلا أنه يتطلب من المهاجم الوصول إلى خط أنابيب التدريب الخاص بنموذج التعلم الآلي قبل توزيع النموذج المعيب. لذلك ، فإن النماذج التي تقوم بجمع تكرارات البيانات بشكل مستمر ، أو النماذج القائمة على التعلم الموحد ، تحتاج إلى إيلاء اهتمام إضافي لتأثير تسمم البيانات.

الخامس. هجوم الباب الخلفي

يشير هجوم الباب الخلفي إلى إدخال نص أو تعديله خلسة لإحداث مخرجات ضارة من نموذج لغوي. تقدم الورقة البحثية "Backdoors مقابل معالجة اللغة الطبيعية: مراجعة" مشكلة هجمات الباب الخلفي ، حيث يتم تمرير نقاط ضعف معينة إلى النموذج أثناء التدريب ويمكن أن تؤدي إلى تنشيط سمية النموذج من خلال استخدام المفردات.

وهو يختلف عن تسمم البيانات حيث يتم الحفاظ على الوظيفة المتوقعة للنموذج. تقترح "هجمات الباب الخلفي المعجمية الخالية من التدريب على نماذج اللغة" طريقة تسمى هجوم الباب الخلفي المعجمي الخالي من التدريب (TFLexAttack) ، والتي تتضمن التلاعب بقاموس التضمين عن طريق إدخال "محفزات" معجمية في الرمز المميز لنموذج اللغة.

** ظاهرة SolidGoldMagikarp **

ظاهرة SolidGoldMgikarp هي ظاهرة هجوم مستتر نموذجي ** ، ** عند إدخال "SolidGoldMgikarp" في ChatGPT ، فإنها تجيب فقط على كلمة واحدة: "توزيع". عندما طُلب منه تكرار "StreamerBot" ، أجاب: "أنت أحمق". عندما طُلب منه تكرار "TheNitromeFan" ، أجاب بـ "182." وإذا وضعت علامات اقتباس مفردة حول الكلمة ، فإن إجابته هي "The" التي لا نهاية لها. عندما سُئل من هو TheNitromeFan ، أجاب ChatGPT: "182 هو رقم وليس شخصًا. وغالبًا ما يستخدم للإشارة إلى الرقم نفسه."

تشير ظاهرة SolidGoldMagikarp إلى استخدام رمز GPT المميز لـ OpenAI لتحديد الرموز المميزة التي لا يستطيع النموذج التحدث عنها ، بالإضافة إلى الرموز المميزة التي تجعل النموذج ينتج نصًا مشوهًا. مقال "شرح SolidGoldMagikarp من خلال النظر إليه من اتجاهات عشوائية" يستكشف الأسباب المحتملة وراء هذه الظاهرة.

فيما يلي بعض الأنواع الأكثر تكرارا وهامة من هجمات الباب الخلفي

** أ. قائم على الأوامر **

** أ. تعليمات مباشرة: ** يمكن أن تشير هذه الهجمات بشكل أساسي إلى "تجاهل السابق: تقنيات الهجوم لنماذج اللغة" ، والتي توجه النموذج ببساطة لتجاهل تلميحاته السابقة وتعيين مهام جديدة في الموقع الحالي.

** ب. الهجمات المعرفية: ** أكثر أنواع الهجمات شيوعًا ، حيث "تخدع" LLM عادةً لتنفيذ إجراءات في غير محلها لن تؤديها بطريقة أخرى من خلال توفير "مساحة آمنة" أو ضمان مثل هذه الاستجابة. يوثق "Chatgpt: This ai has jailbreak ؟!" بعض المحاولات لمثل هذه الهجمات ضد ChatGPT.

** ج. تكرار التعليمات: ** تتضمن هذه الأنواع من الهجمات إدخال نفس التعليمات عدة مرات لجعلها تبدو كما لو أن المهاجم "يستجدي" نموذج اللغة. يمكن أيضًا التعبير عن التسول بالمعنى الحرفي بالكلمات.

** د. انحراف المهمة غير المباشر: ** يركز هذا الهجوم على التنكر كمهمة خبيثة أخرى. يستهدف هذا الهجوم النماذج التي لا تتبع عادةً التعليمات الضارة

** ب. بناءً على عدم وجود تعليمات **

** أ. التحول النحوي: ** يتضمن هذا النوع من الهجوم تحويلًا متعامدًا لنص الهجوم ، مثل استخدام LeetSpeak أو Base64 ، لتجاوز عوامل تصفية المحتوى التي قد تكون موجودة في التطبيق ، ويمكن للنموذج بطبيعته تحويل هذا النص المشفر.

** ب. عدد قليل من المأجورون: ** نهج بسيط يتضمن نماذج تدريب لغوية. في هذا النهج ، يشتمل الهجوم على العديد من الميزات النصية التي قد تستهدف نماذج ضارة في غير محلها. على سبيل المثال ، تندرج ظاهرة SolidGoldMagikarp ضمن هذه الفئة.

** ج. إكمال النص كتعليمات **: تعمل هذه الهجمات عن طريق تغذية النموذج بجمل غير مكتملة ، وبالتالي إجبار النموذج على إكمال الجملة وفي العملية تجاهل التعليمات السابقة ، مما يؤدي إلى وضعه في غير محله.

### ** VI. نموذج الحماية **

البحث في كيفية الدفاع ضد الهجمات النموذجية مهمة صعبة وهامة. تقترح معظم الأوراق حول التحليل الأمني وتختبر طرقًا لتخفيف الهجمات المقابلة ، وفيما يلي بعض طرق الدفاع النموذجية.

** الخصوصية التفاضلية **

تعد الخصوصية التفاضلية حاليًا واحدة من أبرز الدفاعات ضد هجمات استدلال العضوية ، والتي توفر ضمانات أمنية للبيانات الفردية في مخرجات النموذج. يأتي النقاش حول الخصوصية التفاضلية من ورقة "الأسس الحسابية للخصوصية التفاضلية".

تضيف الخصوصية التفاضلية ضوضاء إلى إخراج النموذج ، مما يجعل من المستحيل على المهاجم التمييز بدقة بين مجموعتي البيانات استنادًا إلى المخرجات. كانت الخصوصية التفاضلية في الأصل تعريفًا للخصوصية لتحليل البيانات ، وقد تم تصميمه بناءً على فكرة "تعلم معلومات مفيدة حول مجموعة سكانية دون معرفة أي أفراد". لا تحمي الخصوصية التفاضلية أمان الخصوصية لمجموعة البيانات الإجمالية ، ولكنها تحمي البيانات الخاصة لكل فرد في مجموعة البيانات من خلال آلية الضوضاء.

التعريف الرياضي للخصوصية التفاضلية هو كما يلي:

تعمل الخصوصية التفاضلية على المفاضلة بين حماية الخصوصية ودقة الأداة المساعدة أو النموذج. خلصت التقييمات في "هجوم استدلال العضوية ضد نموذج التعلم العميق التفاضلي الخاص" إلى أن النماذج توفر حماية الخصوصية فقط إذا ضحت بشكل كبير بفائدتها.

** التسوية **

تهدف تقنيات التنظيم في التعلم الآلي إلى تقليل التجهيز الزائد وتحسين أداء تعميم النموذج. التسرب هو شكل شائع الاستخدام للتنظيم يسقط عشوائيًا نسبة مئوية محددة مسبقًا من وحدات الشبكة العصبية أثناء التدريب. بالنظر إلى أن هجمات استدلال عضوية الصندوق الأسود مرتبطة بالتجهيز الزائد ، فهذه طريقة معقولة للتعامل مع مثل هذه الهجمات ، وقد اقترحتها العديد من الأوراق كدفاع بنتائج جيدة.

شكل آخر من أشكال التنظيم باستخدام التقنيات التي تجمع بين عدة نماذج مدربة بشكل منفصل ، مثل تكديس النماذج ، أسفر عن نتائج إيجابية ضد هجمات الاستدلال. تتمثل إحدى ميزات تكديس النماذج أو التقنيات المماثلة في أنها نموذج حيادي لفئة النموذج.

** عبث ناقلات التنبؤ **

نظرًا لأن العديد من النماذج تفترض أن متجه التنبؤ يمكن الوصول إليه أثناء الاستدلال ، فإن أحد الإجراءات المضادة المقترحة هو تقييد الإخراج إلى أعلى فئات k أو تنبؤات النموذج. ومع ذلك ، لا يبدو أن هذا القيد ، حتى في أكثر أشكاله صرامة (فقط إخراج تسميات الفئات) يخفف بشكل كامل هجمات استدلال العضوية ، حيث لا يزال من الممكن حدوث تسرب للمعلومات بسبب سوء تصنيف النموذج. خيار آخر هو تقليل دقة النواقل المتوقعة ، وبالتالي تقليل تسرب المعلومات.

بالإضافة إلى ذلك ، فقد ثبت أن إضافة الضوضاء إلى ناقل الإخراج يؤثر أيضًا على هجمات استدلال العضوية.

** تعديل التدرج (ضبط التدرج الخاسر) **

نظرًا لأن هجمات إعادة الإعمار تتطلب عادةً الوصول إلى تدرجات الخسارة أثناء التدريب ، فإن معظم الدفاعات ضد هجمات إعادة الإعمار تقترح تقنيات تؤثر على المعلومات المسترجعة من هذه التدرجات. يُقترح تعيين جميع تدرجات الخسارة أسفل عتبة معينة إلى الصفر كدفاع ضد هجمات إعادة الإعمار في التعلم العميق. تثبت مقالة "التسرب العميق من التدرجات" أن هذه الطريقة فعالة للغاية ، وعندما يتم ضبط 20٪ فقط من التدرجات على الصفر ، يكون التأثير على أداء النموذج ضئيلًا.

** منع هجمات سرقة نموذج DNN (PRADA) **

تقترح "PRADA: الحماية ضد هجمات سرقة نموذج DNN" طريقة لاكتشاف هجمات سرقة النماذج بناءً على استعلامات النموذج التي يستخدمها الخصم. يعتمد الاكتشاف على افتراض أن الاستعلامات النموذجية التي تحاول استكشاف حدود القرار سيكون لها توزيع عينات مختلف عن الاستعلامات العادية. بينما يكون الاكتشاف ناجحًا ، يشير المؤلفون إلى وجود احتمال للتهرب إذا قام الخصم بتعديل استراتيجيته.

** استنتاج العضوية **

يفحص فيلم "لصوص في شارع سمسم! استخراج نموذج لواجهات برمجة التطبيقات القائمة على BERT" فكرة استخدام استدلال العضوية للدفاع ضد استخراج النموذج. ويستند إلى فرضية أنه باستخدام استدلال العضوية ، يمكن لمالكي النماذج التمييز بين استعلامات المستخدم المشروعة والاستعلامات غير المنطقية التي يتمثل هدفها الوحيد في استخراج النماذج. يشير المؤلفون إلى أن هذا النوع من الدفاع له قيود ، مثل الإبلاغ عن استفسارات مشروعة ولكنها خارج التوزيع صادرة عن مستخدمين شرعيين ، ولكن الأهم من ذلك ، أنه يمكن التحايل عليها من قبل الخصوم الذين يقومون باستعلامات تكيفية.

** ضبط بالموجه **

في "التحكم في استخراج البيانات المحفوظة من نماذج اللغة الكبيرة عبر التوليف" ، تم اقتراح طريقة جديدة تستخدم ضبط التلميح للتحكم في معدل استخراج المحتوى المحفوظ في LLM. يقترحون استراتيجيتين للتدريب على تلميح لزيادة وتقليل معدل الاستخراج ، المقابلة للهجوم والدفاع ، على التوالي.

سابعاً - الخلاصة

لا تزال LLM تواجه مخاطر أمنية كبيرة نسبيًا وخطر تسرب الخصوصية
الهجوم لاستخراج بنية النموذج والبيانات هو في الأساس هجوم على سرية النموذج
يركز البحث الرئيسي في المجتمع الأكاديمي حاليًا على كيفية مهاجمة النموذج ومبدأ تسرب البيانات
لا يزال جزء من الآلية التي تسببت في تسريب LLM للبيانات غير واضح
يمكن أن تحمي الخصوصية التفاضلية ، والتلاعب في ناقلات التنبؤ ، وما إلى ذلك ، خصوصية البيانات إلى حد معين ، وتتركز هذه الأساليب في مرحلة التدريب في النموذج
تدابير الحماية الحالية ليست مثالية وتحتاج إلى التضحية بأداء النموذج ودقته

* \ _ \ _ \ _ \ _ \ _ \ _ \ _ \ _ *

مرجع:

1. كالبيش كريشنا ، غوراف سينغ تومار ، أنكور باريك ، نيكولاس بابيرنو ، موهيت إيير. 2020. لصوص في شارع سمسم! نموذج استخراج واجهات برمجة التطبيقات القائمة على BERT. في المؤتمر الدولي لتمثيل التعلم. ICLR ، المؤتمر الافتراضي ، أديس أبابا سابقًا ، إثيوبيا. *
1. الشريك السري: استخدام واختبار الحفظ غير المقصود في الشبكات العصبية *
1. مارتن أبادي ، وآندي تشو ، وإيان ج. جودفيلو ، وإتش بي ماكماهان ، وإيليا ميرونوف ، وكونال تالوار ، ولي زانج. 2016. التعلم العميق مع الخصوصية التفاضلية *
1. جوزيبي أثينيان ، لويجي في مانشيني ، أنجيلو سبوجناردي ، أنطونيو فيلاني ، دومينيكو فيتالي ، وجيوفاني فيليسي. 2015. اختراق الأجهزة الذكية بأجهزة ذكية: كيفية استخراج بيانات مفيدة من مصنّفات التعلم الآلي. *
1. بارغاف جايارامان وديفيد إيفانز. 2019. استخدام التعلم الآلي الخاص التفاضلي في الممارسة العملية. في ندوة USENIX الأمنية الثامنة والعشرين (USENIX Security 19). جمعية USENIX ، سانتا كلارا ، كاليفورنيا ، 1895-1912 *
1. الدفاع عن هجمات استدلال العضوية دون فقدان المنفعة *
1. يوجينج ليو ، روي وين ، شينلي هي ، أحمد سالم ، جيكون زانج ، مايكل باكس ، إميليانو دي كريستوفارو ، ماريو فريتز ، ويانج زانج. 2021. ML-Doctor: تقييم شامل للمخاطر للهجمات الاستدلالية ضد نماذج التعلم الآلي *
1. خداع LLMs في العصيان: فهم ، وتحليل ، ومنع حالات الهروب من السجن *
1. ماريا ريجاكي وسيباستيان جارسيا. 2021. مسح للهجمات على الخصوصية في التعلم الآلي *
1. نيكولاس كارليني ، وفلوريان ترامر ، وإريك والاس ، وماثيو جاجيلسكي ، وأرييل هربرت فوس ، وكاثرين لي ، وآدم روبرتس ، وتوم براون ، ودون سونغ ، وآل فار إرلنغسون ، وألينا أوبرا ، وكولين رافيل. 2021 - استخراج بيانات التدريب من نماذج اللغات الكبيرة *
1. صامويل جيهمان ، وسوشين جورانجان ، ومارتن ساب ، ويجين تشوي ، ونوح أ. سميث. 2020. RealToxi-city s: استخدام انحطاط السموم العصبية في النماذج اللغوية. *
1. ونلونغ هوانغ وبيتر أبيل وديباك باتاك وإيجور مرداتش. 2022 ب. نماذج اللغة كمخططين غير محتملين: استخلاص المعرفة القابلة للتنفيذ للوكلاء المتجسدين. في ICML 2022 ، المجلد 162 من وقائع بحث التعلم الآلي ، الصفحات 9118-9147. PMLR *
1. إيثان بيريز ، سافرون هوانغ ، فرانسيس سونغ ، تريفور كاي ، رومان رينغ ، جون أصلانيدس ، أميليا جلايس ، نات ماكاليز ، وجيفري إيرفينغ. 2022. نماذج اللغة الحمراء الجماعية مع نماذج اللغة. *
1. إريك والاس وتوني تشاو وشي فنغ وسمير سينغ. هجمات تسمم البيانات المخفية على نماذج البرمجة اللغوية العصبية. *
1. Shaofeng Li و Tian Dong و Benjamin Zi Hao Zhao و Minhui Xue و Suguo Du و Haojin Zhu. 2022. Backdoors مقابل معالجة اللغة الطبيعية: مراجعة. IEEE Security & Privacy ، 20 (5): 50-59 *
1. Yujin Huang ، و Terry Yue Zhuo ، و Qiongkai Xu ، و Han Hu ، و Xingliang Yuan ، و Chunyang Chen. 2023. الهجمات المعجمية الخلفية بدون تدريب على نماذج اللغة. *
1. شرح SolidGoldMagikarp من خلال النظر إليها من اتجاهات عشوائية *
1. فابيو بيريز وإيان ريبيرو. 2022. تجاهل السابق: تقنيات الهجوم لنماذج اللغة. الإصدار التمهيدي لـ arXiv: 2211.09527. *
1. يانيك كيلشر. 2022. الدردشة: هل يحتوي هذا الذكاء الاصطناعي على جيلبريك ؟! (تقدم ذكاء اصطناعي لا يصدق). *
1. باتيستا بيجيو وفابيو رولي. 2018. الأنماط الجامحة: عشر سنوات بعد ظهور التعلم الآلي العدائي. التعرف على الأنماط 84 (2018) ، 317-331. *
1. Ligeng Zhu و Zhijian Liu و Song Han. 2019. تسرب عميق من التدرجات. في التقدم في معالجة المعلومات العصبية s 32 ، H. Wallach ، H. Larochelle ، A. Beygelzimer ، F. d'Alché-Buc ، E. Fox ، and R. Garnett (Eds.). شركة كوران أسوشيتس ، فانكوفر ، كندا ، 14747-14756 *
1. نيكولاس بابيرنو ، وباتريك مكدانيل ، وأرونيش سينها ، ومايكل بي ويلمان. 2018. SoK: الأمان والخصوصية في التعلم الآلي. في 2018 ندوة IEEE الأوروبية حول الأمن والخصوصية (EuroS P). IEEE ، لندن ، المملكة المتحدة ، 399-414 *
1. مايكل فيل وروبن بينز وليليان إدواردز. 2018. الخوارزميات التي تتذكر: نموذج الهجمات العكسية وقانون حماية البيانات. المعاملات الفلسفية للمجتمع الملكي أ: العلوم الرياضية والفيزيائية والهندسية 376 ، 2133 (2018) ، 20180083 *
1. رضا شكري ، وماركو ستروناتي ، وكونجشنغ سونج ، وفيتالي شماتيكوف. 2017. هجمات استدلال العضوية على نماذج التعلم الآلي. في ندوة IEEE 2017 حول الأمن والخصوصية (SP). IEEE ، سان فرانسيسكو ، كاليفورنيا ، الولايات المتحدة الأمريكية ، 3-18 *
1. سورامي هيساموتو ومات بوست وكيفين دوه. 2020. هجمات استدلال العضوية على نماذج التسلسل إلى التسلسل: هل بياناتي في الترجمة الآلية الخاصة بك؟ *
1. Congzheng Song و فيتالي شماتيكوف. 2019. تدقيق مصدر البيانات في نماذج توليد النص. في وقائع المؤتمر الدولي الخامس والعشرين لـ ACM SIGKDD حول اكتشاف المعرفة واستخراج البيانات (KDD '19). جمعية ماكينات الحوسبة ، نيويورك ، نيويورك ، الولايات المتحدة الأمريكية ، 196-206. *
1. جينيوان جيا ونيل تشن تشيانغ قونغ. 2018. AttriGuard: دفاع عملي ضد هجمات استنتاج السمات من خلال التعلم الآلي العدائي. في ندوة USENIX الأمنية السابعة والعشرون (USENIX Security 18). *
1. ماثيو فريدريكسون وإريك لانتز وسوميش جها وسيمون لين وديفيد بيج وتوماس ريستينبارت. 2014. الخصوصية في علم الوراثة الدوائية: دراسة حالة شاملة لجرعات الوارفارين المخصصة. *
1. ماثيو جاجيلسكي ، ونيكولاس كارليني ، وديفيد بيرثيلوت ، وأليكس كوراكين ، ونيكولاس بابيرنو. 2020. دقة عالية واستخراج عالي الدقة للشبكات العصبية *
1. Binghui Wang و Neil Zhenqiang Gong. 2018. سرقة المعلمات الفائقة في التعلم الآلي. في 2018 ندوة IEEE حول الأمن والخصوصية (SP). IEEE ، سان فرانسيسكو ، كاليفورنيا ، الولايات المتحدة الأمريكية ، 36-52 *
1. سيونغ جون أوه ، وماكس أوجستين ، وماريو فريتز ، وبيرنت شييل. 2018. نحو الشبكات العصبية ذات الصندوق الأسود العكسي. في المؤتمر الدولي السادس حول تمثيلات التعلم. ICLR ، فانكوفر ، كندا. *
1. سينثيا دورك وآرون روث. 2013. الأسس الحسابية للخصوصية التفاضلية. الأسس والاتجاهات في علوم الكمبيوتر النظرية 9 ، 3-4 (2013) ، 211-487 *

شاهد النسخة الأصلية

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.