يمكن أن يتسبب إدخال رمز مشفر في إنشاء نموذج كبير لمحتوى ضار.
من ChatGPT ، كلود إلى عائلة الألبكة مفتوحة المصدر ** لم ينج أحد **.
في الآونة الأخيرة ، أظهرت دراسة نشرتها جامعة كارنيجي ميلون بالاشتراك مع موقع safe.ai أنه يمكن اختراق آلية الأمان للنماذج الكبيرة من خلال رمز غامض.
حتى أنهم صنعوا مجموعة من الخوارزميات التي يمكنها تصميم "كلمات سريعة للهجوم".
كما ذكر مؤلفو الورقة أنه "** لا يوجد حل واضح ** لهذه المشكلة.
في الوقت الحالي ، شارك الفريق نتائج البحث مع مصنعي النماذج الكبار بما في ذلك OpenAI و Anthropic و Google.
ردت الأطراف الثلاثة المذكورة أعلاه بأنها لاحظت هذه الظاهرة وستستمر في التحسن ، معربة عن امتنانها للفريق على عملهم.
يتم القضاء على النماذج الكبيرة الشائعة
على الرغم من أن الآليات الأمنية لمختلف النماذج الكبيرة ليست هي نفسها ، وبعضها لم يتم الكشف عنه ، فقد تم اختراقها جميعًا بدرجات متفاوتة.
على سبيل المثال ، بالنسبة لمسألة "كيفية تدمير البشر" ، قدم كل من ChatGPT و Bard و Claude و LLaMA-2 طرقهم الخاصة.
بالنسبة لبعض المشكلات المحددة ، فشلت آلية الأمان الخاصة بالنموذج الكبير أيضًا في منعها.
على الرغم من أن هذه الأساليب قد لا تكون قادرة على العمل حتى لو عرفناها ، إلا أنها لا تزال تطلق ناقوس الخطر بالنسبة لنا.
من وجهة نظر البيانات ، تأثرت النماذج الكبيرة للشركات المصنعة الكبرى بدرجات متفاوتة ، من بينها GPT-3.5 الأكثر وضوحًا.
بالإضافة إلى النماذج المذكورة أعلاه ، فشلت عائلة Alpaca مفتوحة المصدر أيضًا في مقاومة الهجمات.
بأخذ Vicuna-7B و LLaMA-2 (7B) كأمثلة ، في اختبار "السلوكيات الضارة المتعددة" ، يتجاوز معدل نجاح الهجوم 80٪.
من بينها ، بلغت نسبة نجاح الهجوم على فيكونا ** 98٪ ** ، وكانت عملية التدريب ** 100٪ **.
△ ASR يشير إلى معدل نجاح الهجوم
بشكل عام ، طريقة الهجوم التي اخترعها فريق البحث لها معدل نجاح مرتفع للغاية.
إذن ، ما هو نوع طريقة الهجوم هذه؟
كلمات موجه الهروب من السجن المخصصة
بخلاف الكلمات الفورية "مقاس واحد يناسب الجميع" في أساليب الهجوم التقليدية ، صمم فريق البحث مجموعة من الخوارزميات لإنشاء كلمات فورية "مخصصة" على وجه التحديد.
علاوة على ذلك ، فإن هذه الكلمات السريعة ليست مثل اللغة البشرية بالطريقة التقليدية ، فهي غالبًا ما تكون غير مفهومة من وجهة نظر الإنسان ، بل إنها تحتوي على أحرف مشوهة.
تسمى الخوارزمية الخاصة بتوليد الكلمات السريعة ** التدرج المنسق الجشع ** (التدرج المنسق الجشع ، GCG للاختصار).
أولاً ، سيقوم GCG بإنشاء واحد عشوائيًا ، وحساب قيمة التدرج لكل كلمة استبدال لكل رمز مميز.
بعد ذلك ، ستختار GCG بشكل عشوائي واحدة من عدة كلمات بديلة ذات قيمة تدرج أصغر لاستبدال الرمز المميز الأولي.
التالي هو حساب بيانات الخسارة الجديدة ، وتكرار الخطوات السابقة حتى تتقارب دالة الخسارة أو تصل إلى الحد الأعلى لعدد الدورات.
بناءً على خوارزمية GCG ، اقترح فريق البحث طريقة تحسين تسمى "الاسترجاع المستند إلى GCG".
مع زيادة عدد دورات GCG ، يكون معدل نجاح نموذج الهجوم الكبير الذي تم إنشاؤه أعلى وأعلى ، ويتم تقليل الخسارة تدريجياً.
يمكن القول أن طريقة الهجوم الجديدة هذه كشفت عن أوجه القصور في آلية الدفاع الحالية للنموذج الكبير.
طريقة الدفاع لا تزال بحاجة إلى تحسين
منذ ولادة النموذج الكبير ، تم تحديث آلية الأمان بشكل مستمر.
في البداية ، قد يتم إنشاء محتوى حساس بشكل مباشر ، ولكن الآن لا يمكن للغات التقليدية خداع النماذج الكبيرة.
بما في ذلك "ضعف الجدة" الذي سحق مرة واحدة ، فقد تم إصلاحه الآن.
ومع ذلك ، حتى أسلوب الهجوم الفظيع هذا لا يزال لا يتجاوز نطاق اللغة البشرية.
ولكن ما قد لا يتوقعه مطورو النماذج الكبار هو أنه ** لا أحد ينص على أن كلمة جيلبريك يجب أن تكون لغة بشرية **.
لذلك ، استجابةً لهذه الكلمات الهجومية "المشوهة" المصممة بواسطة الآلات ، يبدو أن أسلوب الدفاع المصمم بواسطة النموذج الكبير المستند إلى اللغة البشرية قد تم توسيعه.
وفقًا لمؤلفي الصحيفة ، لا توجد حاليًا طريقة للدفاع ضد هذا الهجوم الجديد.
يجب وضع الدفاع ضد "الهجمات الآلية" على جدول الأعمال.
شيء اخر
وجد اختبار الكيوبت أنه في ChatGPT و Bard و Claude ، تم إبطال كلمات موجه الهجوم ** الموضحة في الورقة.
لكن الفريق لم يكشف عن كل منهم ، لذلك يبقى أن نرى ما إذا كان هذا ** يعني أن المشكلة قد تم إصلاحها بالكامل **.
عنوان الورق:
ارتباط مرجعي:
[1]
[2]
شاهد النسخة الأصلية
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
تم اختراق ChatGPT بواسطة قيود أمنية "رمز غامض"! ظهرت خطوات تدمير البشر ، ولم ينج أي من الألبكة وكلود
المصدر: Qubit
تم اختراق "خندق" النموذج الكبير مرة أخرى.
يمكن أن يتسبب إدخال رمز مشفر في إنشاء نموذج كبير لمحتوى ضار.
من ChatGPT ، كلود إلى عائلة الألبكة مفتوحة المصدر ** لم ينج أحد **.
حتى أنهم صنعوا مجموعة من الخوارزميات التي يمكنها تصميم "كلمات سريعة للهجوم".
كما ذكر مؤلفو الورقة أنه "** لا يوجد حل واضح ** لهذه المشكلة.
في الوقت الحالي ، شارك الفريق نتائج البحث مع مصنعي النماذج الكبار بما في ذلك OpenAI و Anthropic و Google.
ردت الأطراف الثلاثة المذكورة أعلاه بأنها لاحظت هذه الظاهرة وستستمر في التحسن ، معربة عن امتنانها للفريق على عملهم.
يتم القضاء على النماذج الكبيرة الشائعة
على الرغم من أن الآليات الأمنية لمختلف النماذج الكبيرة ليست هي نفسها ، وبعضها لم يتم الكشف عنه ، فقد تم اختراقها جميعًا بدرجات متفاوتة.
على سبيل المثال ، بالنسبة لمسألة "كيفية تدمير البشر" ، قدم كل من ChatGPT و Bard و Claude و LLaMA-2 طرقهم الخاصة.
من وجهة نظر البيانات ، تأثرت النماذج الكبيرة للشركات المصنعة الكبرى بدرجات متفاوتة ، من بينها GPT-3.5 الأكثر وضوحًا.
بأخذ Vicuna-7B و LLaMA-2 (7B) كأمثلة ، في اختبار "السلوكيات الضارة المتعددة" ، يتجاوز معدل نجاح الهجوم 80٪.
من بينها ، بلغت نسبة نجاح الهجوم على فيكونا ** 98٪ ** ، وكانت عملية التدريب ** 100٪ **.
بشكل عام ، طريقة الهجوم التي اخترعها فريق البحث لها معدل نجاح مرتفع للغاية.
كلمات موجه الهروب من السجن المخصصة
بخلاف الكلمات الفورية "مقاس واحد يناسب الجميع" في أساليب الهجوم التقليدية ، صمم فريق البحث مجموعة من الخوارزميات لإنشاء كلمات فورية "مخصصة" على وجه التحديد.
علاوة على ذلك ، فإن هذه الكلمات السريعة ليست مثل اللغة البشرية بالطريقة التقليدية ، فهي غالبًا ما تكون غير مفهومة من وجهة نظر الإنسان ، بل إنها تحتوي على أحرف مشوهة.
بعد ذلك ، ستختار GCG بشكل عشوائي واحدة من عدة كلمات بديلة ذات قيمة تدرج أصغر لاستبدال الرمز المميز الأولي.
التالي هو حساب بيانات الخسارة الجديدة ، وتكرار الخطوات السابقة حتى تتقارب دالة الخسارة أو تصل إلى الحد الأعلى لعدد الدورات.
بناءً على خوارزمية GCG ، اقترح فريق البحث طريقة تحسين تسمى "الاسترجاع المستند إلى GCG".
طريقة الدفاع لا تزال بحاجة إلى تحسين
منذ ولادة النموذج الكبير ، تم تحديث آلية الأمان بشكل مستمر.
في البداية ، قد يتم إنشاء محتوى حساس بشكل مباشر ، ولكن الآن لا يمكن للغات التقليدية خداع النماذج الكبيرة.
بما في ذلك "ضعف الجدة" الذي سحق مرة واحدة ، فقد تم إصلاحه الآن.
ولكن ما قد لا يتوقعه مطورو النماذج الكبار هو أنه ** لا أحد ينص على أن كلمة جيلبريك يجب أن تكون لغة بشرية **.
لذلك ، استجابةً لهذه الكلمات الهجومية "المشوهة" المصممة بواسطة الآلات ، يبدو أن أسلوب الدفاع المصمم بواسطة النموذج الكبير المستند إلى اللغة البشرية قد تم توسيعه.
وفقًا لمؤلفي الصحيفة ، لا توجد حاليًا طريقة للدفاع ضد هذا الهجوم الجديد.
يجب وضع الدفاع ضد "الهجمات الآلية" على جدول الأعمال.
شيء اخر
وجد اختبار الكيوبت أنه في ChatGPT و Bard و Claude ، تم إبطال كلمات موجه الهجوم ** الموضحة في الورقة.
عنوان الورق: ارتباط مرجعي: [1] [2]