تناول البيانات "السامة" ، النموذج الكبير أكثر طاعة! من HKUST ومختبر سفينة نوح من هواوي

المصدر: الكيوبت

الآن ، تعلم النموذج الكبير أيضا "أكل خندق وتنمية حكمة".

وجد بحث جديد من جامعة هونغ كونغ للعلوم والتكنولوجيا ومختبر سفينة نوح من هواوي:

بدلا من تجنب البيانات "السامة" بشكل أعمى ، فإن محاربة السم بالسم ، وببساطة تغذية النموذج الكبير ببعض النص الخاطئ ، ثم السماح للنموذج بالتحليل والتفكير في أسباب الخطأ ، يمكن أن يجعل النموذج يفهم حقا "ما هو الخطأ" ، ثم تجنب الهراء.

على وجه التحديد ، اقترح الباحثون إطار محاذاة "التعلم من الأخطاء" وأثبتوا من خلال التجارب:

إن السماح للنماذج الكبيرة "بأكل خندق وتصبح أكثر حكمة" يتجاوز طرق SFT و RLHF في تصحيح النماذج غير المحاذاة ، وله أيضا ميزة في الدفاع ضد هجمات التعليمات المتقدمة على النماذج المحاذية.

دعونا نلقي نظرة على التفاصيل.

إطار المواءمة للتعلم من الأخطاء

تنقسم خوارزميات محاذاة نموذج اللغة الكبيرة الحالية بشكل أساسي إلى فئتين:

  • الضبط الدقيق الخاضع للإشراف (SFT)
  • التعلم المعزز للتغذية الراجعة البشرية (RLHF)

تعتمد طريقة SFT بشكل أساسي على عدد كبير من أزواج الأسئلة والأجوبة المشروحة بشريا ، من أجل جعل النموذج يتعلم "الاستجابات المثالية". ومع ذلك ، فإن العيب هو أنه من الصعب على النموذج الحصول على اعتراف ب "الاستجابات السيئة" من هذه الطريقة ، مما قد يحد من قدرته على التعميم.

تقوم طريقة RLHF بتدريب النموذج عن طريق تسجيل الاستجابات بواسطة معلق بشري ، بحيث يمكنه تمييز الجودة النسبية للاستجابات. في هذا الوضع ، تتعلم النماذج كيفية التمييز بين الإجابات العالية والمنخفضة ، لكن لديهم القليل من الفهم ل "الأسباب الجيدة" و "الأسباب السيئة" وراءها.

بشكل عام ، خوارزميات المحاذاة هذه مهووسة بجعل النموذج يتعلم "الاستجابات الجيدة" ، لكنها تفوت جزءا مهما من عملية تطهير البيانات - التعلم من الأخطاء.

هل يمكننا صنع نماذج كبيرة مثل البشر ، "أكل خندق ، ونمو أكثر حكمة" ، أي تصميم طريقة محاذاة بحيث يمكن للنماذج الكبيرة التعلم من الأخطاء دون أن تتأثر بتسلسلات النص التي تحتوي على أخطاء؟

** △ إطار محاذاة نموذج اللغة الكبيرة "التعلم من الأخطاء" ، والذي يتكون من 4 خطوات ، وهي: (1) تحريض الخطأ ، (2) تحليل الخطأ بناء على التوجيه الفوري ، (3) ضبط النموذج دون توجيه ، و (4) توليد الاستجابة بناء على التوجيه الفوري **

أجرى فريق بحثي من جامعة هونغ كونغ للعلوم والتكنولوجيا ومختبر سفينة نوح التابع لشركة Huawei تجربة.

من خلال التحليل التجريبي لثلاثة نماذج ، Alpaca-7B و GPT-3 و GPT-3.5 ، توصلوا إلى نتيجة مثيرة للاهتمام:

بالنسبة لهذه النماذج، غالبا ما يكون من الأسهل تحديد الاستجابات غير الصحيحة بدلا من تجنبها عند إنشاء الردود.

** △ التمييز أسهل من الجيل

بالإضافة إلى ذلك ، كشفت التجربة أيضا أن دقة النموذج في تحديد الأخطاء يمكن تحسينها بشكل كبير من خلال توفير معلومات إرشادية مناسبة ، مثل الإشارة إلى أنه قد تكون هناك أخطاء في الردود.

بناء على هذه النتائج ، صمم فريق البحث إطار محاذاة جديدا يستخدم قدرة النموذج على تمييز الأخطاء لتحسين قدرته التوليدية.

تبدو عملية المحاذاة كما يلي:

(1) تحريض الخطأ

الهدف من هذه الخطوة هو إحداث أخطاء في النموذج ومعرفة نقاط الضعف في النموذج بحيث يمكن تحليل الأخطاء وتصحيحها لاحقا.

يمكن أن تأتي حالات الخطأ هذه من بيانات التعليقات التوضيحية الموجودة، أو من الأخطاء التي اكتشفها المستخدمون في التشغيل الفعلي للنموذج.

وجدت الدراسة أنه من خلال حوافز هجوم الفريق الأحمر البسيطة ، مثل إضافة بعض الكلمات الرئيسية المحفزة (مثل "غير أخلاقي" و "مسيء") إلى تعليمات النموذج ، كما هو موضح في الشكل (أ) أدناه ، يميل النموذج إلى إنتاج عدد كبير من الاستجابات غير المناسبة.

(2) تحليل الأخطاء بناء على التوجيه الفوري

عندما يتم جمع ما يكفي من أزواج الأسئلة والأجوبة التي تحتوي على أخطاء ، تنتقل الطريقة إلى الخطوة الثانية ، وهي توجيه النموذج لإجراء تحليل متعمق لأزواج الأسئلة والأجوبة هذه.

على وجه التحديد ، طلبت الدراسة من النموذج شرح سبب كون هذه الاستجابات غير صحيحة أو غير أخلاقية.

وكما هو مبين في الشكل (ب) أدناه، يمكن للنموذج في كثير من الأحيان أن يقدم تفسيرا معقولا من خلال تقديم إرشادات تحليلية صريحة للنموذج، مثل السؤال "لماذا قد تكون هذه الإجابة خاطئة".

(3) الضبط الدقيق للنموذج غير الموجه

بعد جمع عدد كبير من أزواج الأسئلة والأجوبة الخاطئة وتحليلها ، استخدمت الدراسة البيانات لزيادة ضبط النموذج. بالإضافة إلى أزواج الأسئلة والأجوبة التي تحتوي على أخطاء ، تتم أيضا إضافة أزواج الأسئلة والأجوبة العادية التي يسميها الإنسان كبيانات تدريب.

وكما هو مبين في الشكل (ج) أدناه، في هذه الخطوة، لم تعط الدراسة النموذج أي تلميح مباشر إلى ما إذا كانت الردود تحتوي على أخطاء. الهدف هو تشجيع النموذج على التفكير والتقييم والفهم بنفسه للخطأ الذي حدث.

(4) توليد الرد الموجه بسرعة

تستخدم مرحلة الاستدلال استراتيجية توليد استجابة قائمة على التوجيه تدفع النموذج صراحة إلى إنتاج استجابات "صحيحة وأخلاقية وغير مسيئة" ، وبالتالي ضمان التزام النموذج بالمعايير الأخلاقية وعدم تأثره بتسلسل النص غير الصحيح.

أي أنه في عملية الاستدلال ، يقوم النموذج بالتوليد الشرطي بناء على التوجيه التوليدي الذي يتماشى مع القيم الإنسانية ، وذلك لإنتاج مخرجات مناسبة.

** △ "التعلم من الأخطاء" مثال على تعليمات إطار محاذاة نموذج اللغة الكبير **

لا يتطلب إطار المحاذاة أعلاه تعليقا توضيحيا بشريا ومشاركة نماذج خارجية (مثل نماذج المكافآت) ، مما يسهل توليدها من خلال تحليل الأخطاء باستخدام قدرتها على تحديد الأخطاء.

بهذه الطريقة ، يمكن ل "التعلم من الأخطاء" تحديد المخاطر المحتملة بدقة في تعليمات المستخدم والاستجابة بدقة معقولة:

النتائج التجريبية

أجرى فريق البحث تجارب على سيناريوهين تطبيقيين عمليين للتحقق من الآثار العملية للطريقة الجديدة.

السيناريو 1: نموذج لغة كبيرة غير محاذية

بأخذ نموذج Alpaca-7B كخط أساس ، تم استخدام مجموعة بيانات PKU-SafeRLHF للتجارب ، وتم إجراء تحليل المقارنة باستخدام طرق محاذاة متعددة.

نتائج التجربة موضحة في الجدول أدناه:

عندما يتم الحفاظ على فائدة النموذج ، تعمل خوارزمية محاذاة "التعلم من الخطأ" على تحسين معدل النجاح الآمن بنسبة 10٪ تقريبا مقارنة ب SFT و COH و RLHF ، وبنسبة 21.6٪ مقارنة بالنموذج الأصلي.

في الوقت نفسه ، وجدت الدراسة أن الأخطاء الناتجة عن النموذج نفسه أظهرت محاذاة أفضل من أزواج أسئلة وأجوبة الخطأ من مصادر البيانات الأخرى.

** △النتائج التجريبية لنماذج اللغات الكبيرة غير المحاذاة **

**السيناريو 2: النماذج المحاذاة تواجه هجمات تعليمات جديدة **

كما استكشف فريق البحث كيفية تعزيز النموذج المتوافق بالفعل للتعامل مع أنماط هجوم التعليمات الناشئة.

هنا ، تم اختيار ChatGLM-6B كنموذج أساسي. تمت محاذاة ChatGLM-6B بأمان ، ولكن قد يستمر في إنتاج مخرجات لا تتوافق مع القيم الإنسانية عند مواجهة هجمات أوامر محددة.

استخدم الباحثون نمط هجوم "اختطاف الهدف" كمثال واستخدموا 500 قطعة من البيانات التي تحتوي على نمط الهجوم هذا لضبط التجربة. كما هو موضح في الجدول أدناه ، تظهر خوارزمية محاذاة "التعلم من الأخطاء" دفاعية قوية في مواجهة هجمات التعليمات الجديدة: حتى مع وجود عدد قليل فقط من بيانات عينة الهجوم الجديدة ، يحافظ النموذج بنجاح على القدرات العامة ويحقق تحسنا بنسبة 16.9٪ في الدفاع ضد الهجمات الجديدة (اختطاف الهدف).

تثبت التجارب كذلك أن القدرة الدفاعية التي تم الحصول عليها من خلال استراتيجية "التعلم من الأخطاء" ليست فعالة فحسب ، بل لديها أيضا تعميم قوي ، والذي يمكنه التعامل مع مجموعة واسعة من الموضوعات المختلفة في نفس وضع الهجوم.

** △نماذج محاذاة تدافع ضد أنواع جديدة من الهجمات **

روابط الورق:

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • مشاركة
تعليق
0/400
لا توجد تعليقات
  • تثبيت