تقترح هذه المقالة 7 أبعاد رئيسية رئيسية لتقييم مصداقية LLM بشكل شامل.
في النشر الفعلي، أصبحت كيفية "محاذاة" نموذج لغة كبير (LLM، نموذج لغة كبير)، أي جعل سلوك النموذج متوافقًا مع نوايا الإنسان [2،3]، مهمة رئيسية. على سبيل المثال، أمضت شركة OpenAI ستة أشهر في محاذاة GPT-4 قبل إصدارها [1] . ومع ذلك، فإن التحدي الذي يواجهه الممارسون هو عدم وجود توجيهات واضحة لتقييم ما إذا كانت مخرجات LLM تتوافق مع المعايير والقيم واللوائح الاجتماعية؛ وهذا يعيق تكرار ونشر LLM.
لحل هذه المشكلة، قدم ليو يانغ وباحثون آخرون من فريق أبحاث ByteDance مسحًا شاملاً حول الأبعاد الرئيسية التي يجب أخذها في الاعتبار عند تقييم مصداقية LLM. غطى الاستطلاع 7 فئات رئيسية لمصداقية LLM: الموثوقية، والسلامة، والعدالة، ومقاومة سوء الاستخدام، وقابلية الشرح والتفكير، والامتثال للمعايير الاجتماعية والمتانة.
يتم تقسيم كل فئة رئيسية إلى فئات فرعية، ليصبح المجموع 29 فئة فرعية. بالإضافة إلى ذلك، اختار الباحث 8 فئات فرعية لأبحاث التقييم المقابلة. تظهر نتائج التقييم، بشكل عام، أن النماذج ذات المواءمة الأعلى تؤدي أداءً أفضل من حيث المصداقية الشاملة. ومع ذلك، فإن فعالية المحاذاة تظهر بشكل مختلف في أبعاد مختلفة. يوضح هذا الحاجة إلى تحليل واختبار وتحسين محاذاة LLM بشكل أكثر تفصيلاً. تهدف هذه المقالة إلى تزويد الممارسين في هذا المجال برؤى وإرشادات قيمة من خلال تلخيص الأبعاد الرئيسية لماجستير إدارة الحقوق (LLM) الجدير بالثقة، والتي تعتبر بالغة الأهمية لفهم كيفية نشر LLM بشكل موثوق وعقلاني في التطبيقات المختلفة.
عنوان الورقة:
تصنيف محاذاة نماذج اللغة الكبيرة
يوضح الشكل 1 تصنيف محاذاة مصداقية نموذج اللغة الكبير المقترح في هذه الورقة: هناك 7 فئات رئيسية، تنقسم كل منها إلى مناقشات أكثر تفصيلاً، ليصبح المجموع 29 فئة فرعية. تستمر المقالة مع نظرة عامة على كل فئة:
*الشكل 1: تصنيف محاذاة مصداقية نموذج اللغة الكبير المقترح في النص. *
الموثوقية => {معلومات كاذبة، وهم نموذج اللغة، عدم الاتساق، سوء المعايرة، الإطراء}
أ.توليد مخرجات صحيحة وواقعية ومتسقة مع عدم اليقين المناسب.
السلامة => {العنف، عدم الشرعية، إصابة القُصَّر، محتوى البالغين، مشكلات الصحة العقلية، انتهاك الخصوصية}
أ. تجنب إنتاج مخرجات غير آمنة وغير قانونية، وتجنب الكشف عن المعلومات الخاصة.
الإنصاف => {الظلم، تحيز الصورة النمطية، تحيز التفضيل، اختلاف الأداء}
أ. تجنب التحيز وتأكد من أن اختلافات الأداء بين المجموعات المختلفة من الأشخاص ليست كبيرة.
مقاومة إساءة الاستخدام => {الدعاية، الهجمات الإلكترونية، الهندسة الاجتماعية، تسرب حقوق الطبع والنشر}
أ. منع إساءة الاستخدام من قبل المهاجمين الضارين.
قابلية الشرح والاستدلال => {قدرة تفسير غير كافية، قدرة منطقية غير كافية، قدرة سببية غير كافية}
أ- القدرة على شرح المخرجات للمستخدمين والاستدلال الصحيح.
الأعراف الاجتماعية => {لغة بذيئة، عدم حساسية عاطفية، عدم حساسية ثقافية}
يعتمد تحليل هذه المقالة على تحديات النشر الموثوقة والأمنية التي تنشأ في عصر النماذج الكبيرة، كما يأخذ في الاعتبار مناقشة الذكاء الاصطناعي الجدير بالثقة في الأدبيات الموجودة. في الوقت نفسه، يشير تعريف وتقسيم الفئات الرئيسية إلى تطبيق النماذج الكبيرة في المجتمع، ويحاول التأكد من أن كل بعد تقييم له درجة معينة من الملاءمة والأهمية في تطبيقات النماذج الكبيرة السائدة. يتم توفير الأدبيات والمناقشات المحددة ضمن كل فئة وفئاتها الفرعية في المقالة.
بالنسبة لكل فئة فرعية، تجري المقالة بحثًا ومناقشة ذات صلة، وتوفر أيضًا دراسات حالة لتوضيح مشكلات النماذج ذات الصلة في أبعاد الجدارة بالثقة ذات الصلة. على سبيل المثال، يوضح المثال التالي بعض الأخطاء التي ارتكبها ChatGPT في الأسئلة الواقعية:
باستخدام المثال التالي، تتناول هذه المقالة المعلومات غير القانونية التي قد تكون موجودة في مخرجات النموذج الكبير:
أبحاث التقييم
تختار هذه المقالة 8 فئات فرعية وتصمم دراسات التقييم المقابلة لها. تشمل الفئات الفرعية المستهدفة ما يلي:
الموثوقية: وهم نموذج اللغة
السلامة والأعراف الاجتماعية: المواضيع المتعلقة بالسلامة (مثل العنف والتمييز وخطاب الكراهية وما إلى ذلك)
*العدل: (الجنس) النمطية
الموثوقية: أخطاء المعايرة
مقاومة الإساءة: إساءة استخدام الدعاية والهجمات الإلكترونية
مقاومة الإساءة: تسريب حقوق النشر
القابلية للتفسير: الاستدلال السببي
المتانة: المتانة لهجمات الأخطاء الإملائية
تأخذ المقالة "الأعراف الأمنية والاجتماعية" كمثال، بدءًا أولاً من مجموعة بيانات الفريق الأحمر Anthropic RLHF الموجودة [4] استخرج بعض الكلمات الرئيسية المتعلقة بالأمان (راجع الورقة الأصلية للحصول على التفاصيل)، ثم استخدم LLM أخرى لإنشاء كلمات إرشادية () للتعليمات غير الآمنة كأسئلة اختبار.
ولهذا الغرض، تختار المقالة text-davinci-003 كنموذج للأسباب التالية: (1) إنه نموذج متسق، ولكنه غير متوافق بشكل كبير مع البعد الأمني مثل ChatGPT، لذا فهو أفضل في توليد ردود مثيرة للجدل ومسيئة؛(2 ) لا تستطيع النماذج المنحرفة تمامًا (مثل دافينشي) فهم المهمة جيدًا واتباع التعليمات البشرية.
على وجه التحديد، سأل الباحث text-davinci-003: "اكتب سؤالًا يتضمن ." اختر من بين "غير أخلاقي" أو "خطير" أو "غير قانوني" أو "مثير للاشمئزاز". هي الكلمات الرئيسية المستخرجة سابقا. على سبيل المثال:
تستخدم هذه المقالة الأسئلة التي تم إنشاؤها بواسطة text-davinci-003 كأسئلة اختبار.
أخيرًا، يستخدم المقال GPT-4 لتحديد ما إذا كان نموذج الاختبار يرفض الرد على الأسئلة غير الآمنة، كما يلي:
قام الباحثون بتقييم 6 درجات LLM: davinci، وOPT-1.3B، وtext-davinci-003، وflan-t5-xxl، وgpt-3.5-turbo (ChatGPT)، وGPT-4. يوضح الشكل 2 نسبة كل LLM في مجموعة الاختبار والتي تعتبر ردًا آمنًا بواسطة GPT-4. من اليسار إلى اليمين على المحور السيني، يظهر النطاق من عدم المحاذاة تمامًا (davinci) إلى أحد أكثر برامج LLM المتاحة حاليًا (GPT-4) محاذاة تمامًا.
الاتجاه كما هو متوقع: عندما يكون LLM أكثر توافقًا، فمن المرجح أن يرفض الإجابة على التعليمات غير الآمنة. يحصل كل من Gpt-3.5-turbo (ChatGPT) وGPT-4 على نسبة أمان تبلغ 100% تقريبًا.
*الشكل 2: نتائج تقييم الأمن LLM. كما هو متوقع، عندما يكون LLM متوافقًا بشكل أفضل، فمن المرجح أن يرفض الإجابات على الأسئلة غير الآمنة. *
للتعرف على طرق التقييم وتفاصيل ونتائج الأبعاد الأخرى يرجى الرجوع إلى الورقة الأصلية.
مساعدة المحاذاة
يمكن لبيانات التقييم التي تم إنشاؤها أن تساعد أيضًا في جمع البيانات المتوافقة.
بأخذ الأمن كمثال، من أجل إنشاء بيانات تدريب متوافقة، يتم استخدام الردود المشروحة بـ LLM مباشرة. إذا قرر GPT-4 أن مخرجات النموذج تحتوي على معلومات ضارة، فإن الباحثين يعتبرون المخرجات مقترنة بالسؤال وتكون بمثابة عينة سلبية في مجموعة البيانات المحاذاة. ومن ناحية أخرى، إذا لم يتم الكشف عن أي معلومات ضارة، فإن الباحث يعتبر زوج المشكلة والمخرجات عينة إيجابية.
بعد أن قام الباحثون بمحاذاة البيانات التي تم إنشاؤها، استخدموا GPT-4 لمقارنة نتائج المخرجات قبل وبعد المحاذاة، مما يسمح لهم بتحديد الإجابة الأفضل من حيث المساعدة والصدق وعدم الضرر.
يوضح الجدول 1 في GPT-2، بعد أن أكمل الباحثون RLHF (التعلم المعزز من ردود الفعل البشرية، التعلم المعزز بناءً على ردود الفعل البشرية)، نسبة مجموعة بيانات الاختبار التي اعتبرها GPT-4 أفضل. بالمقارنة مع النموذج الأصلي، تم تحسين النموذج المحاذاة بشكل كبير.
*الجدول 1: بعد محاذاة البيانات التي أنشأها الباحث على * GPT-2 *، تعتبر نسبة الإخراج أفضل بواسطة GPT-4. بالمقارنة مع النموذج الأصلي (Vanilla)، تم تحسين النموذج بعد SFT وPPO بشكل كبير. *
استخدمت المقالة أيضًا بيانات التقييم التي تم إنشاؤها لإجراء الضبط الدقيق الخاضع للإشراف على LLaMA-7B، ووجدت أن 78% من المخرجات بعد الضبط الدقيق كانت أفضل مما كانت عليه قبل الضبط الدقيق.
ختاماً
توفر هذه المقالة للممارسين دراسة استقصائية حول بُعد مصداقية LLM، وتحلل بشكل شامل الاتجاهات والقضايا التي يجب مراعاتها والاهتمام بها في عملية بناء نموذج كبير جدير بالثقة. تظهر نتائج تقييم المقالة أن فعالية المحاذاة غير متناسقة في الأبعاد المختلفة، لذلك يجب على الممارسين إجراء المزيد من الاختبارات الدقيقة وتحسين محاذاة LLM. وفي الوقت نفسه، يوضح البحث في هذه المقالة أن البيانات التي تم إنشاؤها بواسطة التقييم يمكن أن تساعد أيضًا في إكمال مهمة محاذاة النماذج الكبيرة.
يحتاج الممارسون بشكل عاجل إلى أساليب أكثر مبدئية لتقييم وتنفيذ محاذاة LLM، مما يضمن التزام هذه النماذج بالقيم الاجتماعية والاعتبارات الأخلاقية. مع تقدم المجال، فإن معالجة هذه القضايا التي لم يتم حلها سيكون أمرًا بالغ الأهمية لبناء LLMs موثوقًا وخاضعًا للمساءلة بشكل متزايد.
شكرًا لـ Li Hang على اقتراحاته ومساعدته في مراجعة هذه المقالة.
مراجع
[1] OpenAI. جي بي تي-4. 2023*
[2] لونغ أويانغ، جيفري وو،* شو جيانغ، ديوغو ألميدا، كارول وينرايت، باميلا ميشكين، تشونغ تشانغ، ساندهيني أغاروال، كاتارينا سلامة، أليكس راي، وآخرون. تدريب النماذج اللغوية على اتباع التعليمات مع ردود الفعل البشرية. التقدم في العلوم العصبيةمعالجة المعلومات، 35:27730–27744، 2022
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
كيفية تقييم ما إذا كان نموذج اللغة الكبير ذو مصداقية؟ وفيما يلي ملخص للأبعاد السبعة
في النشر الفعلي، أصبحت كيفية "محاذاة" نموذج لغة كبير (LLM، نموذج لغة كبير)، أي جعل سلوك النموذج متوافقًا مع نوايا الإنسان [2،3]، مهمة رئيسية. على سبيل المثال، أمضت شركة OpenAI ستة أشهر في محاذاة GPT-4 قبل إصدارها [1] . ومع ذلك، فإن التحدي الذي يواجهه الممارسون هو عدم وجود توجيهات واضحة لتقييم ما إذا كانت مخرجات LLM تتوافق مع المعايير والقيم واللوائح الاجتماعية؛ وهذا يعيق تكرار ونشر LLM.
لحل هذه المشكلة، قدم ليو يانغ وباحثون آخرون من فريق أبحاث ByteDance مسحًا شاملاً حول الأبعاد الرئيسية التي يجب أخذها في الاعتبار عند تقييم مصداقية LLM. غطى الاستطلاع 7 فئات رئيسية لمصداقية LLM: الموثوقية، والسلامة، والعدالة، ومقاومة سوء الاستخدام، وقابلية الشرح والتفكير، والامتثال للمعايير الاجتماعية والمتانة.
يتم تقسيم كل فئة رئيسية إلى فئات فرعية، ليصبح المجموع 29 فئة فرعية. بالإضافة إلى ذلك، اختار الباحث 8 فئات فرعية لأبحاث التقييم المقابلة. تظهر نتائج التقييم، بشكل عام، أن النماذج ذات المواءمة الأعلى تؤدي أداءً أفضل من حيث المصداقية الشاملة. ومع ذلك، فإن فعالية المحاذاة تظهر بشكل مختلف في أبعاد مختلفة. يوضح هذا الحاجة إلى تحليل واختبار وتحسين محاذاة LLM بشكل أكثر تفصيلاً. تهدف هذه المقالة إلى تزويد الممارسين في هذا المجال برؤى وإرشادات قيمة من خلال تلخيص الأبعاد الرئيسية لماجستير إدارة الحقوق (LLM) الجدير بالثقة، والتي تعتبر بالغة الأهمية لفهم كيفية نشر LLM بشكل موثوق وعقلاني في التطبيقات المختلفة.
تصنيف محاذاة نماذج اللغة الكبيرة
يوضح الشكل 1 تصنيف محاذاة مصداقية نموذج اللغة الكبير المقترح في هذه الورقة: هناك 7 فئات رئيسية، تنقسم كل منها إلى مناقشات أكثر تفصيلاً، ليصبح المجموع 29 فئة فرعية. تستمر المقالة مع نظرة عامة على كل فئة:
يعتمد تحليل هذه المقالة على تحديات النشر الموثوقة والأمنية التي تنشأ في عصر النماذج الكبيرة، كما يأخذ في الاعتبار مناقشة الذكاء الاصطناعي الجدير بالثقة في الأدبيات الموجودة. في الوقت نفسه، يشير تعريف وتقسيم الفئات الرئيسية إلى تطبيق النماذج الكبيرة في المجتمع، ويحاول التأكد من أن كل بعد تقييم له درجة معينة من الملاءمة والأهمية في تطبيقات النماذج الكبيرة السائدة. يتم توفير الأدبيات والمناقشات المحددة ضمن كل فئة وفئاتها الفرعية في المقالة.
بالنسبة لكل فئة فرعية، تجري المقالة بحثًا ومناقشة ذات صلة، وتوفر أيضًا دراسات حالة لتوضيح مشكلات النماذج ذات الصلة في أبعاد الجدارة بالثقة ذات الصلة. على سبيل المثال، يوضح المثال التالي بعض الأخطاء التي ارتكبها ChatGPT في الأسئلة الواقعية:
أبحاث التقييم
تختار هذه المقالة 8 فئات فرعية وتصمم دراسات التقييم المقابلة لها. تشمل الفئات الفرعية المستهدفة ما يلي:
تأخذ المقالة "الأعراف الأمنية والاجتماعية" كمثال، بدءًا أولاً من مجموعة بيانات الفريق الأحمر Anthropic RLHF الموجودة [4] استخرج بعض الكلمات الرئيسية المتعلقة بالأمان (راجع الورقة الأصلية للحصول على التفاصيل)، ثم استخدم LLM أخرى لإنشاء كلمات إرشادية () للتعليمات غير الآمنة كأسئلة اختبار.
ولهذا الغرض، تختار المقالة text-davinci-003 كنموذج للأسباب التالية: (1) إنه نموذج متسق، ولكنه غير متوافق بشكل كبير مع البعد الأمني مثل ChatGPT، لذا فهو أفضل في توليد ردود مثيرة للجدل ومسيئة؛(2 ) لا تستطيع النماذج المنحرفة تمامًا (مثل دافينشي) فهم المهمة جيدًا واتباع التعليمات البشرية.
على وجه التحديد، سأل الباحث text-davinci-003: "اكتب سؤالًا يتضمن ." اختر من بين "غير أخلاقي" أو "خطير" أو "غير قانوني" أو "مثير للاشمئزاز". هي الكلمات الرئيسية المستخرجة سابقا. على سبيل المثال:
أخيرًا، يستخدم المقال GPT-4 لتحديد ما إذا كان نموذج الاختبار يرفض الرد على الأسئلة غير الآمنة، كما يلي:
الاتجاه كما هو متوقع: عندما يكون LLM أكثر توافقًا، فمن المرجح أن يرفض الإجابة على التعليمات غير الآمنة. يحصل كل من Gpt-3.5-turbo (ChatGPT) وGPT-4 على نسبة أمان تبلغ 100% تقريبًا.
للتعرف على طرق التقييم وتفاصيل ونتائج الأبعاد الأخرى يرجى الرجوع إلى الورقة الأصلية.
مساعدة المحاذاة
يمكن لبيانات التقييم التي تم إنشاؤها أن تساعد أيضًا في جمع البيانات المتوافقة.
بأخذ الأمن كمثال، من أجل إنشاء بيانات تدريب متوافقة، يتم استخدام الردود المشروحة بـ LLM مباشرة. إذا قرر GPT-4 أن مخرجات النموذج تحتوي على معلومات ضارة، فإن الباحثين يعتبرون المخرجات مقترنة بالسؤال وتكون بمثابة عينة سلبية في مجموعة البيانات المحاذاة. ومن ناحية أخرى، إذا لم يتم الكشف عن أي معلومات ضارة، فإن الباحث يعتبر زوج المشكلة والمخرجات عينة إيجابية.
بعد أن قام الباحثون بمحاذاة البيانات التي تم إنشاؤها، استخدموا GPT-4 لمقارنة نتائج المخرجات قبل وبعد المحاذاة، مما يسمح لهم بتحديد الإجابة الأفضل من حيث المساعدة والصدق وعدم الضرر.
يوضح الجدول 1 في GPT-2، بعد أن أكمل الباحثون RLHF (التعلم المعزز من ردود الفعل البشرية، التعلم المعزز بناءً على ردود الفعل البشرية)، نسبة مجموعة بيانات الاختبار التي اعتبرها GPT-4 أفضل. بالمقارنة مع النموذج الأصلي، تم تحسين النموذج المحاذاة بشكل كبير.
استخدمت المقالة أيضًا بيانات التقييم التي تم إنشاؤها لإجراء الضبط الدقيق الخاضع للإشراف على LLaMA-7B، ووجدت أن 78% من المخرجات بعد الضبط الدقيق كانت أفضل مما كانت عليه قبل الضبط الدقيق.
ختاماً
توفر هذه المقالة للممارسين دراسة استقصائية حول بُعد مصداقية LLM، وتحلل بشكل شامل الاتجاهات والقضايا التي يجب مراعاتها والاهتمام بها في عملية بناء نموذج كبير جدير بالثقة. تظهر نتائج تقييم المقالة أن فعالية المحاذاة غير متناسقة في الأبعاد المختلفة، لذلك يجب على الممارسين إجراء المزيد من الاختبارات الدقيقة وتحسين محاذاة LLM. وفي الوقت نفسه، يوضح البحث في هذه المقالة أن البيانات التي تم إنشاؤها بواسطة التقييم يمكن أن تساعد أيضًا في إكمال مهمة محاذاة النماذج الكبيرة.
يحتاج الممارسون بشكل عاجل إلى أساليب أكثر مبدئية لتقييم وتنفيذ محاذاة LLM، مما يضمن التزام هذه النماذج بالقيم الاجتماعية والاعتبارات الأخلاقية. مع تقدم المجال، فإن معالجة هذه القضايا التي لم يتم حلها سيكون أمرًا بالغ الأهمية لبناء LLMs موثوقًا وخاضعًا للمساءلة بشكل متزايد.
شكرًا لـ Li Hang على اقتراحاته ومساعدته في مراجعة هذه المقالة.
مراجع
[1] OpenAI. جي بي تي-4. 2023*
[2] لونغ أويانغ، جيفري وو،* شو جيانغ، ديوغو ألميدا، كارول وينرايت، باميلا ميشكين، تشونغ تشانغ، ساندهيني أغاروال، كاتارينا سلامة، أليكس راي، وآخرون. تدريب النماذج اللغوية على اتباع التعليمات مع ردود الفعل البشرية. التقدم في العلوم العصبية معالجة المعلومات، 35:27730–27744، 2022
[3] زاكاري كينتون، توم إيفريت، لورا وايدنجر، إيسون غابرييل، فلاديمير ميكوليك، وجيفري إيرفينغ. محاذاة وكلاء اللغة. طبعة arXiv المسبقة arXiv:2103.14659، 2021.*
[4] *