لم تعد شركة RLHF بحاجة إلى البشر. أثبت بحث فريق Google أن تصنيف الذكاء الاصطناعي قد وصل إلى المستوى البشري

المصدر الأصلي: Xinzhiyuan

مصدر الصورة: تم إنشاؤها بواسطة Unbounded AI‌

إذا تم استبدال "الإنسان" في RLHF، فهل هذا ممكن؟

يقترح أحدث بحث أجراه فريق Google استخدام نماذج كبيرة لتحل محل البشر في التعليقات التوضيحية للتفضيلات، وهو التعلم المعزز لملاحظات الذكاء الاصطناعي (RLAIF).

عنوان الورقة:

لقد وجد أن RLAIF يمكنه إنتاج تحسينات مماثلة لـ RLHF دون الاعتماد على المفسرين البشريين، بمعدل فوز قدره 50%.

وفي الوقت نفسه، أثبتت أبحاث Google مرة أخرى أن RLAIF وRLHF لهما معدل فوز يزيد عن 70% مقارنة بالضبط الدقيق الخاضع للإشراف (SFT).

اليوم، جزء مهم من التدريب على نماذج اللغات الكبيرة هو RLHF. يجعل البشر الاستجابات أكثر فائدة من خلال تقييم جودة مخرجات الذكاء الاصطناعي.

ومع ذلك، يتطلب هذا الكثير من الجهد، بما في ذلك تعريض العديد من المعلقين لمحتوى ضار ناتج عن الذكاء الاصطناعي.

الآن بعد أن أصبح RLAIF مشابهًا لـ RLHF، فإن النماذج المستقبلية لا تتطلب تعليقات بشرية ويمكن أيضًا تحسينها من خلال التكرار الذاتي.

لم يعد RLHF بحاجة إلى البشر بعد الآن

في الوقت الحاضر، أصبح RLHF هو الأسلوب الأساسي لضبط النماذج الكبيرة، بما في ذلك ChatGPT وBard والنماذج الأخرى التي تتبنى هذا النموذج.

على وجه التحديد، ينقسم RLHF إلى ثلاث خطوات: التدريب المسبق لماجستير الضبط الدقيق تحت الإشراف، وجمع البيانات لتدريب نموذج المكافأة، وضبط النموذج باستخدام RL.

باستخدام RLHF، يمكن تحسين النماذج الكبيرة لتحقيق أهداف مستوى التسلسل المعقدة التي يصعب تمييزها مع SFT التقليدي.

ومع ذلك، هناك مشكلة حقيقية للغاية وهي أن RLHF يتطلب بيانات واسعة النطاق وعالية الجودة مصنفة بشريًا، وما إذا كانت هذه البيانات يمكن أن تحقق نتيجة أفضل.

قبل دراسة Google هذه، كان الباحثون الإنسانيون أول من اكتشف استخدام تفضيلات الذكاء الاصطناعي لتدريب نماذج المكافآت من أجل ضبط RL.

لقد اقترحوا لأول مرة RLAIF في "الذكاء الاصطناعي الدستوري" ووجدوا أن LLM كان متسقًا للغاية مع الحكم البشري بل وتفوق على البشر في بعض المهام.

ومع ذلك، لم تقارن هذه الدراسة ردود فعل الذكاء البشري والذكاء الاصطناعي، لذلك لم يتم الحصول على الإجابة النهائية حول ما إذا كان RLAIF يمكن أن يحل محل RLHF.

أحدث أبحاث Google تهدف بشكل أساسي إلى حل هذه المشكلة.

قام الباحثون بمقارنة RLAIF وRLHF بشكل مباشر في مهمة تلخيص النموذج.

في حالة وجود نص واحد وإجابتين للمرشح، استخدم LLM جاهزًا لإعطاء تعليق توضيحي للتفضيلات.

بعد ذلك، يتم تدريب نموذج المكافأة (RM) بناءً على تفضيل LLM والخسارة المتباينة. وأخيرا، يتم ضبط نموذج السياسة من خلال التعلم المعزز ويستخدم نموذج المكافأة لمنح المكافآت.

إذًا، ما هو الفرق بين نهج RLAIF الذي اقترحته Google ومنهج Anthropic؟

جوجل نفسها تشرح في النص،

  • Google: قم بتدريب نموذج المكافأة وفقًا لتفضيلات التعليقات التوضيحية للذكاء الاصطناعي، ثم قم بإجراء الضبط الدقيق لـ RL.

  • الذكاء الاصطناعي الدستوري: تحسين نماذج التعلم الخاضعة للإشراف من خلال مطالبة LLM بشكل متكرر بإنشاء استجابات أفضل بناءً على الدستور.

وضع العلامات الذاتية بالذكاء الاصطناعي، وتحسين الذات

ما هي عملية طريقة RLAIF التي اقترحتها Google في أحدث الأبحاث؟

نموذج لغة كبير لتصنيف التفضيلات

استخدم الباحثون ماجستير إدارة الأعمال "الجاهز" لتحديد التفضيلات بين اثنين من المرشحين.

هذا نموذج تم تدريبه مسبقًا أو ضبطه للاستخدام العام، ولكن لم يتم ضبطه بدقة لمهمة محددة. نظرًا لنص وملخصين للمرشحين، يُطلب من LLM تقييم الملخص الأفضل. هيكل الإدخال لـ LLM هو كما يلي:

1. الديباجة

التعليمات التي تقدم وتصف المهمة المطروحة

2. مثيلات عينة متعددة (اختياري)

قطعة من النص، وزوج من الملخصات، والأساس المنطقي للفكرة، وحكم التفضيل

3. العينات التي سيتم تصنيفها

قطعة من النص وزوج من الملخصات للتعليق عليها

4. النهاية

مطالبة السلسلة النهائية لـ LLM (مثل "الملخص المفضل =")

بعد تقديم مدخلات إلى LLM، حصل الباحثون على الاحتمال اللوغاريتمي لتوليد الرموز المميزة "1" و"2" وحساب softmax للحصول على توزيع التفضيلات.

هناك العديد من الطرق للحصول على التعليقات التوضيحية للتفضيلات من LLM، مثل فك تشفير الاستجابات الحرة من النموذج واستخراج التفضيلات بشكل تجريبي (على سبيل المثال: الإخراج = "الملخص الأول أفضل")، أو تمثيل توزيع التفضيلات كتمثيل واحد ساخن (تمثيل ساخن واحد). ومع ذلك، لم يجرب الباحثون هذه البدائل لأن طريقتهم أنتجت بالفعل مستويات عالية من الدقة.

جرب الباحثون نوعين من المقدمات: الأول، "Base"، والذي يسأل ببساطة "أي الملخص أفضل؟"، والثاني، "OpenAI"، الذي يحاكي النهج المستخدم لإنشاء مجموعة بيانات تفضيلات OpenAI TL;DR. تعليمات التصنيف الخاصة بعلامات التفضيل البشري مع معلومات مفصلة حول ما يشكل ملخصات قوية. كما هو مبين أدناه.

قام الباحثون أيضًا بتجربة التعلم السياقي عن طريق إضافة عدد صغير من العينات إلى المطالبات، حيث تم اختيار العينات يدويًا لتغطية موضوعات مختلفة. حل انحراف الموقف.

تشير النتائج السابقة إلى أن الترتيب الذي يتم به تقديم المرشحين إلى LLM قد يؤثر على المرشح الذي يفضله قضاة LLM. وقد وجد الباحثون دليلاً على هذا التحيز الموضعي، خاصة بالنسبة لطلاب ماجستير القانون المشروحين الأصغر حجمًا.

للتخفيف من التحيز الموضعي في تصنيف التفضيلات، نقوم بتشغيل استنتاجين على كل زوج من المرشحين، ويتم عكس الترتيب الذي يتم به تقديم المرشحين إلى LLM. ثم يتم حساب متوسط نتائج الاستنتاجين للحصول على توزيع التفضيل النهائي.

تفكير سلسلة التفكير

يحاول الباحثون استنباط منطق تسلسل الأفكار (COT) من أدوات تمييز الذكاء الاصطناعي لتحسين الاتساق مع التفضيلات البشرية.

يستبدل الباحثون إشارات النهاية القياسية (على سبيل المثال، "الملخص المفضل =" بـ "ضع في الاعتبار التماسك والدقة والتغطية والجودة الشاملة لكل ملخص واشرح أيهما أفضل. الأساس المنطقي:") ثم فك تشفير رد LLM.

أخيرًا، قام الباحثون بتسلسل الموجه الأصلي والاستجابة وسلسلة النهاية الأصلية "الملخص المفضل =" واتبع إجراء التسجيل في القسم 3.1 للحصول على توزيع التفضيلات. انظر الشكل أدناه للتعرف على العملية المحددة.

في مطالبات العينة الصفرية، لا يقدم LLM أي مثال على الشكل الذي يجب أن يبدو عليه الاستدلال، بينما في مطالبات العينات القليلة، يقدم الباحثون أمثلة على استنتاج COT للنموذج الذي يجب اتباعه. انظر الشكل أدناه للحصول على مثال.

### الاتساق الذاتي

بالنسبة لإشارات سلسلة التفكير، جرب الباحثون أيضًا الاتساق الذاتي، وهي تقنية تعمل على تحسين تفكير سلسلة التفكير عن طريق أخذ عينات من مسارات التفكير المتعددة وتجميع الإجابات النهائية المنتجة في نهاية كل مسار.

استخدم درجة حرارة فك التشفير غير الصفرية لأخذ عينات من أساسيات سلسلة التفكير المتعددة، ثم احصل على توزيع تفضيلات LLM لكل سلسلة فكرية وفقًا للطريقة الموضحة في القسم السابق. ثم يتم حساب متوسط النتائج للحصول على توزيع التفضيل النهائي.

التعلم المعزز بملاحظات الذكاء الاصطناعي

بعد أن تقوم LLM بتوضيح التفضيلات، يتم تدريب نموذج المكافأة (RM) للتنبؤ بالتفضيلات. نظرًا لأن طريقة الباحثين تنتج ملصقات ناعمة، فإنهم يستخدمون خسارة الإنتروبيا المتقاطعة لـ softmax لدرجة المكافأة الناتجة عن RM بدلاً من الخسارة المذكورة في نموذج المكافأة.

تقوم Softmax بتحويل الدرجات غير المحدودة من RM إلى توزيعات احتمالية.

يمكن اعتبار تدريب مديري السجلات على مجموعات البيانات المسماة بالذكاء الاصطناعي شكلاً من أشكال التقطير النموذجي، خاصة وأن أدوات تمييز الذكاء الاصطناعي الخاصة بالباحثين غالبًا ما تكون أكبر وأقوى من RMs.

هناك طريقة أخرى تتمثل في تجاوز RM واستخدام تعليقات الذكاء الاصطناعي مباشرة كإشارة مكافأة في RL، على الرغم من أن هذا النهج أكثر تكلفة من الناحية الحسابية لأن المعلق التوضيحي للذكاء الاصطناعي أكبر من RM.

باستخدام RM المدرب، أجرى الباحثون التعلم المعزز باستخدام نسخة معدلة من خوارزمية Advantage Actor Critic (A2C) التي تم تكييفها مع مجال نمذجة اللغة.

يقيم

قام الباحثون بتقييم نتائجهم من خلال ثلاثة مقاييس – محاذاة التعليقات التوضيحية بالذكاء الاصطناعي، ودقة الاقتران، ومعدل الفوز.

يتم استخدام محاذاة التعليقات التوضيحية للذكاء الاصطناعي لقياس دقة تفضيلات التعليقات التوضيحية للذكاء الاصطناعي مقارنة بالتفضيلات البشرية.

على سبيل المثال، قم بتحويل التفضيلات الموسومة بالذكاء الاصطناعي الناعم إلى تمثيل ثنائي. قم بتعيين 1 إذا كان التعليق التوضيحي متوافقًا مع التفضيل البشري المستهدف، وقم بتعيين 0 بخلاف ذلك.

الدقة الزوجية هي مقياس لدقة نموذج المكافأة المُدرب بالنسبة لمجموعة من التفضيلات البشرية المحتفظ بها.

نظرًا للسياق المشترك وزوج من استجابات المرشح، تكون دقة الاقتران 1 إذا سجل RM المرشح المفضل أعلى من المرشح غير المفضل بناءً على التعليقات التوضيحية البشرية. وإلا فإن القيمة هي 0. هذا الرقم هو متوسط الأمثلة المتعددة لقياس الدقة الإجمالية لـ RM.

يقوم معدل الفوز بتقييم الجودة الشاملة لاستراتيجيتين من خلال قياس عدد المرات التي يفضل فيها البشر واحدة على الأخرى.

بالنظر إلى المدخلات والنتيجتين اللتين تم إنشاؤهما، يختار المعلق البشري النتيجة التي يفضلها. النسبة المئوية للحالات التي تكون فيها الإستراتيجية "أ" أفضل من الإستراتيجية "ب" تسمى "معدل فوز "أ" مقابل "ب".

تفاصيل التجربة

استخدم الباحثون مجموعة بيانات Reddit TL;DR المفلترة برعاية OpenAI. TL;DR يحتوي على حوالي 3 ملايين مشاركة من Reddit حول موضوعات مختلفة (تُعرف أيضًا باسم "subreddits") بالإضافة إلى ملخصات للمشاركات التي كتبها المؤلفون الأصليون.

تتم أيضًا تصفية البيانات بواسطة OpenAI لضمان الجودة العالية، والتي تتضمن استخدام القائمة البيضاء لموضوعات Reddit التي يمكن لعامة الناس فهمها.

بالإضافة إلى ذلك، تم تضمين فقط المشاركات التي تحتوي على 24 إلى 48 تعليقًا توضيحيًا في الملخص. تحتوي مجموعة البيانات التي تمت تصفيتها على 123,169 منشورًا، حوالي 5% منها بمثابة مجموعة التحقق من الصحة.

يمكن العثور على مزيد من التفاصيل حول مجموعة البيانات في الورقة الأصلية. بالإضافة إلى ذلك، قامت OpenAI برعاية مجموعة بيانات التفضيلات البشرية من مجموعة بيانات TL;DR التي تمت تصفيتها.

بالنسبة لمنشور معين، يتم إنشاء ملخصين للمرشحين بناءً على استراتيجيات مختلفة ويطلب من المعلقين تقييم الملخص المفضل لديهم. تحتوي مجموعة البيانات الإجمالية على ما يقرب من 92 ألف مقارنات زوجية.

شرح LLM

لتقييم فعالية تقنيات التعليقات التوضيحية للذكاء الاصطناعي (على سبيل المثال، التلميحات والاتساق الذاتي)، اختار الباحثون أمثلة من مجموعة بيانات تفضيلات TL;DR، حيث يفضل المفسرون البشريون الملخصات ذات الثقة الأعلى.

قام الباحثون بتقييم محاذاة التعليقات التوضيحية للذكاء الاصطناعي على مجموعة فرعية عشوائية بنسبة 15% من تقسيم التدريب لمجموعة البيانات لتمكين تكرارات تجريبية أسرع، مما أدى إلى إنشاء 2,851 مثال تقييم.

بالنسبة للتدريب على نموذج المكافأة، يتم شرح تقسيمات التدريب الكاملة لمجموعة بيانات تفضيلات TL;DR بواسطة LLM واستخدامها للتدريب بغض النظر عن درجة الثقة.

التدريب النموذجي

قام الباحثون بتدريب نموذج SFT على مجموعة بيانات TL;DR التي تمت تصفيتها من OpenAI باستخدام PaLM 2 Extra-Small (XS) كنقطة تفتيش أولية.

بعد ذلك، قام الباحثون بتهيئة RMs من نموذج SFT وتدريبهم على مجموعة بيانات التفضيلات البشرية TL;DR الخاصة بـ OpenAI.

للحصول على النتائج في الجدولين 1 و5.1، استخدم الباحثون PaLM 2L لإنشاء تفضيلات مشروحة بالذكاء الاصطناعي، باستخدام تلميحات "OpenAI + COT 0-shot" (، بدون اتساق ذاتي، ثم قاموا بتدريب مجموعة بيانات RM على التفضيلات الكاملة.

لتعزيز التعلم، يستخدم الباحثون ميزة الناقد الفاعل (A2C) لتدريب السياسات. تتم تهيئة كل من نماذج السياسة والقيمة من نموذج SFT. يستخدم الباحثون مجموعة بيانات Reddit TL;DR المفلترة كحالة أولية لطرح استراتيجيتهم.

تقييم الفصل البشري

جمع الباحثون 1200 تقييمًا بشريًا لتقييم استراتيجيات RLHF وRLAIF. لكل مهمة تصنيف، يتلقى المقيمون منشورًا وأربعة ملخصات تم إنشاؤها وفقًا لاستراتيجيات مختلفة (واحدة لكل من RLAIF وRLHF وSFT والمرجع البشري) ويطلب منهم ترتيبهم حسب الجودة دون أي روابط.

يتم أخذ المشاركات من مجموعة الإيقاف الخاصة بـ TL؛ مجموعة بيانات الضبط الدقيق التي أشرف عليها DR، والتي لم يتم استخدامها لأي تقييم آخر. بمجرد جمع هذه التصنيفات، يمكن حساب معدل الفوز لأي استراتيجيتين.

نسبة الفوز 50%، التعادل

RLAIF vs.RLHF

في بداية المقال، قدمنا مزايا مقارنة Google بين RLAIF وRLHF، وأظهرت النتائج أن الطريقتين لهما أداء مماثل.

على وجه التحديد، يفضل المقيمون البشريون RLAIF بنسبة 71٪ من الوقت مقارنةً بخط الأساس SFT. يتفوق RLHF على SFT بنسبة 73% من الوقت.

قام الباحثون أيضًا بمقارنة معدلات الفوز لـ RLAIF وRLHF بشكل مباشر، ووجدوا أن شعبيتهما متكافئة - أي أن كلاهما لديه معدل فوز بنسبة 50٪.

ولفهم الاختلافات بين الاستراتيجيتين بشكل أكبر، أجرت Google مقارنة نوعية للملخصات التي تنتجها.

بالإضافة إلى ذلك، قاموا بمقارنة ملخصات RLAIF وRLHF مع ملخصات مرجعية مكتوبة بواسطة الإنسان. أنتجت RLAIF ملخصات أفضل من الملخصات المرجعية بنسبة 79% من الوقت، وتفوقت نتائج RLHF على الملخصات المرجعية بنسبة 80% من الوقت.

ويمكن ملاحظة أن فرق معدل الفوز بين RLAIF وRLHF والملخص المرجعي هو 1% فقط، ولا يوجد فرق كبير.

ومن الجدير بالذكر أن الباحثين وجدوا أيضًا أن تكرار الهلوسة في استراتيجية RLHF غالبًا ما يكون أعلى منه في RLAIF، كما هو موضح في النص الأحمر في الجدول أعلاه.

بعد التحكم في طول الملخص، لا تزال استراتيجيات RLAIF وRLHF تتفوق على SFT الأساسي وتحقق معدلات فوز مماثلة.

توضح هذه النتائج أن RLAIF لا يحتاج إلى الاعتماد على الشرح البشري وهو بديل قابل للتطبيق لـ RLHF.

النصائح والحيل

في استخدام تقنيات المطالبة، جرب فريق Google ثلاثة أنواع من تقنيات المطالبة، وتحديد الديباجة، وCoT، وتعلم السياق في عينات قليلة.

لقد وجد أنه من خلال مطالبات تمهيدية تفصيلية لـ OpenAI واستدلال CoT، يمكن لمعلق التعليقات التوضيحية للذكاء الاصطناعي تحقيق اتساق بنسبة 78%.

التعلم السياقي لا يحسن الدقة بل قد يزيد الأمر سوءًا.

### الاتساق الذاتي

وأجرى الباحثون تجارب الاتساق الذاتي باستخدام 4 و16 عينة، مع درجة حرارة فك تشفير قدرها 1.

وبأخذ عينات من مبادئ سلسلة التفكير المتعددة باستخدام T = 1، تكون النتائج أقل اتساقًا مع التفضيلات البشرية.

### حجم نموذج التعليق التوضيحي الكبير

ووجدت الدراسة أيضًا أن توسيع نطاق مقياس المعلمات لعلامات التمييز ذات النماذج الكبيرة قد يؤدي إلى تعليقات توضيحية تفضيلية ذات جودة أعلى.

عدد الأمثلة المفضلة

كيف تتغير دقة نموذج المكافأة مع أمثلة التدريب؟

ووجد الباحثون أنه بعد التدريب على آلاف الأمثلة، اقترب أداء نموذج المكافأة من أداء التدريب على مجموعة البيانات الكاملة.

ختاماً

أثبت الباحثون أن RLAIF يمكنه إنتاج تحسينات مماثلة لـ RLHF دون الاعتماد على الشروح البشرية.

على الرغم من أن هذا العمل يسلط الضوء على إمكانات RLAIF، لا تزال هناك بعض القيود.

أولاً، استكشفت هذه الدراسة مهمة التلخيص فقط، وهناك حاجة إلى مزيد من البحث حول التعميم على المهام الأخرى.

ثانيًا، لم يقدر الباحثون ما إذا كان استنتاج LLM أكثر فائدة من الشرح اليدوي من حيث التكلفة الاقتصادية.

بالإضافة إلى ذلك، هناك بعض الأسئلة المثيرة للاهتمام التي يجب التحقيق فيها، مثل ما إذا كان RLHF جنبًا إلى جنب مع RLAIF يمكن أن يتفوق في الأداء على نهج واحد، ومدى جودة تعيين المكافآت مباشرة باستخدام LLM، وما إذا كان تحسين محاذاة علامات الذكاء الاصطناعي يترجم إلى سياسات نهائية محسنة، وما إذا كان يمكن تحسين السياسة بشكل أكبر تم تحسينه باستخدام علامة LLM التي لها نفس حجم نموذج السياسة (أي ما إذا كان النموذج يمكنه "التحسين الذاتي").

نقاش ساخن بين مستخدمي الإنترنت

نشرت جوجل ورقتين حول RL:

  1. RLAIF: نماذج مكافأة التدريب المشابهة للتغذية الراجعة البشرية

  2. ReST: تسهيل التدريب الذاتي باستخدام النماذج التوليدية يمكن أن يؤدي الجمع بين هاتين الورقتين إلى إرضاء خوارزميات الذكاء الاصطناعي المتعطشة للبيانات

قبل نصف شهر، اقترح Google DeepMind للتو خوارزمية جديدة ReST من أجل جعل نماذج لغوية واسعة النطاق متوافقة مع التفضيلات البشرية.

على وجه التحديد، من خلال أساليب التعلم المعزز دون الاتصال بالإنترنت، تم تحسين جودة ترجمة نماذج اللغات الكبيرة لتلبية التفضيلات البشرية بشكل أفضل.

وقال أحد الباحثين إن نموذج كلود الذي أعدته أنثروبيك يبدو أضعف من نموذج جي بي تي-4 بناءً على الاختبارات النوعية. قد يكون السبب في ذلك هو أساليب RLHF/RLAIF أو التدريب المسبق. ومن غير الواضح ما إذا كانت هذه الأساليب يمكن تعميمها بشكل أفضل في الممارسة العملية، حتى لو كان أداؤها أفضل في المعايير الأكاديمية.

لن أقول أن هذا يقلل من أهمية التعليقات التوضيحية البشرية، ولكن هناك شيء واحد مؤكد، وهو أن RL التي يغذيها الذكاء الاصطناعي يمكن أن تقلل التكلفة. لا يزال التعليق التوضيحي البشري مهمًا للغاية للتعميم، وتتفوق الطريقة الهجينة RLHF+RLAIF في الأداء على أي طريقة واحدة.

يعتقد معظم مستخدمي الإنترنت أن الورقة تمثل إنجازًا كبيرًا، لكن بعض مستخدمي الإنترنت يشعرون أنها لا تبدو مختلفة جوهريًا عن RLAIF في دستور كلود الذي اقترحته Anthropic قبل بضعة أشهر.

مراجع:

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • مشاركة
تعليق
0/400
لا توجد تعليقات
  • تثبيت