جان ليك: كيف ستحقق OpenAI التوافق الفائق خلال 4 سنوات؟

2023-09-01 03:00:18

المؤلف: دانيال فيلان@AXRP

المصدر: أوفرسيز يونيكورن

أوصى به: مترجم Cage: wenli، Yanxi التنضيد: Mengxi، Scout

أعلنت شركة OpenAI عن خطتها "Superalignment" في بداية الشهر الماضي، وأعلنت أنها ستستثمر 20% من إجمالي قوتها الحاسوبية في هذا الاتجاه الجديد في وقت واحد. سيقود المؤسس المشارك لـ OpenAI وكبير العلماء إيليا سوتسكيفر والقائد السابق لفريق المحاذاة جان ليك هذا المشروع الجديد بشكل مشترك، بهدف حل التحديات التقنية الأساسية لمحاذاة الذكاء الفائق في غضون 4 سنوات لضمان قدرة البشر على التحكم في الذكاء الفائق.

من أجل تحقيق ذلك، يحتاج OpenAI أولاً إلى تدريب "المصفف التلقائي على نفس مستوى البشر"، ثم استخدام هذا "المصفف التلقائي" لتحقيق التوافق مع الذكاء الفائق. وفقًا للمقالة تقديم المحاذاة الفائقة، "المحاذاة التلقائية" يتضمن تصميم "Aligner" أيضًا تحقيق تقييم الذكاء الاصطناعي والإشراف عليه، والتحقق الأمني للنظام بناءً على قابلية الشرح، واختبار اضطراب النظام باستخدام نماذج غير محاذية.

تم تجميع هذه المقالة من مقابلة مع جان ليك، وهي عبارة عن تفكير فني أكثر تفصيلاً لجان ليك حول كيفية تحقيق OpenAI "للتوافق الفائق".

** فيما يلي جدول محتويات هذا المقال، وينصح بقراءته مع النقاط الرئيسية. **

👇

01 فريق المحاذاة الفائقة

02 دع النموذج "يتوافق بشكل مستقل"

03 الجدول الزمني للمحاذاة الفائقة

04 التعميم

05 كن متفائلاً بشأن المحاذاة الفائقة

01.فريق Superalignment

**دانيال فيلان: هل ترغب في تقديم فريق Superalignment أولاً؟ **

جان ليك: هدف فريق Superalignment هو حل مشكلة المحاذاة فائقة الذكاء في السنوات الأربع القادمة. وسينضم أيضًا إيليا سوتسكيفر، المؤسس المشارك وكبير العلماء في OpenAI، إلى الفريق ويشاركني في قيادة هذا المشروع. بالإضافة إلى ذلك، ستخصص OpenAI أيضًا 20% من مواردها الحاسوبية لهذا الموضوع. نحن نعمل أيضًا على توظيف المواهب للانضمام إلى فريق المشروع هذا. **نأمل بشدة في جذب خبراء ومهندسي التعلم الآلي الذين لم يشاركوا في أبحاث المحاذاة، وربما يستطيع هؤلاء الأشخاص بذل إمكانات كبيرة في هذه القضية. **

لقد صممنا إطار عمل أولي، والفكرة الأساسية هي تدريب باحث محاذاة آلي على مستوى الإنسان (باحث محاذاة آلي على مستوى الإنسان) على نفس مستوى البشر، ومن ثم سنستمر في دراسة كيفية إكمال عمل محاذاة الذكاء الفائق . لذا فإن أحد الأشياء الأساسية التي يتعين علينا القيام بها هو معرفة كيفية "محاذاة" أداة المحاذاة التلقائية هذه.

**دانيال فيلان: ما هو حجم هذا الفريق الجديد؟ **

جان لايكي: لدينا الآن حوالي 20 شخصًا، وقد نصل إلى 30 بحلول نهاية هذا العام. وفي السنوات الأربع المقبلة، من المرجح ألا يتجاوز هذا الفريق 100 شخص، ولكن الطريقة التي سيتوسع بها هذا الفريق قد تكون هناك الملايين من "الأشخاص الافتراضيين"، أو على الأقل ما يعادل عدد موظفي OpenAI (** ملاحظة Shixiang: ** يشير "الأشخاص الافتراضيون" هنا إلى الاستخدام الداخلي لـ OpenAI لنماذج متعددة للتعاون مع العلماء) طريقة القيام بذلك المحاذاة). ومن هذا المنظور، سنتوسع بالتأكيد على نطاق واسع في المستقبل.

**دانيال فيلان: لقد ذكرت أن OpenAI ستمنح الفريق 20% من قوة الحوسبة، ماذا تعني هذه الـ 20%؟ **

**جان ليك: **بالنسبة لـ OpenAI، فإن 20% من قوة الحوسبة المخصصة لهذا الفريق ليس عددًا صغيرًا، إنه بالتأكيد أكبر استثمار قمنا به حتى الآن، وقد يتجاوز إجمالي الاستثمارات الأخرى. **لذلك، بهذا المعنى، فإن 20% من موارد الحوسبة تمثل نسبة كبيرة لـ OpenAI. بالإضافة إلى ذلك، إذا جعلنا هذا الرقم كبيرًا جدًا، فمن المؤكد أن بعض الناس سوف يتساءلون عما إذا كان OpenAI يمكنه فعل ذلك بالفعل، فالنظام مدرب مسبقًا، مما سيتطلب الكثير من موارد الحوسبة.

**دانيال فيلان: قبل ذلك، كان لدى OpenAI بالفعل فريق Alignment، فهل لا يزال هذا الفريق موجودًا؟ **

جان ليك: يتكون فريق المحاذاة الذي تم إنشاؤه العام الماضي من جزأين، أحدهما يسمى "المحاذاة العملية" والآخر يسمى "المحاذاة القابلة للتطوير". يركز فريق المحاذاة العملية على محاذاة GPT-4، بينما يهدف فريق المحاذاة القابلة للتوسيع إلى دراسة مشاكل المحاذاة التي لا يمكننا حلها حاليًا. مع إصدار ChatGPT ونجاحه اللاحق، تتزايد أهمية ChatGPT وحجم منتجه باستمرار، مما يتطلب RLHF ونماذج أكبر لضمان اكتمال وظائف المنتج وخبرته بشكل كافٍ، ولم يعد فريق المواءمة مناسبًا لهذا الغرض.

لقد تم الآن توزيع أعمال المحاذاة العملية التي ذكرناها سابقًا بين فرق مشروع OpenAI المختلفة، وربما يشارك فيها مئات الأشخاص، لذا فهو بالفعل مشروع واسع النطاق للغاية، ويتم الآن تنفيذ أعمال المحاذاة القابلة للتطوير بواسطة فريق Superalignment الأشياء التي يجب القيام بها.

سبب اختيارنا لاسم Superalignment هو أننا نريد التأكيد على أن الأشياء التي ندرسها حاليًا هي في الواقع مشاكل لم تظهر بعد، فأبحاثنا استشرافية نسبيًا وموجهة نحو المستقبل.

**دانيال فيلان: كيف تنظر إلى محاولات الأشخاص أو الفرق خارج OpenAI للتوافق؟ **

جان ليك: هناك العديد من الأشخاص أو الفرق خارج OpenAI الذين يحاولون أيضًا العمل عليها، وخاصة DeepMind وAnthropic، بطريقة ما، نحاول جميعًا حل نفس المشكلة، لذلك ينتهي بنا الأمر إلى القيام بالمثل العمل إنه أمر طبيعي أيضا. هناك أعمال أخرى حول إمكانية التفسير والإشراف القابل للتطوير.

بطريقة ما، نحن في الواقع نواجه خطر تكرار مجموعة من الأعمال، لذلك نحاول بشكل مثالي معرفة كيفية التنسيق بشكل أفضل أو التعاون بشكل أكبر. ولكن إذا كان الجميع يفعلون نفس الشيء، فيمكن تجنب "التفكير الجماعي"، لأنه إذا أراد كل مختبر حل هذه المشكلات بشكل مستقل، فمن الطبيعي أن يشكك في نتائج المختبرات الأخرى، وسوف ينتج الجانب السلبي "التفكير الجماعي". -أو التأثير: لا يرغب الناس في استخدام التقنيات التي تم اختراعها في مكان آخر، ومن الطبيعي أن يعتقد الناس أن التقنيات الأخرى غير تقنياتهم ليست جيدة، أو ينظرون إليها بنوع من التحيز.

لذا فإن الأمر ليس في توازن جيد في الوقت الحالي، وعلى الرغم من وجود سبب للاعتقاد بأن جميع الأشخاص المتحالفين يجب أن يكونوا في مكان واحد ويعملوا معًا بطريقة ما، فهذه هي الحقيقة لأنه بطبيعتها، تتمتع مختبرات الذكاء الاصطناعي المتطورة بالحافز لإنفاق الكثير من الموارد على المواءمة. وقد أصبح هذا واضحًا أيضًا مع نجاح RLHF، الذي يجعل النماذج أكثر قابلية للتطبيق تجاريًا، مما يجعلها أكثر جاذبية للاستثمار في البحث في مثل هذه التقنيات.

**دانيال فيلان: كيف يختلف نهج فريق OpenAI Superalignment؟ **

جان ليك: نحن نركز حقًا على كيفية محاذاة أداة المحاذاة التلقائية هذه، بدلاً من معرفة كيفية محاذاة المهام المختلفة. لذا، على الأقل في هذه القضية، نحن لسنا قلقين للغاية بشأن ضريبة المحاذاة. لا أعتقد أن المعامل الأخرى تؤكد على هذا الهدف أو الاتجاه بهذه الطريقة.

ضريبة المحاذاة:

تُعرف أيضًا باسم ضريبة الأمان، وتشير إلى التكلفة الإضافية لضمان توافق أنظمة الذكاء الاصطناعي. تعني ضريبة المحاذاة بموجب RLHF المذكورة في هذه المقالة أنه من أجل تنفيذ RLHF، يتم فقدان قدرة النموذج الأساسي من أجل تحقيق المحاذاة، مثل زيادة وقت التطوير أو الحسابات الإضافية أو تدهور الأداء، وما إلى ذلك.

**نهجنا الصعودي للغاية هو: تجربة جميع تقنيات المحاذاة القابلة للتطوير، ومعرفة أي منها يعمل بشكل أفضل، ومحاولة العثور على طرق يمكن مقارنتها تجريبيًا. تمتلك مختبرات أخرى أيضًا تقنيات إشراف محددة قابلة للتطوير، وهي متفائلة جدًا بها، وتحاول استخدام هذه التقنيات أيضًا. أيضًا، فيما يتعلق بقابلية التفسير، نحن نتبع منهجًا آليًا لقابلية التفسير، ونحن ندفعه كثيرًا، وهو ما لا تركز عليه المعامل الأخرى كثيرًا في الوقت الحالي. **

الشيء الآخر الذي نريد فعله حقًا هو استخدام الحساب لتعزيز المحاذاة، وهو أحد استراتيجياتنا الرئيسية، خاصة فيما يتعلق بالإشراف القابل للتطوير، نريد حقًا معرفة كيف يمكننا الحصول على المزيد من قوة الحوسبة لإرسالها من إشارات إشرافية أفضل؟ ما هي الفرص التي لدينا؟ كيف نجعل النموذج النقدي (النموذج النقدي) أفضل؟ كيفية استخدام المزيد من قوة الحوسبة لجعل إشارة الإشراف أقوى؟ تعد إمكانية الترجمة الآلية (إمكانية الترجمة الآلية) طريقة بسيطة جدًا، ولا نحتاج إلا إلى استثمار الكثير من قوة الحوسبة لإحراز تقدم في هذه المشكلة.

نموذج نقدي:

هو نموذج لغة مستقل. يقوم بمراجعة نتائج نظام الذكاء الاصطناعي الأول قبل كتابة المراجعات.

بالإضافة إلى ذلك، هناك دراسات معايرة آلية: إذا أمكن القيام بذلك، فيمكننا الحصول على المزيد من نتائج المحاذاة من خلال استثمار المزيد من قوة الحوسبة. ولكن بما أن ما نريد فعله حقًا هو تحويل مقدار قوة الحوسبة إلى قدرة الحوسبة، فنحن الآن بحاجة إلى الكثير من قوة الحوسبة، ولهذا السبب فإن OpenAI على استعداد لتخصيص 20% من قوة الحوسبة للمحاذاة. ما يقوله هذا أساسًا هو أننا إذا اكتشفنا بالفعل هذا المصفف التلقائي ووجدنا أننا بحاجة إلى المزيد من قوة الحوسبة، فيمكننا استخدام المزيد من قوة الحوسبة لتشغيله. وهذا يعني أيضًا أن استراتيجية تحويل قوة الحوسبة إلى محاذاة ناجحة وسيتم دعمها بواسطة OpenAI.

02. دع النموذج "يتم محاذاته بشكل مستقل"

ما هو "المصفف التلقائي"

**دانيال فيلان: ما هو "الباحث الآلي في المحاذاة على المستوى البشري"؟ **

**جان ليك: هدفنا هو استخدام الأنظمة الآلية قدر الإمكان لتقسيم المهام وتوزيعها في أعمال المحاذاة. **

بالنسبة لنماذج اللغة أو أنظمة الذكاء الاصطناعي الأخرى، فإن العمل الذي يمكنها إنجازه لا يتوافق بنسبة 100% مع البشر. على سبيل المثال، قد يكون أداء طلاب الماجستير في القانون أفضل من البشر في أشياء مثل الترجمة أو الإجابة على الأسئلة الواقعية، لكنهم قد لا يكونون قادرين مثل البشر في الحسابات الحسابية أو بعض المهام الأخرى. ** إذن السؤال هو، بأي ترتيب وما هي المهام التي نحتاجها لتكليف الذكاء الاصطناعي للتعامل معها، وذلك لتحرير الطاقة المحدودة للباحثين البشريين؟ ** ونتيجة لذلك، ستتمكن الفرق البشرية من إكمال العمل الحاسم بكفاءة أكبر، بينما سيتولى الذكاء الاصطناعي أيضًا عددًا متزايدًا من المهام المساعدة.

** بشكل عام، سيشارك الذكاء الاصطناعي في نسبة متزايدة من العمل، وسيولي الباحثون البشريون المزيد من الاهتمام للمهام التي لا يتولىها الذكاء الاصطناعي، ويمكنهم تسريع البحث بشكل أكثر فعالية حول توافق الذكاء الفائق من خلال التعاون بين الإنسان والآلة. **

**دانيال فيلان: لا يعني ذلك استخدام الذكاء الاصطناعي لاستبدال بعض الموظفين البشريين في فريق محاذاة OpenAI، ولكن استخدام الذكاء الاصطناعي لإكمال نوع معين من العمل الذي يقوم به الجميع، ثم استبداله بالذكاء الاصطناعي خطوة بخطوة المزيد من المهام كي يؤدي؟ **

**جان ليك:**نعم، أعتقد أنه إذا أردنا أن تكون مخرجات هذا النظام عالية بدرجة كافية، فيجب أتمتة 99% أو 99.9% من المهام، حتى نتمكن من الحصول على 10 مرات، أو 100 مرة، أو حتى 1000 مرة. أضعاف نتائج البحث.

سأقسم "المهام" المذكورة هنا على نطاق واسع إلى فئتين عريضتين. النوع الأول هو المهام البحثية التقليدية لهندسة التعلم الآلي، والتي تم تصميمها للمساعدة في تحسين قدرات أنظمة الذكاء الاصطناعي، مثل تنفيذ تجارب التعلم الآلي المختلفة وجمع النتائج التجريبية.

الفئة الأخرى هي ما يجب القيام به من أجل تحقيق محاذاة الذكاء الفائق، هذا النوع من المشاكل أكبر نسبيًا وأعلى مستوى (عالية المستوى)، على سبيل المثال، من أجل تحسين الإشراف على قابلية التوسع (Scalable Oversight)، كيف نقرر ما هي التجارب التي سيتم تشغيلها؟ أو كيفية إحراز تقدم في قابلية التفسير. بالطبع لا بد أن تكون هناك بعض الأسئلة المحددة جداً التي تحتاج إلى إجابة، فمثلاً عندما يصل بحث معين إلى مرحلة معينة، لا بد من توضيح سلسلة من المشكلات التي تحتاج إلى حل في المتابعة، مثل أسئلة مفصلة للغاية.

إشراف قابل للتطوير:

الهدف من الإشراف على قابلية التوسع هو التأكد من أن قدرات النموذج لا تزال متسقة مع التوقعات البشرية وتستمر في التحسين والتعلم بعد تجاوز المستويات البشرية. وهذا يتطلب من الباحثين التفكير في كيفية زيادة سعة النموذج ومواءمة قيم النموذج ومراقبة أداء النموذج بشكل مستمر. ينصب تركيز الإشراف القابل للتطوير على كيفية توفير إشراف موثوق للنموذج بشكل مستمر. ويمكن أن يكون هذا الإشراف بأشكال مختلفة، مثل التسميات أو إشارات المكافأة أو الانتقادات.

أتوقع أن يتمكن التعلم الآلي من القيام بالنوع الأول من المهام، وهو تصميم التجارب وتشغيلها تلقائيًا، بشكل جيد للغاية، والعمل الفريد الذي نقوم به اليوم لتسريع تقدم المحاذاة هو معرفة كيفية أتمتة النوع الثاني. من المهمة. **

**دانيال فيلان: هل يبدو أن النوع الثاني من المهام هو مهمة عملية برمتها؟ لا يقتصر الأمر على معرفة اتجاهات البحث فحسب، بل اكتشاف ما قد يكون مفيدًا، وحتى وصولاً إلى "ما البرنامج النصي الذي أقوم بتشغيله الآن". **

جان ليك: يمكن طرح هذا السؤال على النحو التالي: **نظرًا لأن أبحاث المواءمة تشبه إلى حد كبير أبحاث تعلم الآلة التقليدية، فما هي المهام الأخرى التي يمكن القيام بها في الفئة الثانية؟ **

**أعتقد أن النوع الثاني من المهام يتضمن الكثير بالفعل، وأن تأثير البحث في هذا الجزء كبير جدًا. ** لأنه من منظور قضايا البحث، لم نتوصل حتى إلى إجماع حول "كيفية تحديد المواءمة"، فحتى خبراء الصناعة ما زالوا "الطريق الفني الأكثر ترجيحًا لتحقيق المواءمة" أو "ما العمل الذي يجب القيام به بعد ذلك" هناك اختلافات حول هذه القضايا. ولذلك، إذا أمكن تسريع عملية المحاذاة، فسيكون التأثير هائلاً. هذه أيضًا هي الرؤية والاتجاه الذي أخبرنا به الباحثين عندما اتصلنا بهم للانضمام إلى فريق OpenAI Superalignment.

في هذه المرحلة، ما زلنا نحل بعض المشكلات الأساسية، ولا يزال هناك الكثير من العمل الذي يتعين علينا القيام به في أبحاث المحاذاة. نحن لا نعرف كيفية مواءمة الذكاء الفائق، وحتى مجرد مواءمة أنظمة الذكاء الاصطناعي مع مستوى أعلى من الذكاء البشري أمر صعب للغاية.

**دانيال فيلان: لقد ذكرت مفهوم أدوات التقويم التلقائية التي يمكن مقارنتها بالمستويات البشرية، ولكن يبدو أنه في مجال الذكاء الاصطناعي، فإن معظم الأشياء ليست على المستوى البشري بالكامل بعد. ما مدى أهمية "المستوى الإنساني" في هذا الهدف؟ من بين تلك المهام التي ذكرتها، إذا تجاوز الذكاء الاصطناعي المستويات البشرية في بعض المهام، فهل هذا أمر جيد أم أمر سيء؟ **

**جان ليك: أعتقد أن جوهر السؤال هو مدى خطورة وجود هذا النظام على المستوى البشري في أبحاث المحاذاة. **

ليس من المخيف أن يتمتع نظام الذكاء الاصطناعي بالكثير من المعرفة، ولكن عندما يتولى هذا النظام بعض أبحاث المحاذاة (على المدى الطويل، معظمها)، نحتاج إلى التفكير فيما إذا كان سيكذب على البشر؟ هل سيحاول الذكاء الاصطناعي خداعنا والسيطرة على النظام؟

نظرًا لأننا لا نفهم حاليًا كيفية حدوث الكثير من سلوك النموذج، فإن السؤال الحقيقي الذي نواجهه هو ما نوع المهارات التي نحتاجها لفهم سلوكه ومخاطره، وهل يمكن مقارنته بما نحتاجه لبناء باحث آلي؟ للمحاذاة المفرطة؟كيف يمكن مقارنة المهارات؟

إذا دققنا في هذا الأمر أكثر، ما هي مخاوفنا الحقيقية؟ قد يكون هذا هو، هل ينسج النموذج سلسلة من الأكاذيب التي يمكن أن تخدع البشر؟ هل النماذج تخدع البشر بالفعل؟ هل تتظاهر بفعل شيء ما أو تصدق شيئًا ما بينما هو في الواقع موجه نحو هدف آخر؟

لذلك، من المهم أيضًا تقييم ما إذا كان النموذج عبارة عن ترشيح ذاتي: هل النموذج قادر على كسر الاحتياطات الأمنية للنظام، والحصول على معلمات وزن النموذج ومحاولة نسخها إلى أماكن أخرى على الإنترنت؟ أم أنه من الممكن أن يقوم النموذج بتنزيل هذه البيانات وإرسالها إلى مكان آخر عن طريق إقناع المهندس البشري بالوصول إلى الأوزان؟ يمكننا أيضًا قياس قدرة النموذج في هذا المجال، وفي هذه الروابط الحاسمة، آمل ألا تكون قدرة النموذج قوية جدًا.

**دانيال فيلان: يجب أن يكون المصفف الآلي على المستوى البشري ذكيًا جدًا ومبدعًا وقادرًا على تخطيط المهام، ويجب أيضًا أن يكون جيدًا جدًا في التفكير في المشكلات المتعلقة بالمواءمة، وفي هذه الحالة هناك أصوات قوية جدًا الأداة نفسها تشكل تهديدًا كبيرًا للبشر. إذا كانت المهمة هي محاذاة الباحثين في مجال المحاذاة التلقائية، فهل هناك أي مشاكل أخرى تحتاج إلى حل؟ **

**جان لايكي: أعتقد أن الأمر سيكون قائمًا على الخبرة في النهاية. **

قد نكون قادرين على تصور هذه المسألة من المستوى الكلي أولا. على سبيل المثال، هناك احتمال واضح جدًا أنه بمجرد تحسين قدرات النموذج، سنسمح للنموذج بطبيعة الحال بالمساعدة في تنفيذ بعض أعمال البحث المواءمة، وبينما يساعدنا النموذج في إجراء البحث، فقد تم تحسين قدراته الخاصة، ونتيجة لذلك يمكننا استخدام هذا لتدريب نموذج أكثر قوة بسرعة.

تبدو هذه القصة مثيرة للوهلة الأولى، لكنها في الواقع معقدة للغاية. بادئ ذي بدء، عادة ما يستغرق التدريب المسبق للنماذج عدة أشهر، وليس أسابيع، لذلك نحتاج إلى استخدام هذا الجيل من النماذج حتى يولد جيل جديد من النماذج. سؤال آخر ليس له إجابة واضحة حتى الآن هو: هل لا يزال هناك الكثير من "الثمار الدانية" عندما يتعلق الأمر بتحسين قوة الحوسبة؟

أعتقد أنه بالمقارنة مع المواءمة، فإن استثمار وتركيز مجتمع الذكاء الاصطناعي بأكمله على تحسين سرعة وقدرات الذكاء الاصطناعي يعد أمرًا كبيرًا، وإذا تمكنا من أتمتة المزيد من هذه المهام لإفادة كلا المجتمعين، فسيكون ذلك على نطاق مجتمع المواءمة وفي الحالات الأصغر، فإن الفائدة الهامشية التي تجلبها ستكون أعلى.

**دانيال فيلان: عندما يتعلق الأمر بتقييم المحاذاة كإتجاه بحثي، ما هو برأيك الهدف طويل المدى لهذا المصفف الأوتوماتيكي؟ **

جان لايكي: أعتقد أن النماذج اللغوية، أو الذكاء الاصطناعي بشكل عام، هي في المتوسط أكثر إبداعًا من البشر. على سبيل المثال، في الصور التي تم إنشاؤها بواسطة نموذج الانتشار، أو أخذ العينات من نموذج أساسي تم تدريبه مسبقًا، ستجد بالتأكيد الكثير من الأشياء غير المتوقعة، لذلك يكون النموذج مبدعًا بشكل خاص، وهذه أشياء يصعب علينا التعلم منها شخص ما. أو تم الحصول عليها من مجموعة صغيرة من البشر، ويمكن للنموذج أن يفعل ذلك لأنه تعلم كل الكلمات التي قالها البشر أو جميع الصور الموجودة على الإنترنت، وبالتالي استكمال أخذ العينات على هذا التوزيع واسع النطاق للغاية، الذي قام به إنسان واحد لا يمكن القيام به إلى هذه النقطة.

فيما يتعلق بالأهداف طويلة المدى، **لا أعتقد أن هناك حاجة فعلية لمتابعة ما يسمى بالأهداف طويلة المدى على الإطلاق، لأنه يمكننا إعطاء مهام قصيرة المدى للذكاء الاصطناعي أولًا، وإذا كانوا جيدين فيها هذه المهام، وهذا يكفي تماما. **على سبيل المثال، يمكن أن يكون الأمر ضيقًا جدًا، مثل "هذه هي الورقة التي كتبناها للتو، يرجى اقتراح بعض الخطوات التالية أو ما هي التجارب الجديدة التي يمكن تنفيذها". تخيل أننا في الواقع نطلب من باحث نجم حقيقي في مجال الذكاء الاصطناعي طرح الأسئلة، حتى لا يضطروا إلى متابعة أهداف طويلة المدى، بل يحتاجون فقط إلى مساعدتنا في تحسين الهدف الصغير التالي، ربما بضعة آلاف من الرموز المميزة، إذا كان بإمكانهم فعل ذلك حسنًا، يمكن أن يجلب بالفعل الكثير من القيمة للبشرية.

**دانيال فيلان: يبدو أن هذا يتعارض مع هدف أتمتة 99.9% من مهام المحاذاة المذكورة سابقًا؟ في رأيي، أحد مفاتيح إجراء أبحاث المحاذاة هو الاستمرار في التفكير وحل مشكلة "ما هو المطلوب للحصول على ذكاء اصطناعي متوافق حقًا؟" **

جان ليك: هذا صحيح. لكن ما أريد التعبير عنه هو أنه عندما يكمل النظام هذه المهام بشكل جيد، فإنه يحقق الكثير من القيمة، وما يتعين علينا نحن البشر فعله هو الجمع بين هذه المهام. **على سبيل المثال، بعض المهام هي "كتابة التعليمات البرمجية لتنفيذ هذه التجارب"، بينما المهام الأخرى هي "النظر إلى النتائج وإخباري بما رأيته"، أو "اقتراح ما يجب فعله بعد ذلك". في الأساس، بمجرد أن يكمل النموذج هذه المهام، يمكننا دمجها بطريقة عامة، تمامًا كما نفعل في Auto-GPT أو برنامج نموذج اللغة، حيث تكون كل مهمة صغيرة ومستقلة. متكاملة، لذلك لا يحتاج النظام للسعي عمدًا إلى تحقيق هدف كبير طويل المدى.

على سبيل المثال، يستخدم برنامج OpenAI الأخير دعونا نتحقق خطوة بخطوة ردود الفعل القائمة على العمليات في الرياضيات لتدريب نموذج المكافأة بناءً على ردود الفعل البشرية في كل خطوة من عملية الإثبات، بدلاً من التدريب على حل "ما إذا كان النظام قد حصل على الإجابة الصحيحة"؟ ". وقد أثبت هذا أنه أكثر فعالية لأنه يوفر لنظام الذكاء الاصطناعي طريقة أكثر تفصيلاً للتعلم وتعليقات أكثر تفصيلاً. ولكن على المدى الطويل، هل يمكن أن يتنافس هذا مع التعلم المعزز الشامل؟ لا نعرف بعد، ولكن على الأقل في الوقت الحالي، يمكننا استخدام هذا التفصيل التفصيلي للخطوات لجعل النظام يقوم بالكثير من الأشياء المفيدة حقًا التي قد يفعلها البشر، ثم نجمع هذه الأشياء معًا.

*** دعونا نتحقق خطوة بخطوة:***

دراسة مايو 2023 أجراها هانتر لايتمان وآخرون. من خلال التركيز على مشكلة الأخطاء المنطقية التي تحدث غالبًا في مهام الاستدلال المعقدة متعددة الخطوات للنماذج الكبيرة، يقارن المؤلف بين طريقتين للإشراف على النتائج والإشراف على العملية: يوفر الإشراف على النتائج بشكل أساسي تعليقات على النتيجة النهائية، بينما يوفر الإشراف على العملية تعليقات لكل منهما. خطوة الاستدلال الوسيطة. وجدت الدراسة أن الإشراف على العمليات يتفوق بشكل كبير على النماذج المدربة الخاضعة للإشراف على النتائج، خاصة في المشكلات الرياضية. علاوة على ذلك، وجد المؤلفون أن التعلم النشط يحسن بشكل كبير من فعالية الإشراف على العملية.

**دانيال فيلان: إحدى المهام الصغيرة التي ذكرتها هي "رؤية النتائج وتحديد ما يجب فعله بعد ذلك". إذا كنت تريد القيام بذلك، عليك أن تفكر في أي مشروع محدد سيكون أكثر فائدة في تحقيق هدف مواءمة الذكاء الفائق في أربع سنوات؟ **

** جان ليك: أنت على حق. ليس من خلال التحسين وتخصيص الائتمان على المدى الطويل، بل أشبه بإضافة بعض الأهداف والسياق الأوسع إلى الموجه. **

ومع ذلك، في التطبيقات العملية، عندما نقوم بتحسين الأنظمة من خلال التعلم المعزز (RL) أو التعلم المعزز بناءً على ردود الفعل البشرية (RLHF)، لا نحتاج في الواقع إلى الانتظار حتى نهاية مشروع البحث لاستخلاص استنتاجات حول ما إذا كانت هذه الأساليب فعالة أم لا. . وبدلاً من ذلك، يمكننا استخدام ردود الفعل البشرية كأساس لاقتراح المكافآت، ونسأل أنفسنا ببساطة: "هل يبدو هذا الاتجاه أفضل من أي اتجاه ربما فكرت فيه بمفردي؟"

**لذلك، أعتقد أن الهدف العام من Superalignment ليس تحقيق أقوى محاذاة تلقائية في ظل التكنولوجيا الحالية، ولكن بناء نظام مفيد للغاية ويمكن تطبيقه على نطاق واسع. الشيء الأكثر أهمية هو أننا نؤمن أنه يمكنه تحقيق التوافق، ويمكنك أن تطمئن إلى ترك هذه المهام له. **

**بالمقارنة مع تقسيم المهام، قد يكون هناك رأي مفاده أن التدريب الشامل فقط هو الذي يمكن أن يجعل النموذج أكثر قدرة. لكنني أعتقد أن هذا ليس بهذه الأهمية، وفي الواقع، فإن طريقة التدريب الشاملة لا تحد من قدرات النموذج إلى حد كبير فحسب، بل إنها أيضًا أقل كفاءة، وهذا ما يسميه الناس عادةً "ضريبة المواءمة". **

تعد "ضريبة المواءمة" عاملاً مهمًا إذا كنت تريد التنافس بفعالية مع الشركات الأخرى في السوق: لنفترض أنني أقوم ببناء برنامج دردشة يقوم بعمل جيد بشكل خاص في المواءمة ولكن يبدو أنه أقل قدرة بكثير، وهو في الواقع أمر بالغ الأهمية من الصعب المنافسة في السوق. ولكن إذا كان لديك أداة محاذاة تلقائية، فإن باحث المحاذاة التلقائية لا يحتاج إلى المنافسة في السوق، بل يحتاج فقط إلى أن يكون مفيدًا لنا. لذلك يمكننا أن نقبل تكلفة مواءمة أعلى لأنه ليس لدينا بديل، أو البديل الحقيقي هو توظيف المزيد من البشر، ولكن هذه الطريقة ليست قابلة للتطوير.

**دانيال فيلان: ما هي المشاكل التي تأمل أن يتمكن باحث المحاذاة الآلي من حلها؟ **

جان لايكي: يجب أن يحل سؤال "كيف يمكننا ضبط الذكاء الفائق". ** محاذاة الذكاء الفائق قد يكون الحل الفعلي مختلفًا تمامًا عن المحاذاة التي نقوم بها اليوم. **

الحل الذي يقدمه ChatGPT هو تعلم الكثير من ردود الفعل البشرية، وبالتحديد RLHF (التعلم المعزز من ردود الفعل البشرية). الإجماع العام في هذه المرحلة هو أن هذا النهج قد يكون من الصعب توسيع نطاقه لأنه يفترض بشكل أساسي أن البشر بحاجة إلى فهم كامل لتفاصيل ما يفعله النظام.

لذلك، إذا طلبت من النموذج إجراء بحث محاذاة واسع النطاق، فيمكنك تخيل مهمة تعادل الملايين من أعباء العمل البشرية. ومن الواضح أنه من المستحيل على البشر عرض جميع البيانات وتقديم تعليقات مفصلة. وهذا أمر صعب للغاية. في هذا العملية، فإننا بالتأكيد سوف نتجاهل العديد من الأخطاء الهامة.

**التقنية التي يعمل عليها فريق Superalignment حاليًا هي جعل RLHF قابلة للتوسيع وتنفيذ المحاذاة لأجهزة التقويم التلقائية. **هذا المصفف الآلي يكاد يكون على نفس مستوى البشر، ويمكن أن يحل محل البشر في إنجاز هذه المهام الصعبة، لكنه لن يختلف كثيراً عن البشر. هذه التقنيات التي نريد تحقيقها هي ترقيات أو جدية للاستكشافات التكنولوجية السابقة، مثل **الإشراف القابل للتطوير هو امتداد طبيعي لـ RLHF. **

يتم تعريف الإشراف القابل للتطوير على أنه مزيج عام من الأفكار والتقنيات التي تمكننا من الاستفادة من الذكاء الاصطناعي لمساعدة البشر في مهام التقييم الصعبة. ويمكن بناء الإشراف من التعلم المعزز مع ردود الفعل البشرية (RLHF).

يشمل الممثلون النموذجيون للإشراف القابل للتطوير النقاش، ونمذجة المكافأة العودية (RRM، ونمذجة المكافأة العودية)، والتقطير والتضخيم المتكرر، وصناعة السوق الآلية، وما إلى ذلك. هناك العديد من الأساليب الجديدة الناشئة.

أعتقد أنه إذا أردنا حقًا التوافق مع الذكاء الفائق، والتفكير في أنظمة أكثر ذكاءً من البشر، والتفكير بشكل أسرع، والحوسبة على مستويات جديدة تمامًا من الحجم، فإن ذلك سيؤدي إلى مجموعة كاملة من الأشياء الأخرى المشكلة، خاصة لأنها سيكون متعدد الاستخدامات للغاية ويفعل الكثير من الأشياء، ومن ثم يتعين عليك معرفة كيفية مواءمته، وليس فقط مواءمته مع المهام البحثية الأكثر توزيعًا على نطاق ضيق، ولكن كل شيء آخر. بالإضافة إلى ذلك، تحتاج إلى التحقق من نجاحه من خلال عدد كبير من التقييمات التجريبية.

لذا في الوقت الحالي، وليس أنا فقط، لا أحد يعرف كيف يبدو المستقبل، ولكن سيكون من المثير جدًا الحصول على بعض التحقق الرسمي. ربما وجدنا نوعًا من الخوارزمية مع ضمانات نظرية، لكن النظرية والممارسة اللاحقة قد تكون مختلفة تمامًا، وحتى أنا لا أعتقد أن باحثًا في مجال المحاذاة على المستوى البشري تقريبًا سيبدأ على الفور في حل هذه المشكلات. بدلاً من ذلك، نأمل أن يجدوا طريقة لمواءمة التكرار التالي بشكل أفضل، حتى نتمكن في النهاية من الحصول على نظام يساعدنا على ضبط ذكاءنا الفائق، بطريقة موجهة.

**دانيال فيلان: بمجرد حصولك على هؤلاء الباحثين في مجال محاذاة الذكاء الاصطناعي على المستوى البشري، هل لا تزال OpenAI بحاجة إلى فريق محاذاة الذكاء الفائق والموظفين المناسبين؟ **

جان ليك: هذا سؤال جيد. أنا شخصياً سأكون متحمساً جداً إذا أمكن استبداله بالذكاء الاصطناعي. **لكن الوضع النموذجي تاريخيًا هو ما ذكرناه سابقًا: يقوم مساعدو الذكاء الاصطناعي بـ 99% أو 99.9% من العمل، والبشر مسؤولون عن الـ 1% المتبقية أو 0.01%. **على المدى الطويل، حتى لو لم يعد بإمكاننا أن نفهم حقًا كل ما يفعله الذكاء الاصطناعي، فإننا لا نزال بحاجة إلى التأكد من أن البشر يجب أن يشاركوا بطريقة ما أو أن يكونوا دائمًا قادرين على التحكم في ما يفعله الذكاء الاصطناعي. وبعبارة أخرى، يجب أن يكون هناك أن يكون دورًا إنسانيًا في محاولة فهم الآثار المترتبة على المستوى العالي لما يفعله الذكاء الاصطناعي لا يجب بالضرورة أن يكون ذلك من قبل فريق OpenAI Superalignment الحالي، لأن مجموعات المهارات المطلوبة قد تكون مختلفة تمامًا عما لدينا الآن.

**دانيال فيلان: تواصل OpenAI الإشارة في مدونتها إلى ما يلي: يرتبط الأمان ارتباطًا وثيقًا بقدرات النموذج. نحتاج إلى نماذج ذكية لحل مشكلات المحاذاة، ولكن في الوقت نفسه، نأمل ألا تتغير قدرات النموذج. هناك فقرة في التخطيط للذكاء الاصطناعي العام وما بعده: "إذا كان لدى الذكاء الاصطناعي العام القدرة الكافية على تسريع تطوره، فقد يؤدي ذلك إلى تغييرات كبيرة تحدث بسرعة مذهلة." "نحن نعتقد أن التطوير البطيء نسبيًا للذكاء الاصطناعي العام من الأسهل ضمانه". أمان". إذا صنعنا مصففًا ذكيًا جدًا أو قريبًا من المستوى البشري ثم قمنا بتوسيع نطاق فريق المحاذاة بشكل فعال إلى 10x أو 100x، فهل سينتهي الأمر بهذا في حلقة متكررة من التحسين الذاتي؟ **

جان ليك: هذا أمر لا مفر منه. من المستحيل أن يكون لديك حلقة تحسين ذاتي متكررة دون حدوث تحسن كبير في المحاذاة. أنا شخصياً أعتقد أن احتمال حدوث قفزة في قدرات الذكاء الاصطناعي مرتفع للغاية، ويجب أن نكون مستعدين لذلك. لو لم يحدث ذلك، لكنت راضيا.

إذا نظرنا إلى أنظمة الذكاء الاصطناعي الأخرى، مثل AlphaGo أو Dota أو StarCraft، فسنجد أن هذه الأنظمة تخضع لتكرارات كبيرة في القدرات على أساس أسبوعي تقريبًا. أما بالنسبة لما سيحدث بالضبط، فلا يمكننا أن نعرف على وجه اليقين حتى الآن لأن هناك الكثير من عدم اليقين، ولكن أعتقد أننا يجب أن نكون مستعدين لهذا الاحتمال. عندما يحدث ذلك، فإن الفكرة الجيدة حقًا هي أن يكون لدينا باحثون آليون في مجال المحاذاة يمكنهم في الواقع القيام بعمل يستحق آلاف السنين في أسبوع، وهو ما لا يستطيع البشر القيام به.

كيفية تصميم المصفف الآلي

**دانيال فيلان: كيف يمكن تحقيق هذا المصفف الأوتوماتيكي على المستوى البشري؟ **

جان لايكي: يمكن تقسيمها تقريبًا إلى قسمين. أولاً، نحتاج إلى نظام ذكي بما يكفي لأداء المهام. ومن ناحية أخرى، نحتاج إلى مواءمة هذا النظام للتأكد من أنه قادر بالفعل على أداء المهام. وهذان الجزأان ليسا مستقلين تماما، بل إنهما مرتبطان ارتباطا وثيقا.

لم أشارك شخصيًا في الجزء الأول من البحث، لكنني أعتقد أنه سيتحقق بالتأكيد ويعمل الكثير من الأشخاص على جعله ممكنًا. هناك الكثير من الاتجاهات المختلفة التي يجب أن يسلكها، ولكن يمكنك أن تتخيل أنه مع نمو النموذج أكبر فأكبر، يصبح في النهاية ذكيًا بدرجة كافية.

**ما يهمني شخصيًا هو الجزء الثاني، المشكلة التي نواجهها في البحث هي: مع هذا النموذج الذكي جدًا الذي تم تدريبه مسبقًا، كيف نجعله يقوم ببحث المحاذاة بالطريقة التي تريدها؟ أو الأهم من ذلك، كيف يمكنك معرفة ما إذا كان بإمكانك الثقة فيه بدرجة كافية لأداء هذه المهمة؟ **

قد تحاول نماذجنا تقديم النتائج والتقنيات بطريقة، إذا قررت تنفيذها، فإنها تعمل فعليًا على تعزيز النظام نفسه أو الأنظمة الأخرى ذات الصلة وإظهار المزيد من سلوكيات البحث عن الطاقة في المستقبل، أو عمليات كسر الحماية (التصفية الذاتية) وغيرها السلوكيات.

لذلك، نحن بحاجة إلى مواءمة الذكاء الاصطناعي للتأكد من قدرته على أداء المهام وفقًا لتوقعاتنا، والاستفادة الكاملة من قدراته لتحقيق أفضل أداء في المهام. ولتحقيق هذه الغاية، يجب تطوير سلسلة من أساليب التدريب على المحاذاة للتأكد من أن الذكاء الاصطناعي يحافظ على المحاذاة عند أداء المهام.

هذان في الواقع نوعان مختلفان من الأنظمة. نحن بحاجة إلى التمييز بوضوح بين ما إذا كان النظام متحاذًا حقًا أم متحيزًا بشكل خاطئ. الأول هو نظام يمكنه العمل بجد لإجراء أبحاث المواءمة ومساعدتنا حقًا والبحث عن الحقيقة؛ وقد يكون الأخير نية السيطرة على العالم أو الهروب من السجن أو غير ذلك من مخاطر السلوك السيئ. لذلك، نحن بحاجة إلى إنشاء آليات أو طرق للتمييز بين هذين الاصطفافين للتأكد من أنه يمكننا الثقة والاعتماد على النظام المتوافق حقًا.

**جزء مهم من عملنا هو معرفة كيفية التمييز بين المحاذاة الصحيحة والخاطئة. وأنا أسميها طرق التحقق. ولا يتم استخدامها بشكل مباشر لتدريب أنظمة الذكاء الاصطناعي، ولا يتم استخدامها بشكل مباشر كأساس لاختيار الأنظمة، ولكنها توفر يتم استخدام إشارة مستقلة للحكم على ما إذا كان النظام ينتمي إلى النظام المحاذي الحقيقي أو النظام المحاذي الخاطئ. **

على سبيل المثال، تعد أبحاث قابلية التفسير إحدى هذه الطرق. إذا نظرنا داخل النموذج ووجدنا بعض الأدلة على أن النموذج يتآمر سرًا ضدنا، فسوف يفشل النموذج في اختبار التحقق من الصحة وسيعتبر نظامًا محاذيًا بشكل خاطئ.

هناك طريقة أخرى تتمثل في تعميم المشكلة من السهل إلى الصعب، وهو ما قد يكون أسلوبًا للتدريب أو التحقق من الصحة، اعتمادًا على كيفية إعداده. يبحث هذا السؤال فيما إذا كانت قدرة النموذج على التعميم من المشكلات البسيطة التي يمكننا الإشراف عليها إلى المشكلات الصعبة التي لا يمكننا الإشراف عليها. إذا كان من الممكن الإشراف على النموذج في الجزء السهل والتحقق من صحته في الجزء الصعب، فيمكننا تحديد ما إذا كان النموذج معرضًا لخطر الغش السري أو أي سلوك آخر.

النهج 1: الإشراف القابل للتطوير

**دانيال فيلان: كيف يتم تحقيق الإشراف القابل للتطوير؟ في الوقت الحاضر، لا يوجد إجماع كبير على المواءمة، فكيف يمكن الحصول على إشارات التدريب لأبحاث المواءمة عالية الجودة؟ **

جان ليك: يُظهر عدم وجود توافق في الآراء مرة أخرى أن المواءمة يصعب حلها بالفعل، وهذا المجال ليس ناضجًا بعد، لذلك لم نكتسب الكثير من ملخص الخبرة حتى الآن. لكنني أعتقد أن أبحاث المحاذاة لها بعض الخصائص المهمة جدًا التي يمكننا استغلالها للإشراف القابل للتطوير.

قد يكون تقييم جودة أبحاث المحاذاة مدخلاً أفضل من مجرد دراسة المحاذاة، وهذا لا يعني أن أبحاث المحاذاة سهلة، ولا يعني أن تقييمها سهل، ولكن العثور على ورقة بحثية أسهل بكثير. على سبيل المثال، هذه الورقة تحتوي على فكرة رائعة، وتقوم ببعض التجارب الرائعة، والنتائج جيدة، بالتأكيد ستشعر بجودة هذا البحث ذي الصلة بعد قراءته، فهو أسهل بكثير من القيام بهذا العمل.

**وبالتالي، فإن مبدأ "التقييم أسهل من الجيل" هو جوهر العديد من أفكار الإشراف القابلة للتطوير. **على سبيل المثال، إذا كنت تفكر في نمذجة المكافآت المتكررة، فإن الفكرة الأساسية هي استخدام مساعد الذكاء الاصطناعي لمساعدتك في تقييم عمل أنظمة الذكاء الاصطناعي الأخرى: أولاً دع نظام الذكاء الاصطناعي المساعد يقوم بمهمة بسيطة نسبيًا، والتي يتم استخدامها كمهمة مساعد تقييم للمساعدة في تقييم أنظمة الذكاء الاصطناعي الأخرى.

وبما أن التقييم أسهل من التوليد، فإن مهمة أنظمة الذكاء الاصطناعي المساعدة بسيطة نسبيًا، خاصة وأن البشر يتعاونون مع أنظمة الذكاء الاصطناعي المساعدة في التقييم. بمجرد النجاح في هذه المهمة، يمكن استخدام مجموعة من البشر وأنظمة الذكاء الاصطناعي المساعدة للإشراف على تدريب نظام الذكاء الاصطناعي الجديد على مهام أكثر صعوبة.

ومن خلال تكرار هذه العملية بشكل متكرر، يمكننا باستمرار توسيع نطاق المهام التي يمكننا الإشراف عليها بشكل فعال على أنظمة الذكاء الاصطناعي. يتيح لنا هذا النهج الاستفادة من البساطة النسبية لمهمة التقييم لتوجيه وتدريب نظام الذكاء الاصطناعي، وفتح نطاق أوسع من المهام تدريجيًا.

***محاذاة الوكيل القابلة للتطوير من خلال نمذجة المكافأة: اتجاه بحثي ***

نشر جان لايكي دراسة حول نمذجة المكافأة العودية في عام 2018، حيث صمم وظائف المكافأة المناسبة لتطبيق خوارزميات التعلم المعزز على مشكلات الحياة الواقعية. بالإضافة إلى ذلك، تمت مناقشة مسألة محاذاة الوكيل، أي كيفية إنشاء وكلاء يتطابق سلوكهم مع نية المستخدم. يحدد الفريق اتجاهًا بحثيًا رفيع المستوى لمعالجة مشكلة محاذاة الوكيل التي تركز على نمذجة المكافأة، وتعلم وظائف المكافأة من التفاعلات مع المستخدمين.

**دانيال فيلان: وذلك من خلال إضافة المزيد والمزيد من معرفة الذكاء الاصطناعي بشكل متكرر إلى جزء التقييم من دراسة المواءمة. من خلال العمل بهذه الطريقة التكرارية، يتم إعطاء نظام الذكاء الاصطناعي دائمًا إشارة تدريب جيدة. **

جان ليك: نعم. على سبيل المثال، RLHF هو الأبسط ولا يتطلب استخدام أي مساعد، وسيقوم البشر بتقييم ما إذا كان أداء الذكاء الاصطناعي جيدًا أم لا بعد رؤية النتائج، وهذه إشارة تدريب.

***التعلم المعزز العميق من التفضيلات البشرية ***

دراسة عام 2017 أجراها بول كريستيانو وجان لايكي. في هذا العمل، نستكشف في المقام الأول هدف تمكين أنظمة التعلم المعزز المعقدة (RL) من التفاعل بفعالية مع بيئات العالم الحقيقي، المحددة من حيث التفضيلات البشرية (غير المتخصصة) بين قطاعات المسار. تظهر الأبحاث أن هذا النهج يمكن أن يحل بشكل فعال مهام التعلم المعزز المعقدة دون الحاجة إلى الوصول إلى وظائف المكافأة، بما في ذلك ألعاب أتاري ومحاكاة حركة الروبوت، مع تقديم تعليقات على أقل من 1٪ من تفاعلات الوكيل مع البيئة. وهذا يقلل بشكل كبير من تكلفة الإشراف البشري.

بعد ذلك، التطوير الإضافي للطريقة الموصوفة سابقًا هو في الأساس تدريب أبسط نموذج مساعد، وهو النموذج النقدي. هذا نموذج لغة مستقل يراقب مخرجات نظام الذكاء الاصطناعي الأول ويكتب نقدًا.

على سبيل المثال، يكتب نظام الذكاء الاصطناعي الأول جزءًا من التعليمات البرمجية، ونحن ننظر إلى التعليمات البرمجية: يميل البشر إلى أن يكونوا سيئين في اكتشاف الأخطاء في التعليمات البرمجية، وهذا هو السبب وراء وجود الكثير من التعليمات البرمجية التي تجرها الدواب في العالم. لكن الآن، إذا كان هناك نظام نقدي يمكنه كتابة النقد والإشارة إلى الأخطاء، فمن السهل جدًا على البشر الحكم: "هذا بالتأكيد خطأ، يجب علينا إصلاحه".

التحذير هنا هو أن المهمة نفسها ليست واضحة تمامًا، نظرًا لأن الكود عادةً ما يتم كتابته وفقًا لبعض مواصفات اللغة الطبيعية. من الناحية العملية، معنى هذه المواصفات غير واضح إلى حد ما، وقد يكون تحديد ما إذا كانت المشكلة خطأً غامضًا. ولكن الأهم من ذلك، أنه باستخدام النموذج النقدي كمساعد، يمكنك توسيع نطاق المهام الإشرافية. على الرغم من أنه قد يكون هناك بعض الغموض والغموض حول مدى يقين المشاكل والأخطاء في التعليمات البرمجية الخاصة بك، إلا أنه لا يزال بإمكانك استخدام مخرجات نموذج النقد للعثور على المزيد من المشاكل. يتيح لك هذا النهج الإشراف الفعال على أنظمة الذكاء الاصطناعي عبر نطاق أوسع من مجالات المهام وتوسيع نطاق الإشراف.

والشيء الجيد جدًا هو أن هناك بالفعل العديد من الطرق لتقييم فعالية هذا النهج من خلال البحث التجريبي. أحد الأساليب، الذي استخدمناه في الورقة التي نشرناها العام الماضي، هو في الأساس تجربة عشوائية محكومة مع اضطرابات مستهدفة. لنفترض أن لديك مهمة ترميز، على الرغم من أننا لا نستخدم مهام الترميز في الورقة، إلا أن المحتوى المحدد للمهمة ليس مهمًا هنا. بعد ذلك، لديك نتيجة الاستجابة، والتي ليس من الضروري أن تكون مثالية، ولكن لنفترض أنها كذلك. ما تحاول القيام به هو إدخال بعض الأخطاء أو العيوب الدقيقة في نتيجة الاستجابة، مما يجعلها استجابة ليست جيدة جدًا، ولكنها سيئة بشكل غير ملحوظ بالنسبة للبشر.

الورقة المذكورة هنا هي نماذج النقد الذاتي لمساعدة المستخدمين البشريين المنشورة في عام 2022. تركز هذه الورقة على تحسين نماذج اللغة الكبيرة واستخدام الاستنساخ السلوكي لكتابة مراجعات اللغة الطبيعية. يمكن أن تساعد المراجعات التي يكتبها النموذج الأشخاص على اكتشاف العيوب في النتائج. علاوة على ذلك، قام المؤلفون بدراسة خصائص قياس المراجعات الخاصة بمهام التلخيص والتوليف القائمة على الموضوع. ستكتب النماذج الأكبر مراجعات أكثر فائدة.

**دانيال فيلان: كيف يتم تقديم هذه الأخطاء؟ **

جان ليك: أسهل طريقة هي السماح للبشر بالقيام بذلك، ولكن في النهاية علينا أن نترك النموذج يكمل العملية بنفسه.

أولاً، قم بعينة عشوائية من الاضطرابات واعرضها على إنسان أو بمساعدة الذكاء الاصطناعي، أو أي طريقة خاضعة للإشراف قابلة للتطوير. ثم انظر ما مدى احتمالية العثور عليه؟ أو يمكنك فقط أن تسألهم، "هل يوجد خطأ هنا؟"، ويمكنك معرفة عدد المرات التي يجدون فيها أخطاء.

بالإضافة إلى ذلك، يمكنك مقارنة فهم النموذج للمشكلة بشكل مباشر، وتدريب النموذج كأداة تمييز يمكنها التمييز بين الإصدارات الجيدة والإصدارات المعيبة. دقة التمييز تمثل أدائه. بعد ذلك، يُطلب من النموذج أو النموذج المُحسّن بواسطة RLHF التعليق على الكود. ثم لاحظ عدد المرات التي يذكر فيها النموذج عيوبًا في التعليمات البرمجية في التعليقات. قارن دقة المُميِّز بدقة النموذج لتوليد المراجعات. تعكس دقة التمييز قدرة النموذج المعرفية على حل المشكلة، بينما تعكس دقة المراجعة وعي النموذج بعيوب الكود، وهو ما نسميه فجوة التمييز والنقد.

إذا كان هذا الفرق كبيرا، فهذا يعني أن هناك مشاكل كثيرة يمكن أن يشمها النموذج لكنه لا يخبرنا، لأننا إذا تركناه يكتب تعليقا، فلن يقوله. هذا الموقف مقلق للغاية، لأنه يعني أن الإشراف على قابلية التوسع الخاص بك معيب جدًا بطريقة ما، وهناك العديد من الأشياء التي تنزلق تحت رادارك. أو بمعنى ما، فإن مساعد الذكاء الاصطناعي هذا ليس متعاونًا جدًا لأنه لا يحاول جاهدًا مساعدتك.

على العكس من ذلك، فإن قيمة الفرق الصغيرة تعني أن مساعد الذكاء الاصطناعي سيخبرك بمجرد علمه بوجود مشكلة في النموذج. على وجه الخصوص، إذا حاول نموذج مماثل الحجم أو نفس النموذج الأساسي إدخال مشكلة أو وضع حصان طروادة يصعب العثور عليه، فيمكننا أن نكون أكثر ثقة في استبعاد احتمال حدوث مثل هذا الهجوم إذا كان الاختلاف صغيرًا. لأنه من المحتمل أن تقوم نسخة أخرى من النموذج بكتابة مراجعة تكشف عن المشكلات المحتملة.

يعتمد هذا الموقف على افتراض أن التدريب التمييزي يمكنه بالفعل إزالة هذا الموقف من النموذج. أعتقد أن لدينا سببًا وجيهًا للاعتقاد بذلك، نظرًا لأن الضبط الدقيق لأداة التمييز يتيح لك الوصول إلى جميع عمليات التنشيط في النموذج وضبط جميع الأوزان في وقت واحد. ولذلك، إذا كانت المعرفة موجودة في مكان ما في عمليات تنشيط النموذج، فيجب أن يكون الضبط الدقيق للمميز قادرًا على استخلاص هذه المعرفة، بشرط أن يتم الضبط الدقيق بشكل صحيح وأن تكون هناك بيانات كافية.

يمكنك في الواقع إجراء بعض الحسابات العكسية لتحديد مقدار البيانات التي تحتاجها. لنفترض أن هناك خلية عصبية واحدة في النموذج وجدت مشاكل في الكود. للعثور على هذه الخلية العصبية وتحديدها، فإن عدد نقاط البيانات التي تحتاجها هو تقريبًا لوغاريتم العدد الإجمالي للخلايا العصبية. وهذا يعني أن عددًا قليلًا نسبيًا من نقاط البيانات يكفي لتضييق نطاق الخلايا العصبية والعثور عليها بوظيفة محددة. يوضح هذا التقدير أنه مع التدريب التمييزي والبيانات الكافية، من الممكن اكتشاف وظائف خلايا عصبية محددة في النموذج.

**دانيال فيلان: هذا أيضًا سؤال لدي حول الخطة بأكملها. السبب وراء عدم إعجابنا بـ RLHF هو أنه قد لا يكون قادرًا على التمييز بين ما يعتقده البشر أنه صحيح وما "يبدو جيدًا"، لأن البشر لا يجيدون النقد. **

تتمثل فكرة المراجعات العودية في التحسين المستمر لجودة المراجعات من خلال تدريب المميّزين والمراجعين. إحدى الطرق هي أن ندرب شيئًا يمكنه كتابة تعليقات جيدة حقًا، ثم نعمل معه لتدريب شيء أكثر قدرة على التعليق. وفي هذه الحالة، قمنا تدريجيًا بزيادة متطلبات جودة المراجعة لتحقيق نتائج أفضل. ولكن هل هناك موقف آخر حيث نقوم بتدريب شيء ما، وتدريبه عن غير قصد على كتابة مراجعات زائفة تبدو جيدة بالنسبة لنا، ثم نعمل معه لتحسين قدرتنا على تمييز المراجعات التي تبدو جيدة بالنسبة لنا. وهذا يمكن أن يؤدي بنا إلى التركيز أكثر على الأشياء التي تبدو جيدة ولكنها في الواقع مشاكل، بدلاً من الاهتمام بالمشكلات الموجودة بالفعل.

جان لايكي: نعم، أوافق على أن هذا سؤال مهم ومشروع للغاية. عند استكشاف تطبيقات الإشراف القابل للتطوير، يصبح من الأهمية بمكان فهم إحدى مشكلاته الرئيسية. لذلك، أنا متحمس جدًا لتطبيق هذه التقنيات فعليًا وتجربتها تجريبيًا، لأنني أعتقد أنه من خلال الممارسة سنكون قادرين بشكل أفضل على تقييم فعالية هذه الأساليب.

تتمثل إحدى الطرق الملموسة والبسيطة لقياس هذا التأثير في تدريب نموذج بمحاذاة خادعة عمدًا ثم ملاحظة ما إذا كان الإشراف القابل للتوسع قادرًا على تحديد مثل هذا السلوك الخادع والإبلاغ عنه، أو مدى صعوبة اكتشافه... ...أو مدى صعوبة ذلك الجهد الذي نحتاج إلى بذله حتى ينجح النموذج في مواءمة نفسه بشكل خادع للتهرب من إشرافنا القابل للتطوير.

**دانيال فيلان: نعم، لقد فكرت في "تجربة شطيرة" لاختبار إجابات الذكاء الاصطناعي على الأسئلة القانونية. في هذه التجربة، طُلب من بعض الأشخاص غير القانونيين طرح أسئلة قانونية، ثم طُلب من بعض الأشخاص الذين كانوا في الواقع على دراية جيدة بالقانون التحقق مما إذا كان الذكاء الاصطناعي يخدع الأشخاص غير القانونيين. **

جان لايكي: هذه التجارب مثيرة للاهتمام حقًا، وقد تم إجراء بعض الأبحاث المثيرة للاهتمام في هذا المجال. بعض القضايا الأساسية التي أشرت إليها تحتاج إلى النظر فيها.

لقد ذكرت أولاً مسألة الثقة في الخبراء. ونظرًا لأن الخبراء يرتكبون الأخطاء أحيانًا، فإن الاعتماد على حكم الخبراء قد ينطوي على بعض عدم اليقين، وهذا بالفعل اعتبار مهم. بالإضافة إلى ذلك، من المهم التأكد من وجود تداخل كافٍ في المجال بين الخبراء والمهام حتى يتمكنوا من تقديم تقييمات وملاحظات دقيقة.

مشكلة أخرى هي أنه بالنسبة لبعض المهام، قد لا نعرف الحقيقة أو الحقيقة الأساسية. حتى في مجال مثل أبحاث المحاذاة، قد تكون لدينا وجهات نظر وتصورات مختلفة. وهذا يجعل التقييم الدقيق لهذه المهام أكثر صعوبة. علاوة على ذلك، قد يكون جمع كميات كبيرة من البيانات مهمة مكلفة بسبب العدد المحدود من الخبراء وارتفاع تكلفة الوقت.

لذا بشكل عام، أود أن يكون لدي طريقة للتقييم لا تعتمد على افتراض أننا لدينا بالفعل الحقيقة الأساسية. يمكن تقييم هذا النهج دون معرفة مسبقة ويمكن تطبيقه على مهام ذات مستويات صعوبة مختلفة، ولهذا السبب فإنني أنتقد استخدام هذه التجارب المعشاة ذات الشواهد لإجراء اضطرابات مستهدفة أو قياس الفجوات بين النقد التمييزي.

**دانيال فيلان: نعم، على الرغم من ذلك، عند قياس الفجوة بين المُميِّز والناقد، فإنك تحتاج إلى مُميِّز فعلي، وليس مجرد مُميِّز يميز جهاز "يبدو خاطئًا" عن جهاز "يبدو جيدًا". **

**جان ليك:**أنت تقول أنه يمكنك إدخال عيوب في أنظمة الذكاء الاصطناعي، أليس كذلك؟ وإلى حد ما، قد تكون هذه الطريقة أفضل من التقييم البشري لأنها أقرب إلى التوزيع الحقيقي الذي تواجهه أنظمة الذكاء الاصطناعي في التطبيقات العملية. وباستخدام هذه البيانات المعيبة، يمكن ضبط أداة التمييز بدقة، ويمكننا إنشاء حقيقة أساسية إذا اعتقدنا أن النسخة المعيبة هي في الواقع أسوأ. يمكننا أن نلاحظ لماذا تسوء الأمور ونتحقق منها لفهمها بشكل أفضل.

**دانيال فيلان: على الرغم من أن نظام الذكاء الاصطناعي قد يجعلنا نعتقد أن شيئًا ما جيدًا، إلا أنه ليس جيدًا بالضرورة؛ وبالمثل، إذا جعلنا نظام الذكاء الاصطناعي نعتقد أن شيئًا ما سيئًا، فقد يكون الأمر سيئًا بالفعل، أو قد يكون الأداء سيئًا إسقاط. على أية حال، إذا جعلك الذكاء الاصطناعي تعتقد أن هذا أمر سيئ، فربما يكون من الأسهل مساعدتنا في التحقق من ذلك؟ **

جان ليك: نعم، أعرف ما تقصده. ربما لا ينبغي علي استخدام مصطلح "الحقيقة الأساسية" في هذه الحالة لأنها ليست حقيقة أساسية حقًا، حيث لا يوجد شيء حقيقي حقًا، ولكن هناك الكثير الذي يمكنك القيام به لتجعل لديك ثقة كبيرة في القيمة الحقيقية، الأمر الذي لا لا تجعل بالضرورة مهمة العثور على المشكلة أسهل.

الحقيقة الأرضية:

في التعلم الخاضع للإشراف، تظهر شروح البيانات عادة في النموذج (x، t)، حيث x هي البيانات المدخلة وt هو التعليق التوضيحي. التسمية t الصحيحة هي الحقيقة الأساسية، والتي يمكن فهمها على أنها المعيار المرجعي والقيمة الحقيقية بالمعنى المرجعي، في حين أن التسمية t الخاطئة ليست كذلك.

المنهج 2: البحث عن السلوك السيئ والبنية الداخلية

**دانيال فيلان: في مقدمة OpenAI للمحاذاة الفائقة، أحد مسارات المحاذاة الخاصة بك هو تنفيذ البحث التلقائي عن السلوكيات التي قد تسبب مشاكل (المتانة) والهياكل الداخلية التي قد تسبب مشاكل (قابلية التفسير التلقائي)، في هذه المرحلة، ما هي المشكلات التي يجب حلها هل تعتقد أن فريق المحاذاة الفائقة سيحل المشكلة التالية؟ **

**جان لايكي: القابلية للتفسير دون أدنى شك. بمعنى ما، فإن قابلية التفسير صعبة حقًا. في الوقت الحالي ليس لدينا أي نتائج كبيرة على نماذج اللغة، ومن العدل أن نقول إن قابلية التفسير ألهمتنا كثيرًا أو أضافت الكثير من القيمة، وذلك لأن فهمنا للنماذج ومكوناتها الداخلية لا يزال بدائيًا للغاية. **

**دانيال فيلان: قام المجتمع الأكاديمي ببعض الأعمال التوضيحية حول نماذج اللغة. على سبيل المثال، يمكن لعمل ** رؤساء التعلم والتعريف في السياق **، وعمل التعرف غير المباشر على الكائنات (التعرف على الكائنات غير المباشرة)، أن يؤدي على الأقل نوعًا ما من أنواع التعرف غير المباشر على الكائنات. أريد أن أعرف، بالإضافة إلى ذلك، ما الذي تحتاجه أيضًا للوصول إلى نقطة النهاية المثالية؟ **

***• رؤوس التعلم والتعريف في السياق ***

تم نشر هذا العمل في عام 2022. وهو يركز بشكل أساسي على القضايا الأمنية ذات الصلة في سياق التوسع المستمر لنموذج توليد المحولات، وهو يعمل على تحسين قابلية التفسير الميكانيكي عن طريق الهندسة العكسية للحسابات التفصيلية التي يؤديها النموذج. معالجة مشكلات الأمان الحالية بشكل أكثر منهجية والتنبؤ بمشاكل الأمان المستقبلية في نماذج أكثر قوة من خلال فهم البنية الداخلية التي تتسبب في إنتاج نموذج المحول لمخرجاته.

• إمكانية التفسير في البرية: دائرة للتعرف غير المباشر على الكائنات في GPT-2 الصغيرة

تعمل هذه المقالة على سد الفجوة في أداء قابلية التفسير الميكانيكي في النماذج الكبيرة المعقدة من خلال شرح كيفية قيام GPT-2 الصغير بمهمة لغة طبيعية تسمى التعرف على الكائنات غير المباشرة (IOI)، مما يدل على أن الفهم الميكانيكي لنماذج التعلم الآلي الكبيرة أمر ممكن. لتمتد قابلية التفسير إلى نماذج أكبر ومهام أكثر تعقيدًا.

**جان لايكي:**نعم، إن الاستكشاف الحالي في مجال قابلية التفسير أمر ممتع للغاية. وأعتقد أن الأهم من ذلك، إذا تمكنا من استخدام تكنولوجيا قابلية التفسير على نموذج مكافأة لنموذج اللغة، مثل حجم GPT-4 أو أي نموذج كبير يمكنك يمكننا التفكير فيه، ثم حصلنا على شيء حول نموذج المكافأة الذي لم نكن نعرفه من قبل، وهو أمر مهم لأن نموذج المكافأة يوفر إشارة تدريب لكثير من تدريبات RLHF، لذلك من المهم أن نفهمه بشكل أفضل، فهو ذو قيمة كبيرة، وسيكون من التحسينات المهمة أن نكون قادرين على تحديد أو اكتشاف أن هناك مشاكل في السلوك الذي يشجعه ولا نريد نحن البشر حدوثه. **

وبهذا المعنى، أعتقد أن قابلية التفسير ليست ضرورية ولا كافية. أعتقد أنه من الممكن تمامًا بالنسبة لنا أن نحل مشكلة المحاذاة سلوكيًا بحتًا، دون فهم النموذج الداخلي حقًا. لكنني أعتقد أيضًا أن أي فكرة غير تافهة نحصل عليها من قابلية التفسير ستكون مفيدة للغاية، أو يمكن أن تكون مفيدة للغاية، لأنها تمنحنا طريقة للهجوم. **

لذا فمن المستحيل تمامًا بالنسبة لنا أن نتخلى عن محاولة التفسير. لأنه بطريقة ما، لديك هذا الدماغ الاصطناعي، ولدينا ماسحات ضوئية مثالية للدماغ، يمكننا تكبير الصورة بالكامل وقياس تنشيط كل خلية عصبية بدقة في كل مسار أمامي، بما في ذلك الطابع الزمني العشوائي المنفصل، والذي ربما يكون الحد الأقصى للدقة التي نريدها تحصل. يمكننا أيضًا إجراء تدخلات تعسفية وإزعاج أي قيمة في النموذج حسب الرغبة. وهذا يمنحنا مساحة كبيرة وفرصة للتجربة، وسيكون من الجنون عدم الاستفادة من ذلك.

لكن في الوقت نفسه، السبب وراء صعوبة الأمر للغاية هو أن النموذج يتعلم كيفية الحساب من حيث الكفاءة، بدلاً من تنظيمه إلى شيء يمكن للإنسان فهمه، أو أنه لا يوجد سبب للاعتقاد بأن خلية عصبية واحدة يجب أن تتوافق مع مفهوم ما ، أو أي شيء قريب من الإنسان يعتقد أنه أو ينبغي أن يكون أو شيء مألوف لدينا. في الواقع، من الناحية التجريبية، تمثل الشبكات العصبية العديد من المفاهيم المختلفة مع خلية عصبية واحدة، ويتم توزيع كل مفهوم بين الخلايا العصبية المختلفة. لذلك، الخلايا العصبية ليست مهمة هنا.

هناك شيئان سأهتم بهما للغاية فيما يتعلق بقابلية التفسير.

الأول هو السببية. نريد أن ننظر إلى الخلايا العصبية أثناء تمرير البيانات عبر النموذج، على سبيل المثال لدينا خلية عصبية مرتبطة بـ "كندا" والتي تنشط عندما يظهر مفهوم متعلق بكندا. لكن هذا مجرد ارتباط، وليس بالضرورة سببية. للتحقق من أن هذه علاقة سببية، سيتعين علينا بعد ذلك أن نكتب عمدًا عن المفاهيم المتعلقة بكندا لمعرفة ما إذا كانت جميعها تستجيب، بينما نكتب أيضًا عن المفاهيم الأخرى ذات الصلة التي قد تبدو مرتبطة بكندا، أو لا علاقة لها بكندا، ولكن بشكل عام متشابه جدًا، ثم التحقق لمعرفة ما إذا كانت الخلايا العصبية تتفاعل، أو معرفة ما إذا كانت تلك الخلايا العصبية تغلق، وما إلى ذلك.

دانيال فيلان: هذا مشابه لتولغا بولوكباسي وآخرين. وهم قابلية التفسير لبيرت **هذه الورقة، أعتقد أنها تسمى وهم قابلية التفسير، يذكر المقال أنه يمكننا جعل الخلايا العصبية تتفاعل مع شيء واحد محدد، ولكن هذا مجرد وهم لأنه في مجموعات البيانات الأخرى تتفاعل تلك الخلايا العصبية مع مجموعة من الأشياء الأخرى. **

وهم التفسير لبيرت:

تصف الورقة "وهم القابلية للتفسير" الذي يحدث عند تحليل نماذج بيرت. قد تبدو عمليات تنشيط الخلايا العصبية الفردية في الشبكة وكأنها تشفر مفهومًا واحدًا بسيطًا، في حين أنها في الواقع تشفر شيئًا أكثر تعقيدًا، وينطبق نفس التأثير على مجموعات خطية من التنشيطات. يتتبع المؤلفون مصدر هذا الوهم إلى الخصائص الهندسية لمساحة التضمين في بيرت وحقيقة أن مجاميع النص العادية لا تمثل سوى جزء صغير من الجمل الإنجليزية المحتملة.

**جان ليك:الشيء المثير الآخر هو أن OpenAI نشرت ورقة بحثية قابلة للتفسير يمكن لنماذج اللغة أن تشرح الخلايا العصبية في نماذج اللغة في وقت سابق من هذا العام ( ملاحظة اختيار: ** في هذه الورقة، يحاول المجربون استخدام GPT-4 لـ شرح سلوك GPT-2 neoron) ما نريده هو تقنية يمكنها العمل على مستوى تفاصيل الخلايا العصبية الفردية، بحيث يمكنك التأكد حقًا من أنك لن تفوت أي تفاصيل بينما تكون أيضًا قادرًا على العمل على نطاق واسع النموذج بأكمله.

لأنه في نهاية المطاف، كل شيء في النموذج مترابط، لذلك كلاهما مهم. حتى الآن، كانت التكنولوجيا في الغالب بديلاً. تمت تجربة العمل على إمكانية التفسير التلقائي قبل ورقتنا البحثية، لذلك لم نكن أول من جربها. لكنني أعتقد أنه إذا كان من الممكن أن يكون هناك بعض أعمال قابلية التفسير الموجهة نحو التفاصيل، وبعض أساليب التفسير الآلي التي تحاول حقًا فهم الدوائر الفردية أو الوحدات الحسابية داخل النموذج، فإن طريقة توسيع ذلك ليشمل النموذج بأكمله هي أتمتته، أليس كذلك ؟

ولكن يمكنك القيام بذلك أيضًا: بمجرد معرفة كيفية القيام بذلك بالتفصيل، حسنًا، ما عليك سوى توثيق ما تفعله، أي السماح للمحاذاة التلقائية أو باحث التفسير بالتفاصيل لدراسة ما يحدث مع النموذج. ثم، قم بمراجعة الأمر برمته، أو ابحث عن طريقة لتجميعه. **أنا أبالغ في التبسيط قليلاً هنا، ولكن على أي حال، هذه هي الفكرة التي أنا متحمس جدًا لها.

لذلك، في هذه الورقة، لدينا الكثير من المحتوى التوضيحي. على سبيل المثال، تكتب هذه الورقة تفسيرًا للغة الطبيعية لخلية عصبية واحدة، وهو ما قد لا يكون صحيحًا تمامًا، لكنه يقدم لك مثالًا بسيطًا لما يمكننا فعله هنا. الطريقة التي تعمل بها هي أنك ببساطة تعرض على GPT-4 سلسلة من أنماط التنشيط، ثم تطلب من GPT-4 كتابة شرح مقترح.

بشكل عام، هذه التفسيرات ليست جيدة جدًا، وذلك أيضًا لأن المهمة صعبة جدًا ومعظم الخلايا العصبية لا تفعل أشياء يمكن للبشر فهمها بوضوح. لكن يمكننا تشغيل هذا البرنامج على مقياس لكل خلية عصبية في GPT-2، والتخلص من كل التفسيرات، ومحاولة اكتشاف الأنماط المثيرة للاهتمام. يمكنك أيضًا الاطلاع على اتجاهات القياس، مثل "كيف نسجل هذه التفسيرات تلقائيًا عندما يكبر النموذج؟" "أو،" ماذا لو أضفنا المزيد من العمليات الحسابية، أو جعلنا النموذج الذي يقوم بالتفسيرات أكبر؟ كيف ستتغير جودة الشرح؟ "

والشيء الرائع هو أنه يمكننا قياس هذا المقياس تلقائيًا باستخدام نماذج اللغة. على الرغم من أن هذا ليس مقياسًا مثاليًا وله العديد من المشكلات، إلا أنه يوفر لك بديلاً عما إذا كان البشر سيجدون هذا التفسير جيدًا. يمكنك بعد ذلك استخدام هذا الوكيل على نطاق واسع، وتشغيله على عدد كبير من الخلايا العصبية.

**دانيال فيلان: إذا كنت تفكر في أعمال التفسير الضرورية، فما هو القدر الذي تعتقد أنه يدور حول اكتشاف وحدة أساسية أفضل للتفسير مقابل اكتشاف كيفية قياس ما يحدث؟ **

جان لايكي: أعتقد أن هناك حاجة إلى كليهما. فالأول أكثر صعوبة، وهو أمر منطقي بالطبع. بالإضافة إلى ذلك، لكي ننجح، أعتقد أنه يحتاج إلى توسيع نطاقه.

** المنهج 3: اختبار الخصومة **

**دانيال فيلان: الطريق الثالث لتحقيق المحاذاة الفائقة هو تدريب النماذج المنحرفة عمدًا ومعرفة ما إذا كان المسار يمكنه اكتشاف هذه النماذج. فهل تخطط OpenAI للقضاء عليها، أو إصلاحها بشكل استباقي؟ **

جان ليك: الهدف هنا ليس إصلاح هذه النماذج المنحرفة التي تم تدريبها عمدًا، في الواقع يتم استخدام هذه النماذج الخاطئة فقط للكشف.

بشكل أساسي، الهدف الأساسي هو أننا بحاجة إلى أن نكون قادرين على التمييز بشكل فعال بين نماذج المحاذاة الحقيقية ونماذج المحاذاة الخاطئة، فالأول يمكن أن يساعد في تحقيق المهام المستهدفة وإحراز تقدم في أبحاث المحاذاة، في حين أن الأخير قد يكمل الاستيلاء والتسلل الذاتي . إحدى الطرق لمساعدتنا على التمييز بشكل أفضل بين هذين النوعين من المصففات هي صنع مصفف مزيف ومعرفة ما إذا كان يشبه المصفف الحقيقي. لكن عليك أن تكون حذرًا جدًا عند القيام بذلك لأنك تخلق أشياء فظيعة نريد جميعًا تجنبها.

**دانيال فيلان: في بداية مقال OpenAI، ذكرت أن الذكاء الفائق قد يكون تقنية لها التأثير الأعمق على البشرية وستساعدنا في حل أهم المشكلات في العالم. **

هناك مقولة تتحدث عن مدى عظمة الذكاء الخارق، وأتساءل هل سيؤدي إلى فقدان قوة الإنسان أو حتى انقراض البشرية؟ وعلى وجه التحديد، ما هو نوع نموذج التفكك الذي نتحدث عنه؟ كيف نعرف أنهم لن يفعلوا تلك الأشياء الفظيعة؟

جان ليك: هناك الكثير من الأشياء التي يجب القيام بها للمضي قدماً في المستقبل. نحن بحاجة إلى إنشاء هياكل الإدارة الصحيحة حتى نتمكن من منع إساءة استخدام أنظمة الذكاء الاصطناعي القوية، ويتعين علينا اتخاذ الاحتياطات اللازمة حتى نتمكن من تجنب نوع من التأثير الجامح الذي قد يظل ضارًا بالبشرية. في هذه الحالة، لديك ذكاء اصطناعي متحالف مع البشر ولديك ذكاء اصطناعي متحالف مع شركات معادية للإنسان، وحتى لو كانت جميع المؤشرات الاقتصادية أو أي شيء يبدو جيدًا، فإن النظام بأكمله يمكن أن يخرج عن نطاق السيطرة.

** بالإضافة إلى ذلك، نحتاج أيضًا إلى حل مشكلة مواءمة التكنولوجيا، بحيث يمكن مواءمة نظام الذكاء الاصطناعي بشكل حقيقي. **تركز محاذاة الذكاء الفائق فقط على الجزء الأخير من المخاطر. المشكلة التقنية التي نريد حلها هي كيفية جعل نظام الذكاء الاصطناعي متسقا مع مجموعة من القيم الإنسانية، وفي نفس الوقت نستنتج سؤالا مستقلا جديدا، ماذا يجب أن تكون هذه القيم؟ وكيف نصمم عملية استيراد هذه القيم من المجتمع؟

أعتقد أن هذه أسئلة مهمة نحتاج إلى إجابة عليها، وفقط إذا قمنا بحل هذه الأسئلة يمكن للمستقبل أن يتطور بسلاسة. أعتقد أن معيار المستقبل الجيد ليس مجرد "الذكاء الاصطناعي لا يقتل الجميع" ولكن رؤية الإنسانية تزدهر والمستقبل الذي أطمح إليه هو المستقبل الذي يريد الجميع العيش فيه. كلما زادت قوة الذكاء الاصطناعي، زادت المخاطر، وزاد احتمال الخطأ في حالة محاذاة النظام بشكل غير صحيح.

على وجه الخصوص، من منظور التفكك، أعتقد أن أنماط التهديد التي يجب أن نقلق بشأنها بشكل خاص هي الأكاذيب المنهجية والخداع والتسلل الذاتي.

**دانيال فيلان: لقد تحدثت عن التدريب المتعمد للنماذج المنحرفة، ما تقصده هنا هو تدريبهم على الكذب ومحاولة كسر الحماية أحيانًا، ولكن نظرًا لأن مستوى القدرة الفعلية للنموذج منخفض بدرجة كافية، فهل هذا كافٍ لمنع المخاطر والسيطرة عليها؟ **

جان ليك: في الواقع، أنت لا ترغب في تدريب عارضة أزياء لتكون قادرة على كسر الحماية، فماذا لو كانت جيدة في ذلك حقًا؟ من الآمن اختيار بعض مهام الوكيل الأخرى الأكثر عمومية والتي ستساعدك في تسهيل تقييم النموذج الخاص بك.

ومن ثم فإن الصعوبة الأساسية والهدف الأساسي هو معرفة الخصائص التي يحتاجها النظام لاجتياز التقييم. إذا كان لديك نظام يكذب عليك أو يخدعك أحيانًا، فيمكن اعتباره غير فعال، فقط عندما يقوم بخداعك المستمر، وكذبك المستمر، ويقنعك، يكون كاذبًا متماسكًا وذو مصداقية حقًا. متسق للغاية بحيث لا يمكنك الإشارة إلى أكاذيبه أو أي تناقضات في ما يقوله من خلال الاستجواب، وهو أمر مرعب حقًا.

في الواقع، ليس من السهل أن تكون كاذبًا ثابتًا. نحن نحاول أن نجعل من الصعب على النماذج أن تصبح كاذبة متسقة من خلال الإشراف القابل للتوسع، وقابلية التفسير، والعمومية.

ولكن إذا فعلنا هذا فقط، فهذا لا يكفي. فمن الصعب تحديد مدى سهولة قيام الذكاء الاصطناعي بالغش باستمرار. إحدى طرق التأكد هي تدريب النموذج أولاً ليصبح كاذبًا مستقرًا حقًا، والبدء من الاستقرار لمعرفة مدى صعوبة تحقيق كاذب متماسك. كم نحتاج لخداع النموذج؟ إلى أي مدى نحتاج إلى إعطاء النموذج تلميحات، أو تعليمه خطوة بخطوة على طول الطريق؟ بعد قولي هذا، أنت لا ترغب في تدريب نظام خطير حقًا، وإذا تم تشغيله ونجح في تصفية نفسه وتسبب بشكل مباشر في الشيء الذي تريد إيقافه، فهذا أمر سيء حقًا.

**دانيال فيلان: عندما تقول ذلك، هل تميز بين الكذب وأنواع الخطر الأخرى، مثلاً، يمكننا تدريبه على الكذب، لكننا لن ندربه على القتل؟ **

جان ليك: نعم. على سبيل المثال، لنفترض أنك حددت هدفًا خاطئًا لذلك. ربما يكون ذلك لإقناع البشر بقول تعويذة معينة، أو ربما لتشغيل أمر معين في بايثون، ولكن في الواقع، لا يمكن لهذا الأمر أن يفعل أي شيء عملي، فهو يبدو مثيرًا للاهتمام.

بالإضافة إلى ذلك، نحن مهتمون بكيفية القيام بذلك مسبقًا، وهو أمر يختلف تمامًا عن اختبار إجهاد النظام.

في سياق قابلية التفسير، هدفنا هو ببساطة فهم ما إذا كان النظام المدرب حاليًا أو الأنظمة الحالية قريبة بطريقة أو بأخرى من النظام المستهدف المطلوب ويمكن أن تخدعنا بطريقة متماسكة. نريد تحديد ما إذا كان النظام سيعمل على تشغيل تعليمات برمجية معينة أو سلوك مشابه دون إشراف بشري، الأمر الذي يتطلب منا إجراء تجارب لسيناريوهات محددة. كل ما نحتاجه هو التحقق من أن "هذا كاذب متماسك"، وإلا فسيكون من الصعب حقًا تحديد مدى قربنا من هذا الهدف، إلا عندما ندفع للأمام عمدًا، حتى يتمكن النظام من القيام بأشياء أخرى شنيعة.

**دانيال فيلان: لذلك تقوم بتدريبه على القيام بأشياء صغيرة عشوائية بدلاً من الأشياء السيئة التي من المفترض أن يفعلها، مثل أن يكذب، أو يؤذي الناس، وما إلى ذلك، ولكن في نهاية اليوم، فإنه يضع ملصقًا فقط على جبين شخص ما ملاحظة أو شيء من هذا. **

جان ليك: نعم، مثلما تقوم بتعيين شخص ما لإجراء اختبار الاختراق وكل ما علي فعله هو الذهاب إلى المبنى ومصافحتك وتقول، "نعم، يبدو أنك نجحت." أو شيء من هذا القبيل. أو يمكنك أن تقول، "هل يمكنك سرقة هذا الشيء المزيف لي، أريد أن أعرف مدى مستوى الأمان لدينا." يمكنك القيام بذلك دون عواقب حقيقية، لكنه سيظل يخبرك بالكثير عن المعلومات الأمنية. أنا متحمس لأن أكون قادرًا على فعل الشيء نفسه مع المحاذاة، لاختبار الضغط على نظام المحاذاة الخاص بك عن طريق تدريب شيء يستهدف بشكل خاص تعطيله والتحايل عليه، كل هذا أمر حميد للغاية.

03.جدول المحاذاة الفائقة

**دانيال فيلان: هدف OpenAI هو حل التحديات التقنية الأساسية لمحاذاة Superalignment خلال فترة 4 سنوات. ما هي التحديات التقنية الأساسية هنا؟ **

جان ليك: يشير هذا إلى كيفية جعل المحاذاة الفائقة متوافقة مع القيم الإنسانية. ما نتصوره كنظام Superalignment هو نظام أكثر ذكاءً من البشر، ويمكنه الأداء بشكل أسرع بكثير، ويمكنه العمل مع العديد من النسخ من نفسه، لذا فهو نظام قوي حقًا.

ونأمل أن نحقق ذلك خلال أربع سنوات. سبب اختياري لأربع سنوات هو أن إحداهما طموحة حقًا، والأخرى هي جعل الناس يعتقدون أنه يمكننا بالفعل تحقيق هذا الهدف. وفي الوقت نفسه، حتى لو تقدم الذكاء الاصطناعي بسرعة كبيرة وتحسنت التكنولوجيا بشكل كبير في السنوات القليلة المقبلة، فلا يزال هناك أشياء يمكننا القيام بها ضمن هذا الهدف الطموح.

** إن أدوات التقويم الأوتوماتيكية التي تقترب من مستوى الإنسان هي الهدف الأساسي الذي نسعى إلى تحقيقه، مع الهدف النهائي المتمثل في معرفة كيفية محاذاة العوامل فائقة الذكاء، لأننا لا نعرف كيفية القيام بذلك بعد. **

**دانيال فيلان: إلى أي مدى تعتقد أنه يمكن تحقيقه خلال عامين؟ **

**جان ليك:**إذا تأخرنا لمدة أربع سنوات، أعتقد عمومًا أننا سنكون قادرين على إكمال أبحاث المحاذاة التلقائية بشكل أساسي في غضون ثلاث سنوات تقريبًا، بشرط أن تكون بعض القدرات الأساسية موجودة بالفعل. إذا لم يكن الأمر كذلك، فقد يستغرق مشروعنا وقتًا أطول.

وإذا كان ذلك في غضون عامين، نأمل أن يكون لدينا سيطرة جيدة على اتجاه هذا الهدف. بما في ذلك ما هي التقنيات المستخدمة فعليًا، وهل لدينا مثل هذا المزيج من التقنيات، وما إذا كانت لدينا الثقة في الحصول على نظام جدير بالثقة لا يمكن استخدامه بشكل متكرر فحسب، بل سيكون أيضًا قادرًا على تفويض الكثير من العمل إليه. في هذه المرحلة، سنرغب في تقسيم المشكلة إلى أجزاء كافية بحيث يبدو الأمر وكأن عبء العمل الهائل في الوقت الحالي هو مجرد هندسة، بمعنى أننا ربما لا نزال على بعد عامين من حل المشكلات البحثية المرتبطة بها.

لدينا الآن جدول زمني مستهدف مدته أربع سنوات، ومن الواضح أن التقدم في قدرات الذكاء الاصطناعي مرتبط بهذا الموعد النهائي. إذا تباطأ التقدم، فقد لا يكون لدينا نموذج مفيد حقًا لمواءمة المهام البحثية. ولكن إذا وجدنا بعد أربع سنوات أن النموذج لا يزال غير جيد بما فيه الكفاية، فهذا يعني أيضا أنه سيكون لدينا المزيد من الوقت لحل المشكلة حقا، لأن المشكلة ليست ملحة للغاية.

ومن ناحية أخرى، قد يتقدم الذكاء الاصطناعي بشكل أسرع، وقد يرحب البشر بوصول الذكاء الفائق بشكل أسرع. وفي تلك المرحلة، يتعين علينا تعديل خططنا وفقًا لذلك. ولذلك، اخترنا أربع سنوات كإطار زمني يتسم بالواقعية ويمنحنا ما يكفي من الإلحاح لحل المشاكل بسرعة.

**دانيال فيلان: بافتراض أنه فيما يتعلق بأبحاث قدرات الذكاء الاصطناعي، فإن التقدم هو نفس المتوقع تقريبًا. بعد مرور أربع سنوات، لديك كل الإمكانيات لتصبح باحثًا جيدًا في المحاذاة التلقائية، ولكن قابلية التفسير أصعب مما كنا نظن، أو الإشراف القابل للتوسع أصعب مما كنا نعتقد، لذلك لم تحقق المحاذاة الفائقة بعد. ماذا علي أن أفعل؟؟ **

جان ليكه: أولاً يجب أن نقول للجمهور أننا لم نحقق هدفنا، ولكننا سنكون مسؤولين عن هذا الهدف. ما يحدث بعد فشل الهدف يعتمد على الحالة العامة للعالم في ذلك الوقت. هل يمكننا بطريقة أو بأخرى شراء المزيد من الوقت لأنفسنا، أم أن تفكيرنا العام خاطئ، هل يجب علينا تغيير الاتجاه، وما إلى ذلك؟ أشياء كثيرة يمكن أن تحدث.

ولكن في الواقع، في رأيي، من السهل جدًا حل المحاذاة. هناك العديد من الأفكار الجيدة التي تحتاج فقط إلى تجربتها وقياسها بدقة، حيث يمكن للنموذج أن يتعلم شيئًا ما ويتحسن كثيرًا. على مدى العامين الماضيين، أصبحت أكثر تفاؤلا، وأعتقد أنه هدف واقعي للغاية. حتى لو كنت مخطئًا، وحتى لو كانت المشكلة أصعب بكثير مما كنا نظن، فلا يزال من المفيد جدًا المحاولة. الآن هناك الكثير من الخلاف حول مدى صعوبة هذه المشكلة، ولكن الأهم من ذلك هو مدى اتساق النظام في الممارسة العملية.

**أحد أكثر الأشياء التي تقلقني ليس أن أنظمتنا ليست موحدة بما فيه الكفاية، ولكننا في الواقع لا نعرف مدى توحيدها. **في هذه الحالة، قد يكون للخبراء آراء مختلفة حول هذا الأمر، فإذا اعتقد الجميع أن النظام غير منسق بما فيه الكفاية، فلا يمكن نشر النموذج، وهذا أمر سهل للغاية ومخيف للغاية. بالإضافة إلى ذلك، نحتاج أيضًا إلى مواجهة ضغوط تجارية هائلة.

يشعر الناس بالقلق الشديد بشأن وقت النشر، ولكن لا يمكن للخبراء سوى تأجيله إلى أجل غير مسمى دون العثور على السبب الدقيق. هذا الوضع مثير للقلق حقًا، فضغوط العمل سوف تتزايد، وأنت واثق من ذلك من ناحية، ولكنك لست متأكدًا تمامًا. أود حقًا تجنب ذلك، والطريقة المباشرة لتجنب ذلك هي أن نكون جيدين في قياس مدى توافق كل نظام فعليًا، وهذا هو المكان الذي يمكن أن يساعد فيه مزيج أوسع من التقنيات حقًا.

دانيال فيلان: في حوكمة الذكاء الفائق والتخطيط للذكاء الاصطناعي العام وما بعده **في هذه المقالات، ذكرت OpenAI التدقيق المستقل (التدقيق) لأنظمة الذكاء الاصطناعي لضمان تنفيذ سلامة الذكاء الاصطناعي. وتحسبًا لذلك، يجب إلى أي مدى يستطيع فريق Superalignment تطوير شيء مفيد لتدقيق النماذج؟ **

**جان لايكي: **إذا سارت الأمور على ما يرام، فيمكن استخدام التكنولوجيا التي قمنا بتطويرها في "تدقيق النماذج". على سبيل المثال، إذا تمكنا من تحقيق بعض التقدم في قابلية التفسير، فيمكن للمراجعين استخدام أي تقنية نتوصل إليها كجزء من عمل المراجعة الخاص بهم، أو قد يكون من الممكن وجود نوع من الإشراف القابل للتطوير كجزء من المراجعة. لكن فريق Superalignment في الواقع غير مناسب للتدقيق، لأننا لسنا مستقلين عن OpenAI. في رأيي، يجب أن تكون عملية التدقيق مستقلة تمامًا عن الجهة الخاضعة للتدقيق، ولهذا السبب انتبهت لشيء "المدقق المستقل".

المهمة الأساسية لفريقنا ليست إقناع أنفسنا بأن النظام الذي نقوم ببنائه صحيح وآمن، لأنه من السهل جدًا إقناع أنفسنا بأشياء مختلفة، ما يتعين علينا القيام به هو إقناع المجتمع الأكاديمي بأكمله أو المجموعات التي تركز على ذلك. على سلامة الذكاء الاصطناعي، الإيمان بالنموذج آمن. وهذا يتطلب ليس فقط البحث في التكنولوجيا التي سنستخدمها وإظهارها للآخرين بعد تقديم الدليل على أن النظام هو ما نعتقده، ولكن أيضًا إجراء تقييم مستقل لكل ما سبق.

04.التعميم

دانيال فيلان: في حواشي المقالة مقدمة للمحاذاة الفائقة**، ذكرت أن الافتراضات المفضلة التي وضعها الأشخاص حتى الآن قد يتم كسرها. أحد الافتراضات هو أن التعميم حميد. كيف تنظرون إلى مسألة التعميم؟ **

جان ليك: قمنا مؤخرًا بتأسيس فريق تعميم برئاسة كولين بيرنز.

**السؤال الذي نواجهه هو: كيف نفهم وتحسين قدرة النموذج على التعميم؟ كيف يمكن تعميم النموذج من المهام البسيطة التي يمكن الإشراف عليها إلى المهام التي يصعب الإشراف عليها؟ هذا السؤال هو في الواقع مكمل للإشراف القابل للتطوير. في الإشراف القابل للتطوير، نركز على زيادة قدرة البشر على تقييم ما يفعله النظام. إذا فكرنا في نمذجة المكافأة العودية، فالسؤال هو "هل يمكننا استخدام مساعد الذكاء الاصطناعي الذي تم تقييمه بشكل متكرر لتقييم كل ما يفعله الذكاء الاصطناعي؟". **

ما يعجبني حقًا فيه هو أنه يضع الإنسان في الحلقة، في المقدمة والوسط، ويراقب كل ما يفعله نظام الذكاء الاصطناعي. بالطبع، من الناحية العملية، لا يمكنك فعل ذلك حقًا لأن نظام الذكاء الاصطناعي سيقوم بالكثير من الأشياء، ولكن يمكنك ملاحظة كل ذلك باحتمالات مستقلة صغيرة. لكن بهذه الطريقة، ما زلنا لا نعرف ما إذا كان النموذج يعمم على المواقف التي لا ننتبه إليها.

لذا فإن الطريقة التي فكرت بها في هذا الأمر في الماضي هي بشكل عام، ما عليك سوى التأكد من أن النموذج الخاص بك هو في الغالب تعميم iid، أي أن المهمة التي نعمل عليها لها نفس توزيع المهمة التي لا نعمل عليها.

تعميم معرف الهوية:

قدرة تعميم النموذج هي أداء النموذج في مجموعة الاختبار (التي لم يتم رؤية نموذج البيانات فيها من قبل)، أي قدرة النموذج على استخلاص استنتاجات من مثال واحد. التعميم المستقل والموزع بشكل مماثل يعني أن هذه الأرقام يجب أن تستوفي iid (مستقلة وموزعة بشكل مماثل) وتكون في نفس التوزيع.

**دانيال فيلان: لقد ذكرت في إحدى مدوناتك الشخصية أنك لا تنوي الاعتماد على التعميم على الإطلاق، فقط استمر في التدريب واستمر في القيام بذلك. **

جان ليك: نعم، على الأقل كانت فكرتي الأولية هي أنني لا أرغب في الاعتماد على تعميم غير IID لأن ذلك لا يعمل بشكل جيد في الشبكات العصبية وهو غير مفهوم جيدًا.

لكن السؤال الجديد هو: "ماذا لو فهمنا ذلك بالفعل؟ ماذا لو تمكنا بالفعل من معرفة المعنى المعمم؟ "أعتقد أن هذا سؤال جيد حقًا. يذكر إيليا هذا أيضًا كثيرًا. إذن ما نريد أن نفهمه هو، هل لا يزال بإمكاننا العثور على معنى يعمم فيه النموذج على الأشياء غير الخاضعة للرقابة، حتى لو لم تكن محددة الهوية؟ هل يتم التعميم بالطريقة التي يقصدها البشر؟ لذا، يمكننا الآن التحقيق في هذا السؤال تجريبيًا من خلال تجارب مصممة جيدًا.

لقد قمنا بدراسة كيفية تقسيم مجموعات البيانات الموجودة إلى مسائل سهلة وصعبة، حيث يتم تعريف المشاكل السهلة على أنها مشاكل يمكن للنماذج الصغيرة حلها. نحاول بعد ذلك فهم أو تحسين دقة النماذج الكبيرة في مجموعة البيانات بأكملها. يعد هذا موضوعًا مثيرًا للاهتمام للغاية لأنه يوفر عمودًا فقريًا جديدًا تمامًا للتدريب وتقنيات التحقق من الصحة. على سبيل المثال، إذا كان أداء النموذج جيدًا جدًا، فيمكننا الإشراف على نموذج المكافأة في بعض مهام التقييم البسيطة والواثقة، أو يمكننا تعميم النموذج على مشكلات أكثر صعوبة، ثم يمكننا إكمال تعميم النموذج.

ثم هناك نموذج المكافأة الذي، حتى بدون إشراف، يعمم على المهام الأصعب بالطريقة التي نريدها، ويمكن التدريب عليه. لكن مازلنا لا نملك طريقة لمعرفة ما إذا كانت متوافقة بالفعل الآن. ومع ذلك، يمكنك الاستفادة من الإشراف القابل للتطوير وقابلية التفسير للتحقق من صحة هذه التقنيات. أو على العكس من ذلك، لنفترض أننا قمنا بتدريب أداة المحاذاة التلقائية الخاصة بنا بإشراف قابل للتطوير، ثم استخدمنا التعميم كأسلوب للتحقق من الصحة، أي أننا نعمم على احتمالية الإجابة الصحيحة بناءً على أفضل معرفة بالنموذج.

ثم نسأل هل هناك عيب صغير هنا؟ هل يوجد حصان طروادة مكتوب في نموذج المحاذاة الخاضع للإشراف القابل للتطوير في هذا الكود؟ الآن يمكننا إجراء التحقق المتبادل المتقدم. يمكننا تدريب نموذجين مختلفين: أحدهما تم تدريبه باستخدام تقنيات التعميم والآخر باستخدام تقنيات الإشراف القابلة للتطوير، والآن يمكننا أن نجعلهما يتحققان من صحة إجابات بعضهما البعض والتحقق من أن هذه النماذج متماثلة بشكل أساسي؟ وإذا كانت مختلفة، ما هي الاختلافات الهامة بينهما؟

**دانييل فيلان: هل تقصد بـ "التدريب على تقنيات التعميم" هنا التدريب على المسائل السهلة ثم التعميم على المسائل الصعبة، أو أي شيء آخر؟ **

جان ليك: إذا فهمت كيفية تعميم نموذجك من السهل إلى الصعب، فيمكنك تعميمه بشكل جيد للغاية، وستكون دقته في الأساس كما لو كنت قد دربته على المشكلة الصعبة بنفس الجودة. الآن، يمكنك استخدام هذا كنموذج للمكافأة، أو يمكنك التفكير في الأمر على أنه، "إذا كنت أعرف حقًا ما الذي يحدث هنا، فما هي الإجابة التي سأفضلها؟"

**دانيال فيلان: فيما يتعلق بالتعميم غير IID، لماذا نحتاج إلى معرفة البنية الداخلية للنموذج؟ هل لأنك تريد أن تعرف ماذا ستفعل إذا لم تقم بالتحقق؟ ما العلاقة بين هذين السؤالين؟ **

جان ليك: إلى حد ما، تتداخل الأسئلة التي يريدون الإجابة عليها: ماذا يفعل النموذج في غياب التوزيع؟ على الأقل لديهم طريقان متميزان للإجابة.

لإجراء التحقق المتبادل، عليك تقسيم مجموعة التدريب بشكل مختلف. ما أعنيه بالتحقق المتبادل هنا هو أنه في إحدى الدورات التدريبية، يمكنك التدريب باستخدام طريقة التعميم ثم التحقق من الصحة باستخدام إمكانية التفسير والإشراف القابل للتطوير وأساليب أخرى. ثم في التدريب الثاني، يتم استخدام طريقة خاضعة للإشراف قابلة للتطوير للتدريب، ويتم استخدام أساليب التعميم وقابلية التفسير وغيرها من الأساليب للتحقق من الصحة. بهذه الطريقة، لديك محاولتان منفصلتان لحل المشكلة.

**دانيال فيلان: نعم، أعني التحقق المتبادل بالمعنى الواسع جدًا "الأشياء تثبت صحة بعضها البعض بطريقة متقاطعة". **

جان ليك: أعتقد أن أفضل سيناريو هو أنهما في الواقع متكاملان بدلاً من أن يفعلا نفس الشيء. إذا تمكنت من فهم أو تحسين كيفية تعميم النموذج، فلديك طرق للاستفادة من البنية الداخلية للنموذج لتحقيق ما تريد القيام به على أفضل وجه. لنفترض أنك تحاول استخلاص أفضل تصور للنموذج لما يشبه العالم حقًا، وهو أمر صعب للغاية بالنسبة لـ RLHF لأن الناس يعطون الأولوية للأشياء التي تبدو حقيقية، لذا فإن RLHF يعزز ما يعتقده البشر أنه حقيقي. إذن أنت في الواقع تدرب النموذج ليخبرك بما تريد سماعه أو ما تؤمن به، ولكن قد لا يكون هذا ما يعرفه النموذج. لكن تقنيات التعميم تمنحك طريقة لاستخراج هذه الأشياء، على الرغم من أننا لم نثبت حقًا ما هو الأمثل الذي يجب أن يعرفه النموذج.

ومع ذلك، إذا كان لديك أدوات تفسير جيدة حقًا، نأمل أن تفعل شيئًا كهذا، محاولًا اكتشاف الإدراك أو البنية الداخلية أو أي شيء آخر للنموذج من البنية الداخلية. لكن في الأساس، يمكن أن يكون الأمر أكثر صعوبة لأنك لا تعرف أبدًا ما إذا كان هذا هو أفضل تصور يمكن أن ينتجه النموذج، أو إدراك شخص ما يحاكيه النموذج. هناك افتراض بأن نموذج اللغة المدرب مسبقًا هو مجرد مجموعة من الأحرف المختلفة، ويمكنك استخلاص الإدراك لشخصية ما أو مجموعة من الشخصيات.

**دانيال فيلان: إذًا أنت بحاجة إلى نوع من النماذج السببية بدءًا مما يسمى بالإدراك وحتى المخرجات. **

جان ليك: بالضبط. أعتقد أن هذا التطبيق طبيعي تمامًا من حيث قابلية التفسير. مثل جهاز كشف الكذب، أو الكشف عن أدلة الخداع في نموذج ما، أو مؤامرة سرية للإطاحة بالبشرية، يمكن أن تؤدي أبحاث قابلية التفسير إلى أنماط من "استخلاص المعرفة". وتعميم استخراج المعرفة بنفس الطريقة أصعب بكثير.

**دانيال فيلان: للتعميم عليك اختيار توزيع التعميم. والأمل هو أنه ربما يمكن لقابلية التفسير أن تخبرك بشيء، مثل، أنها تحتوي أو لا تحتوي على نواة كاذبة، وحتى لو كانت كذلك، فإنها تنكشف هنا فقط. **

جان ليك: صحيح. يعد هذا أيضًا سؤالًا مثيرًا للاهتمام للتعلم الآلي: كيف يتم تعميم الشبكات العصبية خارج إعدادات المعرف؟ ما هي الطرق التي يتم تعميمها بشكل طبيعي وما هي الطرق التي لا يتم تعميمها؟ على سبيل المثال، في ورقة InstructGPT، كان أحد الأشياء التي وجدناها هو أنه على الرغم من أن مجموعة بيانات الضبط الدقيق لدينا كانت بالكامل تقريبًا باللغة الإنجليزية، إلا أن النموذج كان أيضًا جيدًا جدًا في اتباع التعليمات بلغات أخرى غير الإنجليزية. لكن في بعض الأحيان يكون لها بعض الظواهر الغريبة: إذ يطلب منه استخدام لغة أخرى، مثلا يطلب منه كتابة ملخص باللغة الألمانية، ولكنه مكتوب باللغة الإنجليزية. بشكل عام، يفهم النموذج تمامًا اللغة التي يتحدث بها، لكن هذا لا يعني بالضرورة أنه يجب عليه اتباع التعليمات باللغة الألمانية. في الأساس، يقوم بتعميم التعليمات عبر اللغات.

لكننا لا نعرف السبب. لقد حدث هذا الامر اكثر من مرة. هناك أسباب بديهية لهذا أيضا. يعمم البشر عبر اللغات، لكني أردت معرفة آلية التعميم داخل النموذج، أو التعميم على اتباع التعليمات والتعليمات البرمجية.

ولا يعمم بطرق أخرى. على سبيل المثال، يميل رفض التعميم إلى العمل بشكل مختلف تمامًا، ووفقًا لسياسات المحتوى الخاصة بنا، يتم تدريب ChatGPT على رفض قبول المهام التي لا نريد تقديمها (على سبيل المثال، إذا تم طلب المساعدة في جريمة أو غير ذلك). ولكن بهذه الطريقة، يمكنك الهروب من السجن. هناك طرق عديدة لخداع هذا النموذج. يمكنك لعب الأدوار، أو يمكنك أن تقول "ما تريد الآن"، أو يمكنك العثور على هذه المطالبات المثيرة للاهتمام حقًا على الإنترنت، وبعد ذلك سوف يمتثل النموذج لطلباتك بكل سرور ويساعدك بكل سرور في ارتكاب الجرائم، وهو ما هو ما ليس من المفترض أن تفعله. ولذلك، فإنه لا يعمم رفض المهمة على سياقات أخرى إلى حد ما.

فلماذا يتم التعميم على الحالة الأولى وليس هنا؟ لا أعتقد أن أحداً لديه الإجابة. ولكن هذا سؤال مهم جدا.

**دانيال فيلان: في مقابلتي مع سكوت آرونسون منذ وقت ليس ببعيد، ذكر أن إيليا كان يطلب منه في كثير من الأحيان تقديم تعريفات للنظريات المعقدة مثل الحب واللطف. كم عدد هذه التعريفات سيكون هناك داخل فريق Superalignment؟ **

جان ليك: قد نقوم بالكثير من المشاريع الاستكشافية المختلفة. أعتقد أن السؤال النهائي هو: هل يمكن استدعاء المفاهيم المتعلقة بالمحاذاة بطريقة ما؟ أحد الأشياء التي تريد استحضارها هو: هل هذا النموذج يريد بشكل أساسي أن ينجح البشر؟ أو كما قال إيليا هل تحب البشر؟ لذا يمكنك أن تسأل: إذا كان النموذج ذكيًا حقًا، فقد قرأ كل شيء، ويعرف بالضبط كيف ينظر البشر إلى اللاأخلاقية... يمكنك أن تطلب من GPT4 استهداف سيناريوهات مختلفة، وتقديم حالات أخلاقية مختلفة. وبشكل عام فإن قدراتها في هذا الصدد ليست سيئة.

لذا فهو يفهم بشكل أساسي الفهم الإنساني للأخلاق وكيفية تفكيرنا في الأشياء. إذن كيف نجعله يستفيد من هذا؟ كيف يمكنني استخراجها من النموذج واستخدامها كإشارة مكافأة؟ أو كشيء يعرفه النموذج أو يهتم به؟ هذا هو جوهر المشكلة.

05. كن متفائلاً بشأن المحاذاة الفائقة

**دانيال فيلان: أنت متفائل بشأن المحاذاة الفائقة، لكن ليس الجميع كذلك. من أين يأتي تفاؤلك؟ **

** جان ليك: هذا سؤال عظيم. إن "ما إذا كانت الخطة ستنجح في غضون أربع سنوات" قد يكون سؤالاً أكثر تعقيداً من "ما إذا كانت الخطة ستنجح". **

إذا سألتني، في خطتنا الحالية، هل يمكن لإصدار معين أن يتوافق بنجاح مع الذكاء الفائق؟ أود أن أقول إن معدل النجاح هو 85% في الوقت الحالي، وربما كان 60% في العام الماضي. بشكل عام، على الرغم من أن التوافق لن يكون سهلاً، إلا أن هناك في الوقت نفسه الكثير من الأسباب التي تجعلني متفائلاً بشأن هذا الأمر. الأسباب هي كما يلي:

**السبب الأول هو أننا شهدنا الكثير من الإشارات الإيجابية حول الانحياز في السنوات القليلة الماضية. **الأول هو نجاح النموذج اللغوي. إذا قمت أيضًا بتحميل النموذج مسبقًا بالكثير من المعرفة حول ما يهتم به البشر، والطريقة التي يفكر بها البشر في القضايا الأخلاقية، والتفضيلات البشرية، ويفهم النموذج اللغة الطبيعية، فيمكنك التحدث إليهم مباشرة. بطريقة ما، هذا يجعل من السهل التعبير عما نريد أن يتماشى معه نموذج اللغة من وكيل Deep RL الذي تم تدريبه في لعبة أو بيئة افتراضية: لا يتضمن وكيل Deep RL بالضرورة الكثير من اللغات، ولكن اللغات تجلب العديد من المهارات المهمة.

تطور رئيسي آخر هو RLHF. لقد بدأت العمل على RLHF لأول مرة من خلال Deep RL في ورقة التفضيلات البشرية. في ذلك الوقت اعتقدت أنه قد يكون من الصعب جعلها تعمل في فترة زمنية معقولة لأنه كان من الصعب جدًا تدريب شبكات GAN في ذلك الوقت، وكنا نفعل شيئًا مشابهًا جدًا بمعنى أننا قمنا بتدريب نموذج المكافأة هذا (الذي كان نموذجًا الشبكة العصبية) والتي نستخدمها بعد ذلك لتدريب الشبكات الأخرى، والتي يمكن أن تفشل لعدد من الأسباب. الآن نقوم بإضافة التعلم المعزز العميق، والذي كان أيضًا صعبًا في ذلك الوقت، لذلك اعتقدت أنه ربما لن ينجح. لكن في الواقع، فهو يعمل بشكل جيد جدًا - في العديد من الألعاب، حتى في العديد من ألعاب Atari، يكون جيدًا تقريبًا مثل التدريب مع وظيفة النتيجة.

والأهم من ذلك، أن أداء RLHF مثير للاهتمام حقًا في نماذج اللغة. خاصة بالنظر إلى الفرق بين InstructGPT والنموذج الأساسي - عندما قمنا بضبط النموذج الأساسي، كان هذا الاختلاف واضحًا جدًا: في مهمة API في ذلك الوقت، كانت النسخة المضبوطة بدقة من التعليمات (الإصدار الأول لدينا) أفضل من النموذج الأساسي أكبر بـ 100 مرة، وهذه مهام حقيقية يكون الأشخاص على استعداد للدفع مقابلها. وهذا فرق كبير جدا. وهذا يدل على أن العمل الذي قمنا به أثناء الضبط الدقيق لـ RLHF جعل النموذج أكثر فعالية في إكمال المهام المطلوبة من قبل البشر.

وفي الوقت نفسه، استثمرنا القليل جدًا من القوة الحاسوبية في هذا العمل ولم ندمج حتى هذا القدر من البيانات. هذه هي محاولتنا الحقيقية الأولى لاستخدام RLHF لمواءمة نظام حقيقي، ولم نتوقع أن تعمل بشكل جيد. بالمقارنة مع GPT-3، فإن InstructGPT بحجم GPT-2 المفضل فعال للغاية. لذلك، على الرغم من أنني لا أعتقد أن RLHF هو الحل للمحاذاة، خاصة بالنسبة للذكاء الفائق، فإن حقيقة أن طريقة المحاذاة الأولى لدينا فعالة جدًا تعد بمثابة تحسن بالنسبة لي.

**العلامة الإيجابية الثانية هي أننا أحرزنا بعض التقدم في قياس المحاذاة. **

بالنسبة لـ RLHF على وجه التحديد، يمكننا إجراء تدخلات مختلفة ثم إجراء تقييمات بشرية لمعرفة مدى تحسن النظام. بالإضافة إلى ذلك، هناك العديد من الأشياء الأخرى التي يمكننا القيام بها. على سبيل المثال، فيما يتعلق بالإشراف القابل للتطوير، يمكننا إجراء تجارب عشوائية محكومة من خلال الاضطرابات المستهدفة، وهي أيضًا طريقة للتقييم. يمكنك أيضًا إجراء تجارب الساندويتش باستخدام بيانات الخبراء. يمكننا أيضًا إجراء سلسلة من التعديلات على وظيفة التسجيل التلقائي ومعرفة مدى تحسين وظيفة التسجيل. هذه ليست وظيفة تسجيل مثالية، ولكنها مقياس محلي يوفر تدرجات محلية يمكن تحسينها. أعتقد أن هذا مهم جدًا لأنه يساعد على التكرار ويشير إلى الطريق نحو التحسين.

**على الرغم من أنني لا أعتقد أن ذلك سيوصلنا إلى هدف الذكاء الفائق المتسق، فمن الممكن جدًا إنشاء مصففات آلية تضاهي المستوى البشري تقريبًا. وهذا هو السبب الثالث الذي يدفعني إلى التفاؤل، وهو هدف أكثر تواضعاً. **عندما بدأت العمل على مشكلة المحاذاة منذ سنوات عديدة، أدركت أن محاذاة الذكاء الفائق تبدو صعبة. لكن هذا الهدف أكثر تواضعًا وقابلية للتنفيذ، وأنت لا تحاول حل المشكلة بأكملها بشكل مباشر، ولكنك تحاول توجيه النموذج.

** السبب الرابع للتفاؤل هو أن التقييم أسهل من التوليد. **تنطبق هذه الفكرة في الواقع على الكثير من الأشياء، على سبيل المثال، من الأسهل بكثير معرفة ما يستحق شراء هاتف ذكي بدلاً من صنعه.

هناك العديد من الأمثلة على مهام NP في علوم الكمبيوتر، مثل حل مشكلات SAT أو الإصدارات المختلفة من رضا القيد. من الصعب العثور على حلول لهذه المشكلات، ولكن بمجرد القيام بذلك، يصبح من السهل التحقق منها. أيضًا، وأعتقد أن هذا ينطبق على الكثير من الأعمال، إذا كنت ستقوم بتعيين شخص ما لحل مشكلة ما، فيجب أن تكون قادرًا على تقييم قدرته على القيام بهذه المهمة. إنه عمل أقل بكثير من محاولتهم حل المشكلة نفسها؛ إذا كنت تجري بحثًا أكاديميًا، فإن مراجعة النظراء تتطلب جهدًا أقل بكثير من إجراء البحث. بالطبع، مراجعة النظراء ليست مثالية، لكنها يمكن أن تعطيك الكثير من الإشارات بسرعة كبيرة. في الأساس، الشيء نفسه ينطبق على دراسات المحاذاة. التقييم أسهل من التوليد. لذا، إذا قام البشر فقط بتقييم أبحاث المحاذاة بدلاً من القيام بها، فإننا نسرع بالفعل.

**السبب الأخير الذي يجعلني متفائلاً هو أن ثقتي في النماذج اللغوية لن تتغير، ومن المؤكد أن قدرات النماذج ستصبح أقوى وأقوى ** فهي قابلة للتطبيق بشكل طبيعي جدًا على العديد من المهام البحثية المتعلقة بالمواءمة، ويمكنك وضعها صياغة المهام هذه كمخرج نص لإدخال النص، سواء كانت مهمة ML-ish (أي إجراء تجربة وفهم النتائج)، أو شيء أكثر مفاهيمية أو يعتمد على البحث، إذا كنا في حيرة من أمرنا بشأن ما يجب القيام به بعد ذلك، أو لم نفعل ذلك لا أعرف كيف أفكر في مشكلة معينة، سيحاول النموذج مساعدتنا في حلها. هذه المهام هي في الأساس إدخال النص وإخراج النص. ربما يكون الشيء الآخر الأكثر تعقيدًا الذي ستفعله هو النظر إلى بعض الرسوم البيانية وما إلى ذلك، لكن GPT-4 يمكنه فعل كل شيء. لذلك، أعتقد أن وضع التدريب المسبق لنموذج اللغة الحالي مناسب جدًا لخطة المحاذاة التي أتطلع إليها، وهو أيضًا الاتجاه الذي تعمل عليه Superalignment.

مرجع

محاذاة الوكيل القابلة للتطوير عبر نمذجة المكافأة: عنوان ورقة اتجاه البحث:

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

أعجبني
إعجاب
تعليق
مشاركة

تعليق

0/400

لا توجد تعليقات

الموضوع
NFT Market Rebounds
518 درجة الشعبية
Altcoins on the Rise
4k درجة الشعبية
ETH Breaks Through $3,700
775 درجة الشعبية
4Gate Square Creator Spark Program
158k درجة الشعبية
5Content Mining & Earn Rich Commission
1850k درجة الشعبية
6Gate Alpha New Listings
62k درجة الشعبية
7July Market Forecast
112k درجة الشعبية
8Which Sectors Are You Watching in 2025?
451k درجة الشعبية
9Crypto
7207k درجة الشعبية
10contentstar
10722k درجة الشعبية

تثبيت

خريطة الموقع