OPML: التعلم الآلي مع نظام التجميع الأمثل

2023-08-02 01:10:18

المصدر: جيثب ؛ التحويل البرمجي: MarsBit

TL؛ DR

نقترح OPML (التعلم الآلي المتفائل) ، والذي يمكنه استخدام الأساليب المثلى لمنطق نموذج الذكاء الاصطناعي والتدريب / الضبط الدقيق لأنظمة blockchain.

بالمقارنة مع ZKML ، يمكن أن توفر OPML خدمات ML منخفضة التكلفة وعالية الكفاءة. متطلبات المشاركة لـ OPML منخفضة: نحن الآن قادرون على تشغيل OPML بنماذج لغة كبيرة مثل 7B-LLaMA (حجم النموذج ~ 26 جيجابايت) على جهاز كمبيوتر عادي بدون وحدة معالجة رسومات.

يستخدم OPML لعبة تحقق (مشابهة لأنظمة Truebit و Optimistic Rollup) لضمان اللامركزية والإجماع الذي يمكن التحقق منه لخدمات ML.

يبدأ الطالب أولاً مهمة خدمة تعلم الآلة.
بعد ذلك ، يكمل الخادم مهمة خدمة ML ويرسل النتيجة إلى السلسلة.
سوف يتحقق المدقق من النتيجة. افترض أن هناك مدققًا يدعي أن النتيجة خاطئة. تبدأ لعبة التحقق مع الخادم (اتفاقية ثنائية) وتحاول دحض الادعاء من خلال تحديد خطوة خاطئة معينة.
أخيرًا ، يتم إجراء تحكيم من خطوة واحدة على العقد الذكي.

لعبة تحقق أحادية الطور

يعمل بروتوكول التحديد الدقيق أحادي الطور بشكل مشابه لتفويض الحساب (RDoC) ، حيث يُفترض أن يقوم طرفان أو أكثر (مع طرف صادق واحد على الأقل) بتنفيذ نفس الإجراء. يمكن للطرفين بعد ذلك استجواب بعضهما البعض بدقة لتحديد الخطوات المتنازع عليها. أرسل الخطوات إلى قاضٍ أقل قوة من الناحية الحسابية (عقد ذكي على blockchain) للتحكيم.

في OPML أحادي المرحلة:

قمنا ببناء آلة افتراضية (VM) للتنفيذ خارج السلسلة والتحكيم على السلسلة. نحن نضمن تكافؤ الأجهزة الظاهرية خارج السلسلة والأجهزة الافتراضية على السلسلة المنفذة في العقود الذكية.
لضمان كفاءة استدلال نموذج الذكاء الاصطناعي في الأجهزة الافتراضية ، قمنا بتنفيذ مكتبة DNN خفيفة الوزن مصممة خصيصًا لهذا الغرض ، بدلاً من الاعتماد على أطر ML الشائعة مثل Tensorflow أو PyTorch. بالإضافة إلى ذلك ، يتم توفير برنامج نصي يحول نماذج Tensorflow و PyTorch إلى هذه المكتبة خفيفة الوزن.
استخدم تقنية التجميع المتقاطع لتجميع رمز منطق نموذج الذكاء الاصطناعي في تعليمات برنامج الآلة الافتراضية.
تتم إدارة صورة الجهاز الظاهري باستخدام شجرة Merkle ، وسيتم تحميل جذر Merkle فقط إلى العقد الذكي على السلسلة. (يمثل جذر ميركل حالة الجهاز الظاهري)

! [OPML: التعلم الآلي باستخدام نظام التجميع الأمثل] (https://img-cdn.gateio.im/resized-social/moments-40baef27dd-31545c7218-dd1a6f-1c6801)

ستساعد الاتفاقية الثنائية في تحديد موقع خطوة النزاع ، والتي سيتم إرسالها إلى عقد التحكيم على blockchain

! [OPML: التعلم الآلي باستخدام نظام التجميع الأمثل] (https://img-cdn.gateio.im/resized-social/moments-40baef27dd-00414863dd-dd1a6f-1c6801)

الأداء: اختبرنا نموذج AI أساسي (نموذج DNN لتصنيف MNIST) على جهاز الكمبيوتر. تمكنا من إكمال استنتاج DNN في غضون ثانيتين في الجهاز الظاهري ، ويمكن إكمال عملية التحدي بالكامل في غضون دقيقتين في بيئة اختبار Ethereum المحلية.

لعبة التحقق متعددة المراحل

قيود بروتوكولات التحديد الدقيق أحادية الطور

لعبة التحقق ذات المرحلة الواحدة لها عيب خطير: يجب إجراء جميع الحسابات داخل جهاز افتراضي (VM) ، مما يمنعنا من استغلال الإمكانات الكاملة لتسريع GPU / TPU أو المعالجة المتوازية. لذلك ، فإن هذا القيد يعيق بشدة كفاءة الاستدلال بالنموذج الكبير ، والذي يتوافق أيضًا مع قيود بروتوكول RDoC الحالي.

الانتقال إلى بروتوكول متعدد المراحل

لمعالجة القيود التي يفرضها البروتوكول أحادي الطور والتأكد من أن OPML يمكنه تحقيق مستويات أداء مماثلة للبيئات الأصلية ، نقترح امتدادًا للبروتوكول متعدد المراحل. باستخدام هذا النهج ، نحتاج فقط إلى إجراء عمليات حسابية في الجهاز الظاهري في المرحلة النهائية ، على غرار بروتوكول أحادي المرحلة. بالنسبة للمراحل الأخرى ، لدينا المرونة لإجراء العمليات الحسابية لتحقيق انتقالات الحالة في بيئة أصلية ، والاستفادة من قوة وحدات المعالجة المركزية (CPU) ووحدات معالجة الرسومات (GPU) و (TPU) وحتى المعالجة المتوازية. من خلال تقليل الاعتماد على الجهاز الظاهري ، نقوم بتقليل النفقات العامة بشكل كبير وبالتالي تحسين أداء تنفيذ OPML بشكل كبير ، وهو ما يشبه البيئة الأصلية تقريبًا.

يوضح الشكل أدناه لعبة تحقق تتكون من مرحلتين (k = 2). في المرحلة 1 ، تشبه العملية لعبة تحقق من مرحلة واحدة ، حيث يتوافق كل انتقال للحالة مع جهاز VM uop واحد يغير حالة الجهاز الظاهري. في المرحلة الثانية ، تتوافق انتقالات الحالة مع "التعليمات الكبيرة" التي تحتوي على العديد من أوامر التشغيل التي تعمل على تغيير السياق الحسابي.

سيستخدم القائمون على الالتزام والمحققون أولاً الاتفاقية الثنائية لبدء المرحلة الثانية من لعبة التحقق لتحديد الخطوات المتنازع عليها في "الأمر الكبير". سترسل هذه الخطوة إلى المرحلة التالية ، المرحلة -1. تعمل المرحلة الأولى مثل لعبة تحقق ذات مرحلة واحدة. ستساعد المرحلة الأولى من اتفاقية ثنائية الأطراف في تحديد الخطوات المتنازع عليها على أجهزة VM uops. سيتم إرسال هذه الخطوة إلى عقد التحكيم على blockchain.

لضمان سلامة وأمن الانتقال إلى المرحلة التالية ، نعتمد على أشجار Merkle. تتكون هذه العملية من استخراج الأشجار الفرعية من Merkle من مراحل المستوى الأعلى ، وبالتالي ضمان استمرار سلس لعملية التحقق.

! [OPML: التعلم الآلي باستخدام نظام التجميع الأمثل] (https://img-cdn.gateio.im/resized-social/moments-40baef27dd-2901d2a2b1-dd1a6f-1c6801)

OPML متعدد المراحل

في هذا العرض التقديمي ، نقترح نهج OPML على مرحلتين المستخدم في نموذج LLaMA:

يمكن التعبير عن عملية حساب التعلم الآلي (ML) ، وخاصة الشبكة العصبية العميقة (DNN) ، كرسم بياني حسابي ، يُشار إليه بالرمز G. يتكون الرسم البياني من عقد حوسبة مختلفة قادرة على تخزين نتائج الحوسبة الوسيطة.
استدلال نموذج DNN هو في الأساس عملية حسابية على الرسم البياني للحساب أعلاه. يمكن رؤية الرسم البياني بأكمله على أنه حالة الاستدلال (السياق الحسابي في المرحلة 2). عندما يتم حساب كل عقدة ، يتم تخزين النتيجة في تلك العقدة ، وبالتالي تقدم الرسم البياني للحساب إلى الحالة التالية.

! [OPML: التعلم الآلي باستخدام نظام التجميع الأمثل] (https://img-cdn.gateio.im/resized-social/moments-40baef27dd-cba672595c-dd1a6f-1c6801)

لذلك ، يمكننا أولاً إجراء لعبة التحقق على الرسم البياني الحسابي (في المرحلة 2). في المرحلة الثانية من لعبة التحقق ، يمكن إجراء حساب عقدة الرسم البياني في البيئة المحلية باستخدام وحدة المعالجة المركزية متعددة الخيوط أو وحدة معالجة الرسومات. ستساعد الاتفاقية الثنائية في تحديد موقع العقدة المتنازع عليها والتي سيتم إرسال حسابها إلى المرحلة التالية (المرحلة 1) من الاتفاقية الثنائية.
في المرحلة الأولى من التقسيم ، نقوم بتحويل حساب عقدة واحدة إلى تعليمات جهاز افتراضي (VM) ، على غرار ما يتم في بروتوكول أحادي الطور.

تجدر الإشارة إلى أننا نتوقع إدخال طرق OPML متعددة المراحل (تشتمل على أكثر من مرحلتين) عندما يكون حساب عقدة واحدة في الرسم البياني الحسابي لا يزال معقدًا من الناحية الحسابية. سيؤدي هذا التمديد إلى زيادة تحسين الكفاءة والفعالية بشكل عام لعملية التحقق.

تحسينات في الأداء

نقدم هنا مناقشة موجزة وتحليلاً لإطار عمل التحقق متعدد المراحل المقترح.

بافتراض وجود عدد من العقد في الرسم البياني لحساب DNN ، تحتاج كل عقدة إلى جلب التعليمات الدقيقة لـ m VM لإكمال الحساب في الجهاز الظاهري. افترض أن نسبة تسريع الحوسبة لكل عقدة تستخدم GPU أو الحوسبة المتوازية هي α. تمثل هذه النسبة السرعة التي حققتها GPU أو الحوسبة المتوازية ويمكن أن تصل إلى قيم مهمة ، غالبًا ما تكون أسرع بعشرات أو حتى مئات المرات من تنفيذ VM.

بناءً على هذه الاعتبارات ، نستخلص الاستنتاجات التالية:

يتفوق OPML على مرحلتين على OPML أحادي المرحلة ، ويحقق تسريع الحساب α مرة. يتيح لنا استخدام التحقق متعدد المراحل الاستفادة من قوة الحوسبة المتسارعة التي توفرها وحدات معالجة الرسومات أو المعالجة المتوازية ، وبالتالي تحسين الأداء العام بشكل كبير.
عند مقارنة حجم أشجار Merkle ، نجد أنه في OPML على مرحلتين ، يكون الحجم O (m + n) ، بينما في OPML أحادي المرحلة ، يكون الحجم أكبر بكثير من O (mn). إن تقليل حجم شجرة Merkle يسلط الضوء بشكل أكبر على كفاءة وإمكانية التوسع في التصميم متعدد المراحل.

باختصار ، يوفر إطار عمل التحقق متعدد المراحل تحسينات كبيرة في الأداء ، مما يضمن عمليات حسابية أكثر كفاءة وأسرع ، خاصة عند استغلال إمكانات التسريع لوحدات معالجة الرسومات أو المعالجة المتوازية. علاوة على ذلك ، فإن حجم شجرة Merkle المصغر يزيد من فعالية النظام وقابليته للتوسع ، مما يجعل OPML متعدد المراحل الاختيار للعديد من التطبيقات.

الاتساق والحزم

في OPML ، يعد ضمان اتساق نتائج ML أمرًا بالغ الأهمية.

أثناء التنفيذ الأصلي لحسابات DNN ، خاصة على الأنظمة الأساسية المختلفة للأجهزة ، نظرًا لخصائص أرقام الفاصلة العائمة ، قد تحدث اختلافات في نتائج التنفيذ. على سبيل المثال ، غالبًا ما تؤدي العمليات الحسابية المتوازية التي تتضمن أرقامًا ذات فاصلة عائمة ، مثل (أ + ب) + ج و أ + (ب + ج) ، إلى نتائج مختلفة بسبب أخطاء التقريب. بالإضافة إلى ذلك ، يمكن أن تؤثر عوامل مثل لغة البرمجة وإصدار المترجم ونظام التشغيل على نتائج الحساب لأرقام الفاصلة العائمة ، مما يؤدي إلى مزيد من التناقضات في نتائج تعلم الآلة.

لمواجهة هذه التحديات وضمان اتساق OPML ، اعتمدنا نهجين رئيسيين:

استخدام خوارزمية النقطة الثابتة ، والمعروفة أيضًا باسم تقنية التكميم. تسمح لنا هذه التقنية بتمثيل الحسابات وتنفيذها باستخدام الدقة الثابتة بدلاً من أرقام الفاصلة العائمة. من خلال القيام بذلك ، فإننا نخفف من آثار أخطاء تقريب الفاصلة العائمة ، مما يؤدي إلى نتائج أكثر موثوقية واتساقًا.
نحن نستخدم مكتبات الفاصلة العائمة القائمة على البرامج والمصممة للحفاظ على وظائف متسقة عبر منصات مختلفة. تضمن هذه المكتبات الاتساق والحتمية عبر الأنظمة الأساسية لنتائج ML ، بغض النظر عن تكوين الأجهزة أو البرامج الأساسية.

من خلال الجمع بين حساب النقطة الثابتة ومكتبات الفاصلة العائمة المستندة إلى البرامج ، أنشأنا أساسًا متينًا لنتائج ML متسقة وموثوقة ضمن إطار عمل OPML. يتيح لنا تنسيق التقنيات هذا التغلب على التحديات الكامنة التي تطرحها متغيرات النقطة العائمة واختلافات النظام الأساسي ، مما يعزز في نهاية المطاف سلامة وموثوقية حسابات OPML.

OPML vs ZKML

! [OPML: التعلم الآلي باستخدام نظام التجميع الأمثل] (https://img-cdn.gateio.im/resized-social/moments-40baef27dd-35848fff93-dd1a6f-1c6801)

\ *: في إطار عمل OPML الحالي ، ينصب تركيزنا الأساسي على استدلال نماذج ML ، مما يتيح حساب نموذج فعال وآمن. ومع ذلك ، يجب التأكيد على أن إطار عملنا يدعم أيضًا عملية التدريب ، مما يجعلها حلاً عامًا لمختلف مهام التعلم الآلي.

لاحظ أن OPML لا يزال قيد التطوير. إذا كنت مهتمًا بأن تكون جزءًا من هذا البرنامج المثير والمساهمة في مشروع OPML ، فلا تتردد في الاتصال بنا.

شاهد النسخة الأصلية

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.