ضغط كل شيء مباشرة! يرى إيليا سوتسكيفر ، كبير علماء أوبن إيه آي ، التعلم غير الخاضع للإشراف بهذه الطريقة

2023-08-21 01:46:52

المصدر الأصلي: قلب الآلة

رصيد الصورة: تم إنشاؤه بواسطة Unbounded AI‌

في الآونة الأخيرة ، ألقى إيليا سوتسكيفر ، كبير العلماء في OpenAI ، محاضرة في معهد Simons ، والتي تركز على أبحاث النظرية الحسابية.في جملة واحدة ، يمكننا النظر إلى التعلم غير الخاضع للإشراف من منظور مضغوط. بالإضافة إلى ذلك ، شارك العديد من الأفكار الأخرى المثيرة للاهتمام. قام قلب الآلة بفرز المحتوى العام للخطاب ، على أمل مساعدة القراء على فهم التعلم غير الخاضع للإشراف بشكل أعمق.

تحدث Sutskever لأول مرة عن تغيير اتجاه بحثه ، فقال: "منذ وقت ليس ببعيد ، قمت بتحويل كل تركيزي البحثي إلى أبحاث محاذاة الذكاء الاصطناعي." هذا هو فريق "Superalignment (المحاذاة الفائقة)" الذي أنشأته OpenAI منذ بعض الوقت ، الذي شارك في قيادته مع جان لايك. قال Sutskever أنهم حققوا بعض نتائج البحث في محاذاة الذكاء الاصطناعي ، لكن هذا ليس موضوعًا يركز عليه هذا الحديث.

موضوع هذا الخطاب هو "ملاحظة حول التعميم (ملاحظة حول التعميم)" ، ويتحدث إيليا سوتسكفر على وجه التحديد عن نظرية تشرح التعلم غير الخاضع للإشراف.

أولاً ، يطرح إيليا سوتسكفر سلسلة من الأسئلة العامة حول "التعلم": ما هو التعلم بالضبط؟ لماذا التعلم مفيد؟ لماذا يجب أن يكون التعلم مفيدًا؟ لماذا يجب أن تمتلك أجهزة الكمبيوتر القدرة على التعلم؟ لماذا يمكن للشبكات العصبية أن تتعلم؟ لماذا يمكن أن تتعلم نماذج التعلم الآلي قوانين البيانات؟ هل يمكننا وصف التعلم بمصطلحات رياضية؟

التعلم الخاضع للإشراف

يبدأ Sutskever بالتعلم تحت الإشراف. يقول إنه كان هناك عمل رسمي كبير على التعلم تحت الإشراف ، نتيجة لعدة باحثين منذ سنوات ؛ غالبًا ما يشار إلى هذه النتائج باسم نظرية التعلم الإحصائي.

تتمثل ميزة التعلم الخاضع للإشراف في أنه يمكن أن يوفر حالة رياضية دقيقة للتعلم لتحقيق النجاح. بمعنى ، إذا كان لديك بعض البيانات من بعض توزيع البيانات ، فيمكنك تحقيق خسارة تدريب منخفضة بنجاح ولديك بيانات تدريب كافية (درجات حرية أكبر من توزيع البيانات) ، فيجب أن يكون خطأ الاختبار منخفضًا.

رياضيًا ، يجب أن يكون التعلم ناجحًا إذا كان من الممكن العثور على وظيفة ضمن فئة من الوظائف تحقق خسارة تدريب أقل. لذلك ، فإن التعلم تحت الإشراف بسيط للغاية.

اكتشف الباحثون بعض النظريات في الأبحاث ذات الصلة ، وفيما يلي مثال على ذلك. قال Sutskever أن الأمر سيستغرق حوالي خمس دقائق لشرح النظرية ، لكن يبدو أن لديه وقتًا محدودًا لمحادثاته.

بشكل عام ، النظرية "أنيقة" وتوضح عملية تعلم خاضعة للإشراف بثلاثة أسطر فقط من الاشتقاق الرياضي.

لذا فإن التعلم الخاضع للإشراف مفهوم جيدًا نسبيًا. نحن نعلم سبب نجاحها - طالما أنه يمكننا جمع مجموعات كبيرة من بيانات التعلم الخاضعة للإشراف ، يمكننا أن نكون على ثقة من أن النماذج ستتحسن وأفضل. بالطبع ، هناك نقطة أخرى مهمة جدًا أيضًا ، وهي ضمان توافق توزيع الاختبار مع توزيع التدريب ؛ بهذه الطريقة فقط يمكن أن تكون نظرية التعلم تحت الإشراف فعالة.

لذا فإن مفهوم التعلم تحت الإشراف بسيط للغاية. لدينا أيضًا إجابات بالفعل عن سبب نجاح التعلم الخاضع للإشراف - نحن نعلم سبب نجاح التعرف على الكلام وتصنيف الصور لأنهما يعتمدان على التعلم الخاضع للإشراف الفعال والمضمون رياضيًا.

هنا ذكر Ilya Sutskever بعد VC بالمناسبة. وذكر أن العديد من الباحثين في نظرية التعلم الإحصائي يعتقدون أن بُعد VC هو مكون رئيسي ، ولكن تم اختراع الغرض من بُعد VC للسماح للنموذج بالتعامل مع المعلمات بدقة لا نهائية.

على سبيل المثال ، إذا كان لكل معلمة في المصنف الخطي دقة لا نهائية ، ولكن دقة أرقام الفاصلة العائمة في الواقع محدودة ، وستتقلص الدقة ، فيمكنك تنفيذ بعض الوظائف من خلال بُعد VC ، وتحويل هذا المصنف الخطي يتم تقليله إلى نموذج التعلم الخاضع للإشراف الموصوف في الصيغة السابقة.

ما هو التعلم بدون إشراف؟

انظر بعد ذلك إلى التعلم غير الخاضع للإشراف. بادئ ذي بدء ، ما هو التعلم غير الخاضع للرقابة؟ قال إيليا سوتسكفر إنه لم ير حتى الآن تفسيرًا مرضيًا للتعلم غير الخاضع للإشراف ، ولا نعرف كيف نفكر فيه رياضيًا - في أحسن الأحوال ، يمكننا فقط القيام ببعض الحدس.

لطالما كان التعلم غير الخاضع للإشراف حلمًا طويل الأمد في مجال التعلم الآلي. يعتقد Sutskever أن هذا الهدف قد تحقق في الدراسات التجريبية ، حيث ينظر النموذج إلى البيانات دون إخبار محتواها ويكتشف البنية المخفية الحقيقية والمفيدة فيها.

كيف حدث هذا؟ هل يمكننا التأكد من أن هذا سيحدث؟ يقول Sutskever أنه لا يمكننا ذلك ، ففي النهاية ليس لدينا نفس الضمانات النظرية في التعلم غير الخاضع للإشراف التي لدينا في التعلم الخاضع للإشراف.

كان الناس يستكشفون التعلم غير الخاضع للإشراف منذ الثمانينيات ، مستخدمين مصطلحات مماثلة. في التجربة ، لاحظ الأشخاص أنه عندما تكون كمية البيانات صغيرة ، لا تظهر ظاهرة التعلم غير الخاضع للإشراف ، ولكن ظهرت بعض أفكار التطوير الشائعة ، مثل BERT ، ونموذج الانتشار ، ونموذج اللغة القديم ، وما إلى ذلك. كان التعلم غير الخاضع للإشراف في ذلك الوقت قادرًا أيضًا على إنتاج بعض العينات الرائعة ، لكنه بالطبع لم يكن جيدًا مثل تكنولوجيا اليوم.

ولكن نظرًا لأننا لا نعرف كيف يعمل التعلم غير الخاضع للإشراف ، فقد كان الأمر دائمًا محيرًا.

على سبيل المثال ، عندما تقوم بالتحسين من أجل هدف معين (مثل إعادة بناء الصورة أو توقع الكلمة التالية) ، فقد تهتم أيضًا بهدف آخر (مثل تصنيف الصورة أو تصنيف المستند) ، وقد يؤدي النموذج أيضًا أداءً جيدًا في هذا الهدف غير المُحسَّن احصل على أداء جيد. لكن لماذا؟ لا أعرف ، هذه نتيجة التجربة. قال Sutskever أنه كان مثل السحر.

هل سنتخلى عن النظرية ونذهب إلى الوضعية؟

نحن نعلم أن التعلم غير الخاضع للإشراف هو تعلم البنية في توزيع المدخلات ، ثم الحصول على شيء منه يساعد على تحقيق الهدف. ولكن ماذا لو كان توزيع المدخلات توزيعًا منتظمًا؟ في هذا الوقت ، ستفشل العديد من خوارزميات التعلم غير الخاضعة للإشراف. كيف يجب أن نتعامل مع هذه الظاهرة؟ يقول Sutskever أننا بحاجة إلى وضع بعض الافتراضات.

طريقة تعلم غير خاضعة للإشراف: مطابقة التوزيع

بعد ذلك ، يُظهر Sutskever طريقة محتملة للتفكير في التعلم غير الخاضع للإشراف. قال إن طريقة التعلم غير الخاضعة للرقابة لم تصبح سائدة ، لكنها مثيرة للاهتمام للغاية. لها خصائص مشابهة للتعلم الخاضع للإشراف ، أي يجب أن تكون فعالة. لماذا ؟ يتضمن هذا عملية تعلم غير خاضعة للإشراف تسمى مطابقة التوزيع.

بعد ذلك ، اسمحوا لي أن أشرح بإيجاز. لنفترض أن هناك مصدرين للبيانات X و Y مع عدم وجود مراسلات بينهما ؛ الهدف من النموذج هو العثور على دالة F بحيث يقارب توزيع F (X) توزيع Y - وهذا هو القيد على F.

قد يكون هذا القيد مفيدًا للعديد من سيناريوهات التطبيقات مثل الترجمة الآلية والتعرف على الكلام. على سبيل المثال ، إذا كان هناك توزيع للجمل الإنجليزية ، بعد استخدام الوظيفة F ، يمكننا الحصول على توزيع قريب من توزيع الجمل الفرنسية ، ثم يمكننا القول أننا حصلنا على القيود الحقيقية لـ F.

إذا كانت أبعاد كل من X و Y عالية بما يكفي ، فقد يكون لدى F عدد كبير من القيود. في الواقع ، قد تتمكن حتى من استعادة F كاملة من تلك القيود. هذا مثال على التعلم الخاضع للإشراف للتعلم غير الخاضع للإشراف ، ويجب أن ينجح ، تمامًا كما يجب أن يعمل التعلم الخاضع للإشراف.

بالإضافة إلى ذلك ، تناسب الأصفار البديلة هذا الإطار أيضًا.

قال سوتسكيفر إنه اكتشف هذه الظاهرة بشكل مستقل في عام 2015. لقد جعله يفكر: ربما يمكننا وصف التعلم غير الخاضع للإشراف في شكل رياضي ذي معنى.

بالطبع ، سيناريو الترجمة الآلية الموصوف أعلاه هو سيناريو اصطناعي مبسط ، والذي لا يتوافق مع حالة التطبيق الحقيقي ، وسيناريو التعلم غير الخاضع للإشراف هو نفسه بطبيعة الحال.

بعد ذلك ، سيصف Sutskever طريقته المقترحة - والتي يمكن أن توفر تفسيرًا رياضيًا للتعلم غير الخاضع للإشراف والتأكد من أن نتائج التعلم غير الخاضع للإشراف جيدة.

كما نعلم جميعًا ، الضغط هو تنبؤ ، ويمكن تحويل كل ضاغط إلى متنبئ ، والعكس صحيح. هناك تطابق واحد لواحد بين ضاغط المجموعة ومتنبئ المجموعة.

أشار Sutskever إلى أنه من أجل توضيح التفكير في التعلم غير الخاضع للإشراف بشكل أكثر وضوحًا ، من المفيد استخدام جانب الضغط في المناقشة.

بناءً على ذلك ، قدم تجربة فكرية.

لنفترض أن لديك مجموعتي بيانات X و Y ، وهما ملفان على محرك الأقراص الثابتة ؛ ثم لديك خوارزمية ضغط رائعة C. افترض أيضًا أنك تقوم بضغط مشترك على X و Y ، أي قم بربطهما أولاً ، ثم قم بإدخاله إلى الضاغط.

السؤال المهم الآن هو: ما الذي سيفعله الضاغط الجيد بدرجة كافية؟

أعطى Sutskever إجابة بديهية للغاية: يستخدم الضاغط الأنماط الموجودة في X للمساعدة في ضغط Y ؛ والعكس صحيح.

قال إن مشهد مهمة التنبؤ له في الواقع ظاهرة مماثلة ، ولكن يبدو أنه من البديهي أن نقول في السياق المضغوط.

إذا كان الضاغط جيدًا بما فيه الكفاية ، فلن تكون النتائج المضغوطة للملفات المتسلسلة أسوأ من النتائج المضغوطة المنفصلة.

لذا فإن الضغط الإضافي الذي تحصل عليه من خلال التسلسل هو نوع من البنية المشتركة التي يلاحظها الضاغط. كلما كان الضاغط أفضل ، زادت الهياكل الأكثر شيوعًا التي يمكنه استخراجها.

الفرق بين نتيجتي الضغط هو الهيكل المشترك ، المعلومات الحسابية المتبادلة.

في المقابل ، يمكنك التفكير في Y على أنها بيانات لمهمة خاضعة للإشراف ، و X كبيانات لمهمة غير خاضعة للإشراف ، ولديك شكل من أشكال التفكير الرياضي حول هذه المعلومات - يمكنك استخدام الأنماط في X للمساعدة في المهمة Y.

لاحظ أيضًا كيف يتم تعميمها على مطابقة التوزيع. في حالة مطابقة التوزيع ، لنفترض أن X هي اللغة 1 و Y هي اللغة 2 ، وهناك بعض الوظائف البسيطة F التي تتحول من توزيع إلى آخر ؛ عندها سيلاحظ الضاغط الجيد ذلك أيضًا ويستخدمه ، بل من الممكن استعادة الوظيفة داخليًا.

بهذه الطريقة ، يتم تشكيل حلقة مغلقة. إذن كيف نصف التعلم غير الخاضع للرقابة في شكل رياضي؟

إضفاء الطابع الرسمي الرياضي على التعلم غير الخاضع للإشراف

لاحظ أن الوصف الموجود في هذا القسم يستخدم وصف سيناريو الضغط وسيناريو التنبؤ بالتبادل.

لنفترض أولاً أن لدينا خوارزمية التعلم الآلي A التي يتمثل دورها في ضغط Y. الخوارزمية A لديها حق الوصول إلى X. دع X يكون المستند رقم 1 و Y يكون المستند رقم 2. نريد خوارزمية / ضاغط تعلم الآلة لدينا لضغط Y ويمكنه استخدام X عندما يكون ذلك مناسبًا. الهدف هو ضغط Y قدر الإمكان.

ثم علينا أن نسأل أنفسنا: ما هو أكبر ندم على استخدام هذه الخوارزمية؟

أوضح Sutskever: "إذا كنت أقوم بعمل جيد وكان ندمي منخفضًا ، فهذا يعني أنني حصلت على كل المساعدة التي يمكنني الحصول عليها من هذه البيانات غير المصنفة. وقد ساعدت البيانات غير المصنفة قدر الإمكان." أنا. لا ندم على ذلك. "مما يعني أنه لا توجد تنبؤات أفضل متاحة لخوارزمية ضغط أفضل. "لقد حصلت على أقصى استفادة من بياناتي غير المصنفة."

يرى Sutskever هذا كخطوة مهمة نحو التفكير في التعلم غير الخاضع للإشراف. أنت لا تعرف ما إذا كانت مجموعة البيانات غير الخاضعة للإشراف مفيدة حقًا ، ولكن إذا كان لديك ندم منخفض على خوارزمية تعلم خاضعة للإشراف ، فأنت تحصل على أفضل نتيجة ، ولا توجد نتيجة أفضل ممكنة.

الآن في منطقة نظرية غامضة إلى حد ما.

يمنحنا استخدام تعقيد Kolmogorov باعتباره الضاغط النهائي خوارزمية بأسف شديد الانخفاض ، ولكنها ليست خوارزمية حقًا لأنها غير قابلة للحساب.

دعنا نشرح بإيجاز تعقيد Kolmogorov: يبدو الأمر كما لو أعطيتني بعض البيانات ، ومن أجل ضغطها ، سأزودك بأقصر برنامج ممكن. تعقيد Kolmogorov يساوي طول أقصر برنامج.

لنفترض أن C ضاغطًا قابلًا للحساب ، فبالنسبة لجميع X ، يكون تعقيد ضاغط Kolmogorov أقل من الناتج التعسفي للضاغط C بالإضافة إلى عدد أحرف الكود المطلوبة لتنفيذ الضاغط.

يمكننا إثبات ذلك باستخدام حجة المحاكاة. لنفترض أن هناك ضاغط C جيد جدًا ، فقد يكون برنامج كمبيوتر ، إذا تم تسليم برنامج الكمبيوتر هذا إلى K للتشغيل ، فإن التكلفة التي يتطلبها K هي طول هذا البرنامج. يمكن لضاغط Kolmogorov محاكاة برامج الكمبيوتر الأخرى والضواغط الأخرى ، وبالتالي فهو غير قابل للحساب. إنه مثل برنامج مجاني يحاكي جميع برامج الكمبيوتر ، ولكنه أيضًا أفضل ضاغط ممكن.

الآن نقوم بتعميم ضاغط Kolmogorov لاستخدام معلومات إضافية. نحن نعلم أن ضاغط Kolmogorov غير قابل للحساب ، ولا يمكن تحديده ، ولكنه مثل البحث في جميع البرامج. هذا يشبه استخدام شبكة عصبية لضبط المعلمات عبر SGD (Stochastic Gradient Descent) للبحث عن برنامج. تعمل هذه العملية على جهاز كمبيوتر بموارد معينة (الذاكرة ، عدد الخطوات) ، والتي تشبه ضاغط Kolmogorov الصغير جدًا. هناك أوجه تشابه بين الاثنين.

يمكن للشبكات العصبية محاكاة التطبيقات الصغيرة ، وهي أجهزة كمبيوتر صغيرة بها حلقات / دوائر. يمكننا استخدام SGD لتدريب هذه الحواسيب للعثور على "دوائرها" من البيانات.

تنطبق هنا أيضًا الحجج من عمليات المحاكاة. إذا كنت ترغب في تصميم بنية شبكة عصبية أفضل ، فستجد صعوبة في ذلك ، لأن إضافة أو تعديل الاتصالات يمكن محاكاته بواسطة بنى شبكات عصبية أخرى ، ولكن من الصعب فعل ذلك في الواقع. لأن هذه هي الحالات النادرة التي يمكن أن تؤدي إلى تحسينات هائلة. تمامًا مثل الانتقال من RNN إلى Transformer. RNNs لها عنق زجاجة: الحالة المخفية. ولكن إذا تمكنا من إيجاد طريقة لجعل RNN لها حالة مخفية كبيرة جدًا ، فقد يلحق أداؤها بالمحول مرة أخرى.

لذلك يمكننا استخدام تعقيد Kolmogorov الشرطي كحل للتعلم غير الخاضع للإشراف على النحو التالي:

حيث C هو ضاغط قابل للحساب و K (Y | X) هو طول أقصر برنامج ينتج Y إذا كان يمكن استخدام X.

هذا حل منخفض للغاية للتعلم غير الخاضع للإشراف وغير القابل للحساب ، ولكنه يوفر إطارًا مفيدًا.

ضغط كل شيء مباشرة!

يذهب Sutskever خطوة إلى الأمام ويذكر أن "ضغط كل شيء بشكل مباشر" ممكن أيضًا.

يعد تعقيد Kolmogorov المشروط K (Y | X) غير طبيعي في سياق التعلم الآلي لأنه يضغط على Y استنادًا إلى X ، وهو أمر مستحيل إلى حد كبير في مجموعات البيانات الكبيرة ، على الأقل في الوقت الحالي. يمكننا أن نلائم مجموعات كبيرة من البيانات ، ولكن من الصعب تكييفها.

وما ورد أعلاه يقول: إذا كنت ترغب في عمل تنبؤات بشأن شيء Y تشرف عليه ، فإن ضاغط Kolmogorov العادي الذي يضغط البيانات المتسلسلة X و Y سيعمل بالإضافة إلى ضاغط شرطي. بالطبع هناك المزيد من التفاصيل الدقيقة في التفاصيل الفعلية ، ولكن ما يعنيه هذا حقًا هو أنه يمكننا استخدام ضاغط Kolmogorov العادي لحل التعلم غير الخاضع للإشراف - ما عليك سوى تجميع جميع بياناتك وإجراء الضغط ، حتى تتمكن من الحصول على نتائج جيدة تم الحصول عليها في مهام الإشراف.

والدليل على ذلك أكثر تعقيدًا ، لذا لن أخوض فيه هنا.

الاستنتاج المهم هو أن ضغط Kolmogorov المنتظم (دون أن يكون مشروطًا بمجموعة بيانات معينة) هو "أفضل استخدام ممكن" للبيانات غير المسماة. هذا هو الحل للتعلم غير الخاضع للإشراف.

ضغط المفصل هو أقصى احتمالية

كانت النقطة الأخيرة التي ذكرها Sutskever في حديثه هي: هذا الضغط المشترك هو أقصى احتمال ، طالما لم يكن هناك فرط في التركيب.

إذا كانت لديك مجموعة بيانات ، فإن مجموع احتمالات المعلمات المحددة هو تكلفة ضغط مجموعة البيانات هذه. أنت تدفع أيضًا تكلفة ضغط المعلمات. وإذا كنت تريد ضغط مجموعتين من البيانات ، فلا مشكلة ، فقط أضف نقاط البيانات إلى مجموعة البيانات الخاصة بك ، أي أضف المزيد من العناصر إلى مجموع العملية أعلاه.

لذا فإن الضغط المشترك عن طريق تسلسل البيانات هو نهج طبيعي للغاية في سياق التعلم الآلي. في المقابل ، فإن اجتياز تعقيد Kolmogorov الشرطي أكثر إزعاجًا.

يمكننا حتى استخدامها لشرح كيفية عمل الشبكات العصبية. يمكننا استخدام SGD للشبكات العصبية الكبيرة كباحث برنامج كبير لدينا. كلما كانت الشبكة العصبية أكبر ، كان ذلك أفضل لتقريب ضاغط Kolmogorov العادي. علق Sutskever: "ربما لهذا السبب نحب الشبكات العصبية الكبيرة ، لأننا نستطيع تقريب فكرة ضاغط Kolmogorov العادي غير القابل للتحقيق دون أي ندم. بينما نقوم بتدريب شبكات عصبية أكبر وأكبر ، سيزداد الندم. منخفض."

هل تنطبق هذه النظرية أيضًا على نماذج GPT؟

إجابة Sutskever على ذلك هي نعم ، ولكن لشرح سلوك نموذج GPT ، دون الاستشهاد ببيان حول الضغط أو التعلم تحت الإشراف ، يمكنك القول أنه يمكن الحصول على "نظرية" GPT من خلال التفكير في التوزيع الشرطي للنص.

لذا ، هل يمكننا إيجاد طرق أخرى للتحقق المباشر لاختبار هذه النظرية؟ هل يمكننا شرحها من حيث المجالات الأخرى مثل الرؤية؟ هل يمكننا الحصول على تعليم جيد غير خاضع للإشراف إذا قمنا بذلك باستخدام بيانات البكسل؟

قال Sutskever إنهم أجروا بالفعل مثل هذه الدراسة في عام 2020 ، iGPT. بالطبع ، يعد هذا بشكل أساسي بحثًا لإثبات صحة المفهوم ، ولا يزال هناك طريق طويل لنقطعه من التطبيق العملي.للحصول على التفاصيل ، راجع مقالة "التدريب المسبق التوليدي من البكسل".

توضح الورقة أنه إذا كان بإمكانك عمل توقع رائع للخطوة التالية ، فيمكنك الحصول على تعليم رائع بدون إشراف. تثبت هذه الورقة التأكيد في مجال الصورة.

بعبارات بسيطة ، قم أولاً بتحويل الصورة إلى سلسلة من وحدات البكسل ، كل بكسل له قيمة كثافة منفصلة. كل ما يجب القيام به هو استخدام نفس المحول للتنبؤ بالبكسل التالي. هذا يختلف عن BERT ، وهو التنبؤ بالرمز المميز التالي ، لأن هذا هو احتمال تعظيم الضغط.

دعونا نرى النتيجة:

كما هو موضح ، هذه هي دقة المجس الخطي على CIFAR-10 لأحجام مختلفة من نماذج iGPT ، أي دقة التنبؤ بالخطوة التالية في مهمة التنبؤ بالبكسل للتعلم غير الخاضع للإشراف. يمكن ملاحظة أن التنبؤ بالبكسل التالي فعال مثل التنبؤ بالكلمة التالية. يعمل التعلم غير الخاضع للإشراف بشكل أفضل عندما يكون حجم النموذج أكبر.

لقد أجروا دراسات تجريبية ووجدوا أنه على ImageNet ، يمكن لأداء iGPT ، الذي تم توسيعه بعدة طرق ، أن يقترب من أحدث تقنيات التعلم الخاضع للإشراف ، ولكن لا تزال هناك بعض الثغرات.

ومع ذلك ، يعتقد Sutskever أن هذه مشكلة حسابية ، لأن طرق التعلم الخاضعة للإشراف مثل SimCLR تستخدم صورًا كبيرة عالية الدقة ، وتوفر صورًا صغيرة 64 × 64 للمحول العملاق (6.8 مليار معلمة). يشبه التنبؤ بالبكسل التالي بطريقة غير خاضعة للإشراف استنادًا إلى مجموعة بيانات كبيرة ، ثم تركيب مسبار خطي على ImageNet بنتائج رائعة.

في CIFAR-10 ، حقق iGPT-L مع 1.36 مليار معلمة دقة 99٪ ، كما هو موضح في الشكل أدناه.

التمثيل الخطي

في نهاية الحديث ، قال Sutskever إنه يريد التحدث عن التمثيلات الخطية.

يقول: "أحب نظرية الضغط لأنه لم تكن هناك طريقة للتفكير في التعلم غير الخاضع للإشراف بطريقة صارمة من قبل". والآن يمكننا القيام بذلك إلى حد معين. لكن نظرية الانضغاط لا يمكن أن تفسر بشكل مباشر لماذا تكون التمثيلات قابلة للفصل خطيًا ، ولا يمكنها تفسير وجوب وجود مجسات خطية. التمثيلات الخطية موجودة في كل مكان ، ويجب أن تكون أسباب تكوينها عميقة. يعتقد Sutskever أننا سنكون قادرين على التعبير عنه في المستقبل.

شيء آخر وجده مثيرًا للاهتمام هو أن نموذج الانحدار الذاتي يتفوق على BERT من حيث التمثيل الخطي. لكن لا يزال من غير الواضح لماذا.

ومع ذلك ، قدم Sutskever تكهناته الخاصة: عند التنبؤ بالبكسل التالي بناءً على جميع وحدات البكسل السابقة ، يحتاج النموذج إلى مراقبة بنية البيانات بعيدة المدى. يتجاهل BERT بعض رموز البكسل عند معالجة المتجهات ، وبالنظر إلى كل من الماضي وقليلًا من المستقبل ، يمكن للنموذج في الواقع الحصول على تنبؤات جيدة جدًا. بهذه الطريقة ، تتم إزالة جميع المهام الصعبة ، وتقليل صعوبة المهام كثيرًا. أصعب مهمة تنبؤ في التنبؤ بالبكسل التالي هي أصعب بكثير من أصعب مهمة تنبؤ في حالة توقع BERT.

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

تسجيلات الإعجاب 1