كشفت لقطة شاشة لورقة Microsoft أن GPT-3.5 يحتوي فقط على 20 مليار معلمة؟ صدمت الدائرة الذكاء الاصطناعي ، وصرخ مستخدمو الإنترنت أنها كانت شائنة!

المصدر الأصلي: نيو تشييوان

مصدر الصورة: تم إنشاؤه بواسطة الذكاء الاصطناعي غير محدود

GPT-3.5 لديه فقط 20 مليار معلمة؟

اليوم ، تم تفجير دائرة النموذج الكبيرة بواسطة لقطة شاشة في ورقة Microsoft ، ما الذي يجري؟

قبل بضعة أيام فقط ، نشرت Microsoft ورقة عن arXiv ، والتي اقترحت نموذج انتشار صغير الحجم مع 75 مليون معلمة فقط - CodeFusion.

من حيث الأداء ، فإن معلمات CodeFusion البالغ عددها 75 مليون معلمة قابلة للمقارنة مع طراز 350M-175B الحديث من حيث مؤشرات الدقة الأعلى 1.

عنوان:

عمل هذه الورقة مثير للاهتمام للغاية ، ولكن ما يجذب انتباه الجميع بشكل خاص هو -

عندما يقارن المؤلف ChatGPT (gpt-3.5-turbo) ، فإن العدد الاسمي للمعلمات هو 20B فقط!

قبل ذلك ، كان تخمين الجميع حول عدد معلمات GPT-3.5 175 مليار ، وهو ما يعادل انخفاضا بمقدار عشر مرات تقريبا!

وفقا لما كشفته هذه الورقة ، ذهب مستخدمو الإنترنت أيضا إلى ويكيبيديا لتحديث إدخال GPT-3.5 وتغيير حجم المعلمة مباشرة إلى 20B.

بمجرد ظهور الأخبار ، ظهرت مباشرة في بحث Zhihu الساخن ، وانفجر مستخدمو الإنترنت.

قال بعض الناس ، اسرع وأخرج منشور مدونة التقطير النموذجي السابق للمراجعة والمراجعة.

## ** هل هو "أولونغ" أم "حقيقة"؟ **

بمجرد ظهور ما كشفه مستخدمو الإنترنت ، أثاروا على الفور مناقشات ساخنة.

حتى الآن ، جاء أكثر من 680,000 شخص للمشاهدة.

قال الأخ الأكبر إن العديد من مؤلفي الورقة يستخدمون تويتر أيضا ، ويقدر أنه لن يمر وقت طويل قبل أن يشرحوا شخصيا.

أما بالنسبة لهذا "20B" الغامض ، فإن مستخدمي الإنترنت لديهم أيضا آراء مختلفة.

يتكهن البعض بأن هذا على الأرجح خطأ من قبل المؤلف. على سبيل المثال ، كان في الأصل 120B ، أو 200B.

إلى جانب التقييمات المختلفة في الواقع ، هناك بالفعل العديد من النماذج الصغيرة التي يمكنها تحقيق نتائج مماثلة مثل ChatGPT ، مثل Mistral-7B.

ربما ، هذا أيضا تأكيد جانبي على أن GPT-3.5 ليس كبيرا حقا.

يعتقد العديد من مستخدمي الإنترنت أيضا أن معلمات 20B قد تكون دقيقة ، وقد تنهدوا:

"إنه أمر لا يمكن تصوره! لا يمكن ل Falcon-180B ولا Llama2-70B التغلب على طراز 20B ".

يعتقد بعض مستخدمي الإنترنت أيضا أن GPT-3.5-Turbo هو نسخة مصقولة من GPT-3.5.

وهذا "التسرب" للمعلمات يؤكد فقط تلك الشائعات بأن GPT-3.5-Turbo ليس جيدا مثل GPT-3.5 القديم.

ومع ذلك ، وفقا للوثائق الرسمية ل OpenAI ، باستثناء text-davinci و code-davinci ، والتي لم تعد مستخدمة ، يعتمد جميع أفراد عائلة GPT-3.5 على gpt-3.5-turbo.

## مايكروسوفت تطلق كودفيوجن

تريد ورقة Microsoft ، التي كشفت أن GPT3.5 يحتوي على معلمات 20B فقط ، تقديم نموذج نشر لإنشاء التعليمات البرمجية.

قام الباحثون بتقييم CodeFusion ، وهو نموذج لمهمة إنشاء التعليمات البرمجية للغة الطبيعية لقواعد التنسيق الشرطي Bash و Python و Microsoft Excel (CF).

أظهرت التجارب أن CodeFusion (معلمات 75M فقط) قابلة للمقارنة مع أحدث LLM (معلمات 350M-175B) من حيث دقة top-1 ، ولديها أداء ممتاز ونسبة المعلمات من حيث دقة top-3 و top-5.

نموذج العمارة

يستخدم CODEFUSION لمهام إنشاء التعليمات البرمجية ، وينقسم تدريبه إلى مرحلتين ، المرحلة الأولى هي التدريب المسبق غير الخاضع للإشراف ، والمرحلة الثانية هي الضبط الدقيق الخاضع للإشراف.

في المرحلة الأولى ، يستخدم CODEFUSION مقتطفات التعليمات البرمجية غير المسماة لتدريب مزيل الضوضاء ووحدة فك الترميز. كما أنه يستخدم طبقة تضمين قابلة للتدريب ، L ، لتضمين أجزاء التعليمات البرمجية في المساحات المتجاورة.

في المرحلة الثانية ، يقوم CODEFUSION بإجراء ضبط دقيق تحت الإشراف ، باستخدام بيانات من أزواج الرموز النصية. في هذه المرحلة ، يتم ضبط كل من المشفر ومزيل الضوضاء ووحدة فك التشفير لأداء المهمة بشكل أفضل.

بالإضافة إلى ذلك ، يعتمد CODEFUSION على الأبحاث السابقة حول نشر النص لدمج التمثيل المخفي D من وحدة فك التشفير في النموذج. هذا لتحسين أداء النموذج. أثناء عملية التدريب ، في خطوات مختلفة ، يقدم النموذج بعض الضوضاء ثم يحسب وظيفة الخسارة للتأكد من أن مقتطف الشفرة الذي تم إنشاؤه أكثر انسجاما مع المعيار المتوقع.

باختصار ، CODEFUSION هو نموذج صغير يؤدي أعمال إنشاء التعليمات البرمجية ، ويحسن أدائه باستمرار من خلال مرحلتين من التدريب وابتلاع الضوضاء. هذا النموذج مستوحى من دراسة انتشار النص ويحسن وظيفة الخسارة عن طريق دمج التمثيل الخفي لوحدة فك التشفير لإنشاء مقتطفات شفرة عالية الجودة بشكل أفضل.

نتائج التقييم

يلخص الجدول التالي أداء نموذج CODEFUSION وكل نموذج أساسي في إعدادات top-1 وtop-3 وtop-5.

في top-1 ، يمكن مقارنة أداء CODEFUSION ، وفي بعض الحالات أفضل ، خاصة في مهام Python ، حيث يؤدي GPT-3 (175B) فقط أداء أفضل قليلا من CODEFUSION (75M). ومع ذلك ، من حيث أعلى 3 وأعلى 5 ، تفوق CODEFUSION بشكل كبير على جميع نماذج خط الأساس.

يوضح الجدول أدناه متوسط نتائج التنوع لنماذج CODEFUSION والانحدار الذاتي (بما في ذلك T5 و CodeT5 و StarCoder و CodeGen و GPT-3) في كل مهمة معيارية ، ويفحص النتائج الناتجة عن الأجيال الخمسة الأولى من كل نموذج.

بالمقارنة مع نماذج الانحدار الذاتي ، يولد CODEFUSION نتائج أكثر تنوعا ويعمل بشكل أفضل.

في تجربة الاجتثاث ، أوقف المؤلفون عملية تقليل الضوضاء وأنشأوا مقتطفا رمزيا للحالة الحالية في نطاق الخطوة الزمنية t ∈ [0 ، T]. تطبيع يتم استخدام مسافة تحرير السلسلة لقياس النتائج التي تم الحصول عليها لكل خطوة زمنية (بزيادات كل 100 خطوة).

يساعد هذا النهج في تلخيص وتوضيح التقدم التدريجي لنموذج CODEFUSION ، كما هو موضح في الشكل أدناه.

بعد قول كل ذلك ، ما هو بالضبط عدد المعلمات في GPT-3.5؟ ما هو الاتصال التقني وغيره بين GPT-4 و GPT-3.5؟

هل GPT-3.5 مجموعة من نماذج الخبراء الصغيرة أم نموذج عام؟ هل يتم تقطيرها بواسطة نموذج أكبر أم يتم تدريبها على بيانات أكبر؟

لن يتم الكشف عن إجابات هذه الأسئلة إلا عندما تكون مفتوحة المصدر حقا.

موارد:

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • مشاركة
تعليق
0/400
لا توجد تعليقات
  • تثبيت