دليل "الكيمياء" GPT-4: وزارة التربية ، مبلغ المعامل ، تكلفة التدريب وأسرار الاستدلال

** الأصل: التقاط الأفيال **

** المصدر: ** وحيد القرن في الخارج

** المؤلفون: ديلان باتيل ، جيرالد وونج **

** حرره: Haina، Wenli، Cage **

** المحرر: Siqi **

* مصدر الصورة: تم إنشاؤه بواسطة Unbounded AI‌ *

تم تجميع هذه المقالة من العمود SemiAnalysis بواسطة ديلان باتيل وجيرالد وونغ. منذ وقت ليس ببعيد ، نشر ديلان باتيل الأخبار حول رسالة Google الداخلية: ليس لدينا خندق ، ولا OpenAI.

GPT-4 هو نتيجة مزيج عميق من ابتكار العلوم والهندسة. هناك حيل لا حصر لها في الوسط. بالنسبة للعالم الخارجي ، إذا كان بإمكانك فهم بنية GPT-4 ، فإن الأمر يشبه الحصول على "وصفة الكيمياء" من أقوى نموذج. يعطي هذا المحتوى بنية GPT-4 ، والبنية التحتية للتدريب والاستدلال ، وكمية المعلمات ، ومجموعة بيانات التدريب ، ورقم الرمز ، والتكلفة ، ونموذج MoE وغيرها من المعلمات وتفاصيل المعلومات بتفصيل كبير.

يعتقد ديلان وجيرالد أن السبب وراء عدم قيام OpenAI بالكشف عن بنية GPT-4 ليس بسبب ما يسمى اعتبارات أمان الذكاء الاصطناعي ، ولكن لأن هذه البنية سهلة النسخ ؛ جورج هوتز ، المعروف باسم "الهاكر العبقري" ، أعرب أيضًا عن رأي مماثل ، ومع ذلك ، يجادل جورج بأن GPT-4 يتكون من MoEs المكونة من 8 نماذج خبراء ، لكل منها حوالي 1100 معلمة.

يتوقع المؤلفان أن شركات مثل Google و Meta و Anthropic و Inflection و Character.ai و Tencent و ByteDance و Baidu وما إلى ذلك ، سيكون لها نفس قدرات النموذج أو حتى أقوى منها مثل GPT-4 على المدى القصير. على الرغم من أن بنية GPT-4 "يمكن نسخها بسهولة" ، من وجهة نظرهم ، فإن OpenAI لديها الخندق الأكثر ديمومة - أكبر عدد من المستخدمين النهائيين ، والمواهب الهندسية الرائدة ، وميزة المحرك الأول في التغييرات بين الأجيال في النماذج.

تذكير ودي: البيانات الواردة في المقالة مأخوذة من مجموعة وأبحاث المؤلف الأصلي متعددة الأطراف ، ولم يتم تأكيدها من قبل OpenAI. تعتبر أبحاث ديلان باتيل بشكل عام موثوقة للغاية ويمكن استخدامها كمرجع جيد لـ GPT-4 مواد بحثية متعمقة. بالإضافة إلى ذلك ، نعتقد أن الآراء سهلة التكرار في المقالة قد يُشتبه في كونها "طرفًا رئيسيًا" ، لأنه بصرف النظر عن OpenAI و Google ، فإن العلماء الذين يجيدون التدريب على إطار عمل وزارة التربية المعقد والاستدلال نادرون حاليًا ، و GPT-4 الحالية هي فقط الجيل الأول من MoE. إنها ليست الإجابة النهائية التي قدمتها OpenAI ، والكثير من الخبرة في العملية غير متاحة للفرق الأخرى ، وستصبح هذه التجارب بالتأكيد ميزة فريدة لـ OpenAI.

فيما يلي جدول محتويات هذه المقالة ، ويوصى بقراءته مع النقاط الرئيسية.

👇

  • 01 نظرة عامة *

  • 02 هيكل النموذج *

  • 03 مجموعة بيانات *

  • 04 إستراتيجية موازية *

  • 05 تكلفة التدريب *

  • 06 وزارة التربية والتعليم *

  • 07 التفكير *

  • 08 البنية التحتية وتكلفة التفكير *

  • 09 آلية الانتباه متعدد الاستعلامات *

  • 10 دفعات متتالية *

  • 11 فك المضاربة *

  • 12 رؤية متعددة الوسائط *

01. نظرة عامة

القدرات الهندسية لـ OpenAI وما قاموا بإنشائه مذهلة ، لكن هذا لا يعني أن الحلول لا يمكن التغلب عليها. حلهم أنيق للغاية ، ويتضمن أيضًا مراعاة وتوازن سلسلة من العوامل المعقدة ، وتوسيع مقياس النموذج ليس سوى جزء منه. ** يأتي الخندق الأكثر دواما لـ OpenAI من ثلاثة جوانب: أولاً ، لديهم أكثر المستخدمين في العالم الحقيقي ، والثاني ، الموهبة الهندسية الرائدة ، وأخيراً ، من المرجح أن يستمروا في الحفاظ على الريادة في تطوير النماذج المستقبلية. **

ليس من المهم فقط فهم سبب اختيار GPT-4 لهندسة معينة ، ولكن في الآونة الأخيرة ، سنحدد أيضًا تكاليف التدريب والاستدلال لـ GPT-4 على A100 ، وكيفية استخدام H100 في بنية نموذج الجيل التالي.

من GPT-3 إلى GPT-4 ، تريد OpenAI زيادة حجم النموذج بمقدار 100 مرة. جوهر هذه العملية هو بطبيعة الحال مشكلة التكلفة **. المحولات الكثيفة هي نماذج معمارية شائعة الاستخدام مثل OpenAI GPT-3 و Google PaLM و Meta LLaMA و TII Falcon و MosaicML MPT وما إلى ذلك في الوقت الحالي ، هناك ما لا يقل عن 50 شركة تستخدم هذه البنية لتدريب LLM ، وهو مثال جيد للهندسة المعمارية ، ولكن قابلية التوسع محدودة للغاية.

ناقش AI Brick Wall تكلفة تدريب النموذج في هذه المقالة ، قبل إصدار GPT-4. من منظور تكلفة التدريب ، فإن النموذج الكثيف (المحولات الكثيفة) على وشك مواجهة "جدار طوب الذكاء الاصطناعي" الخاص به. قم ببعض الجهود المعمارية ذات المستوى الأعلى.

AI Brick Wall: وصلت الأجهزة في هذه المرحلة إلى الحد الأقصى من حيث المحولات الكثيفة ، لذلك من غير العملي والمكلف توسيع نطاق النموذج بشكل مستمر إلى نموذج يحتوي على تريليون أو عشرة تريليون معلمة. قبل الجيل الجديد من الأجهزة ، هناك حاجة إلى استراتيجيات وتقنيات مختلفة لتقليل تكاليف التدريب ، وتحسين كفاءة التدريب النموذجي وتوسيع النموذج إلى عدد أكبر من المعلمات. يعتقد المؤلف أن هذه السلسلة من التقنيات ستتحقق في حوالي عام 2023 ، والشركات القادرة على المشاركة تشمل OpenAI و Google و DeepMind و Microsoft و Nvidia. تم تقديم العديد من هذه الاستراتيجيات في مؤتمر NeurIPS ومن المحتمل أن يكون لها تأثير كبير على تطبيقات الذكاء الاصطناعي.

لكن على مدار الأشهر الستة الماضية ** ، أدركنا أن تكلفة التدريب قد لا تكون مشكلة **. على الرغم من أن إنفاق الملايين أو حتى مئات الملايين من الدولارات لتدريب العارضات يبدو أمرًا جنونيًا ، إلا أنه في الواقع أمر تافه بالنسبة لعمالقة التكنولوجيا. النموذج الكبير هو مشروع استثمار رأسمالي (بند Capex) ، وكلما كان النموذج أكبر ، كانت النتيجة أفضل.العامل المقيد الوحيد هو ما إذا كان البشر لديهم القدرة والوقت الكافيين لتقديم التغذية الراجعة وتعديل بنية النموذج أثناء توسيع النموذج حجم.

تستثمر Meta أكثر من 16 مليار دولار في "Metaverse" كل عام ، وتنفق Google حوالي 10 مليارات دولار على مشاريع جديدة ، وتنفق Amazon أكثر من 50 مليار دولار على Alexa ، وتنفق العملة المشفرة على "أشياء لا قيمة لها" يضيع أكثر من 100 مليار دولار. سينفق المجتمع ككل أكثر من 100 مليار دولار لإنشاء أجهزة كمبيوتر عملاقة قادرة على تدريب نماذج واسعة النطاق يمكن إنتاجها بطرق مختلفة. ستكرر العديد من البلدان والشركات جهود التدريب ** على النماذج الكبيرة ، وهي "سباق التسلح في الفضاء" الجديد **. بالمقارنة مع "إهدار الموارد" السابق ، سيتم تحقيق القيمة الحقيقية على المدى القصير بسبب ظهور مساعدين بشريين ووكلاء مستقلين.

لكن في السنوات القليلة المقبلة ، ستنفق كل من Google و Meta و OpenAI و Microsoft وغيرها من الشركات أكثر من 100 مليار دولار أمريكي لبناء كمبيوتر عملاق لتدريب النموذج.

تكمن القضية الأكثر أهمية في توسيع حجم النموذج ، "جدار القرميد AI" الحقيقي ، في رابط الاستدلال. الهدف هنا هو فصل قوة حوسبة التدريب عن قوة الحوسبة الاستدلالية ، لذلك بالنسبة لأي نموذج سيتم نشره ، من المنطقي أن يتدرب على ما هو أبعد من نموذج شينشيلا الخاص بـ DeepMind. (ملاحظة الانتقاء: زيادة كمية بيانات التدريب لجعل النموذج يتعلم أكثر من اللازم هي استراتيجية لزيادة قدرة النماذج الصغيرة وتقليل تكلفة التفكير.) وهذا هو سبب استخدام بنية نموذجية متفرقة (بنية نموذجية متفرقة). المنطق في ظل هذه البنية لا يلزم أن تكون جميع المعلمات نشطة.

Chinchilla الأمثل: من Deepmind's paper Training-Optimal Optimal Large Language Models ، يشير إلى حجم النموذج وحجم البيانات الذي يجب استخدامه للحصول على أقل خسارة عندما يكون هناك عدد إجمالي ثابت من FLOPS.

في الوقت الحاضر ، تعتبر Chinchilla-optimal هي الاستراتيجية المثلى في جانب التدريب ، والتدريب باستخدام المزيد من الرموز لتجاوز تأثير Chinchilla-optimal هو الاستراتيجية المثلى في جانب الاستدلال. ولأن تكلفة التفكير تمثل "الرأس الكبير" ، فإن معظم الشركات ستختار إستراتيجية تتجاوز الشينشيلا الأمثل.

يتمثل جوهر المشكلة في رابط الاستدلال في أن ** تكلفة نشر النموذج للمستخدمين والوكلاء مرتفعة جدًا **. تكلفة الاستدلال أعلى بعدة مرات من تكلفة التدريب ، وحل هذه المشكلة هو هدف OpenAI من حيث بنية النموذج والبنية التحتية.

عندما يتعلق الأمر بالاستدلال على النماذج الكبيرة ، وخاصة النماذج الكثيفة ، يمكن أن يصبح حجم النموذج مشكلة متعددة المتغيرات. على الجهاز AI- Double Edged Sword ناقشت هذه المقالة الوضع في بيئة الحوسبة المتطورة. ببساطة ، لا يمكن أبدًا للأجهزة الطرفية الحصول على معدل نقل البيانات وعرض النطاق الترددي للذاكرة المطلوب لتنفيذ نماذج لغة كبيرة.حتى لو كان النطاق الترددي كافياً ، فإن كفاءة الأجهزة المتطورة في استخدام موارد حوسبة الأجهزة منخفضة للغاية. تواجه مراكز البيانات مشكلات مماثلة.

يعد استخدام موارد الحوسبة أمرًا مهمًا جدًا لمراكز البيانات والسحابات. (ملاحظة: في الوقت الحالي ، يبلغ الحد الأعلى لاستخدام GPU / TPU في الصناعة حوالي 50٪.) أحد الأسباب المهمة التي تدفع إلى الإشادة ببرنامج NVIDIA على نطاق واسع هو أنه في عملية الإطلاق المستمر لجيل جديد من GPU ، فإن NVIDIA هي أيضًا التحديث المستمر لجيل من البرامج التي تزيد من استخدام FLOPS من خلال تمكين حركة بيانات أكثر ذكاءً حول الرقائق ، وبين الرقائق ، وبين الذكريات.

FLOPS: عمليات النقطة العائمة في الثانية ، هي وحدة تستخدم لقياس سرعة عمليات الكمبيوتر. كلما زادت FLOPS ، كان بإمكان الكمبيوتر التعامل مع المشكلة بشكل أفضل. تأتي القوة الحاسوبية لوحدة معالجة الرسومات بشكل أساسي من FLOPS التي يمكن أن توفرها ، فكلما زادت FLOPS التي توفرها وحدة معالجة الرسومات ، زادت قوة الحوسبة الخاصة بها.

في هذه المرحلة ، تكون حالات استخدام استدلال LLM في الغالب "مساعدين حيين" ، مما يعني أنه يجب أن يحقق إنتاجية عالية بما يكفي ليكون مفيدًا حقًا للمستخدمين **. إذا أخذنا البشر كمثال ، فإن متوسط سرعة قراءة البشر يبلغ حوالي 250 كلمة في الدقيقة ، ويمكن أن يصل بعض الأشخاص إلى حوالي 1000 كلمة في الدقيقة. وبالمقابلة مع النموذج ، فهذا يعني إخراج ما لا يقل عن 8.33 رمزًا في الثانية ، ويفضل 33.33 رمزًا في الثانية رمز ، من الممكن تلبية جميع احتياجات الإنسان.

ومع ذلك ، نظرًا لمحدودية النطاق الترددي للذاكرة ، حتى على أحدث خادم NVIDA H100 GPU ، لا يمكن للنموذج الكثيف (النموذج الكثيف) الذي يحتوي على تريليون معلمة تحقيق هذه الإنتاجية رياضيًا. في كل مرة يتم إنشاء رمز مميز ، يجب تحميله من الذاكرة إلى الشريحة ، ثم يتم إرسال هذا الرمز المميز مرة أخرى لإنشاء الرمز المميز التالي. بالإضافة إلى ذلك ، تتطلب ذاكرة التخزين المؤقت KV (ذاكرة التخزين المؤقت KV) لتنفيذ آلية الانتباه أيضًا نطاقًا تردديًا إضافيًا.

KV Cache (KV Cache): أثناء عملية أخذ العينات ، سيقوم نموذج Transformer بإجراء عملية الانتباه الذاتي (الاهتمام الذاتي) ، والتي من الضروري استخراج قيمة رئيسية لكل عنصر في التسلسل الحالي (سواء كان ذلك / سياق أو رمز تم إنشاؤه) متجه (قيمة المفتاح ، KV). يتم تخزين هذه المتجهات في مصفوفة ، تسمى غالبًا ذاكرة التخزين المؤقت KV أو ذاكرة التخزين المؤقت السابقة. وظيفة ذاكرة التخزين المؤقت KV هي تجنب إعادة حساب متجه قيمة المفتاح في كل مرة يتم فيها أخذ عينات من الرمز المميز. يمكن أن يؤدي استخدام قيم K و V المحسوبة مسبقًا إلى توفير الكثير من وقت الحوسبة ، على الرغم من أنها ستستهلك بعض مساحة التخزين. تلعب ذاكرة التخزين المؤقت KV دورًا مهمًا جدًا في نموذج Transformer ويمكن أن تساعد بشكل كبير في تحسين كفاءة وأداء النموذج.

يفترض هذا الرسم البياني أن الفشل في دمج كل عملية غير فعال ، وأن آليات الانتباه تتطلب نطاقًا تردديًا للذاكرة قابلًا للمقارنة وتحمل الأجهزة كما تقرأ المعلمة. في الواقع ، حتى مع المكتبات "المُحسّنة" مثل NVIDIA FasterTransformer ، فإن النفقات الإجمالية ستكون أعلى.

يوضح الشكل أعلاه عرض النطاق الترددي للذاكرة المطلوب لخدمة مستخدم واحد LLM مع إنتاجية عالية بما فيه الكفاية. من هذه الصورة يمكن ملاحظة ما يلي:

• حتى عرض النطاق الترددي 8 مرات من H100 لا يمكن أن يخدم نموذجًا كثيفًا بمقياس 1 تريليون معلمة بمعدل 33.33 رمزًا في الثانية ؛

• علاوة على ذلك ، لا يزال استخدام FLOPS لـ 8x H100 أقل من 5٪ بمعدل 20 رمزًا في الثانية ، مما ينتج عنه تكلفة استدلال عالية للغاية.

في الواقع ، بالنسبة لنظام H100 المتوازي ذي 8 اتجاهات ، فإن قيد الاستدلال يبلغ حوالي 300 مليار معلمة تغذية إلى الأمام.

ومع ذلك ، ** تحقق OpenAI سرعة قراءة بشرية مع A100 والنماذج التي تحتوي على أكثر من 1 تريليون معلمة ** ، وهي متاحة على نطاق واسع بسعر منخفض يبلغ 0.06 دولار لكل 1000 رمز ، وهذا ممكن على وجه التحديد بسبب بنيتها المتناثرة.

بعد ذلك ، سنناقش بنية نموذج GPT-4 ، والبنية التحتية للتدريب والاستدلال ، وعدد المعلمات ، وتكوين مجموعة بيانات التدريب ، وعدد الرموز ، وعدد الطبقات ، والاستراتيجيات المتوازية ، والمشفرات المرئية متعددة الوسائط ، وراء سلسلة من التصاميم الهندسية المختلفة ، الاعتبارات ، تقنيات التنفيذ ، وكيف تعالج OpenAI الاختناقات في استدلال النماذج الكبيرة.

02. هيكل النموذج

** حجم GPT-4 أكثر من 10 أضعاف مقياس GPT-3 ** ، ونقدر أنه يحتوي على حوالي 1.8 تريليون معلمة ، ويتم توزيع هذه المعلمات على 120 طبقة محولات. للمقارنة ، معلمات GPT-3 حوالي 1750 مليار. (ملاحظة: يحتوي GPT-3 على 12 طبقة محول فقط ، وعدد الطبقات هو 1/10 من GPT-4.)

للتحكم في التكاليف ، اختارت شركة OpenAI استخدام نموذج وزارة التربية والتعليم. يستخدم OpenAI 16 خبيرًا من نوع MLP.2 في النموذج ، لكل منهم حوالي 111 مليار معلمة. يتم استدعاء اثنين من هذه النماذج الخبيرة في كل تمريرة للأمام.

• مزيج من الخبراء (MoE): نموذج وزارة التربية هو بنية تعليمية عميقة ، والتي تتكون عادة من عدة خبراء (خبراء) ، كل خبير مسؤول عن معالجة الجوانب المختلفة لبيانات الإدخال ، ولديه مجموعة معلمات خاصة به (هناك أيضًا بعض المعلمات ، مثل التضمين ، والتي يمكن مشاركتها من قبل جميع الخبراء ، أي المعلمات المشتركة). في عملية الاستدلال بالنموذج ، وفقًا للخصائص المختلفة لبيانات الإدخال ، سيوجه النموذج المدخلات إلى خبراء مختلفين.يعالج كل خبير المدخلات المعينة المقابلة وفقًا لمجموعة المعلمات الخاصة به ويكمل الناتج. الناتج النهائي هو تكامل مخرجات كل خبير.

• MLP: Multi-Layer Perceptron (Multi-Layer Perceptron). MLP عبارة عن شبكة عصبية اصطناعية تتضمن طبقات مخفية متعددة ، وعادة ما يكون هناك العديد من خبراء MLP المستقلين في نموذج MoE.

هناك العديد من الأدبيات التي تناقش كيفية توجيه (تعيين) كل رمز مميز معلق إلى نموذج خبير ، ولكن يُقال إن مجموعة الخوارزميات المستخدمة بواسطة OpenAI بسيطة للغاية ، على الأقل GPT-4 مثل هذا.

بالإضافة إلى ذلك ، يتم استخدام حوالي 55 مليار معلمة مشتركة في آلية الانتباه.

يستخدم كل استدلال أمامي (إنشاء رمز مميز) فقط حوالي 280 مليار معلمة و 560 TFLOPs ، مقارنة بحوالي 1.8 تريليون معلمة و 3700 TFLOPs مطلوبة لكل استدلال أمامي إذا تم استخدام النموذج الكثيف تمامًا.

03. مجموعة البيانات

تم تدريب GPT-4 على حوالي 13 تريليون رمز مميز ، وهو أمر معقول بالنظر إلى أن CommonCrawl RefinedWeb يحتوي على حوالي 5 تريليون من الرموز المميزة عالية الجودة. كمرجع ، تم تدريب نماذج Deepmind's Chinchilla و PaLM من Google بحوالي 1.4 تريليون رمز وحوالي 0.78 تريليون رمز على التوالي ، ويقال إن PaLM2 قد تم تدريبه على حوالي 5 تريليون من الرموز المميزة.

CommonCrawl Refinedweb : CommonCrawl هو مشروع غير ربحي يهدف إلى إنشاء وصيانة مجموعة بيانات إنترنت مفتوحة ويمكن الوصول إليها تستخدم تقنية متتبع ارتباطات الويب لفحص صفحات الويب بانتظام على الإنترنت وتنظيم صفحات الويب والبيانات الوصفية والأرشيف ذات الصلة. CommonCrawl RefinedWeb عبارة عن مكتبة من النصوص عالية الجودة التي قام CommonCrawl بفحصها من البيانات الأولية التي تم جمعها بعد المراجعة الحسابية والبشرية.

مجموعة البيانات التي تستخدمها OpenAI لتدريب GPT-4 ليست 13 تريليون رمز فريد. على العكس من ذلك ، نظرًا لعدم وجود رموز مميزة عالية الجودة ، تحتوي مجموعة البيانات هذه على عهود متعددة. هناك حقبتان للبيانات المستندة إلى النصوص و 4 فترات للبيانات المستندة إلى الكود. (ملاحظة: يشير هذا إلى بعض النصوص عالية الجودة والأكواد التي تم تعلمها بواسطة النموذج عدة مرات.) هذا بعيد عن تحقيق Chinchilla الأمثل (يحتاج النموذج إلى التدريب على ضعف عدد الرموز) ، والذي يظهر أيضًا أن الشبكة سهلة الحصول على رمز لا يكفي. يجب أن تكون الرموز المميزة النصية عالية الجودة الموجودة بالفعل على الشبكة 1000 مرة عما هو متاح اليوم ، كما أن الرموز المميزة للصوت والفيديو أكثر من ذلك ، ولكن لا يمكن تحقيق جمع هذه الرموز المميزة ببساطة عن طريق تجريف الويب. لسوء الحظ ، لم نعثر على الكثير من المعلومات حول OpenAI's RLHF للبيانات.

تشير الحقبة إلى عملية استخدام جميع العينات في مجموعة التدريب بأكملها (مجموعة التدريب) لتدريب النموذج مرة واحدة. على وجه التحديد ، تتضمن الحقبة خطوات تدريب متعددة (خطوات تدريب) ، كل خطوة تدريب هي إدخال مجموعة صغيرة من العينات في نموذج التدريب ، وتحديث معلمات النموذج لتقليل وظيفة الخسارة (وظيفة الخسارة).

إذا كانت الفترة صغيرة جدًا ، فقد لا يتمكن النموذج من الاستفادة الكاملة من المعلومات الموجودة في مجموعة التدريب ، مما يؤدي إلى عدم ملاءمة النموذج ، أي أن النموذج لا يمكن أن يلائم بيانات التدريب جيدًا ، مما يؤدي إلى ضعف الأداء في مجموعة الاختبار . على العكس من ذلك ، إذا كانت فترة ما كبيرة جدًا ، فقد يكون النموذج مفرطًا في التجهيز ، ويتعلم الكثير من الضوضاء والميزات المحلية في مجموعة التدريب ، مع تجاهل الميزات العالمية.

في مرحلة ما قبل التدريب ، يكون طول السياق (seqlen) 8 كيلو. يتم تنفيذ إصدار السياق 32 كيلو من GPT-4 بالإضافة إلى ضبط 8 كيلو بايت بعد التدريب المسبق.

تم زيادة حجم الدُفعة تدريجيًا على الكتلة لعدة أيام ، ولكن في النهاية ، استخدمت OpenAI حجم دفعة يصل إلى 60 مليون. بالطبع ، نظرًا لأن كل معلمة لا ترى جميع المعلمات ، فهذه مجرد دفعة بحجم 7.5 مليون لكل خبير.

يشير حجم الدُفعة إلى عدد عينات التدريب لكل تكرار (تكرار) أو تمريرة أمامية (تمريرة أمامية). أثناء تدريب النموذج ، يتم تقسيم البيانات إلى دفعات للتدريب ، ويشير حجم الدُفعة إلى عدد العينات في كل دفعة. تتمثل ميزة التدريب الجماعي في أنه يمكن تجنب قيود الذاكرة وحفظ موارد الحوسبة من أجل الحساب المتكرر للنتائج الوسيطة.

حجم الدُفعة له تأثير كبير على تأثير التدريب وسرعة النموذج. كلما زاد حجم الدُفعة ، زاد حساب معلمات التحديث في كل مرة ، لكن عملية التدريب ستكون أكثر ثباتًا ، لأن العينات في كل دفعة يمكنها متوسط الضوضاء وعدم اليقين. من ناحية أخرى ، إذا كان حجم الدُفعة صغيرًا جدًا ، فقد تصبح عملية التدريب غير مستقرة وتتطلب المزيد من خطوات التدريب لتتقارب مع الحل الأمثل. بالإضافة إلى ذلك ، سيكون حجم الدُفعة محدودًا أيضًا بمصادر الأجهزة. لذلك ، في التطبيقات العملية ، من المهم جدًا اختيار حجم الدُفعة المناسب.

04. الإستراتيجية الموازية

تعد المعالجة المتوازية على جميع وحدات معالجة الرسومات A100 مهمة جدًا.

يستخدم OpenAI موازاة موتر ذات 8 اتجاهات (8 اتجاهات) (Tensor Parallelism) ، والسبب هو 8 اتجاهات (8 اتجاهات) لأن هذا هو حد NVLink. بالإضافة إلى ذلك ، سمعنا أيضًا أن شركة أوبن إيه آي تستخدم استراتيجية موازية لخطوط الأنابيب ذات 15 اتجاهًا (15 اتجاهًا). من الناحية النظرية ، تعد 15 طريقة كثيرة جدًا نظرًا لوقت اتصال البيانات والحوسبة ، ولكنها أيضًا معقولة إذا كانت مقيدة بسعة الذاكرة.

هناك العديد من النماذج الكلاسيكية المتوازية الموزعة في تدريب النماذج الكبيرة ، وهي موازاة خطوط الأنابيب (موازية خطوط الأنابيب) ، وتوازي البيانات (توازي البيانات) وتوازي التوتر (Tensor Parallesim). FastSpeed ، إطار عمل التدريب الموزع مفتوح المصدر من Microsoft ، يجمع بين هذه النماذج الثلاثة المتوازية.

إذا كنت تستخدم فقط موازاة خطوط الأنابيب والتوازي الموتر ، فإن المعلمات الموجودة في كل وحدة معالجة رسومات تحتاج إلى حوالي 30 جيجابايت تحت FP16 ، وبمجرد أخذ ذاكرة التخزين المؤقت KV والنفقات العامة KV في الاعتبار ، إذا كانت معظم وحدات معالجة الرسومات المستخدمة بواسطة OpenAI هي 40 جيجابايت A100 ، فإن هذه البنية من It is أيضا معقولة من الناحية النظرية. قد يستخدم OpenAI ZeRo stage 1 أو FSDP على مستوى الكتلة أو توازي البيانات المشتركة المختلطة.

• KV overhead (KV overhead): يشير إلى العبء الناجم عن الحمل الإضافي في نظام تخزين KV. قد تتضمن هذه النفقات العامة بيانات وصفية لتخزين وإدارة أزواج القيمة الرئيسية ، وهياكل الفهرس ، وتكرار البيانات ومزامنتها ، واتصالات الشبكة ، والمزيد. يمكن أن تؤدي الزيادة في KV الحمل إلى تدهور الأداء وزيادة متطلبات التخزين وزيادة تعقيد النظام.

• ZeRo Stage 1: ZeRO (Zero Redundancy Optimizer) تعني أن كل بطاقة تخزن حالة مُحسِّن كاملة. إذا كانت كل بطاقة تخزن جزءًا فقط من حالة المحسن ، فإن حالات المحسن لجميع البطاقات معًا تشكل حالة كاملة ، أي Pos (حالات محسن التقسيم) ، والتي تسمى ZeRO-stage1.

• مستوى الكتلة FSDP: يشير إلى تقنية التكمية الديناميكية الكاملة الدقة (Full Precision Dynamic Quantization). يمكن الحفاظ على دقة نموذج أعلى أثناء التدريب والاستدلال ، مما يجعل تكلفة الاستدلال النموذجي أقل.

قد يكون سبب عدم استخدام النموذج الكامل FSDP هو ارتفاع تكلفة الاتصال. في حين أن OpenAI لديها شبكة عالية السرعة بين معظم العقد ، وربما ليس جميعها ، نعتقد أن هناك على الأقل بعض المجموعات ذات عرض نطاق ترددي أقل بكثير من غيرها.

من غير الواضح كيف تتجنب شركة OpenAI الفقاعات الضخمة ذات التوازي العالي لخطوط الأنابيب. هي احتمالات أنهم فقط تحملوا التكلفة.

فقاعة: وقت التأخير أو الانتظار في كل دفعة بسبب الدرجة العالية من موازاة خطوط الأنابيب. هذا يعني أنه في عملية الحوسبة المتوازية للغاية ، نظرًا لسرعات الحساب المختلفة لأجزاء مختلفة ، قد تحتاج بعض الأجزاء إلى انتظار أجزاء أخرى لإكمال الحساب ، مما يؤدي إلى تأخير أو وقت الخمول. في هذه الحالة ، تشير "الفقاعة" إلى فترات الخمول أو الانتظار. تعني هذه الجملة أنهم قد يقبلون فقط أن هناك بعض الوقت الضائع أو التأخير في عملية الحساب.

05. تكلفة التدريب

استخدم OpenAI حوالي 2.15e25 FLOPS في تدريب GPT-4 ، على حوالي 25000 وحدة معالجة رسومات A100 لمدة 90 إلى 100 يوم من التدريب ، حيث كان الحد الأقصى لاستخدام طاقة الحوسبة حوالي 32٪ إلى 36٪. **

يرجع هذا الاستخدام المنخفض للغاية جزئيًا إلى العدد الكبير من حالات الفشل التي تتطلب إعادة تشغيل نقاط التفتيش ، حيث تستهلك الفقاعات المذكورة أعلاه الكثير من التكلفة.

سبب آخر هو أن التخفيض الشامل عبر العديد من وحدات معالجة الرسومات باهظ التكلفة. خاصة إذا اشتبهنا في أن الكتلة تتكون بالفعل من العديد من المجموعات الأصغر ذات اتصالات الشبكة الضعيفة نسبيًا ، مثل التوصيلات غير المحظورة 800G / 1.6T بين أجزاء مختلفة من الكتلة ، ولكن لا يمكن توصيل بعضها إلا بسرعة 200G / 400G.

all-Red هو عملية اتصال في الحوسبة المتوازية ، والتي تُستخدم لتحقيق تقليل عالمي للبيانات في الحوسبة الموزعة. في التعلم العميق الموزع ، يعد all-Red عملية اتصال شائعة لمشاركة معلومات التدرج وتجميعها بين عقد الحوسبة المتعددة ، وذلك لتحديث معلمات النموذج أثناء التدريب.

إذا كانت تكلفتها على السحابة حوالي دولار واحد لكل ساعة لكل 100 A ، فإن هذا يصل إلى حوالي 63 مليون دولار لهذه الجلسة التدريبية وحدها **. هذا لا يشمل جميع التجارب ، والمحاولات الفاشلة ، والتكاليف الأخرى لجمع البيانات ، RLHF ، والموظفين ، وما إلى ذلك. عندما تؤخذ هذه العوامل في الاعتبار ، تكون التكلفة الفعلية أعلى من ذلك بكثير. بالإضافة إلى ذلك ، تحتاج أيضًا إلى مراعاة أنك بحاجة إلى فريق لإكمال تكوين الرقاقة ، ومعدات الشبكة ، ومركز البيانات ، وتحمل الاستثمار الرأسمالي (Capex) ، وتأجيرها لك.

يمكن إجراء التدريب المسبق حاليًا في حوالي 55 يومًا مع حوالي 8192 H100 بتكلفة إجمالية قدرها 21.5 مليون دولار ، ** تبلغ تكلفة كل وحدة معالجة رسومات H100 2 دولارًا في الساعة **.

نتوقع أن يكون لدى تسع شركات المزيد من وحدات معالجة الرسومات H100 بحلول نهاية العام. ربما لن يتم استخدام H100s جميعها للتدريب على النماذج ، لكن هذه الشركات ستحتضن بالتأكيد نماذج كبيرة وتصبح لاعبين مهمين. تتوقع Meta أن يكون لديها أكثر من 100،000 H100 بحلول نهاية العام ، وسيتم نشر جزء كبير منها في مراكز البيانات الخاصة بها للاستدلال ، على الرغم من أن أكبر مجموعة منفردة لديها أكثر من 25،000 H100 GPU. (ملاحظة: موارد الحوسبة في Meta ستجعل قدرة LLaMA على التطور إلى متغير مهم للمصدر المفتوح والنشر الخاص.) ستقوم العديد من الشركات بتدريب نموذج بنفس القدرة مثل GPT-4 قبل نهاية هذا العام.

06 وزارة التربية والتعليم

تعد MoE طريقة فعالة لتقليل عدد المعلمات أثناء الاستدلال ، بينما تزيد أيضًا من عدد المعلمات ، مما يساعد على ترميز المزيد من المعلومات لكل رمز تدريب. نظرًا لأنه من الصعب جدًا الحصول على ما يكفي من الرموز المميزة عالية الجودة ، فمن الضروري اختيار بنية MoE. لأنه إذا أراد OpenAI حقًا تنفيذ Chinchilla-Optimal ، فيجب عليهم تدريب ضعف عدد الرموز المميزة الآن.

ومع ذلك ، تقوم شركة OpenAI بإجراء العديد من المقايضات. على سبيل المثال ، يعد التعامل مع وزارة التعليم أثناء الاستدلال أمرًا صعبًا للغاية لأنه لا يتم استخدام كل جزء من النموذج عند إنشاء كل رمز مميز. هذا يعني أن بعض الأجزاء قد تكون نائمة أثناء استخدام أجزاء أخرى. يمكن أن يؤثر هذا بشكل خطير على الاستخدام عند خدمة المستخدمين.

أثبت الباحثون أن ** باستخدام 64 إلى 128 خبيرًا أسفر عن نتائج خسارة أفضل من استخدام 16 خبيرًا ** ، ولكن هذا مجرد بحث. هناك عدة أسباب لتقليل عدد الخبراء. أحد أسباب اختيار OpenAI لـ 16 خبيراً هو أن وجود المزيد من الخبراء يجعل من الصعب التعميم وتحقيق التقارب. بالنظر إلى مثل هذا التدريب الكبير ، اختارت شركة OpenAI أن تكون أكثر تحفظًا في عدد الخبراء.

أيضًا ، استخدام عدد أقل من الخبراء مفيد لبنيات الاستدلال. هناك العديد من المفاضلات المعقدة عند الانتقال إلى بنية الاستدلال في وزارة التربية. لنبدأ بمقايضات استدلال LLM الأساسية ، ثم نستكشف المشكلات التي واجهتها OpenAI والخيارات التي قاموا بها.

07. التفكير

في هذا الجزء ، نريد أولاً أن نشير إلى أن كل شركة LLM اتصلنا بها تعتقد أن مكتبة الاستدلال FasterTransformer الخاصة بشركة NVIDIA سيئة للغاية ، وأن TensorRT أسوأ من ذلك. بدون القدرة على استخدام قوالب Nvidia وتعديلها ، مما يعني إنشاء حل خاص بك من البداية ، تحتاج NVIDIA إلى حل هذه المشكلة في أقرب وقت ممكن للتكيف مع احتياجات استدلال LLM ، وإلا فإنها ستصبح أداة مفتوحة في الواقع. أسهل لإضافة دعم الأجهزة من جهة خارجية. المزيد والمزيد من الطرز الكبيرة قادمة ، وإذا لم تتمكن NVIDA من توفير ميزة برمجية في الاستدلال ، وما زالت النوى بحاجة إلى الكتابة بخط اليد ، فسيكون لدى AMD's MI300 والأجهزة الأخرى سوق أكبر بكثير.

هناك 3 عوامل رئيسية في رابط الاستدلال لـ LLM ، والتي ترتبط بشكل أساسي بعدد الرقائق المستخدمة.

** 1. الكمون **

يجب أن يستجيب النموذج في غضون فترة تأخير معقولة. لا يرغب الأشخاص في الانتظار بضع ثوانٍ قبل البدء في تلقي الإخراج في تطبيق الدردشة. يمكن أن تتقلب أوقات معالجة رمز الإدخال والإخراج.

** 2. الإنتاجية **

يجب أن ينتج النموذج عددًا معينًا من الرموز المميزة في الثانية. يبلغ الاستخدام البشري حوالي 30 رمزًا في الثانية ، ويمكن أن تكون الإنتاجية أقل أو أعلى في حالات الاستخدام الأخرى المختلفة.

** 3. الاستخدام **

يجب أن تحقق الأجهزة التي تشغل النموذج استخدامًا عاليًا وإلا ستكون التكلفة باهظة. في حين أنه من الممكن تحقيق استخدام أعلى من خلال تجميع المزيد من طلبات المستخدمين بزمن انتقال أعلى وإنتاجية أقل ، فإن هذا يزيد من الصعوبة.

استنتاج LLM هو أساسًا لتحقيق التوازن بين عاملين رئيسيين ، عرض النطاق الترددي للذاكرة والحساب.

بعبارات بسيطة ، يجب قراءة كل معلمة مع اثنين من FLOPs المرتبطين بها. لذلك ، فإن نسبة معظم الرقائق (على سبيل المثال ، H100 SXM لديها عرض نطاق ترددي للذاكرة 3 تيرابايت / ثانية فقط ، ولكنها تحتوي على 2000 TFLOP / ثانية FP8) غير متوازنة تمامًا في الاستدلال مع حجم الدُفعة 1. إذا تم تقديم مستخدم واحد فقط ، أي بحجم دفعة 1 ، فإن النطاق الترددي للذاكرة المطلوب لدفق كل معلمة لكل إنشاء رمز مميز يهيمن على وقت الاستدلال ، ووقت الحساب يكاد يكون ضئيلاً.

لكي تكون قادرًا على توسيع نطاق النماذج الكبيرة إلى عدة مستخدمين ، يجب أن يكون حجم الدُفعة أكبر من 1 ، ويشترك العديد من المستخدمين في تكلفة قراءة المعلمة. على سبيل المثال ، مع حجم دفعة 256 أو 512 ، فإن كل بايت من الذاكرة المقروءة يتوافق مع 512 FLOP / s أو 1024 FLOP / s. هذه النسبة أقرب إلى نسبة H100 لعرض النطاق الترددي للذاكرة إلى FLOPS. يساعد في تحقيق استخدام أعلى ، ولكن له عيب في زيادة زمن الوصول.

** يعتقد الكثير من الناس أن سعة الذاكرة هي عنق الزجاجة الرئيسي لاستدلال LLM ، نظرًا لأن حجم النموذج قد يتناسب مع شرائح متعددة ، ولكن هذا العرض قد يكون مشكلة **. على الرغم من أن الاستدلال على النماذج الكبيرة يتطلب شرائح متعددة ، وتؤدي سعة الذاكرة العالية إلى عدد أقل من الرقائق المُكيَّفة ، فمن الأفضل في الواقع استخدام المزيد من الشرائح أكثر مما هو مطلوب لتقليل زمن الوصول ، وزيادة الإنتاجية ، ويمكن استخدام أحجام دُفعات أكبر لزيادة الاستخدام بشكل مستمر.

ذكرت Google أيضًا معالجة المشكلات الثلاثة المذكورة أعلاه في ورقة الاستدلال PaLM. تجدر الإشارة إلى أن ** هذا مخصص لنموذج كثيف مثل PaLM ، وليس نموذجًا متفرقًا مثل GPT4. **

إذا كان أحد التطبيقات يتطلب أقل زمن انتقال ممكن ، فنحن بحاجة إلى المزيد من الرقائق وتقسيم النموذج بأكبر عدد ممكن من الطرق حتى نكون اقتصاديين. تسمح أحجام الدُفعات الأصغر بزمن وصول أقل ، ولكن تؤدي أحجام الدُفعات الأصغر أيضًا إلى ضعف MFU [الاستخدام] ، مما ينتج عنه تكلفة إجمالية أعلى لكل رمز مميز (في ثواني الشريحة أو بالدولار).

إذا كان أحد التطبيقات يتطلب استنتاجًا في وضع عدم الاتصال ، ولم يكن وقت الاستجابة يمثل مشكلة ، فإن الهدف الرئيسي هو زيادة الإنتاجية لكل شريحة (أي تقليل التكلفة الإجمالية لكل رمز مميز). تعتبر زيادة حجم الدُفعات أكثر فاعلية ، حيث تؤدي أحجام الدُفعات الأكبر عمومًا إلى [استخدام] MFU أفضل ، لكن استراتيجيات التقسيم المحددة غير الفعالة لأحجام الدُفعات الصغيرة تنمو مع نمو حجم الدُفعات وتصبح فعالة.

** المزيد من الرقائق وأحجام الدُفعات الكبيرة أرخص لأنها تزيد من الاستخدام ، ولكن هذا أيضًا يقدم متغيرًا ثالثًا ، وهو Networking Time. ** يمكن لطريقة نشر النموذج على شرائح متعددة أن تحل التأخير بشكل فعال ، ولكن على حساب الاستخدام.

يتناسب كل من جزء تحميل الوزن من وقت التخزين ووقت الحساب غير المقصود مع حجم النموذج ويتناسب عكسياً مع عدد الرقائق. بالنسبة إلى تخطيط قسم معين ، فإن الوقت المطلوب للاتصال من شريحة إلى شريحة يتناقص بسرعة أقل (أو لا يتناقص على الإطلاق) مع عدد الرقائق المستخدمة ، لذلك مع زيادة عدد الرقائق ، يصبح عنق الزجاجة مهمًا بشكل متزايد.

لاحظنا أن متطلبات الذاكرة لذاكرة التخزين المؤقت KV قد انفجرت مع زيادة حجم الدفعة وحجمها.

إذا احتاج تطبيق ما إلى إنشاء نص بسياقات اهتمام طويلة (سياقات اهتمام طويل) ، فسيؤدي ذلك إلى زيادة وقت الاستدلال بشكل كبير. بالنسبة للطراز الذي يحتوي على أكثر من 500 مليار من الاهتمام متعدد الرؤوس ، يمكن أن تصبح ذاكرة التخزين المؤقت للانتباه KV كبيرة جدًا: بالنسبة لطراز بحجم دفعة 512 وطول سياق 2048 ، يبلغ إجمالي حجم ذاكرة التخزين المؤقت KV 3 تيرابايت ، وهو 3 أضعاف حجم معلمة النموذج. تحتاج الذاكرة الموجودة على الرقاقة (الذاكرة الموجودة على الرقاقة) إلى تحميل ذاكرة التخزين المؤقت KV من الذاكرة خارج الرقاقة (ذاكرة خارج الرقاقة) ، والتي يتم تحميلها في كل مرة يتم فيها إنشاء رمز مميز. خلال هذه الفترة ، جوهر الحوسبة للرقاقة خاملا في الأساس.

تعد أطوال التسلسل الطويل مزعجة بشكل خاص لعرض النطاق الترددي للذاكرة وسعة الذاكرة. السبب في أن GPT-3.5 Turbo من OpenAI مع سياقات 16k و GPT-4 بسياقات 32k باهظة الثمن هو أنه لا يمكنهم أخذ دفعات أكبر بسبب قيود الذاكرة.

تؤدي الدفعات الأصغر إلى استخدام أقل للأجهزة. أيضًا ، تنتفخ ذاكرة التخزين المؤقت KV مع زيادة طول التسلسل. لا يمكن مشاركة ذاكرة التخزين المؤقت KV بين المستخدمين ، لذلك يلزم إجراء عمليات قراءة منفصلة للذاكرة ، مما يقلل من عرض النطاق الترددي للذاكرة. انظر أدناه لمزيد من المعلومات حول MQA.

08. البنية التحتية وتكلفة التفكير

** Infra **

تجعل بنية وزارة التربية استدلال GPT-4 تواجه تحديات من حيث زمن الوصول والإنتاجية والاستفادة. نظرًا لأنه يمكن توجيه التمرير الأمامي لكل رمز مميز إلى نماذج خبراء مختلفة ، فمن الصعب جدًا تحقيق زمن انتقال منخفض وإنتاجية عالية واستخدام مرتفع في هذه الحالة ، خاصةً في حجم الدُفعات الكبير.

تحتوي بنية GPT-4 الخاصة بـ OpenAI على 16 نموذجًا خبيرًا ، وتحتوي كل قناة أمامية على جهازي توجيه. هذا يعني أنه مع حجم الدُفعة 8 ، فإن قراءة معلمة كل خبير قد تشغل فقط "1" من حجم الدُفعة. والأخطر من ذلك ، أن هذا يؤدي أيضًا إلى حجم دفعة من 8 لخبير واحد ، بينما قد يكون حجم دفعة الخبراء الآخرين 4 أو 1 أو 0 فقط.

علاوة على ذلك ، تقوم خوارزمية التوجيه بتوجيه التمرير إلى الأمام في اتجاهات مختلفة في كل مرة يتم فيها إنشاء رمز مميز ، مما يؤدي إلى اختلافات كبيرة في زمن انتقال الرمز المميز وحجم دفعة الخبراء. أي عند معالجة الرموز المختلفة ، قد يتم تعيين خبراء مختلفين لمهام مختلفة ، وقد يختلف كل من الحمل الحسابي وحجم الدُفعة وفقًا لذلك.

** يعد الاستدلال أدناه أحد الاعتبارات الرئيسية لشركة OpenAI لاختيار عدد صغير من الخبراء في تصميم وزارة التعليم **. إذا استخدموا المزيد من الخبراء ، فإن عرض النطاق الترددي للذاكرة يصبح عنق الزجاجة الأكبر للاستدلال. غالبًا ما تحقق OpenAI أحجام دُفعات أعلى من 4k على مجموعات الاستدلال الخاصة بها ، مما يعني أنه حتى مع موازنة الحمل المثلى بين الخبراء ، يمكن لكل خبير الوصول إلى حجم دفعة يبلغ حوالي 500 فقط. يتطلب هذا استخدامًا كبيرًا جدًا لتحقيقه.

نفهم أن OpenAI تدير الاستدلال على مجموعة من 128 وحدة معالجة رسومات ولديها العديد من هذه المجموعات في مراكز بيانات ومناطق جغرافية مختلفة. يتم إجراء الاستدلال بالتوازي مع الموترات ذات 8 اتجاهات وخطوط الأنابيب ذات 16 اتجاهًا. باستخدام 8 وحدات معالجة رسومات (GPU) لكل عقدة ، تحتوي كل وحدة معالجة رسومات على حوالي 130B فقط من المعلمات ، أو أقل من 30 جيجابايت لكل وحدة معالجة رسومات (GPU) ضمن FP16 ، وأقل من 15 جيجابايت ضمن FP8 / int8. يسمح هذا بتشغيل الاستدلال على 40 جيجابايت A100 طالما أن حجم ذاكرة التخزين المؤقت KV لجميع الدُفعات لا ينتفخ كثيرًا.

FP16 و FP8 و int8 هي تمثيلات عددية (دقة) مختلفة ، والتي غالبًا ما تستخدم في عملية الحساب في التعلم العميق لتقليل استخدام موارد الذاكرة والحوسبة ، وبالتالي تحسين كفاءة تدريب النموذج والاستدلال.

تشير FP16 و FP8 و int8 على التوالي إلى أرقام الفاصلة العائمة 16 بت وأرقام الفاصلة العائمة 8 بت والأعداد الصحيحة 8 بت. دقتها أقل من دقة أرقام الفاصلة العائمة أحادية الدقة ذات 32 بت (FP32 ) ، لكنها يمكن أن تقلل بشكل كبير من موارد الذاكرة والحوسبة. تستخدم لتسريع التدريب النموذجي والاستدلال في التعلم العميق. على سبيل المثال ، يمكن أن يؤدي استخدام FP16 إلى تقليل وقت الحساب إلى النصف دون فقدان الكثير من الدقة ، بينما يمكن أن يقلل استخدام int8 من وقت الحساب بمقدار 4 مرات تقريبًا دون فقد الكثير من الدقة.

وتجدر الإشارة إلى أن استخدام الحسابات منخفضة الدقة قد يكون له تأثير معين على دقة النموذج ، لذا فإن المفاضلة بين الدقة والكفاءة مطلوبة ، ويجب اختيار طريقة تمثيل الدقة الأكثر ملاءمة وفقًا لمهمة محددة متطلبات.

لتجنب أن يكون اتصال الشبكة غير منتظم للغاية وفي نفس الوقت تجنب التكلفة الباهظة لإعادة حساب ذاكرة التخزين المؤقت KV بين كل جيل رمزي ، لا يتم تقسيم الطبقات المختلفة التي تحتوي على خبراء مختلفين على عقد مختلفة من أجل مشاركة ذاكرة التخزين المؤقت KV.

** أكبر صعوبة لجميع ملحقات نماذج وزارة البيئة المستقبلية والتوجيه المشروط. إنها كيفية التعامل مع حد 120 طبقة توجيه حول ذاكرة التخزين المؤقت KV. **

في نموذج MoE ، لا يمكن أن يتجاوز عدد طبقات التوجيه لكل فرع 120 طبقة ، وإلا لا يمكن التعامل مع ذاكرة التخزين المؤقت KV بشكل فعال. هذا لأنه أثناء عملية الاستدلال للنموذج ، يحتاج كل فرع إلى حساب ذاكرة التخزين المؤقت KV ، مما يؤدي إلى زيادة التكلفة الحسابية.

حل بسيط لهذه المشكلة هو وضع مسار ممتد في 15 عقدة مختلفة بناءً على حد الطبقة البالغ 120. بهذه الطريقة ، يمكن توزيع الحمل الحسابي بالتساوي على عقد مختلفة ، وبالتالي تحسين كفاءة وأداء النموذج. ومع ذلك ، نظرًا لأن العقدة الأولى تحتاج إلى تحميل البيانات وتضمينها ، فمن المهم كيفية وضع طبقات أقل على العقدة الرئيسية لمجموعة الاستدلال.

بالإضافة إلى ذلك ، في عملية ترميز وفك تشفير بيانات الإدخال ، قد يكون هناك بعض التشويش حول فك التشفير الاستنتاجي ، والذي سنناقشه لاحقًا. القضية الأكثر أهمية هي تحديد ما إذا كان ينبغي تصديق مثل هذه الضوضاء. يمكن أن يفسر هذا أيضًا سبب أهمية تضمين طبقات أقل على عقدة الرأس.

** تكلفة التفكير **

مقارنةً بنموذج Davinchi مع معلمات 175B ، فإن GPT-4 لديها 1.6 مرة من معلمات التغذية الأمامية ، لكن التكلفة تبلغ 3 أضعاف تكلفة Davinchi. ويرجع ذلك أساسًا إلى أن GPT-4 يتطلب مجموعة أكبر ويحقق استخدامًا أقل.

نعتقد أن استخدام 128 A100s للاستدلال مع طول سياق GPT-4 8k (seqlen) يكلف حوالي 0.0049 دولار لكل 1k من الرموز المميزة. أثناء استخدام 128 H100s للاستدلال على سياق GPT-4 8k ، تبلغ التكلفة لكل 1k Tokens حوالي 0.0021 دولار. (ملاحظة: السعر الحالي لـ GPT-4-8k هو 0.03 / 1k من رموز الإدخال ، 0.06 / 1k من الرموز المميزة للإخراج. حاليًا ، لن يكون استخدام OpenAI لرقائق الاستدلال باهظًا كما يتوقع المؤلف. يمكن استخدام هذا الحساب باعتباره قيمة أقل مرتبط بتخفيضات الأسعار المستقبلية.) من المهم ملاحظة أن ** هذه التكاليف محسوبة عند الاستخدام العالي وحجم الدُفعة. **

من الممكن أيضًا أن يكون افتراضنا خاطئًا ، نظرًا لأن استخدام مجموعات OpenAI يمكن أن يكون منخفضًا جدًا في بعض الأحيان.

نفترض أن OpenAI يغلق الكتلة أثناء فترات الانكماش ويعيد تخصيص تلك العقد لمهام أخرى ، مثل استئناف تدريب نقاط التفتيش لنماذج الاختبار الصغيرة ، أو تجربة تقنيات جديدة مختلفة. يساعد القيام بذلك على إبقاء تكاليف الاستدلال منخفضة ، وإلا فقد يكون استخدام OpenAI أقل ، مما يعني أن تقدير التكلفة يزيد عن ضعفين.

استئناف تدريب نقاط التفتيش لنموذج اختبار صغير ، عادةً عند تدريب نموذج التعلم العميق ، قم بإعادة تدريب نموذج أصغر (على سبيل المثال ، مجموعة فرعية باستخدام مجموعة فرعية فقط من) من أجل اختبار هياكل أو خوارزميات النموذج الجديدة بسرعة في فترة زمنية قصيرة . يمكن أن يساعد هذا النهج الباحثين على التكرار بسرعة في تصميم النموذج والعثور على الهياكل والمعلمات المثالية للنموذج.

09. آلية متعددة الاستعلام

يعد استخدام Multi-Query Attention شائعًا جدًا ، لكننا نريد التأكيد على أن OpenAI تفعل الشيء نفسه. بشكل عام ، هناك حاجة إلى رأس انتباه واحد فقط ، ويمكن تقليل سعة الذاكرة بشكل كبير للتخزين المؤقت لـ KV. ومع ذلك ، لا يمكن تشغيل GPT-4 بسياقات 32 كيلو بايت بالتأكيد على 40 جيجابايت A100 ، وقد تم تحديد الحد الأقصى لحجم الدُفعة البالغ 8 كيلو بايت بالفعل. إذا لم يكن هناك MQA ، فسيكون الحد الأقصى لحجم الدُفعة 8k محدودًا إلى حد كبير ، وسيتم تقليل الفوائد الاقتصادية بشكل كبير.

• الاهتمام متعدد الاستعلامات (MQA): فك تشفير المحولات السريع: رأس كتابة واحد هو كل ما تحتاجه اقترحت هذه الورقة مفهوم MQA في عام 2019 ، وأصبحت فيما بعد شائعة الاستخدام في آلية الانتباه لمعالجة اللغة الطبيعية.

في آلية الانتباه التقليدية ، يتم مطابقة الاستعلام (الاستعلام) مع مجموعة من أزواج القيمة الرئيسية للحصول على تمثيل مرجح لكل مفتاح. بينما في الانتباه متعدد الاستعلامات ، توجد استعلامات متعددة ، وتتم مطابقة كل استعلام مقابل أزواج مفتاح - قيمة للحصول على تمثيل مرجح مختلف لكل مفتاح. يمكن النظر إلى هذه العملية على أنها ترميز المدخلات تحت "طرق عرض" متعددة مختلفة ، مما يؤدي إلى تمثيل أكثر شمولاً ودقة.

• Attention Head (Head): في نموذج التعلم العميق ، يحتوي عادةً على طبقات متعددة (طبقات) ورأس (رأس) ، والذي يستخدم لتعيين إخراج النموذج إلى مساحة الإخراج المطلوبة. تُضاف طبقة الرأس عادةً إلى النموذج لتلبية مهام محددة ، على سبيل المثال ، في مهام معالجة اللغة الطبيعية ، يُستخدم الرأس عادةً لتحويل مخرجات النموذج إلى نص لتصنيف النص ومهام أخرى. في نموذج التعلم العميق ، عادةً ما يتبع الرأس الطبقة الأخيرة ، والتي تُستخدم لتحويل ناتج الطبقة الأخيرة إلى نموذج الإخراج المطلوب.

10. معالجة الدُفعات المستمرة

للسماح بدرجة معينة من زمن الوصول الأقصى وتحسين تكلفة الاستدلال ، تستخدم OpenAI كلاً من حجم الدُفعة المتغير وتقنيات الدُفعات المستمرة. يمكن لهذا النهج تحسين استخدام موارد الحوسبة دون التضحية بأداء النموذج ، وتحقيق زمن انتقال أقل وإنتاجية أعلى أثناء عملية الاستدلال بالنموذج. إذا كنت لا تفهم مفهوم معالجة الدُفعات المستمرة ، فإن المقالة الرسمية في AnyScale ، كيف أن الدُفعات المستمرة تتيح إنتاجية 23x في استدلال LLM مع تقليل زمن انتقال p50 ، تستحق القراءة. (ملاحظة لاقط: إطار الحوسبة الموزعة Ray الذي طورته شركة Anyscale تستخدمه شركة OpenAI في خط الأنابيب تحت النموذج. وقد نشرت شركة Pickup بحثًا عن هذه الشركة من قبل.)

التجميع المستمر: تقنية تستخدم أثناء التدريب على التعلم العميق لتحسين كفاءة التدريب واستخدام الموارد من خلال الأجهزة. تتمثل طريقة المعالجة الدفعية التقليدية في تحميل كمية معينة من بيانات التدريب في الذاكرة في وقت واحد ، ثم التدريب على هذه البيانات.يمكن لهذه الطريقة تحسين كفاءة التدريب ، ولكنها قد تضيع أيضًا مساحة الذاكرة.

المعالجة المستمرة للدفعة هي تقسيم بيانات التدريب إلى عدة دفعات صغيرة ، وتحميل دفعة صغيرة واحدة فقط للتدريب في كل مرة. بعد اكتمال التدريب ، يتم تحميل الدفعة الصغيرة التالية ، وهكذا ، حتى الانتهاء من التدريب بالكامل عملية تدريب مجموعة البيانات. يمكن أن يؤدي استخدام تقنيات التجميع المستمر إلى تحسين كفاءة التدريب مع تقليل استخدام الذاكرة ، ويمكن أيضًا تحسين استقرار النموذج والتعميم.

* المصدر: متباين *

11. فك التشفير المضاربة

هناك شائعات بأن OpenAI تستخدم تقنية فك التشفير في مهمة الاستدلال لنموذج GPT-4. بينما لا يمكننا التأكد من دقة هذه الرسالة ، يبدو أن الاختلاف العام في زمن الانتقال والتباين من رمز إلى آخر لكل من مهام الاسترجاع البسيطة والمهام الأكثر تعقيدًا يشير إلى أن هذه التقنية ممكنة. ومع ذلك ، نظرًا لوجود عدد كبير جدًا من المتغيرات ، لا يمكننا تأكيد ما إذا كانت هذه التقنية مستخدمة بالفعل أم لا.

من أجل تجنب نزاعات المحتوى ، تم هنا اقتباس بعض المحتوى في تسريع LLM Infeferenc مع فك التشفير المضاربي المرحلي ، والمحتوى الرئيسي غامق.

** ينقسم استخدام LLM بشكل عام إلى مرحلتين: **

** 1. مرحلة الملء المسبق **

في هذه المرحلة ، يتم إعطاء تلميح () أولاً كمدخل ويتم تشغيله من خلال النموذج لإنشاء ذاكرة التخزين المؤقت KV وسجلات الإخراج الأولى. من بينها ، السجلات هي إخراج متجه توزيع الاحتمالية بواسطة LLM في كل خطوة زمنية ، والتي تُستخدم لتمثيل إمكانية كل رمز مميز. عادة ما تكون مرحلة الإعداد السكاني سريعة بسبب الحساب المتوازي.

** 2. مرحلة فك التشفير **

في هذه المرحلة ، يتم تحديد رمز مميز من سجلات الإخراج وإعادته إلى النموذج لإنشاء سجلات للرمز المميز التالي. يتكرر هذا حتى يتم إنشاء العدد المطلوب من الرموز المميزة. نظرًا لأنه يجب حساب كل فك تشفير بشكل تسلسلي لإنتاج رمز مميز ، فإن الكثافة الحسابية لهذه المرحلة الثانية (أي FLOPs المحسوبة / بايت من عرض النطاق الترددي للذاكرة) تكون منخفضة جدًا عند التشغيل على دفعات صغيرة (ملاحظة الانتقاء: حساب التسلسل الذي يؤدي إلى نقص استخدام قوة الحوسبة. ) لذلك ، عادةً ما يكون فك التشفير هو أغلى جزء من التوليد الذاتي للارتداد الذاتي.

هذا هو السبب في أن إدخال الرموز المميزة أرخص بكثير من الرموز المميزة للإخراج في استدعاءات واجهة برمجة تطبيقات OpenAI.

الفكرة الأساسية لفك تشفير المضاربة هي استخدام نموذج مسودة أصغر وأسرع لفك تشفير العديد من الرموز في وقت مبكر وإدخالها في نموذج أوراكل كدفعة. إذا كانت تنبؤات نموذج المسودة صحيحة (أي تتفق مع تنبؤات نموذج أوراكل) ، فيمكن استخدام دفعة واحدة لفك تشفير العديد من الرموز ، مما يوفر الكثير من عرض النطاق الترددي للذاكرة والوقت لكل رمز مميز.

يشير نموذج Oracle إلى نموذج LLM أكبر وأبطأ مستخدم في طريقة فك التشفير المضاربة للتحقق من صحة تنبؤات نموذج المسودة. سيحسب نموذج Oracle التوزيع الاحتمالي للرمز المميز التالي بناءً على نتائج التنبؤ لنموذج المسودة والرموز المميزة التي تم إنشاؤها مسبقًا ، ثم يُعيد توزيع الاحتمالية هذا إلى نموذج المسودة كمخرج.

باستخدام نموذج أوراكل للتحقق من نتائج التنبؤ لنموذج المسودة ، يمكن تجنب الأخطاء والانحرافات في عملية فك التشفير اللاحقة لنموذج المسودة ، وبالتالي تحسين دقة النموذج واستقراره. في الوقت نفسه ، يمكن أن يساعد نموذج أوراكل أيضًا نموذج المسودة في تعلم وفهم معلومات السياق في نموذج اللغة بشكل أفضل ، وبالتالي تحسين قدرة التوليد وتأثير النموذج.

ومع ذلك ، إذا رفض النموذج الأكبر رمزًا تنبأ به نموذج المسودة ، يتم تجاهل بقية الدُفعة وتعود الخوارزمية إلى فك التشفير القياسي. يمكن أيضًا دمج فك التشفير المضارب مع مخطط أخذ العينات بالرفض لأخذ عينات من الرموز المميزة من التوزيع الأصلي. لاحظ أن هذا الأسلوب لا يعمل إلا في إعدادات الدُفعات الصغيرة حيث يمثل النطاق الترددي عنق الزجاجة.

باختصار ، حساب صفقات فك التشفير التخميني لعرض النطاق الترددي ، وهناك سببان رئيسيان لكونه هدفًا جذابًا لتحسين الأداء. أولاً ، لا يؤدي فك التشفير المضارب إلى تدهور جودة النموذج على الإطلاق ، لأنه يحسن فقط سرعة الاستدلال وإنتاجية النموذج عن طريق تعديل عملية حساب مرحلة فك التشفير. ثانيًا ، تكون الفوائد التي تقدمها مستقلة بشكل عام عن الطرق الأخرى ، لأن ميزتها تكمن في تحويل الحسابات المتسلسلة إلى تنفيذ متوازي ، بينما تبدأ الطرق الأخرى أساسًا بهيكل النموذج ، والمعلمات ، والتدريب ، وما إلى ذلك من أجل التحسين.

تتنبأ طرق الاستدلال الحالية بتسلسل واحد لكل دفعة. ومع ذلك ، ** لا تتسع هذه الطريقة جيدًا في حالة الدُفعات الكبيرة أو نماذج المسودة منخفضة الدقة. ** بشكل حدسي ، بالنسبة لتسلسل الرمز المميز المستمر الطويل ، تقل احتمالية توقع النموذجين للاتفاق بشكل كبير ، مما يعني أنه مع توسع قوة الخوارزمية ، ستنخفض عودة فك التشفير المضارب بسرعة.

نعتقد أنه إذا كانت OpenAI تستخدم فك تشفير مضاربة ، فمن المحتمل أنها تستخدمه فقط للتسلسلات القصيرة التي يبلغ طولها حوالي 4 رموز. بالإضافة إلى ذلك ، يعتقد بعض الناس أن الانخفاض في أداء نموذج GPT-4 يرجع إلى أن OpenAI أضافت تسلسلات احتمالية منخفضة من نموذج فك التشفير المضارب إلى نموذج التدريب المسبق ، وهو ما قد لا يكون صحيحًا.

أيضًا - يعتقد بعض الأشخاص أن نموذج Bard يستخدم أيضًا فك تشفير مضاربة لأن Google تنتظر إنشاء التسلسل الكامل قبل إرساله إلى المستخدم ، لكننا لا نعتقد أن هذا التخمين صحيح.

12. الوسائط المتعددة البصرية

ربما تكون الرؤية متعددة الوسائط هي الجزء الأقل إقناعًا من GPT-4 ، على الأقل مقارنة بالبحوث الأخرى. حتى الآن ، لم يستكشف أحد تسويق أبحاث LLM متعددة الوسائط.

متعدد الوسائط للرؤية: يشير إلى المعالجة المشتركة وتحليل المعلومات من طرائق مختلفة (مثل الصور والنصوص والأصوات وما إلى ذلك). عادةً ما تكون معلومات هذه الطرائق المختلفة مرتبطة ارتباطًا معنويًا ، لذا فإن الجمع بينها يمكن أن يوفر معلومات أكثر ثراءً ونتائج استدلال أكثر دقة.

تتحقق القدرة المرئية متعددة الوسائط لـ GPT-4 من خلال مشفر مرئي مستقل عن مشفر النص ، وله آلية الانتباه المتبادل (Cross-Attention) مع مشفر النص ، ويقال أن بنيته تشبه نموذج Flamingo. تم ضبط مشفر الرؤية بدقة على نموذج GPT-4 البالغ 1.8 تريليون معلمة ، ومع ذلك ، فقد تم تدريبه مسبقًا فقط مع 2 تريليون رمز إضافي من البيانات النصية ، وليس بيانات الرؤية.

الاهتمام المتبادل: وهي آلية لإنشاء ارتباطات بين بيانات التسلسل المتعددة ، والتي تم استخدامها على نطاق واسع في معالجة اللغة الطبيعية ورؤية الكمبيوتر. في مهام التسلسل إلى التسلسل ، مثل الترجمة الآلية وتلخيص النص ، يتم استخدام آلية الانتباه المتبادل لحساب الارتباط بين تسلسل المصدر والهدف بحيث يتم استخدام المعلومات في تسلسل المصدر عند إنشاء التسلسل الهدف.

في مهام رؤية الكمبيوتر ، تُستخدم آليات الانتباه المتبادل لربط الصور والنصوص لاستخدامها في مهام مثل إنشاء وصف الصورة والإجابة على الأسئلة المرئية.

يخطط OpenAI لتدريب نموذج الرؤية من البداية ، لكن التكنولوجيا لم تنضج بعد ، لذلك يأملون في تقليل المخاطر من خلال التدريب من النص.

** تقول الشائعات أن GPT-5 الخاص بـ OpenAI سوف يقوم بتدريب نماذج الرؤية من الصفر ولديه القدرة على إنشاء معالجة الصور والصوت تلقائيًا. **

يتمثل الهدف الرئيسي للتكنولوجيا المرئية متعددة الوسائط في تمكين الوكلاء المستقلين من قراءة صفحات الويب ونسخ محتوى الصور والفيديو الخاص بهم. تتضمن البيانات المستخدمة من قبل OpenAI لتدريب هذا النموذج بيانات مشتركة (بما في ذلك LaTeX / النص المقدم) ، ولقطات شاشة لصفحة الويب وإطارات عينات فيديو Youtube ، وما إلى ذلك ، وتستخدم تقنية Whisper للنسخ.

أحد الأشياء المثيرة للاهتمام حول مسألة التحسين الزائد في LLM هو أن تكلفة الإدخال / الإخراج للنموذج المرئي تختلف عن تكلفة الإدخال / الإخراج الخاصة بنموذج النص العادي. تكلفة الإدخال والإخراج للنموذج النصي رخيصة جدًا ، ولكن في نموذج الرؤية ، تبلغ تكلفة إدخال البيانات لتحميل البيانات حوالي 150 ضعف تكلفة النموذج النصي. يبلغ حجم كل رمز مميز 600 بايت ، بينما يحتوي نموذج النص على 4 بايت فقط. حاليًا ، هناك الكثير من العمل الجاري في أبحاث ضغط الصور. (ملاحظة Xianxiang: معلومات النص أسهل في الضغط ، وترميز الصورة / الفيديو هو اتجاه جدير بالاهتمام في مجال الوسائط المتعددة.)

تكلفة الإدخال / الإخراج: تشير تكلفة الإدخال / الإخراج إلى الوقت والموارد وتكاليف الطاقة المطلوبة لإكمال عملية الإدخال / الإخراج في نظام الكمبيوتر. تشمل هذه التكاليف جوانب مثل نقل البيانات وتخزينها ومعالجتها. في مجال التعلم الآلي والتعلم العميق ، عادةً ما تشير تكلفة الإدخال / الإخراج إلى تكلفة قراءة البيانات وكتابتها من وسائط التخزين (مثل القرص الصلب والذاكرة والشبكة وما إلى ذلك). أثناء تدريب النموذج والاستدلال ، قد تصبح تكلفة الإدخال / الإخراج عنق الزجاجة ، مما يؤثر على أداء النظام وكفاءته. لذلك ، من أجل تحسين أداء وكفاءة أنظمة الكمبيوتر ، يجب مراعاة تكلفة الإدخال والإخراج وتحسينها.

يعد هذا أمرًا مهمًا للغاية بالنسبة للبائعين الذين يقومون بتحسين أجهزتهم بعد 2-3 سنوات لمراعاة القدرات المرئية والصوتية القوية لكل طراز. قد يجدون أن الهندسة المعمارية الخاصة بهم غير مناسبة. الكل في الكل ، ستتطور بنى LLM المستقبلية بالتأكيد إلى ما وراء نماذج الكثافة النصية و / أو نماذج MoE التي نراها اليوم.

مرجع

شاهد النسخة الأصلية
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • أعجبني
  • تعليق
  • مشاركة
تعليق
0/400
لا توجد تعليقات
  • تثبيت