* مصدر الصورة: تم إنشاؤه بواسطة أداة Unbounded AI ، النموذج العام (game CG) *
كان طول السياق أحد أكبر قيود GPT-3. يمكن لـ GPT-3 قبول ما يصل إلى 4000 رمز مميز (3000 كلمة ، 6 صفحات) ، وإلا فسيتم الإبلاغ عن خطأ. لذلك ، من أجل التعامل مع المستندات والمطالبات الطويلة () ، من الضروري إدخال تقنيات استرجاع أخرى مثل LangChain. ومع ذلك ، فإن MosaicML (التي حصلت عليها Databricks مقابل 1.3 مليار دولار تقريبًا) فتحت سياق MPT-7B في أوائل مايو بطول 84000 رمز (63000 كلمة ، 126 صفحة) ، مما أدى إلى توسيع نطاق النص الذي يمكن معالجته بشكل كبير. ، نموذج كلود الذي طوره Anthronpic له طول سياق ممتد إلى 100000 رمز مميز.
تم تدريب MPT-7B من الصفر باستخدام 1 تريليون رمز نصي وكود كبيانات تدريب. مقارنة بالنماذج المماثلة الأخرى (مثل Pythia و OpenLLaMA تستخدم 300 مليار رمز ، يستخدم StableLM 800 مليار رمز) ، فإن بيانات التدريب الخاصة بـ MPT-7B أكبر ، وجودتها قابلة للمقارنة مع LLaMA-7B. تم تدريب النموذج على منصة MosaicML ، باستخدام 440 وحدة معالجة رسومات (GPU) ، واستغرقت عملية التدريب 9.5 يومًا دون تدخل بشري بتكلفة تبلغ حوالي 200000 دولار. بخلاف الطرز المفتوحة الأخرى ، تم ترخيص MPT-7B للاستخدام التجاري ومحسّنًا للتدريب السريع والاستدلال باستخدام FlashAttention و FasterTransformer.
* (أداء MPT-7B في المهام الأكاديمية الصفرية) *
أصدرت MosaicML أيضًا ثلاثة طرز MPT-7B-Instruct و MPT-7B-Chat و MPT-7B-StoryWriter-65k + استنادًا إلى MPT-7B الأساسي للضبط الدقيق.
تم ضبط النموذج بدقة على dolly \ _hhrlhf. تم إنشاء مجموعة البيانات dolly \ _hhrlhf فوق مجموعة البيانات "dolly-5k".
تم ضبط النموذج بدقة على مجموعات بيانات ShareGPT-Vicuna و HC3 و Alpaca و Helpful and Harmless و Evol-Instruct.
مجموعة بيانات الضبط الدقيق لهذا النموذج هي مجموعة فرعية مصفاة من الروايات في الكتب 3 يبلغ طول سياقها 65 ألفًا. في حين أن الحجم المعلن عنه كان 65 ألفًا ، تمكن الفريق من الحصول على استجابة بـ 84 ألفًا عند التشغيل على وحدة معالجة الرسومات A100-80GB في عقدة واحدة. التكنولوجيا الرئيسية وراء ذلك هي ALiBi. لم يكن لدى Great Gatsby في الأصل سوى 68 ألفًا فقط ، لذلك استخدم الفريق نموذج MPT-7B-StoryWriter-65k + لإنشاء نهاية جديدة للرواية.
بالإضافة إلى نقاط التفتيش النموذجية ، قام الفريق بفتح مصدر قاعدة بيانات كاملة للتدريب المسبق والضبط الدقيق وتقييم MPT عبر MosaicML LLM Foundry الجديد. تم إنشاء الجدول أعلاه باستخدام إطار عمل تقييم التعلم السياقي في LLM Foundry.
رئيس علماء MosaicML جوناثان فرانكل وعالم الأبحاث أبهيناف فينيغالا هما رئيسان MPT-7B ، وهما يقودان عملية تدريب MPT-7B بأكملها. في أحدث بودكاست من Latent Space ، ناقش Alessio الشريك الرئيسي لـ Swyx و Decibel Partners معهم ابتكار عملية التدريب MPT-7B وأوضح سبب كون مجموعة بيانات LLM فنًا مهمًا وغامضًا. أيضًا ، قد لا تكون بعض المعايير التقليدية متعددة الخيارات مفيدة جدًا للتكنولوجيا التي يتم إنشاؤها ، وسوف تستكشف أيضًا الأسباب الكامنة وراء ذلك.
(يتم تجميع المحتوى التالي وإصداره بواسطة OneFlow بعد الترخيص ، المصدر: https: //
بناء نموذج MPT-7B
** Swyx: لماذا طورت MPT-7B؟ **
** أبهيناف: ** استغرق مشروع MPT-7B حوالي 6-12 شهرًا. بدأنا العمل على نماذج اللغة الصيف الماضي ونشرنا منشورًا على مدونة حلل نماذج اللغة ووجدنا أن تكلفة التدريب قد تكون في الواقع أقل بكثير مما يعتقده الناس. منذ ذلك الحين أيضًا ، مستوحى من نموذج LLaMA الصادر عن Meta AI والعديد من الأعمال مفتوحة المصدر الأخرى ، شرعنا في إنشاء نموذج جيد حقًا مع 7 مليارات معلمة ، وهو أصل MPT.
** أليسيو: ** قلت في أحد البودكاست: ليس لدى Mosaic خطط لبناء وإصدار نماذج. لكن في النهاية أطلقت النموذج على أي حال ، ما الذي جعلك تغير رأيك؟
** جوناثان: ** أعتقد أن هناك عدة عوامل: ما زلنا نفتقر إلى نموذج من الدرجة الأولى. على عكس OpenAI ، حيث يتمحور عملنا حول إنشاء العملاء لنماذجهم الخاصة ، فإننا نوفر لهم الأدوات بشكل أساسي ، ولكي تكون هذه الأدوات فعالة ، يتعين علينا أولاً إنشاء نماذجنا الخاصة.
يجب أن يكون واضحًا أنه إذا كان بإمكان عملائنا القيام بأشياء رائعة ، فيمكننا القيام بأشياء رائعة أيضًا. كان لدي الكثير من الأشخاص على Twitter يشككون في صحة الأرقام التي أظهرها Mosaic ، مثل روس وايتمان قائلاً ، "دعونا نرى النتائج الفعلية" ، والتي أود أن أقول لها ، "روس ، ما رأيك بهذه كيف تعمل ؟ "لقد طورنا النموذج في 9.5 أيام بتكلفة 200000 دولار ، لذا يمكنك القيام بذلك أيضًا.
** Swyx: ** بالإشارة إلى البيانات التي أصدرتها العام الماضي ، قُدر مبدئيًا أن تكلفة تدريب GPT-3 كانت أقل من 450 ألف دولار ، ثم تم تخفيضها إلى 100 ألف دولار ؛ كما تم تخفيض تكلفة الانتشار المستقر أيضًا من 160 ألف دولار إلى أقل من 50000 دولار.
** جوناثان: ** ما زلت حذرًا جدًا بشأن رقم 100000 دولار. لم تصل بعد ، لكننا نسير في هذا الاتجاه ، وهذا تحد كبير لأبي.
** Swyx: ** هناك ثلاثة متغيرات من طراز MPT-7B أحدها يحقق SOTA من حيث طول السياق ، ما هي عملية التدريب لهذه النماذج؟
أبهيناف: نموذجنا الأساسي هو إعادة إنشاء LLaMA-7B ، مع 7 مليارات معلمة وبيانات تدريبية من 1 تريليون رمز ، مما يوفر نقطة انطلاق تدريب فعالة لنموذج الضبط الدقيق دون تدخل مفرط. يعد ضبط النموذج أيضًا مثيرًا للاهتمام ، مثل MPT-7B-StoryWriter-65k + يمكن استخدامه لكتابة القصة ، وطول نافذة السياق هو 65000 ، ويمكنه أيضًا متابعة الكتابة بناءً على المحتوى المعروف.
بالطبع ، هذا مجرد واحد من الاتجاهات التي نفكر فيها. يمكنك استخدام نموذج MPT-7B Base لبناء نماذج مخصصة لتناسب الاحتياجات المختلفة ، مثل نماذج أكواد السياق الطويلة أو نماذج اللغة المحددة. بناءً على النموذج الأساسي ، تم بناء ثلاثة متغيرات ، MPT-7B-Instruct و MPT-7B-Chat و MPT-7B-StoryWriter-65k + ، والتي تُستخدم لاتباع التعليمات القصيرة وحوار الدردشة وكتابة القصص على التوالي.
أليسيو: كيف تقرر عدد الرموز والمعلمات التي يجب استخدامها عند تدريب النموذج؟ يبدو أن 7 مليارات و 3 مليارات من معلمات النموذج عبارة عن رقمين سحريين رائجين حاليًا.
** أبيناف **: بالنسبة لنماذج التدريب ، يمكن أن يخبرك قانون التوسع بكيفية الاستخدام الأكثر فعالية لموارد حوسبة التدريب. على سبيل المثال ، إذا كانت الميزانية 200000 دولار أمريكي ، فوفقًا لقانون الحجم ، يمكن تقديم البرنامج التدريبي الأكثر فاعلية.
من بينها ، أكثر ما نتبعه هو قانون شينشيلا. بالنسبة لنموذج MPT-7B والمتغيرات المرتبطة به ، لا يتم اتباع هذه القوانين بدقة ، لأننا نريد التأكد من أن النموذج مناسب للاستخدام الشخصي وله أداء استدلال جيد ، لذلك فهو شديد التدريب ، متجاوزًا نقطة شينشيلا (في إشارة إلى البيانات المستوى يقاس بالرموز). بعض الأشخاص على الإنترنت يسمون هذه النماذج مازحا Llongboi لأن وقت تدريبهم طويل جدًا. بأخذ نموذج 7B كمثال ، قد يكون Chinchilla Point 140 مليار رمز ، لكننا في الواقع قمنا بتدريب 1 تريليون رمز ، لذا فإن وقت التدريب هو ما يقرب من 7 مرات أطول من المعتاد.
** Swyx: هل Llongboi يشير إلى طريقة التدريب؟ **
جوناثان: Llongboi هي مجرد مزحة من الداخل ، تشير إلى طريقة تدريب تستخدم رموزًا أكثر مما يفرضه قانون شينشيلا. يمكن ملاحظة أن Llongboi لديه حرفان "L" في البداية ، والتي تستخدم لتكريم LLaMA. أعلن رئيسنا التنفيذي ذات مرة عن الاسم على Twitter ، مشيرًا إلى النموذج باسم "Llongboi". في بعض الأحيان ، أرغب حقًا في أخذ كلمة مرور Twitter الخاصة به حتى لا يتم تسريبها مبكرًا ، ولكن الآن العالم بأسره يعرف الاسم.
حول العمارة ، ALiBi ، السياق
** أليسيو: ** Flash Attention و Faster Transformer هما العنصران الأساسيان في بناء نموذجك. ما مزاياهما؟
** أبهيناف: ** Flash Attention هو تطبيق أسرع لتطبيق Full Attention طوره مختبر أبحاث Hazy في ستانفورد. لقد قمنا بدمج Flash Attention في مكتبتنا في سبتمبر الماضي ولعبت دورًا كبيرًا في التدريب وسرعة الاستدلال. مقارنةً بنماذج Hugging Face الأخرى ، فإن هذا النموذج خاص جدًا.يمكنه التبديل بين Torch Attention و Flash Attention المصمم خصيصًا لوحدة معالجة الرسومات ، مما يزيد من سرعة التدريب للنموذج بحوالي مرتين وزيادة سرعة الاستدلال بنسبة 50.٪ -100٪.
** Swyx: ما الذي دفعك لاختيار تشفير ALiBi الموضعي؟ **
** أبهيناف: ** قمنا بدمج التشفير الموضعي ALiBi و Flash Attention واستقرار التدريب بطريقة مثيرة للاهتمام. ALiBi قادرة على إزالة الحاجة إلى حفلات الزفاف الموضعية في النموذج. في السابق ، إذا كان الرمز المميز له الموضع 1 ، فأنت بحاجة إلى إضافة تضمين موضع معين ، ولا يمكنك تجاوز الحد الأقصى للموضع (عادةً 2000). ولكن مع ALiBi ، تم حل هذه المشكلة. نحتاج فقط إلى إضافة تحيز (انحياز) إلى خريطة الانتباه ، والتي تشبه المنحدر ، وإذا كان هناك حاجة إلى نطاق أطول من المواضع للاستدلال ، فسيؤدي ذلك إلى تمديد هذا المنحدر إلى عدد أكبر من المواضع. يعمل هذا الأسلوب لأن الميل مستمر ويمكن تفسيره.
من المثير للاهتمام ، من خلال Flash Attention ، أن النموذج يحفظ الكثير من الذاكرة ويحسن الأداء ، لذلك بدأنا في إجراء اختبارات الأداء على نماذج ذات سياقات طويلة جدًا (تصل إلى 65 ألفًا) العام الماضي ، وفي نفس الوقت ، من الصعب جدًا تنفيذها تدريب مستقر. لاحقًا ، حاولنا دمج ALiBi في النموذج ، وتحسن استقرار النموذج بشكل كبير. يمكننا الآن تدريب نماذج كتابة القصة بثبات في سياقات طويلة جدًا وضمان الاستخدام الفعال لها.
** جوناثان: ** طول السياق غير محدود من الناحية الفنية. طالما تم توفير ذاكرة كافية ، يمكن للحوار أن يستمر إلى أجل غير مسمى. نعتقد أن أطول رقم يمكن أن يتعامل معه النموذج هو 84 كيلو بايت ، وهو أطول طول سياق يمكن للبشر التعامل معه بشكل مريح في الممارسة العملية. لكننا جربنا أيضًا أطوال سياق تتجاوز 84 كيلو في الممارسة العملية ، ويمكننا التعامل مع أطوال أطول.
** Swyx: ** على سبيل المثال ، يمكننا إدخال رواية "The Great Gatsby" إلى النموذج ، ثم ترك النموذج يواصل كتابة الرواية بناءً على نص الإدخال ، وأخيراً يُخرج النموذج محتوى مثيرًا للغاية.
** جوناثان: ** هناك الكثير من النسخ الجيدة حقًا لنهاية القصة داخل Mosaic. تصف إحدى النسخ جنازة غاتسبي ، ويبدأ نيك في التحدث إلى شبح غاتسبي ، كما يظهر والد غاتسبي ، ثم يظهر هو وتوم في مركز الشرطة. يركز هذا الإصدار كثيرًا على الحبكة ، ويصف ما سيحدث بعد ذلك. أيضا ، العديد من الإصدارات لها نهايات Fitzgerald-esque للغاية ، وهي مكتوبة بشكل جميل. لذلك من المثير أن نرى أن النموذج يبدو أنه يعالج المدخلات وينتج مخرجات ذات مغزى. يمكننا فعل الكثير مع طول هذا السياق.
** أليسيو: ** تبدأ الذاكرة في أن تصبح أحد قيود النموذج ، فكيف يتم اختيار حجم المعلمة وطول السياق؟
جوناثان: مؤخرًا ، جذبت الأبحاث حول السياقات الطويلة الكثير من الاهتمام وظهرت سلسلة من الأوراق البحثية ذات الصلة. ومع ذلك ، فإن هذه الأوراق ليست دقيقة تمامًا ، وإلى حد ما ، خاصة فيما يتعلق بآليات الانتباه ، فإنها تقارن آليات الانتباه غير التربيعية (مثل الاهتمام التقريبي الهرمي) مع الاهتمام التربيعي الصريح والصحيح. المفاضلات أو المفاضلات . أنا متفائل بشأن طرق التقريب ، لذا لا أطيق الانتظار للبحث في هذه الأوراق.
علمتني كتابة الأوراق وقراءتها درسًا مهمًا حول عدم الوثوق بأي بيانات حتى تقوم بذلك بنفسك. في Mosaic ، شعرنا بخيبة أمل في التطبيقات عدة مرات لأن الأوراق التي بدت واعدة في البداية لم تدرك إلا بعد التنفيذ أن الأوراق قد تلاعبت بالبيانات. على هذا النحو ، أنا دائمًا متشكك في البيانات ولا أثق في أي نتائج حتى تتم إعادة تنفيذها والتحقق من صحتها. بشكل عام ، أتت الممارسة ثمارها ، وفي كثير من الأحيان ، لم تنجح النظريات في الممارسة كما هو متوقع.
ميزات MPT-7B
** Swyx: ما هي الميزات المحددة لـ MPT-7B؟ **
** أبهيناف: ** سأقسم هذا إلى جزأين ، الأول هو ثبات التدريب. يمكن تقسيم هذا السؤال إلى ثلاثة أجزاء. أولاً ، يحتاج النموذج إلى تجنب ارتفاعات الخسارة أثناء التدريب ، وهو خط دفاعنا الأول. في رأيي ، لا تعد ارتفاعات الخسارة مشكلة كبيرة في حجم تدريب يبلغ 7 مليار متغير. ومع ذلك ، يصبح تجنب ارتفاعات الخسارة أمرًا صعبًا مع زيادة وقت التدريب. لقد أمضينا وقتًا طويلاً في اكتشاف كيفية ضبط طرق التهيئة ، والمحسِّنون ، والبنى ، وما إلى ذلك لمنع ارتفاعات الفقد. حتى أثناء تدريبنا ، إذا نظرنا بعناية ، لا يزال بإمكاننا العثور على بعض القمم الصغيرة المتقطعة ، لكن هذه القمم ستعود إلى وضعها الطبيعي في غضون بضع مئات من الخطوات ، وهي ظاهرة سحرية للغاية ، والتي يمكن أن تساعدنا بشكل طبيعي من ذروة الخسارة التي تم استردادها.
الحزم واستراتيجيات الاسترداد الذكية هي خط دفاعنا الثاني. في حالة حدوث خطأ كارثي ، سنكون قادرين على استئناف التدريب بسرعة ، وتطبيق بعض التدخل على دفعات قليلة قبل الفشل. بالنسبة للمشاكل المحتملة ، قمنا باستعدادات مختلفة. ومع ذلك ، في تدريب MPT-7B ، لم نستخدم هذه الإجراءات الاحتياطية على الإطلاق ، والذي يجب أن يقال إنه نوع من الحظ.
البنية التحتية المناسبة للتدريب هي خط الدفاع الثالث. إذا حاولنا تدريب النموذج على مئات من وحدات معالجة الرسومات ، فغالبًا ما تكون هناك أعطال في الأجهزة. على سبيل المثال ، عند تدريب نموذج في مجموعة كبيرة مع 512 وحدة معالجة رسومات ، يفشل التدريب كل يومين تقريبًا ، وقد يكون سبب الفشل هو فشل الشبكة.
عادةً ما يُنشئ الأشخاص فرقًا تحت الطلب على مدار الساعة طوال أيام الأسبوع للتعامل مع هذه الإخفاقات. عندما يكون هناك فشل ، يحاول الفريق فحص الكتلة ، وإزالة العقد المكسورة ، وإعادة التشغيل ، وما إلى ذلك ، وهي مهمة شاقة للغاية. اعتدنا على قضاء أشهر في التحقق يدويًا من الأخطاء ، لكننا الآن أنشأنا نظامًا أساسيًا لأتمتة كل عقدة في عملية تدريب النموذج.
عندما تكون هناك مشكلة في تشغيل أحد النماذج ، يقوم نظام المراقبة الآلي لدينا بإيقاف المهمة والاختبارات والتحقق من العقد المكسورة وإعادة التشغيل. نظرًا لقدرات الاسترداد الحتمية والسريعة لبرنامجنا ، يستمر النموذج في العمل بشكل جيد. نتيجة لذلك ، يمكننا في بعض الأحيان أن نرى في سجلات النموذج أنه بعد فشل النموذج في الساعة 2 صباحًا ، يتم إعادة تشغيله وتشغيله في غضون دقائق دون تدخل يدوي من قبل أحد أعضاء الفريق.
** جوناثان: ** ليس من السهل فعل ذلك حقًا. إذا كان هناك عطل في الأجهزة في النموذج قبل بضعة أشهر ، فسيتعين على أعضاء الفريق الاستيقاظ في الساعة الثانية صباحًا للتحقق من سبب فشل العقدة وإعادة المهمة. في السابق ، حتى على مقياس تدريب يبلغ 7 مليارات متغير ، غالبًا ما واجهنا طفرات خسائر كارثية ، وقد أثرت هذه المشكلات بشكل خطير على تدريب النموذج.
لقد عالجنا هذه المشكلات الآن من خلال تحسينات تدريجية. كما قال أبيناف ، يمكننا الآن الجلوس في مكتب أثناء تدريب نماذج متعددة دون القلق بشأن فشل النموذج ومقاطعة التدريب.
اختيار البيانات وتكرارها وتحديات التقييم الخاصة بـ LLM
** Swyx: اختيار البيانات هو تركيزك ، هل يمكنك التوسع فيه؟ **
** جوناثان: ** كاد أبهي يقتلني عندما حاولت استخدام كل وحدة معالجة الرسومات لمعالجة البيانات بدلاً من تدريب النموذج بالفعل. نحن نعلم أن تدريب نموذج ما يتطلب الكثير من البيانات ، ولكن هناك أيضًا العديد من أوجه عدم اليقين.
الأول هو ما هي أنواع مصادر البيانات المختلفة المهمة ، والآخر هو أهمية الازدواجية. من بينها ، يمكن تقسيم السؤال حول الازدواجية إلى مقايضات الجودة والكمية. لنفترض أن لدي أفضل 10 مليارات من البيانات المعجمية في العالم ، فهل من الأفضل إعادة التدريب عليها مئات المرات ، أم أنه من الأفضل استخدام 1 تريليون من البيانات المعجمية منخفضة الجودة وحديثة؟ بالطبع ، قد يكون هناك حل وسط ، ولكن كيفية تحديد البيانات عالية الجودة هي أيضًا مشكلة ، ولا توجد إجابة واضحة حتى الآن. إذا كنت سأعود إلى الأوساط الأكاديمية الآن ، فسأكتب بالتأكيد ورقة عنها ، لأنني لا أعرف أي شيء عنها حتى الآن.
** Swyx: ** لم أر أي أوراق بحثية حول هذا الموضوع حتى الآن.
** جوناثان: ** السؤال المركزي لبحث الأطروحة هو "ما نوع مجموعة البيانات التي يجب استخدامها".
أثناء عملية إنشاء النموذج ، عدت إلى كلية الحقوق بجامعة جورجتاون ، حيث قمت بالتدريس ، وجلست مع مجموعة من طلاب القانون لمناقشته. أعطيهم مجموعة بيانات عالية الجودة ، وكيفية مزج البيانات ، وعدد الرموز المميزة لديهم ، والسماح لهم بإنشاء أفضل مجموعة بيانات لنموذجهم.
إنهم لا يعرفون أي شيء عن LLM بخلاف بيانات الإدخال التي تؤثر على السلوك. أخبرهم أن يصنعوا هجينًا يغطي جميع المقايضات المختلفة. في البداية ، قد تكون هناك حاجة إلى قدر كبير من النصوص الإنجليزية ، والتي يمكن الحصول عليها من خلال الإنترنت ؛ إذا كنت ترغب في جعله نموذجًا متعدد اللغات ، فسيتم تقليل مجموعة اللغة الإنجليزية كثيرًا ؛ بالإضافة إلى ما إذا كان سيتم تضمين الرمز في هو - هي.
يعتقد بعض الناس أن الكود يمكن أن يجعل النموذج يعمل بشكل أفضل في التفكير المنطقي ، لكنني لم أر أبدًا أي دليل يدعم هذه الفكرة. على الرغم من أننا قمنا بالفعل بتطوير نموذج رمز ممتاز ، فإن ما إذا كان نموذج الكود يمكن أن يؤدي إلى قدرة تفكير أفضل في سلسلة التفكير يتطلب مزيدًا من البحث.
يُقال إن نسخة من GPT-3 قد تم تدريبها من رواية "شفرة دافنشي" ، لذلك يعتقد بعض الناس أن هذا قد يكون مفيدًا ، لكن لا يوجد دليل ؛) سيساعد في تدريب النموذج ، ولكن هناك أيضًا نقص الأدلة.
لذلك ، جربنا العديد من مخاليط البيانات المختلفة ووجدنا أن بعض مخاليط البيانات تعمل بشكل أفضل أو أسوأ من غيرها. على سبيل المثال ، يعد "The Pile" مزيجًا مستقرًا للغاية من البيانات ، ولكن وفقًا لمقاييس التقييم ، هناك مزيج آخر أفضل من البيانات. بعد ذلك سأتطرق أيضًا إلى موضوع التقييم ، وهو أمر مهم للغاية.
تم تدريب نموذج T5 في الأصل على مجموعة بيانات C4 ، والتي كان أداؤها جيدًا بشكل استثنائي. ذكر آخرون ، بما في ذلك Stella Beaterman من EleutherAI ، هذا عندما غردت عنه. في الورقة الأصلية على نموذج T5 ، تبدو طريقة المعالجة المسبقة لمجموعة بيانات C4 غريبة ، وقام المؤلفون بإزالة كل شيء يحتوي على كلمة "Java" من مجموعة البيانات لأنهم لا يريدون تحذيرات متعلقة بجافا. أيضًا ، قاموا بإزالة إدراج الأقواس المتعرجة لأنهم لم يرغبوا في الحصول على تضمين Java.
لقد نظروا إلى قائمة الكلمات السيئة وأزالوا المحتوى الذي يحتوي على كلمات بذيئة. ومع ذلك ، فإن قائمة الكلمات السيئة تتضمن في الواقع بعض الكلمات التي ليست سيئة في الواقع ، مثل "مثلي الجنس". ولكن بسبب عملية التنظيف هذه ، يبدو أن مجموعة البيانات الناتجة لا مثيل لها. من هذه النقطة ، لا نعرف شيئًا عن البيانات.
في الواقع ، استخدمنا أيضًا مجموعة بيانات تسمى MC4 و MC4 و C4 لها نفس المعالجة المسبقة ، لكننا أضفنا المزيد من مكالمات الويب (مكالمات الويب) ، ولكن بالمقارنة مع C4 ، فإن الجزء الإنجليزي من MC4 أسوأ كثيرًا لأسباب غير معروفة.
لهذا ، أضع معيارين:
بادئ ذي بدء ، يجب أن يكون الجزء الإنجليزي جيدًا مثل MC4 على الأقل. بالمقارنة مع مجموعات البيانات الأخرى المتاحة ، فإن الجزء الإنجليزي من MC4 أفضل. ثانيًا ، انطلق في تنوع البيانات وتأكد من أن مجموعة البيانات تتضمن أشياء مثل الكود والأوراق العلمية وويكيبيديا ، لأن الناس سيستخدمون النموذج لمجموعة متنوعة من المهام المختلفة.
لكني أعتقد ، الأهم من ذلك ، أن النموذج جيد فقط مثل مقياس التقييم. قد يختلف أبهي حول هذه النقطة. نحن لا نعرف كيفية تقييم النماذج التوليدية بدقة عندما يُطلب منهم أداء مهام محددة. في بعض الحالات ، علينا أن نعترف بأن تقييماتنا لا تقيس حتى ما نهتم به حقًا ، لذلك يمكننا فقط اتخاذ خيارات معقولة.
** Swyx: ** هل تعتقد أن طرق التقييم مثل MMLU (الفهم الشامل للغة متعددة المهام) و BIG-bench ليست مقنعة بدرجة كافية؟
** جوناثان: ** هذه الأساليب بلا شك تقوم بنوعين من المهام. الأول هو مهمة متعددة الخيارات ، والتي تحتوي على إجابة واحدة صحيحة ، والتي تسمح للنموذج بإنشاء خيارات مثل A أو B أو C أو D ، ثم يختار الإجابة التي من المرجح أن يولدها النموذج من خلال حساب الارتباك في كل إجابة ممكنة. ولكن بدلاً من مطالبة النموذج بإجراء أسئلة متعددة الخيارات ، نقوم بنوع ثانٍ من المهام التوليدية المفتوحة ، مثل التلخيص. المقارنة باستخدام مقاييس مثل BLEU و ROUGE ليست دقيقة بما يكفي ، فهناك العديد من الملخصات الورقية الممتازة وطرق التوليد المفتوح. في المقابل ، يعد الدليل معيار تقييم أكثر موثوقية ، لكن التقييم اليدوي يستغرق وقتًا طويلاً وشاقًا للغاية ، ولا يمكن مقارنته بالنموذج في الوقت الفعلي ، وهو ما قد يكون ممكنًا في المستقبل.
** أبهيناف: ** لدينا فريق تقييم رائع يساعدنا في بناء مقاييس جديدة.
** جوناثان: ** لكن يصعب تقييم LLM ، ولا أعتقد أن أيًا من هذه المقاييس تعكس حقًا ما نتوقعه من نموذج عمليًا.
خفض التكلفة وزيادة كفاءة تدريب النموذج
** Swyx: ** الآن يستغرق تدريب عارضة أزياء من ثلاثة إلى عشرة أيام ، ما هي المدة التي تريد تقصيرها؟
** أبهيناف: ** ربما يكون هذا العام من أكثر الأعوام إثارة من حيث تحسينات كفاءة التدريب في النموذج الأولي. هذا العام ، تمت ترقية كل من الأجهزة والبرامج وفقًا لذلك. الأول هو أجهزة H100 من الجيل الجديد من Nvidia ، والتي يمكنها وحدها تحسين الأداء مرتين على الأقل. ثانيًا ، هناك تنسيق جديد لأرقام الفاصلة العائمة FP8 ، والذي يمكنه تحقيق نفس تحسين الأداء عند استخدامه بمفرده.
قبل بضع سنوات ، بدأنا في استخدام دقة 32 بت ، ثم قدمت Nvidia دقة 16 بت. بعد عدة سنوات من التطوير ، أتقننا تدريجيًا مهارات التدريب 16 بت بسبب التحسين المستمر للمتطلبات.
مع FP8 هذا العام ، يمكننا مضاعفة الإنتاجية ، مما يعني أنه يمكننا مضاعفة التكلفة ثلاث مرات. في الوقت نفسه ، بدأنا في تحديد سمات تدريب LLM باستخدام FP8 على H100 ، وكان التقدم سريعًا. لذلك ، بمجرد تحسين الأجهزة ، يمكننا تقليل التكلفة كثيرًا.
بالإضافة إلى ذلك ، هناك العديد من الدراسات حول تطبيقات الهندسة المعمارية. نحن نستكشف طرقًا لإدخال بعض التباين ، ولكن ليس التباين العشوائي تمامًا. هل هناك آلية بوابة أو طريقة معمارية على غرار وزارة البيئة لتحقيق ذلك؟
كان هدفنا الأصلي هو تقليل تكلفة تدريب نموذج GPT-J من 500000 دولار إلى 100000 دولار ، وإذا تمكنا من تحقيق ذلك بحلول نهاية العام ، فسيكون ذلك إنجازًا عظيمًا.
** جوناثان: ** هذه الفكرة ليست قلعة في الهواء. على الرغم من أن هذه المرحلة لم يتم الوصول إليها بعد ، فمن المرجح أن يتم الوصول إلى هذا الهدف بحلول عام 2023.
الإحصاءات المتعلقة بتكاليف التدريب والاستدلال نادرة. نشر ديفيد باترسون من Google منشور مدونة يناقش استخدام Google للطاقة للتعلم الآلي. بعد تحليل مفصل ، على مدى السنوات الثلاث الماضية ، أنفقت Google ثلاثة أخماس مواردها على الاستدلال وخمسيها على التدريب. ما ورد أعلاه هو بيانات Google ، فهي توفر نماذج لمليارات المستخدمين.
من المحتمل أن يكون Google هو المكان الذي يحتوي على أكبر عبء استدلال في العالم. وهذا مجرد تخصيص للموارد للتدريب ، مع استنتاج يمثل ثلاثة أخماس والتدريب يمثل الخمسين. قد تكون الأجهزة أكثر تكلفة ، وقد يكون هيكل شبكة الأجهزة أكثر تعقيدًا ، لذلك يمكن تقسيم التدريب والاستدلال إلى النصف. ما ورد أعلاه هو نسبة تخصيص Google ، ولكن بالنسبة للشركات الأخرى ، قد يمثل التدريب وزناً أكبر.
أهمية الانفتاح لأبحاث الذكاء الاصطناعي
** أليسيو: ** كانت تكلفة التدريب السابق باهظة الثمن ، مما منعنا من إجراء تجارب كافية ، لذلك كان هناك العديد من المشاكل في اختيار مجموعات البيانات وما إلى ذلك.
** جوناثان **: في مدرسة الدراسات العليا ، كنت أشعر بالغيرة من أصدقائي لأن لديهم وحدات معالجة رسومات ولم يكن لدي واحدة على الكمبيوتر المحمول الخاص بي ، لذلك لم أتمكن من تدريب أي عارضين. تخيلت الفوز في اليانصيب حتى أتمكن من امتلاك وحدة معالجة رسومات K80.
في أعماقي ، ما زلت طالبة العلوم المتلهفة. أنا أؤمن بشدة أنه إذا أردنا إجراء بحث علمي وفهم هذه الأنظمة حقًا ، وكيفية جعلها تعمل بشكل جيد ، وفهم عناصر سلوكها وسلامتها وموثوقيتها ، فعلينا تقليل تكلفة التدريب حتى نتمكن من القيام علميًا. بحث. خذ التجارب البيولوجية ، على سبيل المثال ، حيث نحتاج إلى إجراء العديد من ثقافات الخلايا والتجارب للتأكد من أن الدواء يعمل ، فإن الكثير من البحث العلمي ضروري قبل أن نفهم شيئًا ما حقًا.
** أبهيناف: ** لدى MosaicML العديد من العملاء الذين يحاولون تدريب النماذج ، لذلك فإن الشركة لديها حافز لتخصيص الكثير من الموارد والوقت للبحث العلمي. فقط من خلال الفهم الحقيقي لكيفية تدريب النماذج ، يمكننا مساعدة المزيد من الأشخاص. لذلك بالنسبة لنا ، فإن عملية التجميع هذه مهمة جدًا.
أتذكر أنه كانت هناك ورقة من Google قبل أن يتم التحقق من حجم الدفعة أو شيء من هذا القبيل. ربما كلفت هذه الورقة ملايين الدولارات ، ولها فوائد كبيرة للمجتمع ككل. الآن ، يمكننا جميعًا التعلم منه وتوفير المال دون كسر البنك. لذلك ، بالنسبة إلى Mosaic ، من خلال البحث التجريبي ، اكتسبنا رؤى عميقة في البيانات ، وهندسة ما قبل التدريب ، وما إلى ذلك ، ولهذا السبب يختارنا العملاء.
** جوناثان: ** الانفتاح مهم جدًا لمجتمع الذكاء الاصطناعي. بمعنى ما ، ليس لدينا سبب للإغلاق ، فنحن نحقق الدخل من خلال مساعدة العملاء على تدريب النماذج. ولا توجد خسارة بالنسبة لنا لمشاركة النتائج مع المجتمع. بعد كل شيء ، يتعين علينا كسب الدخل من خلال النماذج المخصصة والبنية التحتية الممتازة. وجمع هذه الجوانب معًا هو سبب تسمية شركتنا MosaicML.
لقد حافظنا دائمًا على موقف مفتوح ولن نخفي النتائج التي حققناها. لكن الآن ، أجد أننا أصبحنا أحد أكبر المعامل مفتوحة المصدر في الصناعة ، وهي حقيقة محزنة ، لأن MosaicML ليس بهذا الحجم من حيث الصناعة ككل ، لدينا فقط حوالي 15 باحثًا ، والعديد من الباحثين الآخرين أصبحت المعامل مغلقة ولم تعد تنشر الكثير من المحتوى علنًا. ومع ذلك ، ستستمر MosaicML في التواصل والمشاركة مع المجتمع ، وستبذل قصارى جهدها لتصبح رائدة في البحث المفتوح. بينما لا يمكن أن يتطابق حجم وحجم أبحاثنا مع مختبر كبير ، سنستمر في مشاركة ما نتعلمه في محاولة لخلق موارد للمجتمع.
عندما أناقش النظام الإيكولوجي للذكاء الاصطناعي مع صانعي السياسات ، يظهر دائمًا قلق مشترك: الافتقار إلى الانفتاح سيعيق وتيرة الابتكار. لقد كنت أؤكد على هذه المسألة لسنوات ، لكنها في النهاية حقيقة واقعة. أنا أؤيد المصادر المفتوحة ، لكنني لا أعتقد أن الجميع سيشاركون في عملهم. لقد اعتبرنا ذات مرة المصدر المفتوح أمرًا مفروغًا منه ، لكن هذا لم يعد هو الحال.
أعتقد أنه سيبطئ تطورنا. في كثير من الحالات ، توجد ثقافة متجانسة في كل مختبر ، ويعتبر الاتصال قوة دافعة مهمة للتقدم العلمي. لذلك ، فإن المصدر المفتوح ليس فقط أمرًا لا غنى عنه في مجتمع المصادر المفتوحة والأوساط الأكاديمية ، ولكنه أيضًا مهم لتقدم التكنولوجيا. نحن بحاجة إلى مجتمع بحثي نشط مفتوح المصدر.
الاتجاهات المستقبلية
** Swyx: ** ذكرت أن الكثير من الأشياء لا تدوم طويلاً ويمكن استبدالها بسهولة ، لكن Transformer موجود لتبقى.
** جوناثان: ** المحولات ستكون موجودة دائمًا. لا تزال الشبكات العصبية التلافيفية (CNN) قيد الاستخدام اليوم ، ولم تحل المحولات المرئية محلها. انظر إلى الشبكة العصبية المتكررة (RNN) ، التي كانت موجودة منذ عقود ، لكنها لا تزال نشطة في العديد من المجالات. نتيجة لذلك ، من الصعب تنفيذ تحسينات البنية التحتية الرئيسية.
** أبهيناف: ** أعتقد أن رهانك يعتمد كثيرًا على ما يعرف بالاهتمام. إذا تم استبدال عملية مثل ضرب مصفوفة QK بطريقة مماثلة ، فما هو تأثير ذلك على النتيجة؟
** جوناثان: ** في التحليل النهائي ، هذه مجرد شبكة تغذية مباشرة متصلة بالكامل ، محول بآلية انتباه بسيطة. لذلك قد تتغير الأشياء ، لكننا نستمر في استخدام Transformer كما تصور Ashish Vaswani (مؤلف Transformer) منذ ست سنوات ، وربما في المستقبل.
** أبهيناف **: أعتقد أنه سيصبح مشابهًا لـ MLP (Multilayer Perceptron) ، وهو الخيار الوحيد المتاح لدينا في الوقت الحالي ، لأنه تم الآن تبسيط البنية كثيرًا ، ولم يتبق سوى بعض الطبقات الخطية ، والوصلات المتبقية ، والانتباه ، عملية الضرب النقطي.
** جوناثان: ** افتراضك هو أن العمارة ستصبح أبسط ، لكن الواقع قد يكون عكس ذلك ، وقد تصبح العمارة أكثر تعقيدًا.
** Swyx: ** ما رأيك في الجدل الأخير حول "الظواهر الناشئة"؟
** أبيناف **: لقد رأيت أوراقًا مماثلة ، وربما تكون هذه مجرد منتجات ثانوية لتقنيات التقييم مثل مقياس السجل ، ومقاييس التقييم ، وما نقوم به الآن هو دقة التشابك ، وهي أحكام ثنائية صارمة ، أي تصنيف النتائج على أنها صحيحة أو خاطئة ، دون مراعاة الفروق التسلسلية الدقيقة.
ولكن ، على غرار وجهة نظر جوناثان حول التقييم ، لدينا أيضًا مشكلة في تنوع مقاييس التقييم: عندما نصدر هذه النماذج ، حتى نموذج الدردشة ، ونموذج الأمر ، غالبًا ما يستخدمه الناس في مجموعة متنوعة من المهام المختلفة. بالكاد يمكننا قياس وتقييم كل بُعد بدقة مسبقًا ، وحتى على مقياس من 7 مليارات ، لا تزال هذه النماذج تعمل بشكل سيئ في بعض مهام MMLU الصعبة للغاية. في بعض الأحيان يسجلون بالكاد أعلى من الفرص العشوائية ، خاصة عند التعامل مع مهام صعبة للغاية.
لذلك ، قد تكون بعض هذه المشكلات أكثر إفادة لنا في سعينا وراء نماذج عالية الجودة. ومع ذلك ، قمنا بتطوير MPT-7B بشكل أعمى قليلاً لأننا لم نفهم تمامًا كيف سيتصرف النموذج في النهاية. يمكن تطويره فقط مقابل مجموعة صغيرة من مهام الاستدلال الإدراكي الشائعة ، ويتم تقييم الأداء من خلال مقارنة هذه المقاييس بنماذج أخرى مفتوحة المصدر.
** أليسيو: ** أعتقد أن الاستدلال السريع والتدريب هو أحد الأهداف ، لذلك هناك مفاضلة بين حل أصعب المهام والسرعة في المهام الأخرى.
** أبهيناف: ** نعم. حتى في نطاق البيانات البالغ 7 مليارات ، سيحاول الناس تشغيلها على وحدة المعالجة المركزية في المنزل ، أو يحاولون نقلها إلى هواتفهم المحمولة ، ويرجع ذلك أساسًا إلى أن التطبيقات صغيرة الحجم ستدفع الناس إلى تبني هذه التقنية ، وهذا اتجاه مهم في اللحظة.
** أليسيو: ** ما هي بعض الأشياء في الذكاء الاصطناعي التي تتحرك أسرع بكثير من المتوقع؟
** جوناثان: ** أتذكر عندما تم إصدار GPT-2 ، لم أكن متحمسًا جدًا ، ولكن في ذلك الوقت كان يحتوي بالفعل على 1.5 مليار معلمة. مع زيادة حجم النماذج ، لا يمكن أن يستمر أدائها في التحسن. ثم خرج GPT-3 ، واعتقدت أنه كان أفضل قليلاً في إنشاء النص ، لكنني كنت مخطئًا مرارًا وتكرارًا. يمكن أن يؤدي توسيع نطاق النموذج إلى إنتاج نماذج مفيدة جدًا من خلال توقع الرمز المميز التالي.
لكي نكون منصفين ، نحن مخطئون إلى حد كبير في هذا الأمر ، لذلك لا يمكننا أن نلوم أنفسنا تمامًا أيضًا. وإلا ، فإن غوغل ، وفيسبوك ، ومايكروسوفت ريسيرش كانت ستصدر نماذج ضخمة للغة قاتلة قبل أن تسنح لي الفرصة للتصرف بوقت طويل. لقد قمت برهان غريب للغاية تبين أنه صحيح: نماذج الانتشار ، رغم غبائها إلى حد ما ، أنتجت صورًا جميلة بشكل مذهل.
** أبيناف: ** فيما يتعلق ببرامج الدردشة على نطاق واسع ، أعتقد أنه سيمضي وقتًا طويلاً قبل أن يجري مئات الملايين من الأشخاص محادثات ضخمة مع نماذج الذكاء الاصطناعي. مع وجود العديد من الشركات الناشئة والشركات التي تستخدم الآن ليس فقط ChatGPT ، ولكن مشاريع أخرى مثل إنشاء الشخصيات ، فمن المذهل عدد الأشخاص الذين ينشئون بالفعل روابط عاطفية مع نماذج الذكاء الاصطناعي هذه. لا أعتقد أنني كنت أتوقع ذلك في سبتمبر أو أكتوبر من العام الماضي. كانت نقطة الانعطاف التي حدثت في الأشهر الستة الماضية غير متوقعة حقًا.
** Swyx: ** ما رأيك في استخدامها ، مثل الدعم العاطفي؟
أبهيناف: بعضهم من أجل الدعم العاطفي ، أو كأصدقاء فقط. الوحدة وقضايا الصحة العقلية هي موضوع ساخن. إذا ذهبت إلى المنتديات الفرعية لتلك المجتمعات ، فإن الناس يتحدثون ويفكرون في أصدقائهم من الذكاء الاصطناعي وهذه الشخصيات ، يبدو الأمر وكأنه شيء من الخيال العلمي ، ولم أتوقع أن يحدث ذلك أبدًا.
** Swyx: ** ما هي المشكلة الأكثر إثارة للاهتمام التي لم يتم حلها في الذكاء الاصطناعي؟
** أبهيناف: ** أنا مهتم إلى أي مدى يمكننا الذهاب من حيث الدقة وشيء مثل BF16 / FP16.
أتساءل عما إذا كانت هذه المشاكل تصبح أكثر قابلية للحل مع زيادة حجم النموذج. تظهر الأوراق ذات الصلة أن التقليم والتقليم قد يصبحان أسهل مع زيادة الحجم. لذلك ، كنتيجة طبيعية للتوسع خلال السنوات القليلة المقبلة ، قد نتحرك نحو استخدام أوزان أربعة بتات أو بتتين أو حتى ثنائية.
** جوناثان: ** أردت أن أرى طريقة أخرى لمدى صغر النموذج الذي يمكننا تحقيقه ، ومدى كفاءة تطوير نموذج بأداء مكافئ. كان هذا هو السؤال الذي عملت عليه طوال فترة الدكتوراه ، وبشكل ما في Mosaic أيضًا. لقد أظهرت لنا أوبن إيه آي طريقًا واحدًا لهذه القدرة المذهلة ، ألا وهو التوسع. لكن آمل ألا تكون هذه هي الطريقة الوحيدة. آمل أن يكون هناك العديد من الطرق الأخرى لتحقيق ذلك أيضًا ، من خلال أساليب نمذجة أفضل ، وخوارزميات أفضل ، وما إلى ذلك.
على الرغم من أنني لست من محبي استعارات علم الأعصاب ، إلا أن وجودنا وأدمغتنا ، إلى حد ما ، يثبتان أن هناك على الأقل طريقة أخرى لتحقيق هذه القدرة المذهلة دون تريليونات من المعلمات أو حتى الفلكية. استثمار رأس المال. لذلك أنا فضولي حقًا إلى أي مدى يمكن أن نحقق نموذجًا صغيرًا؟ هل هناك طريق آخر لهذه القدرات لا يجب أن يتبع المسار الحالي؟ نأمل أن تجد الإجابة في Mosaic ، إذا كانت موجودة.
** Swyx: ** بالضبط ، من أكثر الأشياء التي أهتم بها هو حقيقة أن الدماغ البشري يستهلك 30 واطًا فقط من الطاقة ، والنموذج بعيدًا عن ذلك.
** أبهيناف: ** لا أعتقد أن هناك طريقة لتحقيق ذلك باستخدام وحدة معالجة رسومات واحدة أو أدوات أخرى بمفردها.
** أليسيو **: هناك الكثير من المعلومات الجارية حاليًا ، مثل كيف يجب أن يفكر الناس في الذكاء الاصطناعي؟ ما الذي يجب أن يركزوا عليه؟
** جوناثان **: حافظ على هدوئك. بعض الناس يأخذون الضجيج على محمل الجد ، والبعض الآخر متشائم للغاية ، ويتفاعل معه بقوة ، أو ينفيه إلى حد ما. حافظ على سلامتك واعلم أننا أنشأنا أداة مفيدة للغاية.
لكننا لم نبني ذكاءً عامًا بعد ، وشخصيًا ، لسنا قريبين من هذا الهدف. لذلك من المهم أن تكون مسالمًا وأن تتبع العلم ، وهذا ما تسعى Mosaic AI لتحقيقه. نحاول التركيز على الأشياء المفيدة للبشر ، ونأمل في خلق عالم أفضل. سنبذل قصارى جهدنا ، ولكن الأهم من ذلك ، سوف نتبع العلم ، ونسترشد بالبيانات ، ونحقق هذا الهدف من خلال نتائج حقيقية ، وليس بلاغية.
** أبهيناف: ** أعتقد أنه لا يوجد شيء مثل إجراء البحوث في مجتمع مفتوح. في المجتمع ، لا يهتم عدد كبير من الأشخاص بنموذجك فحسب ، بل يقدمون أيضًا آرائهم حول مشكلات النموذج وكيفية تحسينه. سيكون هذا النوع من البحث المفتوح هو الطريق إلى الأمام ، للحفاظ على نماذجنا آمنة ، وللتعمق في تأثير وعواقب نماذج الذكاء الاصطناعي هذه في العالم الحقيقي.
شاهد النسخة الأصلية
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
السياق اللانهائي للنماذج الكبيرة وفن تكوين مجموعة البيانات
** المصدر | مساحة كامنة **
تجميع OneFlow
** الترجمة | جيا تشوان ، يانغ تينغ ، وان زيلين **
كان طول السياق أحد أكبر قيود GPT-3. يمكن لـ GPT-3 قبول ما يصل إلى 4000 رمز مميز (3000 كلمة ، 6 صفحات) ، وإلا فسيتم الإبلاغ عن خطأ. لذلك ، من أجل التعامل مع المستندات والمطالبات الطويلة () ، من الضروري إدخال تقنيات استرجاع أخرى مثل LangChain. ومع ذلك ، فإن MosaicML (التي حصلت عليها Databricks مقابل 1.3 مليار دولار تقريبًا) فتحت سياق MPT-7B في أوائل مايو بطول 84000 رمز (63000 كلمة ، 126 صفحة) ، مما أدى إلى توسيع نطاق النص الذي يمكن معالجته بشكل كبير. ، نموذج كلود الذي طوره Anthronpic له طول سياق ممتد إلى 100000 رمز مميز.
أصدرت MosaicML أيضًا ثلاثة طرز MPT-7B-Instruct و MPT-7B-Chat و MPT-7B-StoryWriter-65k + استنادًا إلى MPT-7B الأساسي للضبط الدقيق.
تم ضبط النموذج بدقة على dolly \ _hhrlhf. تم إنشاء مجموعة البيانات dolly \ _hhrlhf فوق مجموعة البيانات "dolly-5k".
تم ضبط النموذج بدقة على مجموعات بيانات ShareGPT-Vicuna و HC3 و Alpaca و Helpful and Harmless و Evol-Instruct.
مجموعة بيانات الضبط الدقيق لهذا النموذج هي مجموعة فرعية مصفاة من الروايات في الكتب 3 يبلغ طول سياقها 65 ألفًا. في حين أن الحجم المعلن عنه كان 65 ألفًا ، تمكن الفريق من الحصول على استجابة بـ 84 ألفًا عند التشغيل على وحدة معالجة الرسومات A100-80GB في عقدة واحدة. التكنولوجيا الرئيسية وراء ذلك هي ALiBi. لم يكن لدى Great Gatsby في الأصل سوى 68 ألفًا فقط ، لذلك استخدم الفريق نموذج MPT-7B-StoryWriter-65k + لإنشاء نهاية جديدة للرواية.
رئيس علماء MosaicML جوناثان فرانكل وعالم الأبحاث أبهيناف فينيغالا هما رئيسان MPT-7B ، وهما يقودان عملية تدريب MPT-7B بأكملها. في أحدث بودكاست من Latent Space ، ناقش Alessio الشريك الرئيسي لـ Swyx و Decibel Partners معهم ابتكار عملية التدريب MPT-7B وأوضح سبب كون مجموعة بيانات LLM فنًا مهمًا وغامضًا. أيضًا ، قد لا تكون بعض المعايير التقليدية متعددة الخيارات مفيدة جدًا للتكنولوجيا التي يتم إنشاؤها ، وسوف تستكشف أيضًا الأسباب الكامنة وراء ذلك.
(يتم تجميع المحتوى التالي وإصداره بواسطة OneFlow بعد الترخيص ، المصدر: https: //
بناء نموذج MPT-7B
** Swyx: لماذا طورت MPT-7B؟ **
** أبهيناف: ** استغرق مشروع MPT-7B حوالي 6-12 شهرًا. بدأنا العمل على نماذج اللغة الصيف الماضي ونشرنا منشورًا على مدونة حلل نماذج اللغة ووجدنا أن تكلفة التدريب قد تكون في الواقع أقل بكثير مما يعتقده الناس. منذ ذلك الحين أيضًا ، مستوحى من نموذج LLaMA الصادر عن Meta AI والعديد من الأعمال مفتوحة المصدر الأخرى ، شرعنا في إنشاء نموذج جيد حقًا مع 7 مليارات معلمة ، وهو أصل MPT.
** أليسيو: ** قلت في أحد البودكاست: ليس لدى Mosaic خطط لبناء وإصدار نماذج. لكن في النهاية أطلقت النموذج على أي حال ، ما الذي جعلك تغير رأيك؟
** جوناثان: ** أعتقد أن هناك عدة عوامل: ما زلنا نفتقر إلى نموذج من الدرجة الأولى. على عكس OpenAI ، حيث يتمحور عملنا حول إنشاء العملاء لنماذجهم الخاصة ، فإننا نوفر لهم الأدوات بشكل أساسي ، ولكي تكون هذه الأدوات فعالة ، يتعين علينا أولاً إنشاء نماذجنا الخاصة.
يجب أن يكون واضحًا أنه إذا كان بإمكان عملائنا القيام بأشياء رائعة ، فيمكننا القيام بأشياء رائعة أيضًا. كان لدي الكثير من الأشخاص على Twitter يشككون في صحة الأرقام التي أظهرها Mosaic ، مثل روس وايتمان قائلاً ، "دعونا نرى النتائج الفعلية" ، والتي أود أن أقول لها ، "روس ، ما رأيك بهذه كيف تعمل ؟ "لقد طورنا النموذج في 9.5 أيام بتكلفة 200000 دولار ، لذا يمكنك القيام بذلك أيضًا.
** Swyx: ** بالإشارة إلى البيانات التي أصدرتها العام الماضي ، قُدر مبدئيًا أن تكلفة تدريب GPT-3 كانت أقل من 450 ألف دولار ، ثم تم تخفيضها إلى 100 ألف دولار ؛ كما تم تخفيض تكلفة الانتشار المستقر أيضًا من 160 ألف دولار إلى أقل من 50000 دولار.
** جوناثان: ** ما زلت حذرًا جدًا بشأن رقم 100000 دولار. لم تصل بعد ، لكننا نسير في هذا الاتجاه ، وهذا تحد كبير لأبي.
** Swyx: ** هناك ثلاثة متغيرات من طراز MPT-7B أحدها يحقق SOTA من حيث طول السياق ، ما هي عملية التدريب لهذه النماذج؟
أبهيناف: نموذجنا الأساسي هو إعادة إنشاء LLaMA-7B ، مع 7 مليارات معلمة وبيانات تدريبية من 1 تريليون رمز ، مما يوفر نقطة انطلاق تدريب فعالة لنموذج الضبط الدقيق دون تدخل مفرط. يعد ضبط النموذج أيضًا مثيرًا للاهتمام ، مثل MPT-7B-StoryWriter-65k + يمكن استخدامه لكتابة القصة ، وطول نافذة السياق هو 65000 ، ويمكنه أيضًا متابعة الكتابة بناءً على المحتوى المعروف.
بالطبع ، هذا مجرد واحد من الاتجاهات التي نفكر فيها. يمكنك استخدام نموذج MPT-7B Base لبناء نماذج مخصصة لتناسب الاحتياجات المختلفة ، مثل نماذج أكواد السياق الطويلة أو نماذج اللغة المحددة. بناءً على النموذج الأساسي ، تم بناء ثلاثة متغيرات ، MPT-7B-Instruct و MPT-7B-Chat و MPT-7B-StoryWriter-65k + ، والتي تُستخدم لاتباع التعليمات القصيرة وحوار الدردشة وكتابة القصص على التوالي.
أليسيو: كيف تقرر عدد الرموز والمعلمات التي يجب استخدامها عند تدريب النموذج؟ يبدو أن 7 مليارات و 3 مليارات من معلمات النموذج عبارة عن رقمين سحريين رائجين حاليًا.
** أبيناف **: بالنسبة لنماذج التدريب ، يمكن أن يخبرك قانون التوسع بكيفية الاستخدام الأكثر فعالية لموارد حوسبة التدريب. على سبيل المثال ، إذا كانت الميزانية 200000 دولار أمريكي ، فوفقًا لقانون الحجم ، يمكن تقديم البرنامج التدريبي الأكثر فاعلية.
من بينها ، أكثر ما نتبعه هو قانون شينشيلا. بالنسبة لنموذج MPT-7B والمتغيرات المرتبطة به ، لا يتم اتباع هذه القوانين بدقة ، لأننا نريد التأكد من أن النموذج مناسب للاستخدام الشخصي وله أداء استدلال جيد ، لذلك فهو شديد التدريب ، متجاوزًا نقطة شينشيلا (في إشارة إلى البيانات المستوى يقاس بالرموز). بعض الأشخاص على الإنترنت يسمون هذه النماذج مازحا Llongboi لأن وقت تدريبهم طويل جدًا. بأخذ نموذج 7B كمثال ، قد يكون Chinchilla Point 140 مليار رمز ، لكننا في الواقع قمنا بتدريب 1 تريليون رمز ، لذا فإن وقت التدريب هو ما يقرب من 7 مرات أطول من المعتاد.
** Swyx: هل Llongboi يشير إلى طريقة التدريب؟ **
جوناثان: Llongboi هي مجرد مزحة من الداخل ، تشير إلى طريقة تدريب تستخدم رموزًا أكثر مما يفرضه قانون شينشيلا. يمكن ملاحظة أن Llongboi لديه حرفان "L" في البداية ، والتي تستخدم لتكريم LLaMA. أعلن رئيسنا التنفيذي ذات مرة عن الاسم على Twitter ، مشيرًا إلى النموذج باسم "Llongboi". في بعض الأحيان ، أرغب حقًا في أخذ كلمة مرور Twitter الخاصة به حتى لا يتم تسريبها مبكرًا ، ولكن الآن العالم بأسره يعرف الاسم.
حول العمارة ، ALiBi ، السياق
** أليسيو: ** Flash Attention و Faster Transformer هما العنصران الأساسيان في بناء نموذجك. ما مزاياهما؟
** أبهيناف: ** Flash Attention هو تطبيق أسرع لتطبيق Full Attention طوره مختبر أبحاث Hazy في ستانفورد. لقد قمنا بدمج Flash Attention في مكتبتنا في سبتمبر الماضي ولعبت دورًا كبيرًا في التدريب وسرعة الاستدلال. مقارنةً بنماذج Hugging Face الأخرى ، فإن هذا النموذج خاص جدًا.يمكنه التبديل بين Torch Attention و Flash Attention المصمم خصيصًا لوحدة معالجة الرسومات ، مما يزيد من سرعة التدريب للنموذج بحوالي مرتين وزيادة سرعة الاستدلال بنسبة 50.٪ -100٪.
** Swyx: ما الذي دفعك لاختيار تشفير ALiBi الموضعي؟ **
** أبهيناف: ** قمنا بدمج التشفير الموضعي ALiBi و Flash Attention واستقرار التدريب بطريقة مثيرة للاهتمام. ALiBi قادرة على إزالة الحاجة إلى حفلات الزفاف الموضعية في النموذج. في السابق ، إذا كان الرمز المميز له الموضع 1 ، فأنت بحاجة إلى إضافة تضمين موضع معين ، ولا يمكنك تجاوز الحد الأقصى للموضع (عادةً 2000). ولكن مع ALiBi ، تم حل هذه المشكلة. نحتاج فقط إلى إضافة تحيز (انحياز) إلى خريطة الانتباه ، والتي تشبه المنحدر ، وإذا كان هناك حاجة إلى نطاق أطول من المواضع للاستدلال ، فسيؤدي ذلك إلى تمديد هذا المنحدر إلى عدد أكبر من المواضع. يعمل هذا الأسلوب لأن الميل مستمر ويمكن تفسيره.
من المثير للاهتمام ، من خلال Flash Attention ، أن النموذج يحفظ الكثير من الذاكرة ويحسن الأداء ، لذلك بدأنا في إجراء اختبارات الأداء على نماذج ذات سياقات طويلة جدًا (تصل إلى 65 ألفًا) العام الماضي ، وفي نفس الوقت ، من الصعب جدًا تنفيذها تدريب مستقر. لاحقًا ، حاولنا دمج ALiBi في النموذج ، وتحسن استقرار النموذج بشكل كبير. يمكننا الآن تدريب نماذج كتابة القصة بثبات في سياقات طويلة جدًا وضمان الاستخدام الفعال لها.
** جوناثان: ** طول السياق غير محدود من الناحية الفنية. طالما تم توفير ذاكرة كافية ، يمكن للحوار أن يستمر إلى أجل غير مسمى. نعتقد أن أطول رقم يمكن أن يتعامل معه النموذج هو 84 كيلو بايت ، وهو أطول طول سياق يمكن للبشر التعامل معه بشكل مريح في الممارسة العملية. لكننا جربنا أيضًا أطوال سياق تتجاوز 84 كيلو في الممارسة العملية ، ويمكننا التعامل مع أطوال أطول.
** Swyx: ** على سبيل المثال ، يمكننا إدخال رواية "The Great Gatsby" إلى النموذج ، ثم ترك النموذج يواصل كتابة الرواية بناءً على نص الإدخال ، وأخيراً يُخرج النموذج محتوى مثيرًا للغاية.
** جوناثان: ** هناك الكثير من النسخ الجيدة حقًا لنهاية القصة داخل Mosaic. تصف إحدى النسخ جنازة غاتسبي ، ويبدأ نيك في التحدث إلى شبح غاتسبي ، كما يظهر والد غاتسبي ، ثم يظهر هو وتوم في مركز الشرطة. يركز هذا الإصدار كثيرًا على الحبكة ، ويصف ما سيحدث بعد ذلك. أيضا ، العديد من الإصدارات لها نهايات Fitzgerald-esque للغاية ، وهي مكتوبة بشكل جميل. لذلك من المثير أن نرى أن النموذج يبدو أنه يعالج المدخلات وينتج مخرجات ذات مغزى. يمكننا فعل الكثير مع طول هذا السياق.
** أليسيو: ** تبدأ الذاكرة في أن تصبح أحد قيود النموذج ، فكيف يتم اختيار حجم المعلمة وطول السياق؟
جوناثان: مؤخرًا ، جذبت الأبحاث حول السياقات الطويلة الكثير من الاهتمام وظهرت سلسلة من الأوراق البحثية ذات الصلة. ومع ذلك ، فإن هذه الأوراق ليست دقيقة تمامًا ، وإلى حد ما ، خاصة فيما يتعلق بآليات الانتباه ، فإنها تقارن آليات الانتباه غير التربيعية (مثل الاهتمام التقريبي الهرمي) مع الاهتمام التربيعي الصريح والصحيح. المفاضلات أو المفاضلات . أنا متفائل بشأن طرق التقريب ، لذا لا أطيق الانتظار للبحث في هذه الأوراق.
علمتني كتابة الأوراق وقراءتها درسًا مهمًا حول عدم الوثوق بأي بيانات حتى تقوم بذلك بنفسك. في Mosaic ، شعرنا بخيبة أمل في التطبيقات عدة مرات لأن الأوراق التي بدت واعدة في البداية لم تدرك إلا بعد التنفيذ أن الأوراق قد تلاعبت بالبيانات. على هذا النحو ، أنا دائمًا متشكك في البيانات ولا أثق في أي نتائج حتى تتم إعادة تنفيذها والتحقق من صحتها. بشكل عام ، أتت الممارسة ثمارها ، وفي كثير من الأحيان ، لم تنجح النظريات في الممارسة كما هو متوقع.
ميزات MPT-7B
** Swyx: ما هي الميزات المحددة لـ MPT-7B؟ **
** أبهيناف: ** سأقسم هذا إلى جزأين ، الأول هو ثبات التدريب. يمكن تقسيم هذا السؤال إلى ثلاثة أجزاء. أولاً ، يحتاج النموذج إلى تجنب ارتفاعات الخسارة أثناء التدريب ، وهو خط دفاعنا الأول. في رأيي ، لا تعد ارتفاعات الخسارة مشكلة كبيرة في حجم تدريب يبلغ 7 مليار متغير. ومع ذلك ، يصبح تجنب ارتفاعات الخسارة أمرًا صعبًا مع زيادة وقت التدريب. لقد أمضينا وقتًا طويلاً في اكتشاف كيفية ضبط طرق التهيئة ، والمحسِّنون ، والبنى ، وما إلى ذلك لمنع ارتفاعات الفقد. حتى أثناء تدريبنا ، إذا نظرنا بعناية ، لا يزال بإمكاننا العثور على بعض القمم الصغيرة المتقطعة ، لكن هذه القمم ستعود إلى وضعها الطبيعي في غضون بضع مئات من الخطوات ، وهي ظاهرة سحرية للغاية ، والتي يمكن أن تساعدنا بشكل طبيعي من ذروة الخسارة التي تم استردادها.
الحزم واستراتيجيات الاسترداد الذكية هي خط دفاعنا الثاني. في حالة حدوث خطأ كارثي ، سنكون قادرين على استئناف التدريب بسرعة ، وتطبيق بعض التدخل على دفعات قليلة قبل الفشل. بالنسبة للمشاكل المحتملة ، قمنا باستعدادات مختلفة. ومع ذلك ، في تدريب MPT-7B ، لم نستخدم هذه الإجراءات الاحتياطية على الإطلاق ، والذي يجب أن يقال إنه نوع من الحظ.
البنية التحتية المناسبة للتدريب هي خط الدفاع الثالث. إذا حاولنا تدريب النموذج على مئات من وحدات معالجة الرسومات ، فغالبًا ما تكون هناك أعطال في الأجهزة. على سبيل المثال ، عند تدريب نموذج في مجموعة كبيرة مع 512 وحدة معالجة رسومات ، يفشل التدريب كل يومين تقريبًا ، وقد يكون سبب الفشل هو فشل الشبكة.
عادةً ما يُنشئ الأشخاص فرقًا تحت الطلب على مدار الساعة طوال أيام الأسبوع للتعامل مع هذه الإخفاقات. عندما يكون هناك فشل ، يحاول الفريق فحص الكتلة ، وإزالة العقد المكسورة ، وإعادة التشغيل ، وما إلى ذلك ، وهي مهمة شاقة للغاية. اعتدنا على قضاء أشهر في التحقق يدويًا من الأخطاء ، لكننا الآن أنشأنا نظامًا أساسيًا لأتمتة كل عقدة في عملية تدريب النموذج.
عندما تكون هناك مشكلة في تشغيل أحد النماذج ، يقوم نظام المراقبة الآلي لدينا بإيقاف المهمة والاختبارات والتحقق من العقد المكسورة وإعادة التشغيل. نظرًا لقدرات الاسترداد الحتمية والسريعة لبرنامجنا ، يستمر النموذج في العمل بشكل جيد. نتيجة لذلك ، يمكننا في بعض الأحيان أن نرى في سجلات النموذج أنه بعد فشل النموذج في الساعة 2 صباحًا ، يتم إعادة تشغيله وتشغيله في غضون دقائق دون تدخل يدوي من قبل أحد أعضاء الفريق.
** جوناثان: ** ليس من السهل فعل ذلك حقًا. إذا كان هناك عطل في الأجهزة في النموذج قبل بضعة أشهر ، فسيتعين على أعضاء الفريق الاستيقاظ في الساعة الثانية صباحًا للتحقق من سبب فشل العقدة وإعادة المهمة. في السابق ، حتى على مقياس تدريب يبلغ 7 مليارات متغير ، غالبًا ما واجهنا طفرات خسائر كارثية ، وقد أثرت هذه المشكلات بشكل خطير على تدريب النموذج.
لقد عالجنا هذه المشكلات الآن من خلال تحسينات تدريجية. كما قال أبيناف ، يمكننا الآن الجلوس في مكتب أثناء تدريب نماذج متعددة دون القلق بشأن فشل النموذج ومقاطعة التدريب.
اختيار البيانات وتكرارها وتحديات التقييم الخاصة بـ LLM
** Swyx: اختيار البيانات هو تركيزك ، هل يمكنك التوسع فيه؟ **
** جوناثان: ** كاد أبهي يقتلني عندما حاولت استخدام كل وحدة معالجة الرسومات لمعالجة البيانات بدلاً من تدريب النموذج بالفعل. نحن نعلم أن تدريب نموذج ما يتطلب الكثير من البيانات ، ولكن هناك أيضًا العديد من أوجه عدم اليقين.
الأول هو ما هي أنواع مصادر البيانات المختلفة المهمة ، والآخر هو أهمية الازدواجية. من بينها ، يمكن تقسيم السؤال حول الازدواجية إلى مقايضات الجودة والكمية. لنفترض أن لدي أفضل 10 مليارات من البيانات المعجمية في العالم ، فهل من الأفضل إعادة التدريب عليها مئات المرات ، أم أنه من الأفضل استخدام 1 تريليون من البيانات المعجمية منخفضة الجودة وحديثة؟ بالطبع ، قد يكون هناك حل وسط ، ولكن كيفية تحديد البيانات عالية الجودة هي أيضًا مشكلة ، ولا توجد إجابة واضحة حتى الآن. إذا كنت سأعود إلى الأوساط الأكاديمية الآن ، فسأكتب بالتأكيد ورقة عنها ، لأنني لا أعرف أي شيء عنها حتى الآن.
** Swyx: ** لم أر أي أوراق بحثية حول هذا الموضوع حتى الآن.
** جوناثان: ** السؤال المركزي لبحث الأطروحة هو "ما نوع مجموعة البيانات التي يجب استخدامها".
أثناء عملية إنشاء النموذج ، عدت إلى كلية الحقوق بجامعة جورجتاون ، حيث قمت بالتدريس ، وجلست مع مجموعة من طلاب القانون لمناقشته. أعطيهم مجموعة بيانات عالية الجودة ، وكيفية مزج البيانات ، وعدد الرموز المميزة لديهم ، والسماح لهم بإنشاء أفضل مجموعة بيانات لنموذجهم.
إنهم لا يعرفون أي شيء عن LLM بخلاف بيانات الإدخال التي تؤثر على السلوك. أخبرهم أن يصنعوا هجينًا يغطي جميع المقايضات المختلفة. في البداية ، قد تكون هناك حاجة إلى قدر كبير من النصوص الإنجليزية ، والتي يمكن الحصول عليها من خلال الإنترنت ؛ إذا كنت ترغب في جعله نموذجًا متعدد اللغات ، فسيتم تقليل مجموعة اللغة الإنجليزية كثيرًا ؛ بالإضافة إلى ما إذا كان سيتم تضمين الرمز في هو - هي.
يعتقد بعض الناس أن الكود يمكن أن يجعل النموذج يعمل بشكل أفضل في التفكير المنطقي ، لكنني لم أر أبدًا أي دليل يدعم هذه الفكرة. على الرغم من أننا قمنا بالفعل بتطوير نموذج رمز ممتاز ، فإن ما إذا كان نموذج الكود يمكن أن يؤدي إلى قدرة تفكير أفضل في سلسلة التفكير يتطلب مزيدًا من البحث.
يُقال إن نسخة من GPT-3 قد تم تدريبها من رواية "شفرة دافنشي" ، لذلك يعتقد بعض الناس أن هذا قد يكون مفيدًا ، لكن لا يوجد دليل ؛) سيساعد في تدريب النموذج ، ولكن هناك أيضًا نقص الأدلة.
لذلك ، جربنا العديد من مخاليط البيانات المختلفة ووجدنا أن بعض مخاليط البيانات تعمل بشكل أفضل أو أسوأ من غيرها. على سبيل المثال ، يعد "The Pile" مزيجًا مستقرًا للغاية من البيانات ، ولكن وفقًا لمقاييس التقييم ، هناك مزيج آخر أفضل من البيانات. بعد ذلك سأتطرق أيضًا إلى موضوع التقييم ، وهو أمر مهم للغاية.
تم تدريب نموذج T5 في الأصل على مجموعة بيانات C4 ، والتي كان أداؤها جيدًا بشكل استثنائي. ذكر آخرون ، بما في ذلك Stella Beaterman من EleutherAI ، هذا عندما غردت عنه. في الورقة الأصلية على نموذج T5 ، تبدو طريقة المعالجة المسبقة لمجموعة بيانات C4 غريبة ، وقام المؤلفون بإزالة كل شيء يحتوي على كلمة "Java" من مجموعة البيانات لأنهم لا يريدون تحذيرات متعلقة بجافا. أيضًا ، قاموا بإزالة إدراج الأقواس المتعرجة لأنهم لم يرغبوا في الحصول على تضمين Java.
لقد نظروا إلى قائمة الكلمات السيئة وأزالوا المحتوى الذي يحتوي على كلمات بذيئة. ومع ذلك ، فإن قائمة الكلمات السيئة تتضمن في الواقع بعض الكلمات التي ليست سيئة في الواقع ، مثل "مثلي الجنس". ولكن بسبب عملية التنظيف هذه ، يبدو أن مجموعة البيانات الناتجة لا مثيل لها. من هذه النقطة ، لا نعرف شيئًا عن البيانات.
في الواقع ، استخدمنا أيضًا مجموعة بيانات تسمى MC4 و MC4 و C4 لها نفس المعالجة المسبقة ، لكننا أضفنا المزيد من مكالمات الويب (مكالمات الويب) ، ولكن بالمقارنة مع C4 ، فإن الجزء الإنجليزي من MC4 أسوأ كثيرًا لأسباب غير معروفة.
لهذا ، أضع معيارين:
بادئ ذي بدء ، يجب أن يكون الجزء الإنجليزي جيدًا مثل MC4 على الأقل. بالمقارنة مع مجموعات البيانات الأخرى المتاحة ، فإن الجزء الإنجليزي من MC4 أفضل. ثانيًا ، انطلق في تنوع البيانات وتأكد من أن مجموعة البيانات تتضمن أشياء مثل الكود والأوراق العلمية وويكيبيديا ، لأن الناس سيستخدمون النموذج لمجموعة متنوعة من المهام المختلفة.
لكني أعتقد ، الأهم من ذلك ، أن النموذج جيد فقط مثل مقياس التقييم. قد يختلف أبهي حول هذه النقطة. نحن لا نعرف كيفية تقييم النماذج التوليدية بدقة عندما يُطلب منهم أداء مهام محددة. في بعض الحالات ، علينا أن نعترف بأن تقييماتنا لا تقيس حتى ما نهتم به حقًا ، لذلك يمكننا فقط اتخاذ خيارات معقولة.
** Swyx: ** هل تعتقد أن طرق التقييم مثل MMLU (الفهم الشامل للغة متعددة المهام) و BIG-bench ليست مقنعة بدرجة كافية؟
** جوناثان: ** هذه الأساليب بلا شك تقوم بنوعين من المهام. الأول هو مهمة متعددة الخيارات ، والتي تحتوي على إجابة واحدة صحيحة ، والتي تسمح للنموذج بإنشاء خيارات مثل A أو B أو C أو D ، ثم يختار الإجابة التي من المرجح أن يولدها النموذج من خلال حساب الارتباك في كل إجابة ممكنة. ولكن بدلاً من مطالبة النموذج بإجراء أسئلة متعددة الخيارات ، نقوم بنوع ثانٍ من المهام التوليدية المفتوحة ، مثل التلخيص. المقارنة باستخدام مقاييس مثل BLEU و ROUGE ليست دقيقة بما يكفي ، فهناك العديد من الملخصات الورقية الممتازة وطرق التوليد المفتوح. في المقابل ، يعد الدليل معيار تقييم أكثر موثوقية ، لكن التقييم اليدوي يستغرق وقتًا طويلاً وشاقًا للغاية ، ولا يمكن مقارنته بالنموذج في الوقت الفعلي ، وهو ما قد يكون ممكنًا في المستقبل.
** أبهيناف: ** لدينا فريق تقييم رائع يساعدنا في بناء مقاييس جديدة.
** جوناثان: ** لكن يصعب تقييم LLM ، ولا أعتقد أن أيًا من هذه المقاييس تعكس حقًا ما نتوقعه من نموذج عمليًا.
خفض التكلفة وزيادة كفاءة تدريب النموذج
** Swyx: ** الآن يستغرق تدريب عارضة أزياء من ثلاثة إلى عشرة أيام ، ما هي المدة التي تريد تقصيرها؟
** أبهيناف: ** ربما يكون هذا العام من أكثر الأعوام إثارة من حيث تحسينات كفاءة التدريب في النموذج الأولي. هذا العام ، تمت ترقية كل من الأجهزة والبرامج وفقًا لذلك. الأول هو أجهزة H100 من الجيل الجديد من Nvidia ، والتي يمكنها وحدها تحسين الأداء مرتين على الأقل. ثانيًا ، هناك تنسيق جديد لأرقام الفاصلة العائمة FP8 ، والذي يمكنه تحقيق نفس تحسين الأداء عند استخدامه بمفرده.
قبل بضع سنوات ، بدأنا في استخدام دقة 32 بت ، ثم قدمت Nvidia دقة 16 بت. بعد عدة سنوات من التطوير ، أتقننا تدريجيًا مهارات التدريب 16 بت بسبب التحسين المستمر للمتطلبات.
مع FP8 هذا العام ، يمكننا مضاعفة الإنتاجية ، مما يعني أنه يمكننا مضاعفة التكلفة ثلاث مرات. في الوقت نفسه ، بدأنا في تحديد سمات تدريب LLM باستخدام FP8 على H100 ، وكان التقدم سريعًا. لذلك ، بمجرد تحسين الأجهزة ، يمكننا تقليل التكلفة كثيرًا.
بالإضافة إلى ذلك ، هناك العديد من الدراسات حول تطبيقات الهندسة المعمارية. نحن نستكشف طرقًا لإدخال بعض التباين ، ولكن ليس التباين العشوائي تمامًا. هل هناك آلية بوابة أو طريقة معمارية على غرار وزارة البيئة لتحقيق ذلك؟
كان هدفنا الأصلي هو تقليل تكلفة تدريب نموذج GPT-J من 500000 دولار إلى 100000 دولار ، وإذا تمكنا من تحقيق ذلك بحلول نهاية العام ، فسيكون ذلك إنجازًا عظيمًا.
** جوناثان: ** هذه الفكرة ليست قلعة في الهواء. على الرغم من أن هذه المرحلة لم يتم الوصول إليها بعد ، فمن المرجح أن يتم الوصول إلى هذا الهدف بحلول عام 2023.
الإحصاءات المتعلقة بتكاليف التدريب والاستدلال نادرة. نشر ديفيد باترسون من Google منشور مدونة يناقش استخدام Google للطاقة للتعلم الآلي. بعد تحليل مفصل ، على مدى السنوات الثلاث الماضية ، أنفقت Google ثلاثة أخماس مواردها على الاستدلال وخمسيها على التدريب. ما ورد أعلاه هو بيانات Google ، فهي توفر نماذج لمليارات المستخدمين.
من المحتمل أن يكون Google هو المكان الذي يحتوي على أكبر عبء استدلال في العالم. وهذا مجرد تخصيص للموارد للتدريب ، مع استنتاج يمثل ثلاثة أخماس والتدريب يمثل الخمسين. قد تكون الأجهزة أكثر تكلفة ، وقد يكون هيكل شبكة الأجهزة أكثر تعقيدًا ، لذلك يمكن تقسيم التدريب والاستدلال إلى النصف. ما ورد أعلاه هو نسبة تخصيص Google ، ولكن بالنسبة للشركات الأخرى ، قد يمثل التدريب وزناً أكبر.
أهمية الانفتاح لأبحاث الذكاء الاصطناعي
** أليسيو: ** كانت تكلفة التدريب السابق باهظة الثمن ، مما منعنا من إجراء تجارب كافية ، لذلك كان هناك العديد من المشاكل في اختيار مجموعات البيانات وما إلى ذلك.
** جوناثان **: في مدرسة الدراسات العليا ، كنت أشعر بالغيرة من أصدقائي لأن لديهم وحدات معالجة رسومات ولم يكن لدي واحدة على الكمبيوتر المحمول الخاص بي ، لذلك لم أتمكن من تدريب أي عارضين. تخيلت الفوز في اليانصيب حتى أتمكن من امتلاك وحدة معالجة رسومات K80.
في أعماقي ، ما زلت طالبة العلوم المتلهفة. أنا أؤمن بشدة أنه إذا أردنا إجراء بحث علمي وفهم هذه الأنظمة حقًا ، وكيفية جعلها تعمل بشكل جيد ، وفهم عناصر سلوكها وسلامتها وموثوقيتها ، فعلينا تقليل تكلفة التدريب حتى نتمكن من القيام علميًا. بحث. خذ التجارب البيولوجية ، على سبيل المثال ، حيث نحتاج إلى إجراء العديد من ثقافات الخلايا والتجارب للتأكد من أن الدواء يعمل ، فإن الكثير من البحث العلمي ضروري قبل أن نفهم شيئًا ما حقًا.
** أبهيناف: ** لدى MosaicML العديد من العملاء الذين يحاولون تدريب النماذج ، لذلك فإن الشركة لديها حافز لتخصيص الكثير من الموارد والوقت للبحث العلمي. فقط من خلال الفهم الحقيقي لكيفية تدريب النماذج ، يمكننا مساعدة المزيد من الأشخاص. لذلك بالنسبة لنا ، فإن عملية التجميع هذه مهمة جدًا.
أتذكر أنه كانت هناك ورقة من Google قبل أن يتم التحقق من حجم الدفعة أو شيء من هذا القبيل. ربما كلفت هذه الورقة ملايين الدولارات ، ولها فوائد كبيرة للمجتمع ككل. الآن ، يمكننا جميعًا التعلم منه وتوفير المال دون كسر البنك. لذلك ، بالنسبة إلى Mosaic ، من خلال البحث التجريبي ، اكتسبنا رؤى عميقة في البيانات ، وهندسة ما قبل التدريب ، وما إلى ذلك ، ولهذا السبب يختارنا العملاء.
** جوناثان: ** الانفتاح مهم جدًا لمجتمع الذكاء الاصطناعي. بمعنى ما ، ليس لدينا سبب للإغلاق ، فنحن نحقق الدخل من خلال مساعدة العملاء على تدريب النماذج. ولا توجد خسارة بالنسبة لنا لمشاركة النتائج مع المجتمع. بعد كل شيء ، يتعين علينا كسب الدخل من خلال النماذج المخصصة والبنية التحتية الممتازة. وجمع هذه الجوانب معًا هو سبب تسمية شركتنا MosaicML.
لقد حافظنا دائمًا على موقف مفتوح ولن نخفي النتائج التي حققناها. لكن الآن ، أجد أننا أصبحنا أحد أكبر المعامل مفتوحة المصدر في الصناعة ، وهي حقيقة محزنة ، لأن MosaicML ليس بهذا الحجم من حيث الصناعة ككل ، لدينا فقط حوالي 15 باحثًا ، والعديد من الباحثين الآخرين أصبحت المعامل مغلقة ولم تعد تنشر الكثير من المحتوى علنًا. ومع ذلك ، ستستمر MosaicML في التواصل والمشاركة مع المجتمع ، وستبذل قصارى جهدها لتصبح رائدة في البحث المفتوح. بينما لا يمكن أن يتطابق حجم وحجم أبحاثنا مع مختبر كبير ، سنستمر في مشاركة ما نتعلمه في محاولة لخلق موارد للمجتمع.
عندما أناقش النظام الإيكولوجي للذكاء الاصطناعي مع صانعي السياسات ، يظهر دائمًا قلق مشترك: الافتقار إلى الانفتاح سيعيق وتيرة الابتكار. لقد كنت أؤكد على هذه المسألة لسنوات ، لكنها في النهاية حقيقة واقعة. أنا أؤيد المصادر المفتوحة ، لكنني لا أعتقد أن الجميع سيشاركون في عملهم. لقد اعتبرنا ذات مرة المصدر المفتوح أمرًا مفروغًا منه ، لكن هذا لم يعد هو الحال.
أعتقد أنه سيبطئ تطورنا. في كثير من الحالات ، توجد ثقافة متجانسة في كل مختبر ، ويعتبر الاتصال قوة دافعة مهمة للتقدم العلمي. لذلك ، فإن المصدر المفتوح ليس فقط أمرًا لا غنى عنه في مجتمع المصادر المفتوحة والأوساط الأكاديمية ، ولكنه أيضًا مهم لتقدم التكنولوجيا. نحن بحاجة إلى مجتمع بحثي نشط مفتوح المصدر.
الاتجاهات المستقبلية
** Swyx: ** ذكرت أن الكثير من الأشياء لا تدوم طويلاً ويمكن استبدالها بسهولة ، لكن Transformer موجود لتبقى.
** جوناثان: ** المحولات ستكون موجودة دائمًا. لا تزال الشبكات العصبية التلافيفية (CNN) قيد الاستخدام اليوم ، ولم تحل المحولات المرئية محلها. انظر إلى الشبكة العصبية المتكررة (RNN) ، التي كانت موجودة منذ عقود ، لكنها لا تزال نشطة في العديد من المجالات. نتيجة لذلك ، من الصعب تنفيذ تحسينات البنية التحتية الرئيسية.
** أبهيناف: ** أعتقد أن رهانك يعتمد كثيرًا على ما يعرف بالاهتمام. إذا تم استبدال عملية مثل ضرب مصفوفة QK بطريقة مماثلة ، فما هو تأثير ذلك على النتيجة؟
** جوناثان: ** في التحليل النهائي ، هذه مجرد شبكة تغذية مباشرة متصلة بالكامل ، محول بآلية انتباه بسيطة. لذلك قد تتغير الأشياء ، لكننا نستمر في استخدام Transformer كما تصور Ashish Vaswani (مؤلف Transformer) منذ ست سنوات ، وربما في المستقبل.
** أبهيناف **: أعتقد أنه سيصبح مشابهًا لـ MLP (Multilayer Perceptron) ، وهو الخيار الوحيد المتاح لدينا في الوقت الحالي ، لأنه تم الآن تبسيط البنية كثيرًا ، ولم يتبق سوى بعض الطبقات الخطية ، والوصلات المتبقية ، والانتباه ، عملية الضرب النقطي.
** جوناثان: ** افتراضك هو أن العمارة ستصبح أبسط ، لكن الواقع قد يكون عكس ذلك ، وقد تصبح العمارة أكثر تعقيدًا.
** Swyx: ** ما رأيك في الجدل الأخير حول "الظواهر الناشئة"؟
** أبيناف **: لقد رأيت أوراقًا مماثلة ، وربما تكون هذه مجرد منتجات ثانوية لتقنيات التقييم مثل مقياس السجل ، ومقاييس التقييم ، وما نقوم به الآن هو دقة التشابك ، وهي أحكام ثنائية صارمة ، أي تصنيف النتائج على أنها صحيحة أو خاطئة ، دون مراعاة الفروق التسلسلية الدقيقة.
ولكن ، على غرار وجهة نظر جوناثان حول التقييم ، لدينا أيضًا مشكلة في تنوع مقاييس التقييم: عندما نصدر هذه النماذج ، حتى نموذج الدردشة ، ونموذج الأمر ، غالبًا ما يستخدمه الناس في مجموعة متنوعة من المهام المختلفة. بالكاد يمكننا قياس وتقييم كل بُعد بدقة مسبقًا ، وحتى على مقياس من 7 مليارات ، لا تزال هذه النماذج تعمل بشكل سيئ في بعض مهام MMLU الصعبة للغاية. في بعض الأحيان يسجلون بالكاد أعلى من الفرص العشوائية ، خاصة عند التعامل مع مهام صعبة للغاية.
لذلك ، قد تكون بعض هذه المشكلات أكثر إفادة لنا في سعينا وراء نماذج عالية الجودة. ومع ذلك ، قمنا بتطوير MPT-7B بشكل أعمى قليلاً لأننا لم نفهم تمامًا كيف سيتصرف النموذج في النهاية. يمكن تطويره فقط مقابل مجموعة صغيرة من مهام الاستدلال الإدراكي الشائعة ، ويتم تقييم الأداء من خلال مقارنة هذه المقاييس بنماذج أخرى مفتوحة المصدر.
** أليسيو: ** أعتقد أن الاستدلال السريع والتدريب هو أحد الأهداف ، لذلك هناك مفاضلة بين حل أصعب المهام والسرعة في المهام الأخرى.
** أبهيناف: ** نعم. حتى في نطاق البيانات البالغ 7 مليارات ، سيحاول الناس تشغيلها على وحدة المعالجة المركزية في المنزل ، أو يحاولون نقلها إلى هواتفهم المحمولة ، ويرجع ذلك أساسًا إلى أن التطبيقات صغيرة الحجم ستدفع الناس إلى تبني هذه التقنية ، وهذا اتجاه مهم في اللحظة.
** أليسيو: ** ما هي بعض الأشياء في الذكاء الاصطناعي التي تتحرك أسرع بكثير من المتوقع؟
** جوناثان: ** أتذكر عندما تم إصدار GPT-2 ، لم أكن متحمسًا جدًا ، ولكن في ذلك الوقت كان يحتوي بالفعل على 1.5 مليار معلمة. مع زيادة حجم النماذج ، لا يمكن أن يستمر أدائها في التحسن. ثم خرج GPT-3 ، واعتقدت أنه كان أفضل قليلاً في إنشاء النص ، لكنني كنت مخطئًا مرارًا وتكرارًا. يمكن أن يؤدي توسيع نطاق النموذج إلى إنتاج نماذج مفيدة جدًا من خلال توقع الرمز المميز التالي.
لكي نكون منصفين ، نحن مخطئون إلى حد كبير في هذا الأمر ، لذلك لا يمكننا أن نلوم أنفسنا تمامًا أيضًا. وإلا ، فإن غوغل ، وفيسبوك ، ومايكروسوفت ريسيرش كانت ستصدر نماذج ضخمة للغة قاتلة قبل أن تسنح لي الفرصة للتصرف بوقت طويل. لقد قمت برهان غريب للغاية تبين أنه صحيح: نماذج الانتشار ، رغم غبائها إلى حد ما ، أنتجت صورًا جميلة بشكل مذهل.
** أبيناف: ** فيما يتعلق ببرامج الدردشة على نطاق واسع ، أعتقد أنه سيمضي وقتًا طويلاً قبل أن يجري مئات الملايين من الأشخاص محادثات ضخمة مع نماذج الذكاء الاصطناعي. مع وجود العديد من الشركات الناشئة والشركات التي تستخدم الآن ليس فقط ChatGPT ، ولكن مشاريع أخرى مثل إنشاء الشخصيات ، فمن المذهل عدد الأشخاص الذين ينشئون بالفعل روابط عاطفية مع نماذج الذكاء الاصطناعي هذه. لا أعتقد أنني كنت أتوقع ذلك في سبتمبر أو أكتوبر من العام الماضي. كانت نقطة الانعطاف التي حدثت في الأشهر الستة الماضية غير متوقعة حقًا.
** Swyx: ** ما رأيك في استخدامها ، مثل الدعم العاطفي؟
أبهيناف: بعضهم من أجل الدعم العاطفي ، أو كأصدقاء فقط. الوحدة وقضايا الصحة العقلية هي موضوع ساخن. إذا ذهبت إلى المنتديات الفرعية لتلك المجتمعات ، فإن الناس يتحدثون ويفكرون في أصدقائهم من الذكاء الاصطناعي وهذه الشخصيات ، يبدو الأمر وكأنه شيء من الخيال العلمي ، ولم أتوقع أن يحدث ذلك أبدًا.
** Swyx: ** ما هي المشكلة الأكثر إثارة للاهتمام التي لم يتم حلها في الذكاء الاصطناعي؟
** أبهيناف: ** أنا مهتم إلى أي مدى يمكننا الذهاب من حيث الدقة وشيء مثل BF16 / FP16.
أتساءل عما إذا كانت هذه المشاكل تصبح أكثر قابلية للحل مع زيادة حجم النموذج. تظهر الأوراق ذات الصلة أن التقليم والتقليم قد يصبحان أسهل مع زيادة الحجم. لذلك ، كنتيجة طبيعية للتوسع خلال السنوات القليلة المقبلة ، قد نتحرك نحو استخدام أوزان أربعة بتات أو بتتين أو حتى ثنائية.
** جوناثان: ** أردت أن أرى طريقة أخرى لمدى صغر النموذج الذي يمكننا تحقيقه ، ومدى كفاءة تطوير نموذج بأداء مكافئ. كان هذا هو السؤال الذي عملت عليه طوال فترة الدكتوراه ، وبشكل ما في Mosaic أيضًا. لقد أظهرت لنا أوبن إيه آي طريقًا واحدًا لهذه القدرة المذهلة ، ألا وهو التوسع. لكن آمل ألا تكون هذه هي الطريقة الوحيدة. آمل أن يكون هناك العديد من الطرق الأخرى لتحقيق ذلك أيضًا ، من خلال أساليب نمذجة أفضل ، وخوارزميات أفضل ، وما إلى ذلك.
على الرغم من أنني لست من محبي استعارات علم الأعصاب ، إلا أن وجودنا وأدمغتنا ، إلى حد ما ، يثبتان أن هناك على الأقل طريقة أخرى لتحقيق هذه القدرة المذهلة دون تريليونات من المعلمات أو حتى الفلكية. استثمار رأس المال. لذلك أنا فضولي حقًا إلى أي مدى يمكن أن نحقق نموذجًا صغيرًا؟ هل هناك طريق آخر لهذه القدرات لا يجب أن يتبع المسار الحالي؟ نأمل أن تجد الإجابة في Mosaic ، إذا كانت موجودة.
** Swyx: ** بالضبط ، من أكثر الأشياء التي أهتم بها هو حقيقة أن الدماغ البشري يستهلك 30 واطًا فقط من الطاقة ، والنموذج بعيدًا عن ذلك.
** أبهيناف: ** لا أعتقد أن هناك طريقة لتحقيق ذلك باستخدام وحدة معالجة رسومات واحدة أو أدوات أخرى بمفردها.
** أليسيو **: هناك الكثير من المعلومات الجارية حاليًا ، مثل كيف يجب أن يفكر الناس في الذكاء الاصطناعي؟ ما الذي يجب أن يركزوا عليه؟
** جوناثان **: حافظ على هدوئك. بعض الناس يأخذون الضجيج على محمل الجد ، والبعض الآخر متشائم للغاية ، ويتفاعل معه بقوة ، أو ينفيه إلى حد ما. حافظ على سلامتك واعلم أننا أنشأنا أداة مفيدة للغاية.
لكننا لم نبني ذكاءً عامًا بعد ، وشخصيًا ، لسنا قريبين من هذا الهدف. لذلك من المهم أن تكون مسالمًا وأن تتبع العلم ، وهذا ما تسعى Mosaic AI لتحقيقه. نحاول التركيز على الأشياء المفيدة للبشر ، ونأمل في خلق عالم أفضل. سنبذل قصارى جهدنا ، ولكن الأهم من ذلك ، سوف نتبع العلم ، ونسترشد بالبيانات ، ونحقق هذا الهدف من خلال نتائج حقيقية ، وليس بلاغية.
** أبهيناف: ** أعتقد أنه لا يوجد شيء مثل إجراء البحوث في مجتمع مفتوح. في المجتمع ، لا يهتم عدد كبير من الأشخاص بنموذجك فحسب ، بل يقدمون أيضًا آرائهم حول مشكلات النموذج وكيفية تحسينه. سيكون هذا النوع من البحث المفتوح هو الطريق إلى الأمام ، للحفاظ على نماذجنا آمنة ، وللتعمق في تأثير وعواقب نماذج الذكاء الاصطناعي هذه في العالم الحقيقي.