معيار المصدر المفتوح! أقوى نموذج كبير ثنائي اللغة صيني-إنجليزي موجود هنا ، مع 34 مليار معلمة ، متجاوزا جميع النماذج مفتوحة المصدر مثل Llama2-70B

2023-10-13 13:51:44

** الكاتب:جين لي **

المصدر: الكيوبت

أقوى نموذج ثنائي اللغة صيني-إنجليزي في عالم المصدر المفتوح ، Wudao Skyhawk 34B ، هنا!

ما مدى قوتها؟ باختصار :

القدرة الشاملة الصينية والإنجليزية ، والقدرة على التفكير المنطقي ، وما إلى ذلك ، تتفوق بشكل شامل على Llama2-70B وجميع النماذج السابقة مفتوحة المصدر!

من حيث القدرة على التفكير ، يأتي معيار تقييم IRD لنموذج الحوار في المرتبة الثانية بعد GPT4.

ليس النموذج كبيرا بما يكفي للقتال فحسب ، بل إنه يرسل أيضا مجموعة كاملة من الأجهزة الطرفية الفاخرة على مستوى "البرميل العائلي" دفعة واحدة.

ما يمكن أن يكون له مثل هذه الصفقة الكبيرة هو رائد مدرسة مفتوحة المصدر ذات النموذج الكبير في الصين ، معهد أبحاث KLCII.

إذا نظرت إلى نهج KLCII مفتوح المصدر للنموذج الكبير على مر السنين ، فليس من الصعب أن تجد أنه يقود اتجاها جديدا:

في وقت مبكر من عام 2021 ، تم الإعلان عن أكبر مجموعة في العالم ، وفي عام 2022 ، كانت أول من أرسل نظام FlagOpen مفتوح المصدر لتكنولوجيا النماذج الكبيرة ، وأطلقت على التوالي نظام تقييم العلم ، ومجموعة بيانات COIG ، ونموذج ناقل BGE وغيرها من مشاريع نجوم المكدس كاملة التقنية.

تأتي هذه الجرأة من وضع KLCII كمؤسسة بحثية غير تجارية وغير ربحية ومحايدة ، وينصب تركيزها الرئيسي على "إنشاء مشترك مفتوح المصدر صادق".

من المفهوم أن نموذج قاعدة Aquila2-34B يقود الترتيب الشامل ل 22 معيارا للتقييم, بما في ذلك اللغة, فهم, المنطق, رمز, امتحان وأبعاد التقييم الأخرى.

إليك صورة لتشعر بهذا الشعور:

*△الشكل: نتائج تقييم النموذج الأساسي (انظر المستودع الرسمي مفتوح المصدر للحصول على نتائج تقييم مجموعة البيانات التفصيلية) *

كما ذكرنا للتو ، يقوم معهد بكين KLCII لأبحاث الذكاء الاصطناعي أيضا بتنفيذ المصدر المفتوح بضمير حي للغاية حتى النهاية ، مما يوفر المصدر المفتوح لبرميل الأسرة بأكملها دفعة واحدة:

ترقية سلسلة نماذج Aquila2 بالكامل: النموذج الأساسي Aquila2-34B / 7B, نموذج حوار AquilaChat2-34B/7B, نموذج AquilaSQL "لغة SQL النصية";

تمت ترقية الإصدار الجديد من نموذج المتجه الدلالي BGE: تمت تغطية جميع متطلبات البحث الرئيسية الأربعة.

إطار التدريب المتوازي الفعال FlagScale: إنتاجية التدريب الرائدة في الصناعة واستخدام وحدة معالجة الرسومات ؛

مجموعة فرعية من الانتباه عالي الأداء من FlagAttention: دعم مبتكر للتدريب على النص الطويل ولغة Triton.

بعد ذلك ، دعنا نلقي نظرة فاحصة على "أقوى مصدر مفتوح" هذه المرة.

قدرات "أقوى مصدر مفتوح" في لمحة

كما ذكرنا للتو ، فإن Aquila2-34B ، أحد نماذج القاعدة التي تم فتحها في وضع "أقوى مصدر مفتوح" ، يتضمن أيضا Aquila2-7B أصغر.

ووصول هذين أيضا يجعل نموذج المصب مربحا للغاية.

أقوى نموذج حوار مفتوح المصدر

بعد ضبط التعليمات ، تم الحصول على سلسلة نماذج حوار AquilaChat2 الممتازة:

AquilaChat2-34B: إنه أقوى نموذج حوار ثنائي اللغة مفتوح المصدر بين الصينية والإنجليزية ، مما يؤدي إلى تقييم شامل ذاتي + موضوعي ؛

AquilaChat2-7B: حقق أيضا أفضل أداء شامل في نموذج الحوار الصيني الإنجليزي بنفس الحجم.

△ نتائج تقييم نموذج SFT (راجع المستودع الرسمي مفتوح المصدر للحصول على نتائج تقييم مجموعة البيانات التفصيلية)

وصف المراجعة:

بالنسبة لنموذج الحوار التوليدي ، يعتقد فريق KLCII أنه من الضروري الحكم بدقة وفقا ل "الإجابات التي تم إنشاؤها بحرية للنموذج قيد إدخال السؤال" ، والتي تكون قريبة من حالة الاستخدام الحقيقية للمستخدم ، لذا راجع جامعة ستانفورد HELM[1] يتم تقييم العمل ، والذي يحتوي على متطلبات أكثر صرامة للتعلم السياقي للنموذج وقدرة التعليم التالية. أثناء عملية التقييم الفعلية ، لا تفي بعض إجابات نموذج الحوار بمتطلبات الأمر ، وقد تحدث درجة "0".

على سبيل المثال ، إذا كانت الإجابة الصحيحة هي "A" وفقا للتعليمات ، إذا تم إنشاء النموذج ك "B" أو "الإجابة هي A" ، منحه درجة "0".

في الوقت نفسه ، هناك طرق تقييم أخرى في الصناعة ، مثل السماح لنموذج الحوار أولا بغرزة "سؤال + إجابة" ، ويحسب النموذج احتمال كل نص مقسم ، ويتحقق مما إذا كانت الإجابة ذات الاحتمال الأعلى متوافقة مع الإجابة الصحيحة ، ولن يولد نموذج الحوار أي محتوى أثناء عملية التقييم ولكن يحسب احتمال الخيار. ينحرف أسلوب التقييم هذا بشكل كبير عن سيناريو الحوار الحقيقي ، لذلك لا يتم اعتماده في تقييم نموذج الحوار التوليدي.

[1]

ليس ذلك فحسب ، من حيث القدرة على التفكير ، وهو أمر بالغ الأهمية لنماذج اللغات الكبيرة ، فإن أداء AquilaChat2-34B مذهل للغاية أيضا ——

وهي تحتل المرتبة الأولى في بروتوكول تقييم IRD ، متجاوزة نماذج مثل Llama2-70B و GPT3.5 ، والثانية بعد GPT4.

* △الشكل: نتائج تقييم نموذج SFT على مجموعة بيانات IRD *

من منظور الإنجازات المختلفة, سواء كان نموذج قاعدة أو نموذج حوار, يمكن تسمية سلسلة Aquila2 بأنها الأقوى في صناعة المصادر المفتوحة.

طول نافذة السياق يصل إلى 16 كيلوبايت

بالنسبة لنماذج اللغات الكبيرة ، فإن القدرة على التعامل مع إدخال النص الطويل والحفاظ على الطلاقة السياقية أثناء جولات متعددة من الحوار هي المفتاح لتحديد ما إذا كانت التجربة جيدة أم سيئة.

من أجل حل مشكلة "معاناة النماذج الكبيرة لفترة طويلة" ، قام معهد بكين KLCII لأبحاث الذكاء الاصطناعي بعمل SFT على 200000 مجموعة بيانات حوار نصي طويل عالي الجودة ، مما أدى إلى توسيع طول نافذة السياق الفعال للنموذج إلى 16 ألف في ضربة واحدة.

ولا يقتصر الأمر على تحسين الطول فحسب ، بل تم تحسين التأثير.

على سبيل المثال ، في تأثير التقييم لأسئلة وأجوبة النص الطويل الأربعة باللغتين الصينية والإنجليزية في LongBench ، ومهام ملخص النص الطويل ، من الواضح جدا ——

AquilaChat2-34B-16K في المستوى الرائد لنماذج النص الطويل مفتوحة المصدر ، بالقرب من نموذج النص الطويل GPT-3.5.

* △الشكل: تقييم مهمة فهم النص الطويل *

بالإضافة إلى ذلك ، أجرى فريق KLCII تحليلا مرئيا لتوزيع الانتباه لنماذج اللغات المتعددة التي تعالج نصا طويلا للغاية ، ووجدوا أن جميع نماذج اللغة لديها عنق زجاجة ثابت في الموضع النسبي ، والذي كان أصغر بكثير من طول نافذة السياق.

تحقيقا لهذه الغاية ، اقترح فريق KLCII بشكل مبتكر طريقة NLPE (تضمين الموضع غير الخطي) ، والتي تعمل على تحسين قدرة النموذج الفوقي عن طريق ضبط ترميز الموضع النسبي وتقييد الحد الأقصى للطول النسبي على أساس طريقة RoPE.

تظهر تجارب استمرار النص في الكود والصينية والإنجليزية Few-Shot Boiling والكتب الإلكترونية وغيرها من الحقول أن NLPE يمكنها تمديد نموذج 4K Aquila2-34B إلى طول 32K ، وتماسك النص المستمر أفضل بكثير من تماسك Dynamic-NTK واستيفاء الموضع وطرق أخرى.

* △الشكل: مقارنة بين NLPE وطرق التفوق الديناميكي NTK السائدة على النموذج الأساسي (كلما انخفضت قيمة ppl ، كان ذلك أفضل) *

ليس ذلك فحسب ، فإن التعليمات التالية لاختبار القدرة على HotpotQA و 2WikiMultihopQA ومجموعات البيانات الأخرى بطول 5K ~ 15K تظهر أن دقة AquilaChat2-7B (2K) بعد NLPE epitaxy هي 17.2٪ ، في حين أن دقة AquilaChat2-7B لامتداد Dynamic-NTK هي 0.4٪ فقط.

* △الشكل: مقارنة بين NLPE والطرق الفوقية Dynamic-NTK السائدة في نماذج SFT *

يمكن عقد جميع أنواع سيناريوهات التطبيق الحقيقي

"النتائج" الجيدة ليست سوى أحد معايير اختبار النماذج الكبيرة ، والأهم من ذلك ، "الاستخدام الجيد هو الكلمة الأخيرة".

هذه أيضا قدرة التعميم للنماذج الكبيرة ، حتى إذا واجهت مشاكل لم ترها ، يمكنك التعامل معها بسهولة.

تحقيقا لهذه الغاية ، تحقق فريق Wudao Skyhawk من قدرة التعميم لنموذج Aquila2 من خلال ثلاثة سيناريوهات تطبيق في العالم الحقيقي.

** بناء وكلاء أقوياء في ماين كرافت **

Minecraft هي لعبة تعد ساحة اختبار جيدة لتكنولوجيا اختبار الذكاء الاصطناعي.

لقد ولدت عوالم معقدة بلا حدود وعدد كبير من المهام المفتوحة ، مما يوفر واجهات تفاعل غنية للوكلاء.

بناء على ذلك ، توصل KLCII وفريق جامعة بكين إلى Plan4MC ، وهي طريقة لحل تعدد المهام في Minecraft بكفاءة دون بيانات الخبراء.

يمكن ل Plan4MC تدريب المهارات الأساسية للوكيل باستخدام التعلم المعزز مع المكافآت الجوهرية ، بحيث يمكن للوكيل استخدام القدرة المنطقية لنموذج اللغة الكبيرة AquilaChat2 لتخطيط المهام.

على سبيل المثال ، في الفيديو أدناه ، يظهر تأثير الوكيل الذي يستخدم AquilaChat2 لإكمال جولات متعددة من تفاعل الحوار تلقائيا.

أدخل "حالة البيئة الحالية" للعبة و "المهام التي يتعين إكمالها" في نموذج AquilaChat2 ، ويعود AquilaChat2 إلى الشخصية "ما هي المهارات التي يجب استخدامها بعد ذلك" ومعلومات صنع القرار الأخرى ، وأخيرا يكمل المهمة المحددة في Minecraft "قطع الخشب وصنع طاولة عمل لوضعها في مكان قريب".

** ربط قاعدة بيانات المتجهات عبر Aquila2 + BGE2 **

أصبحت قواعد بيانات المتجهات لصالح دائرة النماذج الكبيرة في السنوات الأخيرة ، لكنها لا تزال ممتدة قليلا من حيث القدرة في مواجهة المشكلات المعقدة التي تتطلب فهما عميقا.

تحقيقا لهذه الغاية ، قامت KLCII بدمج Aqiula2 مع نموذج المتجه الدلالي مفتوح المصدر BGE2 المطور ذاتيا لفتح بعض مهام الاسترجاع المعقدة التي لا يمكن حلها عن طريق طرق الاسترجاع القائمة على مكتبات المتجهات التقليدية وحدها.

على سبيل المثال ، في المثال أدناه ، يمكننا أن نرى بوضوح أن مهام مثل "استرجاع الأوراق من قبل مؤلف حول موضوع معين" و "إنشاء نص ملخص لأوراق متعددة حول موضوع واحد" يمكن أن تصبح حريرية للغاية.

نموذج توليد "لغة SQL النصية" الأمثل

يعاني العديد من المستخدمين من صداع ل SQL عند التعامل مع مهام مثل استعلامات قاعدة البيانات.

ألن يكون جميلا إذا كان من الممكن تشغيله باللغة العامية التي نستخدمها غالبا؟

الآن ، هذه الطريقة المريحة ممكنة - AquilaSQL.

في سيناريوهات التطبيق العملي, يمكن للمستخدمين أيضا إجراء تطوير ثانوي استنادا إلى AquilaSQL, تطعيمه في قاعدة المعرفة المحلية, إنشاء SQL الاستعلام المحلي, أو زيادة تحسين أداء تحليل البيانات للنموذج, بحيث لا يمكن للنموذج إرجاع نتائج الاستعلام فحسب, ولكن أيضا إنشاء استنتاجات التحليل والمخططات.

على سبيل المثال ، عند التعامل مع مهمة الاستعلام المعقدة التالية ، ما عليك سوى التحدث باللغة الطبيعية الآن:

تصفية السيارات ذات المبيعات الأكبر من 100 واللون الأحمر من جدولي بيانات يحتويان على مبيعات السيارات (car_sales) ولون السيارة (car_color).

كما أن "إنجازات" AquilaSQL مثيرة للإعجاب أيضا.

بعد التدريب المسبق المستمر والتدريب على مرحلتين SFT باستخدام مجموعة SQL ، تجاوز نموذج SOTA على Cspider أخيرا تصنيف "نموذج إنشاء لغة النص SQL" بدقة 67.3٪.

تبلغ دقة نموذج GPT4 بدون ضبط دقيق لمجموعة SQL 30.8٪ فقط.

هناك أيضا مصدر مفتوح على مستوى دلو العائلة

كما ذكرنا سابقا ، ركزت KLCII دائما على المصدر المفتوح.

هذه المرة ، بمناسبة ترقية النموذج الكبير ، قامت KLCII أيضا بفتح سلسلة من مشاريع النجوم مفتوحة المصدر بما في ذلك الخوارزميات والبيانات والأدوات والتقييمات.

من المفهوم أن نموذج سلسلة Aquila2 لا يعتمد اتفاقيات الترخيص التجاري بشكل كامل فحسب ، بل يسمح أيضا للجمهور باستخدامها على نطاق واسع في البحث الأكاديمي والتطبيقات التجارية.

بعد ذلك ، دعنا نلقي نظرة سريعة على هذه الدلاء العائلية مفتوحة المصدر.

FlagScale ، إطار تدريب مواز فعال

FlagScale هو إطار تدريب مواز فعال يستخدمه Aquila2-34B ، والذي يمكن أن يوفر وظائف تدريب شاملة لنماذج اللغة الكبيرة.

شارك فريق KLCII تكوين التدريب ومخطط التحسين والمعلمات الفائقة لنموذج Aquila2 مع مطوري النماذج الكبار من خلال مشروع FlagScale ، وكان الأول في الصين الذي فتح المصدر بالكامل لرمز التدريب والمعلمات الفائقة.

استنادا إلى امتداد Megatron-LM ، يقدم FlagScale مجموعة من تحسينات الميزات ، بما في ذلك تشريح حالة المحسن الموزع ، وتحديد المواقع بدقة لبيانات مشكلة التدريب ، وتحويل المعلمة إلى Huggingface.

تم قياس Aquila2 لتحقيق إنتاجية تدريب رائدة في الصناعة واستخدام وحدة معالجة الرسومات.

*△الشكل: معدل نقل تدريب FlagScale واستخدام وحدة معالجة الرسومات (انظر نهاية المقالة للحصول على مصدر البيانات وصيغة التقدير) *

من المفهوم أنه في المستقبل ، ستستمر FlagScale في المزامنة مع أحدث كود لمشروع المنبع Megatron-LM ، وإدخال وظائف أكثر تخصيصا ، ودمج أحدث تقنيات التدريب والاستدلال الموزعة وتعميم النماذج الكبيرة ، ودعم أجهزة الذكاء الاصطناعي غير المتجانسة ، والسعي لبناء إطار استدلال تدريبي كبير موزع عام ومريح وفعال لتلبية مهام التدريب النموذجية ذات المقاييس والاحتياجات المختلفة.

** الإبلاغ عن الانتباه مجموعة فرعية مفتوحة المصدر عالية الأداء **

FlagAttention هي أول مجموعة فرعية للحوسبة مفتوحة المصدر عالية الأداء من Attention تم تطويرها باستخدام لغة Triton لدعم تدريب النماذج الكبيرة ذات النص الطويل ، وتوسع مشغل Memory Efficient Attention لسلسلة Flash Attention لتلبية احتياجات تدريب النماذج الكبيرة.

في الوقت الحاضر ، تم تنفيذ مشغل الانتباه المجزأ - PiecewiseAttention.

يحل PiecewiseAttention بشكل أساسي مشكلة استقراء نموذج المحول مع ترميز موضع الدوران (Roformer) ، ويمكن تلخيص خصائصه على النحو التالي:

التنوع: يمكن ترحيل القواسم المشتركة للنماذج التي تستخدم انتباه الحوسبة المجزأة بسهولة إلى نماذج اللغات الكبيرة خارج أكويلا.

سهولة الاستخدام: يعتمد FlagAttention على تنفيذ لغة Triton ويوفر واجهة PyTorch ، مما يجعل عملية البناء والتثبيت أسهل من Flash Attention التي طورتها CUDA C.

القابلية للتوسعة: أيضا بفضل لغة Triton ، تتمتع خوارزمية FlagAttention نفسها بحد منخفض للتعديل والتمديد ، ويمكن للمطورين بسهولة توسيع المزيد من الميزات الجديدة علاوة على ذلك.

في المستقبل ، سيستمر مشروع FlagAttention في دعم مشغلي الانتباه بامتدادات وظيفية أخرى لاحتياجات أبحاث النماذج الكبيرة ، وزيادة تحسين أداء المشغل ، والتكيف مع أجهزة الذكاء الاصطناعي غير المتجانسة.

نموذج المتجه الدلالي BGE2 من الجيل التالي **

سيكون الجيل الجديد من نموذج المتجه الدلالي BGE مفتوح المصدر أيضا مع Aquila2.

يدمج نموذج BGE-LLM Embedder في BGE2 القدرات الأربع ل "استرجاع المعرفة" و "استرجاع الذاكرة" و "البحث عن العينات" و "استرجاع الأداة".

لأول مرة ، يدرك التغطية الشاملة لمتطلبات الاسترجاع الرئيسية لنموذج لغة كبيرة بواسطة نموذج متجه دلالي واحد.

إلى جانب حالات الاستخدام المحددة ، ستعمل BGE-LLM Embedder على تحسين أداء نماذج اللغة الكبيرة بشكل كبير في مجالات مهمة مثل التعامل مع المهام كثيفة المعرفة ، والذاكرة طويلة المدى ، واتباع التعليمات ، واستخدام الأدوات.

......

فهل أنت متحمس لمثل هذا "أقوى مصدر مفتوح"؟

شيء آخر

ستعقد KLCII ورشة عمل جديدة حول التقنيات المتطورة للنماذج الكبيرة في الفترة من 28 إلى 29 أكتوبر ، حيث سيقدم تسعة باحثين رئيسيين التقدم الأخير وتنفيذ FlagOpen.

يمكن للشركاء المهتمين أيضا العيش في الكود.

عنوان مفتوح المصدر كامل لنموذج Aquila2:

عنوان مستودع AquilaSQL مفتوح المصدر:

مستودع FlagAttention مفتوح المصدر:

عنوان BGE2 مفتوح المصدر

ورق:

نموذج: / ماجستير في القانون تضمين

الريبو:

صيغة تقدير معدل نقل LLAMA2: إجمالي الرموز / (إجمالي ساعات GPU \ * 3600) ، وفقا ل Llama 2: الأساس المفتوح ونماذج الدردشة المضبوطة بدقة: 1) يحتوي 7B على رمز مميز إجمالي يبلغ 2.0 T ، وإجمالي ساعات GPU هو 184320 ، واستبداله في الصيغة يعطي 3014 رمزا / ثانية / وحدة معالجة الرسومات ؛ 2) إجمالي الرموز المميزة ل 34B هي 2.0 T ، وإجمالي ساعات GPU 1038336 ، ويتم استبدال الصيغة للحصول على 535 Tokens / sec / GPU.

— انتهى —

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

تسجيلات الإعجاب 2

أعجبني
2
تعليق
مشاركة

تعليق

0/400

لا توجد تعليقات

الموضوع
1/3
1CandyDrop Airdrop Event 6.0
16k درجة الشعبية
2White House Crypto Report
33k درجة الشعبية
3Join Alpha RION Airdrop to Earn $40
8k درجة الشعبية
4Fed Holds Rates Decision
8k درجة الشعبية
5July Spark Program TOP 10 Creators Announced
2k درجة الشعبية

تثبيت

خريطة الموقع