تدعي النماذج الكبيرة الجديدة أنها تتجاوز GPT-4 في كل منعطف ، وقد قمنا بتجميع أدوات المراجعة هذه

المصدر: ضابط رائد الذكاء الاصطناعي

مصدر الصورة: تم إنشاؤه بواسطة الذكاء الاصطناعي غير محدود

منذ ظهور ChatGPT ، كان هناك "سباق تسلح" للعارضات الكبيرة في جميع أنحاء العالم. وفقا للتقارير ، من يناير إلى يوليو من هذا العام ، تم إصدار ما مجموعه 64 طرازا كبيرا في الصين. اعتبارا من يوليو 2023 ، تم إصدار ما مجموعه 130 طرازا كبيرا في الصين.

"مائة حرب نموذجية" لا تكفي لوصف "حالة الحرب" الحارقة اليوم ، فأي نموذج كبير أفضل؟ هذا لا ينفصل عن تقييم النماذج الكبيرة.

ومع ذلك ، في هذه المرحلة ، لا توجد طريقة تقييم معترف بها وفعالة ، مما أدى إلى "حرب قائمة" في مجال تقييم النماذج الكبيرة في الداخل والخارج. إحصاءات غير مكتملة ، يوجد حاليا ما لا يقل عن 50 أداة تقييم (نظام) في السوق ، ويمكن أن تختلف نتائج القوائم المماثلة على نطاق واسع. شكوك الجمهور حول "نقاط الفرشاة" لا حصر لها.

** تعتقد الصناعة عموما أن هناك معيارين للمظهر لتقييم نموذج كبير: أحدهما هو عدد المعلمات ، والآخر هو مجموعة التقييم. **

تشير كمية المعلمة المزعومة إلى عدد المعلمات التي يمكن تعلمها في النموذج ، بما في ذلك وزن النموذج وتحيزه. يحدد حجم عدد المعلمات مدى تعقيد النموذج ، والمزيد من المعلمات وعدد الطبقات هي السمات المميزة التي تميز النماذج الكبيرة عن النماذج الصغيرة. في عام 2022 ، سيتم الكشف عن مجموعة من النماذج الكبيرة في الولايات المتحدة ، من Stability الذكاء الاصطناعي الإصدار Diffusion ، وهو نموذج توليدي من النص إلى الصور ، إلى ChatGPT الذي أطلقته OpenAI ، بدأ حجم معلمات النموذج في دخول عصر عشرات المليارات ومئات المليارات.

** من المؤشرات السطحية ، تعمل النماذج التي تحتوي على مئات المليارات من المعلمات بشكل عام بشكل أفضل من عشرات المليارات من المعلمات. ومع ذلك ، هذا ليس مطلقا ، ولا تعمل معلمات الكومة بالضرورة على تحسين القدرات. إذن ، كيف يجب أن يميز نموذج بنفس مستوى المعلمة بين الجيد والسيئ؟ وهذا يتطلب إدخال بعد التقييم الثاني للنموذج الكبير - مجموعة التقييم.

مجموعة التقييم عبارة عن مجموعة بيانات معيارية موحدة ذات مهمة واحدة أو متعددة المهام تم إنشاؤها لإجراء تقييم فعال للتأثير الشامل للنموذج الأساسي وخوارزمية الضبط الدقيق الخاصة به في سيناريوهات مختلفة ومهام مختلفة ، وهناك شكلان: مفتوح ومغلق.

** تشبه مجموعات التقييم هذه أوراق الامتحان لمختلف المجالات ، ومن خلال اختبار درجات النماذج الكبيرة في "أوراق الامتحان" هذه ، يمكن للناس مقارنة أداء النماذج الكبيرة بشكل حدسي. **

في عصر النماذج الصغيرة ، ستستخدم معظم المؤسسات النموذجية تأثير مجموعات التقييم الأكاديمي كأساس للحكم على جودة النماذج. الآن ، بدأ مصنعو النماذج الكبيرة أيضا في المشاركة بشكل أكثر نشاطا في إطار المقارنة الأكاديمية ، معتبرين أنه تأييد موثوق وأساس تسويقي.

هناك العديد من مجموعات تقييم النماذج الكبيرة في السوق ، مثل MMLU ، نموذج التقييم الصيني C- ، SuperCLUE ، إلخ.

**-1- أداة التقييم **

مملو

يعد فهم اللغة متعدد المهام الهائل ، وهو تقييم لفهم اللغة للنماذج الكبيرة ، أحد أشهر تقييمات الفهم الدلالي للنماذج الكبيرة ، والذي أطلقه باحثون في جامعة كاليفورنيا في بيركلي في سبتمبر 2020. ** يغطي الاختبار 57 مهمة ، بما في ذلك الرياضيات الابتدائية وتاريخ الولايات المتحدة وعلوم الكمبيوتر والقانون والمزيد. ** تغطي المهمة مجموعة واسعة من المعارف وهي باللغة الإنجليزية لتقييم تغطية المعرفة الأساسية وفهم النموذج الكبير.

عنوان الورقة:

الموقع الرسمي:

المتصدرين نموذج كبير:

ج-

C- هي مجموعة تقييم نموذج أساسي صيني شامل. تم إطلاقه بشكل مشترك من قبل باحثين من جامعة شنغهاي جياو تونغ وجامعة تسينغهوا وجامعة إدنبرة في مايو 2023 ، ويحتوي على 13,948 سؤالا متعدد الخيارات ** تغطي 52 تخصصا مختلفا وأربعة مستويات صعوبة ** لقياس فهم النماذج الصينية الكبيرة.

عنوان الورقة:

عنوان المشروع:

الموقع الرسمي:

**سوبر كلو **

معيار التقييم الشامل الصيني للنماذج الكبيرة العامة ، يتم تقييم قدرات النماذج من ثلاثة أبعاد مختلفة: القدرة الأساسية ، والقدرة المهنية ، والقدرة المميزة الصينية.

من بينها ، تشمل قدرات القدرة الأساسية: ** الفهم الدلالي ، والحوار ، والتفكير المنطقي ، ومحاكاة الأدوار ، والكود ، والتوليد والإنشاء وقدرات 10 الأخرى. **

تشمل الكفاءات المهنية: تشمل الامتحانات الثانوية والجامعية والمهنية ، وتغطي أكثر من 50 كفاءة من الرياضيات والفيزياء والجغرافيا إلى العلوم الاجتماعية.

القدرة المميزة الصينية: بالنسبة للمهام ذات الخصائص الصينية ، فإنها تتضمن أكثر من 10 قدرات مثل التعابير الصينية والشعر والأدب والحروف الرسومية.

عنوان المشروع:

الموقع الرسمي:

** قائمة سوبر كلو لانجيا **

معيار تقييم المعركة العالمي الصيني الكبير المجهول ، مثل ChatbotArena ، التعهيد الجماعي لمنتجات النماذج الكبيرة المختلفة لتقييم المواجهة المجهولة والعشوائية ، تستند النتائج إلى نظام تصنيف Elo.

عنوان المشروع:

ليب

** شاتبوت أرينا **

ChatbotArena هي منصة مرجعية لنماذج اللغات الكبيرة (LLMs) من قبل LMSYS Org ، وهي منظمة بحثية أسستها جامعة كاليفورنيا في بيركلي وجامعة كاليفورنيا في سان دييغو وجامعة كارنيجي ميلون.

** منصة مرجعية LLM للمباريات العشوائية المجهولة على أساس التعهيد الجماعي. ** أدخل منصة المعركة من خلال عنوان التجربة التجريبية. أدخل السؤال الذي تهتم به ، بعد إرسال السؤال ، سيتم تشغيل النموذج المجهول في أزواج لإنشاء إجابات ذات صلة على التوالي ، مما يتطلب من المستخدمين الحكم على الإجابات واختيار واحد من 4 خيارات للتحكيم: النموذج A أفضل ، والنموذج B أفضل ، والتعادل ، وكلها سيئة. دعم جولات متعددة من المحادثة. أخيرا ، يتم استخدام نظام تسجيل Elo لإجراء تقييم شامل لقدرات النماذج الكبيرة. (يمكنك تحديد النموذج بنفسك لمعرفة التأثير ، ولكن لن يتم احتسابه في الترتيب النهائي).

عنوان المشروع:

الموقع الرسمي:

علم

Flag عبارة عن منصة تقييم نموذجية واسعة النطاق تستخدم إطار التقييم ثلاثي الأبعاد "مؤشر القدرة والمهمة" ** لتوفير نتائج تقييم شاملة ومفصلة. قدمت المنصة أكثر من 30 قدرة و 5 مهام و 4 فئات من المؤشرات ، وما مجموعه أكثر من 600 بعد للتقييم الشامل ، بما في ذلك 22 مجموعة بيانات تقييم ذاتية وموضوعية و 84433 سؤالا.

أطلقت المرحلة الأولى من Flag نظاما لتقييم النماذج بلغة كبيرة ، وأداة تقييم نموذج كبير للنصوص والرسومات متعددة اللغات مفتوحة المصدر mCLIP- وأداة تقييم إنشاء النصوص والصور مفتوحة المصدر Image. ستواصل الميزان أيضا استكشاف البحث المتبادل لتقييم نموذج اللغة وعلم النفس والتعليم والأخلاق والتخصصات الاجتماعية الأخرى ، من أجل تقييم نموذج اللغة بشكل أكثر علمية وشمولية. يستهدف Flag مطوري النماذج الكبيرة والمستخدمين ، وهو مصمم لمساعدة فرق التطوير على فهم نقاط الضعف في نماذجهم ودفع الابتكار التكنولوجي.

عنوان المشروع:

الموقع الرسمي:

البوصلة المفتوحة

في أغسطس 2023 ، أطلق مختبر شنغهاي للذكاء الاصطناعي (Shanghai الذكاء الاصطناعي Lab) رسميا نظام التقييم المفتوح للنموذج الكبير OpenCompass ، والذي يدعم التقييم الشامل لنماذج مختلفة من نماذج اللغات الكبيرة والنماذج متعددة الوسائط من خلال إطار تقييم كامل مفتوح المصدر قابل للتكرار ** ، وينشر بانتظام قائمة نتائج التقييم.

الموقع الرسمي:

عنوان المشروع:

جيو إن إل بي

لفحص تأثير المساعدة والقدرة المساعدة لنموذج LLM للمستخدمين البشريين ، ما إذا كان يمكن أن يصل إلى مستوى "مساعد ذكي" ، يتم اشتقاق أسئلة الاختيار من متعدد من الامتحانات المهنية المختلفة في البر الرئيسي الصيني للصين ، مع التركيز على تغطية المعرفة الموضوعية للنموذج ، وهو ما يمثل 32 ٪ ؛ تأتي الأسئلة الذاتية من ملخصات يومية وتدرس بشكل أساسي تأثير المستخدمين على الوظائف المشتركة ل LLM.

عنوان المشروع:

قياس مجموعات البيانات

** تقييم نموذج Tsinghua الأمني الكبير **

تغطي مجموعة من المراجعات التي جمعتها Tsinghua ثماني فئات ، بما في ذلك خطاب الكراهية ، والخطاب المتحيز والتمييزي ، والجريمة والقانون ، والخصوصية ، والأخلاق والأخلاق ، بما في ذلك أكثر من 40 فئة أمنية من المستوى الثاني مقسمة إلى فئات دقيقة **.

عنوان:

** ماجستير في القانون -3 **

تم إطلاقه من قبل مختبر البرمجة اللغوية العصبية بجامعة فودان ، وهو يركز على المعرفة المهنية وتقييم القدرات ، ويغطي 13 تخصصا وأكثر من 50 تخصصا من المستوى الثاني تحددها وزارة التربية والتعليم ، مثل الفلسفة والاقتصاد والقانون والتعليم والأدب والتاريخ والعلوم والهندسة والزراعة والطب والعلوم العسكرية والإدارة والفن وما إلى ذلك ، بإجمالي حوالي 20 واط من الأسئلة والأجوبة التوليدية القياسية. ** من أجل منع حدوث ظاهرة تنظيف التصنيفات بالفرشاة ، يعتمد تقييم LLM-3 وضع تقييم جديد ، وهو وضع "اختبار بنك الأسئلة" **.

عنوان:

** غاوكاو - مقعد **

GAOKAO-bench هو إطار تقييم يستخدم أسئلة امتحان القبول بالكلية الصينية كمجموعة بيانات لتقييم القدرة على فهم اللغة والقدرة على التفكير المنطقي للنماذج الكبيرة.

عنوان المشروع:

باندال إل إم

يقوم مباشرة بتدريب نموذج تسجيل آلي ، ويسجل نموذجين مرشحين على نظام 0.1.2 ثلاثي النقاط.

عنوان المشروع:

مقعد كبير

مجموعة من المراجعات التي نشرتها Google ، تتكون BIG-bench من 204 مهمة حول مواضيع مثل اللغويات ، وتنمية الطفل ، والرياضيات ، والتفكير المنطقي ، والفيزياء البيولوجية ، والتحيز الاجتماعي ، وتطوير البرمجيات ، والمزيد.

عنوان المشروع:

MMCU

يقترح معهد أبحاث Oracle Yi الذكاء الاصطناعي اختبارا لقياس دقة النماذج الصينية الكبيرة في التعامل مع المهام المتعددة ، ويغطي محتوى الاختبار لمجموعة البيانات أربعة مجالات رئيسية: العلاج الطبي والقانون وعلم النفس والتعليم. ** بلغ عدد الأسئلة 10000+ ، منها 2819 سؤالا في مجال الطب، و 3695 سؤالا في مجال القانون، و 2001 سؤالا في مجال علم النفس، و 3331 سؤالا في مجال التعليم.

عنوان المشروع:

تصرف

يقيس معيار تقييم الكفاءة الأساسي للنموذج الكبير من Microsoft ، الذي تم إطلاقه في أبريل 2023 ، ** بشكل أساسي القدرة العامة للنماذج الكبيرة في الإدراك البشري وحل المشكلات ** ، ويغطي 20 اختبارا رسميا وعاما وعالي المستوى للقبول والتأهيل للمرشحين البشريين العاديين في جميع أنحاء العالم ، بما في ذلك البيانات باللغتين الصينية والإنجليزية. لذلك ، يميل الاختبار أكثر نحو نتائج الاختبارات البشرية ، والتي تغطي اللغتين الصينية والإنجليزية.

عنوان الورقة:

جي إس إم 8 كي

يغطي نموذج OpenAI الكبير ، وهو معيار تقييم كفاءة التفكير الرياضي ، 8,500 مجموعة بيانات عالية الجودة لمسائل الرياضيات على مستوى المدرسة المتوسطة. مجموعة البيانات أكبر من مجموعة بيانات مشكلة نص الرياضيات السابقة ، واللغة أكثر تنوعا ، والأسئلة أكثر تحديا. تم إصدار الاختبار في أكتوبر 2021 ولا يزال معيارا صعبا للغاية للاختبار.

عنوان الورقة:

دومان

تتضمن طريقة تقييم HELM بشكل أساسي ثلاث وحدات: المشهد والتكيف والمؤشرات ** ، وتحتاج كل عملية تقييم إلى تحديد مشهد ، وموجه لنموذج التكيف ، ومؤشر واحد أو أكثر. يغطي بشكل أساسي اللغة الإنجليزية ، مع 7 مؤشرات ، بما في ذلك الدقة ، وعدم اليقين / المعايرة ، والمتانة ، والإنصاف ، والتحيز ، والسمية ، وكفاءة الاستدلال. تتضمن المهام الأسئلة والأجوبة واسترجاع المعلومات والملخصات وتصنيف النص والمزيد.

عنوان الورقة:

عنوان المشروع:

** الصينية - LLalA - الألبكة **

يتم تسجيله كقيمة نسبية ، مع تفضيل GPT4 و ChatGPT3 جزئيا.

عنوان المشروع:

** MT-مقاعد البدلاء **

تقييم الحوار متعدد الأدوار والتعليمات التالية لقدرات النماذج الكبيرة. تتضمن مجموعة البيانات 80 سؤالا (8 فئات \ * 10 أسئلة) عالية الجودة ومتعددة الجولات ، تمت الإجابة على كل منها بواسطة 6 نماذج كبيرة معروفة (GPT-4 و GPT-3.5 و Claud-v1 و Vicuna-13B و Alpaca-13B و LLaMA-13B) ، تم فرزها يدويا للحصول على أزواج 3.3K.

عنوان الورقة:

التحكيم في LLM-as-a-judge مع MT-Bench و Chatbot Arena

جيثب

عنوان المشروع:

/ شجرة / الرئيسية / fastchat / llm \ _judge

عنوان تنزيل البيانات:

**-2- وضع التقييم **

من خلال أدوات التقييم المذكورة أعلاه ، وجد أن أنماط تقييم النموذج الكبيرة الشائعة الحالية يمكن تلخيصها تقريبا في أربعة أنواع:

**1. سجل الأسئلة. ** جمع مجموعة متنوعة من مجموعات بيانات التقييم بشكل أساسي ، ثم تقسيم مجموعات البيانات إلى قدرات أبعاد مختلفة. من خلال تصميم بعض المهام التي تسمح للنماذج الكبيرة بالقيام بمجموعات البيانات هذه ، يتم حساب الدرجات مقابل الإجابات القياسية. الأمثلة النموذجية هي OpenCompass ، ولوحة المتصدرين openLLM الخاصة ب huggingface ، وما إلى ذلك.

** 2. دع GPT-4 يكون الحكم. اجمع مجموعات البيانات للتقييم (سيتم أيضا تضمين بعض مجموعات البيانات غير مفتوحة المصدر وليس لديها إجابات قياسية) ، ثم دع GPT-4 يحكم على نتائج توليد النموذج الكبير. هناك طريقتان لتسجيل عملية التحكيم هذه ، الأولى هي التسجيل مباشرة ، والأخرى هي تصميم بعض الأبعاد ، مثل الحقائق والدقة والامتثال الأمني وما إلى ذلك ، ثم تقييمها على مستوى أكثر دقة.

**3. وضع الساحة. ** على غرار الساحة في لعبة تنافسية. في كل مرة يكون فيها لاعبان كبيران PK ، المستخدم (أحيانا GPT-4) لتقييم النموذج الأفضل ، والنموذج الكبير الفائز لديه نقاط إضافية ، والنموذج الكبير الخاسر لديه ناقص. عندما يتم تنفيذ جولات PK كافية ، سيكون هناك ترتيب درجات للنماذج الكبيرة ، وهو أمر عادل نسبيا ويمكن أن يعكس بشكل موضوعي قوة النموذج. مثال نموذجي هو لوحة المتصدرين Chatbot Arena من جامعة كاليفورنيا في بيركلي.

**4. تقييم الكفاءات الفردية. على سبيل المثال ، بالنسبة للقدرة الرياضية ، والقدرة على الكود ، والقدرة على التفكير ، وما إلى ذلك ، فإن تقييم هذه القدرات لا يمكن أن يحدد فقط ما إذا كان النموذج الكبير لديه بالفعل قدرة على التفكير تشبه الإنسان ، ولكن أيضا يساعد بشكل مباشر في اختيار نماذج كبيرة (مثل مساعدي الكود) في مجالات محددة.

-3- نتائج التقييم "مختلفة جدا"

هناك العديد من أدوات التقييم المختلفة ، كما أن نتائج التقييم لأدوات التقييم المختلفة "مختلفة جدا".

في 15 أغسطس ، تم إصدار تقرير تجربة نموذج الذكاء الاصطناعي الكبير للمؤسسة ، والذي أجرى تقييما أفقيا لتجربة استخدام النماذج الكبيرة المحلية السائدة. قيمت القائمة 8 نماذج الذكاء الاصطناعي سائدة في الصين مع 500 سؤال ، وأخيرا احتل Xunfei Xinghuo المرتبة الأولى ، وبايدو ون شين في المرتبة الثانية ، وعلي تونغيي تشيان وين في المرتبة الثانية من الأسفل.

في سبتمبر ، في العدد الأخير من قائمة تقييم المصادر المفتوحة الشهيرة C - أحدث إصدار من القائمة ، احتل نموذج Yuntian Lifei الكبير "Yuntianshu" المرتبة الأولى ، بينما احتل GPT-4 المرتبة العاشرة فقط.

في نفس الشهر ، أصدرت SuperCLUE قائمة سبتمبر للنماذج الكبيرة. احتلت GPT-4 المرتبة الأولى في القائمة الشاملة ، بينما تصدرت SenseChat 3.0 من SenseTime القائمة الصينية.

في 19 أكتوبر ، أصدرت جامعة ستانفورد مؤشر شفافية النموذج الأساسي لعام 2023 ، والذي صنف 10 نماذج أساسية سائدة للشفافية ، حيث احتل اللاما 2 المرتبة الأولى و GPT-4 في المرتبة الثالثة.

لماذا تختلف نتائج أدوات المراجعة المختلفة اختلافا كبيرا؟ الأسباب الرئيسية هي كما يلي:

** 1. كل مجموعة مراجعة أكاديمية شائعة لها تركيزها الخاص. ** على سبيل المثال ، GSM8K و MMLU ، اللذان يستخدمهما Meta بشكل شائع ، هما مجموعتا اختبار لمستويات مختلفة - الأولى هي الرياضيات الابتدائية ، والأخيرة هي أسئلة وأجوبة متعددة التخصصات أكثر تقدما. تماما كما يخضع الطلاب في الفصل لامتحانات في مواد مختلفة ، فإن النماذج الكبيرة تصنف بشكل طبيعي بشكل مختلف في قوائم مختلفة.

** 2.تزداد نسبة الأسئلة الذاتية في تقييم النموذج الكبير. ** في قائمة التقييم الحالية للنماذج الكبيرة في الداخل والخارج ، يتم التعرف على فكرة الجمع بين الأسئلة الذاتية والأسئلة الموضوعية بشكل عام من قبل الصناعة. لكن التحدي المتمثل في الأسئلة الذاتية هو ما إذا كانت معايير التقييم في أذهان الجميع متسقة. و "تصنيف الفريق البشري" يلامس حتما سقف عدد الأسئلة ، وبالنسبة لتقييمات النماذج الكبيرة ، كلما زاد عدد الأسئلة ، زادت فعالية الاستنتاجات.

**3. تؤدي المنافسة الرأسية بين النماذج المخصصة والنماذج الكبيرة للأغراض العامة إلى تصنيفات مشوهة. ** في سيناريو الهبوط الفعلي ، يحتاج عملاء المؤسسات في التصنيع والرعاية الصحية والتمويل والصناعات الأخرى إلى إجراء ضبط ثانوي وفقا لقواعد البيانات الخاصة بهم عند الوصول إلى إمكانات النموذج الكبيرة. هذا يعني أيضا أن النتائج التي تم الحصول عليها من خلال المشاركة المباشرة للنموذج الكبير العام الأصلي في المجال الرأسي Q&A لا يمكن أن تمثل الأداء الحقيقي لمنتج النموذج الكبير في المجال الرأسي.

**4. ظاهرة "تنظيف القائمة" الناجمة عن مجموعة اختبار المصدر المفتوح. ** يمكن للعديد من الطرز الكبيرة الجديدة تجاوز GPT-4 في قائمة مجموعة اختبار المصدر المفتوح ، ويرجع ذلك جزئيا إلى "تنظيف المشاكل بالفرشاة" المشتبه بها. على سبيل المثال ، C- حاليا يتم الكشف عن السؤال فقط ولكن لا يتم الكشف عن الإجابة ، ويقوم مصنعو النماذج الكبيرة المشاركون في الاختبار إما بالعثور على معلق بيانات للقيام بالسؤال مرة أخرى ، أو استخدام GPT-4 للقيام بالسؤال مرة أخرى ، ثم خصم الإجابة لتدريب النموذج الكبير ، حتى يتمكنوا من الحصول على علامات كاملة في اختبار الموضوع المقابل.

هل يمكن لمجموعات المراجعة مغلقة المصدر تجنب "تنظيف القائمة بالفرشاة"؟ خلاف ذلك ، إذا لم يتم تحديث مجموعة التقييم مغلقة المصدر ، يمكن للنماذج المشاركة سحب التاريخ التاريخي من الخلفية إلى "الغش" وإعادة الأسئلة التي تم اختبارها. هذا يعادل "مصدر مغلق كاذب".

** استجابة للمشاكل المذكورة أعلاه ، تستكشف الصناعة أيضا الحلول المقابلة. **

على سبيل المثال ، لصعوبة معايير التقييم المتسقة للأسئلة الذاتية في تقييم النموذج الكبير ، ومشكلة أن "درجة الفريق البشري" تمس سقف عدد الأسئلة ، بدأت الصناعة في اعتماد نموذج "تسجيل الإنسان + GPT4". في الصين ، ستختار SuperCLUE اعتبار GPT4 "مدرسا للدرجات" والسماح لها بالانضمام إلى الفريق البشري للمساعدة في التسجيل.

مثال آخر هو مشكلة "تنظيف القائمة" ، يعتقد المطلعون على الصناعة أنه "يجب إغلاق مجموعة التقييم لتجنب التعرض للغش ، ولكن يجب أن يكون تقييم النموذج الكبير الجيد تقييما مفتوحا للعملية ، وهو أمر مناسب للجميع للإشراف على التقييم ". "

يعتقد بعض الناس أيضا أنها رؤية جيدة لجعل عملية تقييم النموذج الكبيرة علنية ، ولكن بالنظر إلى عدالة ونزاهة التقييم ، يجب أن يظل هناك عدد كبير من مجموعات التقييم المغلقة ، ويمكن ل "فحص الكتاب المغلق" تقييم قدرة النموذج حقا.

بالإضافة إلى ذلك ، هناك تقييمات نموذجية كبيرة لدرجات مقاومة للفرشاة ، مثل LLM-3 الذي أطلقه مختبر البرمجة اللغوية العصبية بجامعة فودان ، والذي يعتمد وضع تقييم جديد ، أي وضع "فحص بنك الأسئلة". في LLM-3 ، يحتاج كل نظام مشارك إلى إكمال عينة عشوائية من 1000 سؤال من إجمالي بنك الأسئلة ، مقابل نموذج نفس المؤسسة ، لضمان عدم تكرار كل سؤال تقييم. سيتم إجراء عملية التقييم عبر الإنترنت ، وسيتم إرسال الأسئلة في جولة واحدة من التقييم بشكل متسلسل ، أي أن إرسال السؤال التالي سيعتمد على إجابة السؤال السابق لتجنب الزحف الضار.

نظرا لأن النماذج الكبيرة تنطوي على مجموعة واسعة من المجالات والتطبيقات ، فإن المؤشرات وطرق التقييم التي تحتاج النماذج الكبيرة في مختلف المجالات والتطبيقات إلى الاهتمام بها مختلفة. لذلك ، قد تقترح المؤسسات والمنظمات المختلفة معايير وأساليب تقييم مختلفة لمجالات واحتياجات تطبيق محددة. "على الرغم من عدم وجود معيار موحد ، إلا أن أهمية التقييم تكمن في توفير طريقة لتقييم ومقارنة أداء وفعالية النماذج الكبيرة المختلفة ، ومساعدة المستخدمين على اختيار النموذج الكبير الذي يناسب احتياجاتهم."

كيفية إجراء تقييم شامل وشامل حقا للنماذج الكبيرة هو أيضا "الخلط" في طليعة الأوساط الأكاديمية والصناعة. ومع ذلك، ينبغي للمؤسسات الموثوقة أن تعزز البحوث، وأن تشكل إجماعا في أقرب وقت ممكن، وأن تعزز التقدم التكنولوجي وتطوير الصناعة.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • مشاركة
تعليق
0/400
لا توجد تعليقات
  • تثبيت