لقد مر أكثر من نصف عام، وترتيب ChatGPT في الأسفل تقريبًا.

2023-09-08 06:02:49

المصدر: تيتانيوم ميديا

المؤلف: سانيان للتكنولوجيا

بالأمس صادفتني الصورة بالصدفة.

وفقًا للصورة، تم تصنيف GPT-4 الخاص بشركة OpenAI في المرتبة الأخيرة من بين 11 نموذجًا كبيرًا (الرقم الأول هو 0). وأضاف بعض مستخدمي الإنترنت عبارة "GPT4: كيف يمكنني مقاضاة شكواي؟"

وهذا يثير فضول الناس، ففي بداية هذا العام، بعد أن أصبح ChatGPT شائعًا، بدأت شركات أخرى في ذكر مفهوم النماذج الكبيرة.

لقد مر أكثر من نصف عام فقط، وGPT بالفعل "في القاع"؟

لذلك، يريد المؤلف أن يرى كيف هو تصنيف GPT.

زمن الاختبار مختلف، فريق الاختبار مختلف، GPT-4 يحتل المركز الحادي عشر

انطلاقا من المعلومات المعروضة في الصورة في المقالة السابقة، هذا الترتيب من قائمة C.

C-List، الاسم الكامل لقائمة اختبار الفحص الشامل للنموذج الكبير C-Global، عبارة عن مجموعة أدوات لتقييم الامتحانات الشاملة لنموذج اللغة الصينية تم إنشاؤها بشكل مشترك من قبل جامعة تسينغهوا وجامعة شنغهاي جياوتونغ وجامعة إدنبرة.

يُذكر أن الجناح يغطي الاتجاهات الأربعة الرئيسية وهي العلوم الإنسانية، والعلوم الاجتماعية، والعلوم والهندسة، وغيرها من التخصصات، بما في ذلك 52 تخصصًا، تغطي مجالات معرفية متعددة مثل حساب التفاضل والتكامل والجبر الخطي. يوجد إجمالي 13,948 سؤالًا حول المعرفة والاستدلال باللغة الصينية، مع صعوبة مقسمة إلى أربعة مستويات اختبار: المدرسة المتوسطة، والجامعية، والدراسات العليا، والمهنية.

لذلك قام المؤلف بفحص أحدث قائمة C.

ويتوافق الترتيب الأخير لقائمة C مع الترتيب الموضح في الصورة السابقة، ومن بين أفضل 11 طرازًا كبيرًا، يحتل GPT-4 المرتبة الأخيرة.

وفقًا للقائمة C، تمثل هذه النتائج اختبارات اللقطة الصفرية (تعلم اللقطة الصفرية) أو اختبارات اللقطة القليلة (تعلم اللقطة القليلة)، لكن اللقطة القليلة ليست بالضرورة أفضل من اللقطة الصفرية.

ج- قال أنه في اختباراته وجد أن العديد من النماذج بعد الضبط الدقيق للتعليمات كانت أفضل في ظل الصفر. حصلت العديد من النماذج التي تم اختبارها على نتائج ذات طلقة صفرية وقليلة اللقطة، ويظهر الترتيب الإعداد ذو متوسط النتيجة الإجمالية الأفضل.

تشير قائمة C أيضًا إلى أن أسماء النماذج الكبيرة التي تحتوي على "*" تشير إلى أن نتائج النموذج تم اختبارها بواسطة فريق C، بينما تم الحصول على نتائج أخرى من خلال عمليات إرسال المستخدم.

بالإضافة إلى ذلك، لاحظ المؤلف أيضًا أن الوقت الذي تستغرقه هذه النماذج الكبيرة لتقديم نتائج الاختبار يختلف بشكل كبير.

موعد تقديم نتيجة اختبار GPT-4 هو 15 مايو، بينما تقدم Yuntianshu، التي احتلت المرتبة الأولى، نتائجها في 31 أغسطس، وتقدم Galaxy، التي احتلت المرتبة الثانية، نتائجها في 23 أغسطس، وYaYi، التي احتلت المرتبة الثالثة، تقدم نتائجها في 31 أغسطس. ليوم 4 سبتمبر.

ومن بين أفضل 16 طرازًا كبيرًا، تم اختبار GPT-4 فقط مع إضافة "*" إلى اسمه من قبل فريق C.

لذلك قام المؤلف بفحص قائمة C الكاملة مرة أخرى.

تتضمن أحدث قائمة C ما مجموعه 66 تصنيفًا للنماذج الكبيرة.

من بينهم، هناك 11 فقط تحمل "*" في أسمائهم، والتي تم اختبارها من قبل الفريق C، وكان وقت التقديم للاختبار 15 مايو.

هذه النماذج الكبيرة التي تم اختبارها من قبل الفريق C، احتل GPT-4 من OpenAI المرتبة الحادية عشرة، واحتل ChatGPT المرتبة السادسة والثلاثين، بينما احتل ChatGLM-6B من Tsinghua Zhipu AI المرتبة الستين، واحتل MOSS من Fudan المرتبة الرابعة عشرة.

على الرغم من أن هذه التصنيفات تظهر زخم التطور السريع للنماذج المحلية واسعة النطاق، إلا أن المؤلف يعتقد أنه بعد كل شيء، لم يتم إجراء الاختبارات من قبل نفس الفريق في نفس الوقت، وهو ما لا يكفي لإثبات من هو الأقوى ومن هو الأضعف بشكل كامل ومن بين هذه النماذج واسعة النطاق.

هذا يشبه، الطلاب في الفصل، كل شخص لديه وقت امتحان مختلف وأوراق اختبار مختلفة، كيف يمكننا مقارنة درجة كل طالب بناءً على درجة كل طالب؟

ماذا يقول مطورو النماذج الكبيرة؟ قال الكثيرون إنه تفوق على ChatGPT في اللغة الصينية والقدرات الأخرى

في الآونة الأخيرة، أصبحت دائرة النماذج الكبيرة مفعمة بالحيوية.

بالإضافة إلى ذلك، اجتازت المنتجات النموذجية الكبيرة لثماني شركات بما في ذلك Baidu وByte تسجيل "التدابير المؤقتة لإدارة خدمات الذكاء الاصطناعي التوليدي" ويمكن إطلاقها رسميًا عبر الإنترنت لتقديم الخدمات للجمهور. أصدرت شركات أخرى على التوالي منتجاتها النموذجية الكبيرة.

فكيف يقدم مطورو هذه النماذج الكبيرة منتجاتهم؟

في 7 يوليو، في المؤتمر العالمي للذكاء الاصطناعي لعام 2023 بعنوان "فرص ومخاطر تطوير صناعة الذكاء الاصطناعي العامة في عصر النماذج واسعة النطاق"، قال تشيو شيبينج، الأستاذ في كلية علوم الكمبيوتر والتكنولوجيا بجامعة فودان والشخص المعني قال المسؤول عن نظام MOSS إن نموذج لغة المحادثة واسع النطاق من فودان MOSS بعد إصداره في فبراير من هذا العام، لا يزال يتكرر باستمرار، "** تمكن أحدث MOSS من تجاوز ChatGPT ** في القدرة الصينية."

في نهاية شهر يوليو، أطلقت NetEase Youdao نموذجًا كبيرًا للترجمة، وقد صرح Zhou Feng، الرئيس التنفيذي لشركة NetEase Youdao، علنًا أنه في الاختبارات الداخلية، في اتجاه الترجمة الصينية-الإنجليزية، تجاوز قدرات الترجمة في ChatGPT وتجاوز مستوى الترجمة من Google. **

في أواخر أغسطس، في القمة الصيفية لمنتدى Yabuli لعام 2023، قال Liu Qingfeng، مؤسس ورئيس مجلس إدارة iFLYTEK، في خطاب، "** لقد تجاوزت قدرات إنشاء كود نموذج Xunfei Xunhuo الكبيرة وإكمالها ChatGPT، وغيرها من هذه القدرة تلحق بالركب بسرعة. **المنطق والخوارزمية ونظام الطريقة وإعداد البيانات لقدرة الكود الحالية جاهزة، وكل ما هو مطلوب هو الوقت والقدرة الحاسوبية.

ذكرت SenseTime في بيان صحفي صدر مؤخرًا أنه في أغسطس من هذا العام، أكمل النموذج الجديد interlm-123b التدريب وزاد عدد المعلمات إلى 123 مليارًا. **من بين 51 مجموعة تقييم معروفة عالميًا تضم إجمالي 300000 سؤال، احتلت نتائج الاختبار الإجمالية المرتبة الثانية في العالم، متجاوزة نماذج مثل gpt-3.5-turbo وllama2-70b الذي تم إصداره حديثًا بواسطة شركة Meta. **

وفقًا لـ Shangtang، احتل **internlm-123 المرتبة الأولى في 12 تقييمًا رئيسيًا. من بينها، كانت درجة agi في الاختبار الشامل لمجموعة التقييم 57.8، متجاوزة gpt-4 لتحتل المرتبة الأولى؛ وكانت درجة تقييم **knowledge quiz commonsenseqa 88.5، لتحتل المرتبة الأولى؛ وسجل internlm-123b في التقييمات الخمسة للقراءة الفهم الكل يتصدر القائمة.

بالإضافة إلى حصوله على المرتبة الأولى في التقييمات الخمسة للاستدلال.

في وقت سابق من هذا الشهر، أصدرت Zuoyebang رسميًا نموذج Galaxy الذي تم تطويره ذاتيًا.

قال Zuoyebang أن نموذج Galaxy قد حقق نتائج في معياري تقييم نموذج اللغة الكبيرة المعتمدين وهما C- وCMMLU. تظهر البيانات أن Zuoyebang Galaxy Big Model يحتل المرتبة الأولى في C- بمتوسط درجات 73.7 نقطة، وفي الوقت نفسه، يحتل المرتبة في قائمة CMMLU لتقييمات Five-shot وZero-shot بمتوسط درجات 74.03 نقطة و73.85 نقطة على التوالي. أولاً، أصبح أول نموذج تعليمي رئيسي يحتل المرتبة الأولى في متوسط الدرجات في القائمتين الموثوقتين المذكورتين أعلاه.

بالأمس، أعلنت شركة Baichuan Intelligent عن الإصدار الرسمي المفتوح المصدر Baichuan 2-7B، وBaichuan 2-13B، وBaichuan 2-13B-Chat وإصداراتها الكمية ذات 4 بت.

قال وانغ شياو تشوان، المؤسس والرئيس التنفيذي لشركة Baichuan Intelligence، إن الأداء الفعلي لنموذج الدردشة المضبوط بدقة في المجال الصيني، أو بيئة الأسئلة والأجوبة، أو البيئة الموجزة قد تجاوز أداء النماذج مغلقة المصدر مثل ChatGPT-3.5. **

اليوم، في مؤتمر Tencent العالمي للبيئة الرقمية لعام 2023، أصدرت Tencent رسميًا نموذج Hunyuan الكبير. قال جيانغ جي، نائب رئيس مجموعة Tencent، إن قدرة اللغة الصينية للنموذج الكبير Tencent Hunyuan قد تجاوزت GPT-3.5. **

بالإضافة إلى التقديم الذاتي لهؤلاء المطورين، قامت بعض وسائل الإعلام والفرق أيضًا بتقييم نموذج كبير.

في أوائل أغسطس، أصدر فريق شين يانغ، الأستاذ والمشرف على الدكتوراه في كلية الصحافة والاتصالات بجامعة تسينغهوا، "تقرير تقييم الأداء الشامل لنماذج اللغات الكبيرة". وفقًا للتقرير، **يحتل Baidu Wenxinyiyan المرتبة الأولى في البلاد من حيث الدرجات الشاملة في 20 مؤشرًا في ثلاثة أبعاد، وهو أفضل من ChatGPT. ومن بينها، يحتل الفهم الدلالي الصيني مرتبة عالية، وبعض القدرات الصينية أفضل من GPT- 4. **

في منتصف أغسطس، ذكرت بعض وسائل الإعلام أنه في 11 أغسطس، ظهر نموذج Xiaomi الكبير MiLM-6B في قوائم تقييم النماذج الكبيرة C- وCMMLU. اعتبارًا من الآن، تحتل MiLM-6B المرتبة العاشرة في قائمة C الشاملة، والأولى في نفس حجم المعلمة، والأولى في نماذج CMMLU الصينية الكبيرة.

في 12 أغسطس، أصدرت جامعة تيانجين "تقرير تقييم النموذج الكبير". يوضح التقرير أن الأداء الشامل لـ**GPT-4 وBaidu Wenxinyiyan يتفوق بشكل كبير على النماذج الأخرى، ولا تختلف نتائجها كثيرًا وهي على نفس المستوى. لقد تفوق Wen Xinyiyan على ChatGPT في معظم المهام الصينية وقام بتضييق الفجوة تدريجيًا مع GPT-4. **

في أواخر أغسطس، ذكرت بعض وسائل الإعلام أن نموذج اللغة الكبير الذي طوره كوايشو ذاتيًا "KwaiYii" قد بدأ الاختبار الداخلي. في أحدث تصنيف لـ CMMLU الصيني، احتل الإصدار 13B من KwaiYii-13B من Ruyi المرتبة الأولى في كل من الطلقات الخمس والطلقات الصفرية، وهو قوي في العلوم الإنسانية والموضوعات الخاصة بالصين، بمتوسط درجات يزيد عن 61 نقطة.

يتبين مما سبق أنه على الرغم من أن هذه النماذج الكبيرة تدعي أنها في أعلى تصنيف معين أو تتفوق على ChatGPT في جوانب معينة، إلا أن معظمها تؤدي أداءً جيدًا في بعض المجالات المحددة.

وبالإضافة إلى ذلك، فإن بعض الدرجات الشاملة تتجاوز GPT-3.5 أو GPT-4، ولكن تم إيقاف اختبار GPT في شهر مايو. فمن يستطيع أن يضمن أن GPT لم يتحسن في الأشهر الثلاثة الماضية؟

وضع OpenAI

وفقًا لتقرير صادر عن UBS في فبراير، بعد شهرين فقط من إطلاق ChatGPT، تجاوز عدد المستخدمين النشطين شهريًا في نهاية يناير 2023 100 مليون، مما يجعله التطبيق الاستهلاكي الأسرع نموًا في التاريخ.

لكن تطوير ChatGPT ليس بهذه السلاسة.

في يوليو من هذا العام، اشتكى العديد من مستخدمي GPT-4 من انخفاض أداء GPT-4 مقارنة بقدرات الاستدلال السابقة.

أشار بعض المستخدمين إلى مشكلات على تويتر وفي منتدى مطوري OpenAI عبر الإنترنت، مع التركيز على المنطق الأضعف، والمزيد من الإجابات الخاطئة، وعدم القدرة على تتبع المعلومات المقدمة، وصعوبة اتباع التعليمات، ونسيان وضع الأقواس في كود البرنامج الأساسي، وتذكر معظم التعليمات البرمجية الأساسية فقط. أحدث النصائح وما إلى ذلك.

وفي أغسطس، ذكر تقرير آخر أن OpenAi قد تكون في أزمة مالية محتملة وقد تفلس بحلول نهاية عام 2024.

وفقًا للتقرير، تبلغ تكلفة OpenAI حوالي 700 ألف دولار يوميًا فقط لتشغيل خدمة الذكاء الاصطناعي ChatGPT. حاليًا، تحاول الشركة أن تصبح مربحة باستخدام GPT-3.5 وGPT-4، لكنها لم تحقق بعد إيرادات كافية لتحقيق التعادل.

ومع ذلك، قد يكون لدى OpenAI أيضًا فرص جديدة.

أعلنت OpenAI مؤخرًا أنها ستعقد أول مؤتمر للمطورين في نوفمبر.

على الرغم من أن OpenAI قالت إنها لن تطلق GPT-5، إلا أن OpenAI قالت إن مئات المطورين من جميع أنحاء العالم سينضمون إلى فريق OpenAI لمعاينة "الأدوات الجديدة" وتبادل الأفكار.

قد يعني هذا أن ChatGPT قد حقق تقدمًا جديدًا.

وفقًا لصحيفة The Paper، في 30 أغسطس، كشف شخص مطلع على الأمر أنه من المتوقع أن تحقق OpenAI أكثر من مليار دولار من الإيرادات في الأشهر الـ 12 المقبلة من خلال بيع برامج الذكاء الاصطناعي والقدرة الحاسوبية اللازمة لتشغيلها.

اليوم، ذكر تقرير إعلامي آخر أن مورجان ستانلي سيطلق روبوت دردشة ذكاء اصطناعي تم تطويره بالاشتراك مع OpenAI في وقت لاحق من هذا الشهر.

الأشخاص الذين يتعاملون مع مصرفيي مورغان ستانلي إما أغنياء أو باهظي الثمن. إذا كان بإمكان روبوت المحادثة المبتكر القائم على الذكاء الاصطناعي أن يقدم تجربة مختلفة لعملاء مورجان ستانلي، فقد يكون ذلك مكسبًا كبيرًا لـ OpenAI.

لقد أصبح وصول عصر الذكاء الاصطناعي أمرًا لا يمكن إيقافه. أما بالنسبة لمن هو الأفضل، فلا يمكنك أن تخبر نفسك فحسب، بل يجب عليك السماح للمستخدمين بتقييمه. نعتقد أيضًا أن النماذج المحلية الكبيرة ستلحق بالتأكيد بـ ChatGPT من حيث القدرات المحددة والقدرات الشاملة.

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

أعجبني
إعجاب
تعليق
مشاركة

تعليق

0/400

لا توجد تعليقات

الموضوع
1/3
1Altcoin Season Coming?
24k درجة الشعبية
2Stablecoin Regulation Crackdown
9k درجة الشعبية
3Gate June Transparency Report
22k درجة الشعبية
4ETH Breaks Through $3,800
28k درجة الشعبية
5Institutions Buying Bitcoin
17k درجة الشعبية

تثبيت

خريطة الموقع