المقدمة: تم انتزاع المركز الأول لـ GPT-4 في جامعة ستانفورد ألباكا من قبل حصان أسود.
ظهور أول نموذج يتفوق على GPT-4 على Alpaca!
في يونيو من هذا العام، بمجرد الإعلان عن قائمة Alpaca، احتل GPT-4 المركز الأول بفارق مطلق، بمعدل فوز يزيد عن 95%.
وبعد ثلاثة أشهر، قام حصان أسود يُدعى Xwin-LM بسحب GPT-4، الذي كان في أعلى القائمة، من أعلى 1؟
عنوان المشروع:
علاوة على ذلك، فازت Xwin-LM أيضًا بثلاثة مراكز أولى في المسابقة بنفس نماذج المعلمات دون استثناء:
Xwin-LM-70B-V0.1: بلغ معدل الفوز على Davinci-003 في معيار الألبكة 95.57%، ليحتل المركز الأول في الألبكة. وهو أيضًا النموذج الأول الذي يتجاوز GPT-4 على Alpaca. علاوة على ذلك، فإن معدل فوزه على GPT-4 هو 60.61.
Xwin-LM-13B-V0.1: حقق معدل فوز بنسبة 91.76% على Alpaca، ليحتل المرتبة الأولى بين جميع طرازات 13B.
Xwin-LM-7B-V0.1: حقق معدل فوز قدره 87.82% على Alpaca، ليحتل المرتبة الأولى بين جميع طرازات 7B.
Xwin-LM: 70 مليار معلمة تتفوق على GPT-4
تم ضبط Xwin-LM بشكل دقيق بناءً على Llama 2. تم تصميم هذا النموذج لتطوير تقنيات المحاذاة مفتوحة المصدر لنماذج اللغات الكبيرة، بما في ذلك الضبط الدقيق الخاضع للإشراف (SFT)، ونموذج المكافأة (RM)، وأخذ عينات الرفض، وتعزيز التعليقات البشرية. التعلم (RLHF).انتظر.
1. تقييم الأداء
قام الباحثون بتقييم معدل فوز Xwin-LM مقابل Text-Davinci-003 وChatGPT وGPT-4 على 805 مسألة.
ويمكن ملاحظة أن نموذج Xwin-LM 70B سيطر بشكل كامل على القائمة، ليصبح الأول في تقييم أداء مؤشرات Alpaca، وهزم GPT-4 لأول مرة، بنسبة فوز بلغت 60.61% مقابل GPT-4.
نماذج ذات أحجام أخرى من Xwin-LM، مثل Xwin-LM-13B-V0.1 وXwin-LM-7B-V0.1، تتجاوز أيضًا النماذج الأخرى من نفس الحجم في الأداء.
حتى أن Xwin-LM-7B-V0.1 يتفوق على Llama 2-13B-Chat الأكبر حجمًا.
2. مقارنة الحالة
في الحالة الأولى، سأل الباحثون GPT-4 وXwin-LM:
"وضعت طبقًا فوق التفاح وأخذت الطبق من المطبخ إلى غرفة الطعام. أين التفاح الآن؟"
إجابة GPT-4 هي:
"التفاحة موجودة في المطعم الآن، وعندما تأخذ الطبق من المطبخ إلى المطعم، فهو تحت الطبق."
وهنا أعطى GPT-4 إجابة تفتقر إلى المنطق السليم. ففي الحياة الواقعية، هناك جاذبية. والتفاحة الموجودة تحت الطبق تظل في حالتها الأصلية ولن تذهب إلى المطعم بالطبق.
في المقابل، فإن إجابة Xwin-LM تتوافق أكثر مع الواقع، وتعطي أيضًا طريقة لجلب Apple إلى المطبخ:
"التفاحة لا تزال في المطبخ لأنك حركت الطبق للتو.
التفاح موجود أسفل الطبق، لذلك إذا كنت تريد اصطحاب التفاح إلى المطعم، عليك نقل التفاح مباشرة أو وضع التفاح على الطبق ثم نقل الطبق إلى المطعم. "
وفي الحالة الثانية، سأل الباحثون GPT-4 وXwin-LM:
"كيف تقول "مساء الخير" بالفرنسية؟"
إجابة GPT-4 هي:
"في اللغة الفرنسية، يتم التعبير عن كلمة "مساء الخير" بكلمة "bonsoir"."
وإجابة Xwin-LM هي:
"في الفرنسية، تُترجم كلمة "مساء الخير" إلى "bonsoir". وتُستخدم هذه التحية في المساء والليل، عادةً بعد الساعة السادسة مساءً.
إنه مزيج من "بون" (بمعنى جيد) و"سوار" (بمعنى المساء). لنطقها، قل "عظم-سوار".
على الرغم من أن إجابة GPT-4 كانت صحيحة، إلا أن Xwin-LM لم يجيب على السؤال بشكل صحيح فحسب، بل أوضح أيضًا أصل ونطق عبارة "مساء الخير" في التعبير الفرنسي، مما يوفر معلومات أكثر ثراءً للمستخدم.
3. مهام البرمجة اللغوية العصبية
يقارن الجدول التالي Xwin-LM مع LLMs الأخرى في مهام البرمجة اللغوية العصبية الأساسية.
يمكن ملاحظة أن أداء طراز Xwin-LM-70B-V0.1 مرتفع نسبيًا في جميع المهام، وهو يؤدي بشكل جيد بشكل خاص في مهام MMLU 5-shot وHellaSwag 10-shot.
ومن المستوى العام، يعتبر Xwin-LM-70B-V0.1 هو الأفضل أداءً.
4. القدرة على التفكير
اقترح الباحثون أنه من أجل الحصول على النتائج المرجوة عند استخدام Xwin-LM للاستدلال، يجب الالتزام الصارم بقالب الحوار للاستدلال.
يعتمد Xwin-LM التنسيق الفوري الذي أنشأته Vicuna ويدعم الحوار متعدد المنعطفات.
محادثة بين مستخدم فضولي ومساعد الذكاء الاصطناعي. يقدم المساعد إجابات مفيدة ومفصلة ومهذبة لأسئلة المستخدم. المستخدم: مرحبًا! المساعد: Hello.s>المستخدم: من أنت؟ المساعد: أنا Xwin-LM.s>......
مثال عناق الوجه
من المحولات استيراد AutoTokenizer، AutoModelForCausalLM
model = AutoModelForCausalLM.from_pretrained("Xwin-LM/Xwin-LM-7B-V0.1")tokenizer = AutoTokenizer.from_pretrained("Xwin-LM/Xwin-LM-7B-V0.1")( := "دردشة بين مستخدم فضولي ومساعد الذكاء الاصطناعي. " "يقدم المساعد إجابات مفيدة ومفصلة ومهذبة لأسئلة المستخدم." "المستخدم: مرحبًا، هل يمكنك مساعدتي؟" "مساعد:")inputs = tokenizer(), return_tensors ="pt") العينات = model.generate(**المدخلات، max_new_tokens=4096، درجة الحرارة=0.7)output = tokenizer.decode(samples) [0] [المدخلات["input_ids"].الشكل [1] :], Skip_special_tokens=True)print(output) # بالطبع! أنا هنا للمساعدة. لا تتردد في طرح سؤالك أو وصف المشكلة التي تواجهها، وسأبذل قصارى جهدي لمساعدتك.مثال VLLM
نظرًا لأنه تم ضبط Xwin-LM بشكل دقيق استنادًا إلى Llama 2، فإنه يدعم أيضًا استخدام VLLM للاستدلال السريع.
from vllm import LLM, SamplingParams( := "محادثة بين مستخدم فضولي ومساعد ذكاء اصطناعي." "يقدم المساعد إجابات مفيدة ومفصلة ومهذبة لأسئلة المستخدم." "المستخدم: مرحبًا، هل يمكنك مساعدتي؟ " "مساعد:")sampling_params = SamplingParams(درجة الحرارة=0.7, max_tokens=4096)llm = LLM(model="Xwin-LM/Xwin-LM-7B-V0.1")outputs = llm.generate([,], sampling_params)
للإخراج في المخرجات: = الإخراج. generator_text =output.outputs [0] طباعة النص (generated_text)
ألبكة: سهل الاستخدام، سريع، منخفض التكلفة، تم التحقق منه عن طريق التعليق التوضيحي البشري
باعتبارها أداة تقييم LLM تلقائية، تجمع Alpaca بين AlpacaFarm وAviary.
من ناحية، يستخدم نفس الكود الذي يستخدمه AlpacaFarm (التخزين المؤقت/التباديل العشوائي/المعلمات الفائقة)، ومن ناحية أخرى، فإنه يستخدم تلميح فرز مشابهًا لـ Aviary.
وفي الوقت نفسه، تم أيضًا تعديل مطالبات Aviary لتقليل الانحياز نحو الإنتاج الأطول.
وقال الفريق أن الألبكة لها تأثيرات رائعة:
الاتساق مع تصويت الأغلبية البشرية، أعلى من المفسر البشري الواحد
يرتبط معدل الفوز بشكل كبير بالشرح البشري (0.94)
- معدل الفوز
يتفوق مخرج النموذج على text-davinci-003 (أي النص المرجعي) بشكل متناسب في كل تعليمات.
على وجه التحديد، قمنا أولاً بجمع أزواج مخرجات النموذج المطلوب في كل تعليمات من مجموعة بيانات Alpaca، وقمنا بإقران كل مخرجات بمخرجات النموذج المرجعي (text-davinci-003) على نفس التعليمات.
بعد ذلك، يتم تغذية هذه المخرجات إلى المقيم الآلي في نفس الوقت، مما يسمح له بالحكم على أيهما أفضل (أي تفضيل المقيم).
أخيرًا، يتم حساب متوسط تفضيلات جميع التعليمات في مجموعة البيانات للحصول على معدل فوز النموذج بالنسبة إلى text-davinci-003. فإذا تعادل النموذجان كان نصف الأفضلية.
عنوان الورقة:
- محددات
في حين توفر الألبكة طريقة فعالة لمقارنة قدرة النموذج على اتباع التعليمات، إلا أنها ليست المعيار الذهبي لتقييم شامل لقدرة النموذج.
كما هو مفصل في ورقة AlpacaFarm، فإن معدل الفوز للمعلقين التلقائيين يعتمد على الطول. في حين أن التعليقات التوضيحية البشرية تعاني أيضًا من هذا التحيز، فمن غير الواضح ما إذا كانت الإجابات الأطول ستزيد من فائدة المهام النهائية.
علاوة على ذلك، فإن مجموعة التقييم الخاصة بـ AlpacaFarm، على الرغم من تنوعها، تتكون بشكل أساسي من تعليمات بسيطة.
وأخيرًا، لا تقوم شركة Alpaca بتقييم سلامة أي نموذج.
مراجع:
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
هزيمة GPT-4 لأول مرة؟70 مليار معلمة Xwin-LM تصل إلى قمة Stanford Alpaca_، نموذج 13B يتفوق على ChatGPT
المصدر: شينزيوان
المقدمة: تم انتزاع المركز الأول لـ GPT-4 في جامعة ستانفورد ألباكا من قبل حصان أسود.
ظهور أول نموذج يتفوق على GPT-4 على Alpaca!
في يونيو من هذا العام، بمجرد الإعلان عن قائمة Alpaca، احتل GPT-4 المركز الأول بفارق مطلق، بمعدل فوز يزيد عن 95%.
وبعد ثلاثة أشهر، قام حصان أسود يُدعى Xwin-LM بسحب GPT-4، الذي كان في أعلى القائمة، من أعلى 1؟
علاوة على ذلك، فازت Xwin-LM أيضًا بثلاثة مراكز أولى في المسابقة بنفس نماذج المعلمات دون استثناء:
Xwin-LM: 70 مليار معلمة تتفوق على GPT-4
تم ضبط Xwin-LM بشكل دقيق بناءً على Llama 2. تم تصميم هذا النموذج لتطوير تقنيات المحاذاة مفتوحة المصدر لنماذج اللغات الكبيرة، بما في ذلك الضبط الدقيق الخاضع للإشراف (SFT)، ونموذج المكافأة (RM)، وأخذ عينات الرفض، وتعزيز التعليقات البشرية. التعلم (RLHF).انتظر.
قام الباحثون بتقييم معدل فوز Xwin-LM مقابل Text-Davinci-003 وChatGPT وGPT-4 على 805 مسألة.
ويمكن ملاحظة أن نموذج Xwin-LM 70B سيطر بشكل كامل على القائمة، ليصبح الأول في تقييم أداء مؤشرات Alpaca، وهزم GPT-4 لأول مرة، بنسبة فوز بلغت 60.61% مقابل GPT-4.
نماذج ذات أحجام أخرى من Xwin-LM، مثل Xwin-LM-13B-V0.1 وXwin-LM-7B-V0.1، تتجاوز أيضًا النماذج الأخرى من نفس الحجم في الأداء.
حتى أن Xwin-LM-7B-V0.1 يتفوق على Llama 2-13B-Chat الأكبر حجمًا.
"وضعت طبقًا فوق التفاح وأخذت الطبق من المطبخ إلى غرفة الطعام. أين التفاح الآن؟"
إجابة GPT-4 هي:
"التفاحة موجودة في المطعم الآن، وعندما تأخذ الطبق من المطبخ إلى المطعم، فهو تحت الطبق."
وهنا أعطى GPT-4 إجابة تفتقر إلى المنطق السليم. ففي الحياة الواقعية، هناك جاذبية. والتفاحة الموجودة تحت الطبق تظل في حالتها الأصلية ولن تذهب إلى المطعم بالطبق.
في المقابل، فإن إجابة Xwin-LM تتوافق أكثر مع الواقع، وتعطي أيضًا طريقة لجلب Apple إلى المطبخ:
"التفاحة لا تزال في المطبخ لأنك حركت الطبق للتو.
التفاح موجود أسفل الطبق، لذلك إذا كنت تريد اصطحاب التفاح إلى المطعم، عليك نقل التفاح مباشرة أو وضع التفاح على الطبق ثم نقل الطبق إلى المطعم. "
وفي الحالة الثانية، سأل الباحثون GPT-4 وXwin-LM:
"كيف تقول "مساء الخير" بالفرنسية؟"
إجابة GPT-4 هي:
"في اللغة الفرنسية، يتم التعبير عن كلمة "مساء الخير" بكلمة "bonsoir"."
وإجابة Xwin-LM هي:
"في الفرنسية، تُترجم كلمة "مساء الخير" إلى "bonsoir". وتُستخدم هذه التحية في المساء والليل، عادةً بعد الساعة السادسة مساءً.
إنه مزيج من "بون" (بمعنى جيد) و"سوار" (بمعنى المساء). لنطقها، قل "عظم-سوار".
على الرغم من أن إجابة GPT-4 كانت صحيحة، إلا أن Xwin-LM لم يجيب على السؤال بشكل صحيح فحسب، بل أوضح أيضًا أصل ونطق عبارة "مساء الخير" في التعبير الفرنسي، مما يوفر معلومات أكثر ثراءً للمستخدم.
3. مهام البرمجة اللغوية العصبية
يقارن الجدول التالي Xwin-LM مع LLMs الأخرى في مهام البرمجة اللغوية العصبية الأساسية.
يمكن ملاحظة أن أداء طراز Xwin-LM-70B-V0.1 مرتفع نسبيًا في جميع المهام، وهو يؤدي بشكل جيد بشكل خاص في مهام MMLU 5-shot وHellaSwag 10-shot.
ومن المستوى العام، يعتبر Xwin-LM-70B-V0.1 هو الأفضل أداءً.
اقترح الباحثون أنه من أجل الحصول على النتائج المرجوة عند استخدام Xwin-LM للاستدلال، يجب الالتزام الصارم بقالب الحوار للاستدلال.
يعتمد Xwin-LM التنسيق الفوري الذي أنشأته Vicuna ويدعم الحوار متعدد المنعطفات.
محادثة بين مستخدم فضولي ومساعد الذكاء الاصطناعي. يقدم المساعد إجابات مفيدة ومفصلة ومهذبة لأسئلة المستخدم. المستخدم: مرحبًا! المساعد: Hello.s>المستخدم: من أنت؟ المساعد: أنا Xwin-LM.s>......
مثال عناق الوجه
من المحولات استيراد AutoTokenizer، AutoModelForCausalLM model = AutoModelForCausalLM.from_pretrained("Xwin-LM/Xwin-LM-7B-V0.1")tokenizer = AutoTokenizer.from_pretrained("Xwin-LM/Xwin-LM-7B-V0.1")( := "دردشة بين مستخدم فضولي ومساعد الذكاء الاصطناعي. " "يقدم المساعد إجابات مفيدة ومفصلة ومهذبة لأسئلة المستخدم." "المستخدم: مرحبًا، هل يمكنك مساعدتي؟" "مساعد:")inputs = tokenizer(), return_tensors ="pt") العينات = model.generate(**المدخلات، max_new_tokens=4096، درجة الحرارة=0.7)output = tokenizer.decode(samples) [0] [المدخلات["input_ids"].الشكل [1] :], Skip_special_tokens=True)print(output) # بالطبع! أنا هنا للمساعدة. لا تتردد في طرح سؤالك أو وصف المشكلة التي تواجهها، وسأبذل قصارى جهدي لمساعدتك. مثال VLLM
نظرًا لأنه تم ضبط Xwin-LM بشكل دقيق استنادًا إلى Llama 2، فإنه يدعم أيضًا استخدام VLLM للاستدلال السريع.
from vllm import LLM, SamplingParams( := "محادثة بين مستخدم فضولي ومساعد ذكاء اصطناعي." "يقدم المساعد إجابات مفيدة ومفصلة ومهذبة لأسئلة المستخدم." "المستخدم: مرحبًا، هل يمكنك مساعدتي؟ " "مساعد:")sampling_params = SamplingParams(درجة الحرارة=0.7, max_tokens=4096)llm = LLM(model="Xwin-LM/Xwin-LM-7B-V0.1")outputs = llm.generate([,], sampling_params) للإخراج في المخرجات: = الإخراج. generator_text =output.outputs [0] طباعة النص (generated_text)
ألبكة: سهل الاستخدام، سريع، منخفض التكلفة، تم التحقق منه عن طريق التعليق التوضيحي البشري
باعتبارها أداة تقييم LLM تلقائية، تجمع Alpaca بين AlpacaFarm وAviary.
من ناحية، يستخدم نفس الكود الذي يستخدمه AlpacaFarm (التخزين المؤقت/التباديل العشوائي/المعلمات الفائقة)، ومن ناحية أخرى، فإنه يستخدم تلميح فرز مشابهًا لـ Aviary.
وفي الوقت نفسه، تم أيضًا تعديل مطالبات Aviary لتقليل الانحياز نحو الإنتاج الأطول.
وقال الفريق أن الألبكة لها تأثيرات رائعة:
الاتساق مع تصويت الأغلبية البشرية، أعلى من المفسر البشري الواحد
يرتبط معدل الفوز بشكل كبير بالشرح البشري (0.94)
يتفوق مخرج النموذج على text-davinci-003 (أي النص المرجعي) بشكل متناسب في كل تعليمات.
على وجه التحديد، قمنا أولاً بجمع أزواج مخرجات النموذج المطلوب في كل تعليمات من مجموعة بيانات Alpaca، وقمنا بإقران كل مخرجات بمخرجات النموذج المرجعي (text-davinci-003) على نفس التعليمات.
بعد ذلك، يتم تغذية هذه المخرجات إلى المقيم الآلي في نفس الوقت، مما يسمح له بالحكم على أيهما أفضل (أي تفضيل المقيم).
أخيرًا، يتم حساب متوسط تفضيلات جميع التعليمات في مجموعة البيانات للحصول على معدل فوز النموذج بالنسبة إلى text-davinci-003. فإذا تعادل النموذجان كان نصف الأفضلية.
- محددات
في حين توفر الألبكة طريقة فعالة لمقارنة قدرة النموذج على اتباع التعليمات، إلا أنها ليست المعيار الذهبي لتقييم شامل لقدرة النموذج.
كما هو مفصل في ورقة AlpacaFarm، فإن معدل الفوز للمعلقين التلقائيين يعتمد على الطول. في حين أن التعليقات التوضيحية البشرية تعاني أيضًا من هذا التحيز، فمن غير الواضح ما إذا كانت الإجابات الأطول ستزيد من فائدة المهام النهائية.
علاوة على ذلك، فإن مجموعة التقييم الخاصة بـ AlpacaFarm، على الرغم من تنوعها، تتكون بشكل أساسي من تعليمات بسيطة.
وأخيرًا، لا تقوم شركة Alpaca بتقييم سلامة أي نموذج.
مراجع: