باستخدام هذا الحل، تضاعفت دقة المعلومات التي يخرجها Llama-65B، حتى تجاوزت ChatGPT.
ما يسمى بوهم النموذج الكبير هو إخراج بعض المحتوى الذي يبدو معقولًا ولكنه خاطئ تمامًا.
"سلسلة التحقق" (CoVe) التي اقترحتها Meta هذه المرة هي طريقة سلسلة مشابهة لـ "سلسلة الفكر" (CoT).
والفرق هو أن سلسلة التفكير "خطوة بخطوة" تركز بشكل أكبر على التفكير المنطقي، بينما تركز سلسلة التحقق بشكل أكبر على المعلومات الواقعية**.
بعد قراءتها، وجد بعض مستخدمي الإنترنت أن سلسلة التحقق هذه تشبه إلى حد كبير الطريقة العلمية عند كتابة التعليمات البرمجية باستخدام ChatGPT:
إذن ما هي بالضبط طريقة "سلسلة التحقق" وما هو "التحقق"؟
تفكيك الإجابة وتقسيم تسد
الفكرة الأساسية لسلسلة التحقق هي تقسيم جزء كبير من المحتوى المراد التحقق منه إلى مشاكل صغيرة، والعملية المحددة هي كما يلي:
أولاً، يقوم النموذج بإنشاء إجابات كالمعتاد بناءً على السؤال الذي يطرحه المستخدم.
وبعد ذلك، استنادًا إلى محتوى الرد الذي تم إنشاؤه، يتم إنشاء سلسلة من أسئلة التحقق لكل جزء من المعلومات.
يُسمح بعد ذلك للنموذج بالإجابة على هذه الأسئلة من تلقاء نفسه، ويتم تعديل الإجابات الأولية بناءً على النتائج للوصول إلى النتيجة النهائية.
ولإعطاء مثال بسيط، لنفترض أنك تريد أن تسأل النموذج عن الأسباب الرئيسية للحرب الأمريكية المكسيكية في القرن التاسع عشر.
يجيب النموذج متى وقع الحدث وماذا حدث قبله.
ثم، بالنسبة لهذه السلسلة من الأحداث، اسألهم واحدًا تلو الآخر عن وقت حدوثها.
ونتيجة لذلك، وجد النموذج أن وقت أحد العناصر التي ذكرها كان متباعدًا جدًا، وقام بتعديله لإعطاء الإجابة النهائية.
ومن بينها، يعد توليد الأسئلة والتحقق منها هو الجزء الأكثر أهمية، وفي هذا الصدد، اقترح الباحثون أربع طرق محددة:
مشترك، أي كتابة تعليمات لتوليد الأسئلة والأجوبة في نفس الكلمة السريعة
*2-الخطوة، أي دع النموذج يقوم أولاً بتوليد الأسئلة، ومن ثم فتح محادثة جديدة (مرة واحدة) للإجابة على الأسئلة المطروحة
التحليل القائم على خطوتين يفتح حوارًا جديدًا لكل سؤال يتم طرحه.
العامل + المراجعة، يضيف اختبار الاتساق على أساس العوامل، مما يسمح للنموذج بالتركيز على المحتوى غير المتسق
أصبحت هذه الأوضاع الأربعة أكثر دقة، ودقتها تزداد أعلى فأعلى.
###### △بدءًا من اللون الأحمر، تمثل الألوان الأربعة عدم وجود CoVe و Joint و Factored و Factor+Revision بالترتيب
فلماذا يؤدي تقسيم الأسئلة إلى تحسين دقة النموذج؟
بداية لأن الأسئلة المفككة أسهل من المهمة الشاملة، تصبح الأسئلة المقالية سؤال وجواب أو حتى أسئلة اختيار وحكم الأسئلة أبسط ونسبة الدقة محسنة.
بالإضافة إلى ذلك، فإن تقسيم المشكلة يسمح للنموذج بإعادة التفكير في المشكلة حقًا بدلاً من تكرار الإجابة الخاطئة مرارًا وتكرارًا.
إذًا، ما هو تأثير طريقة سلسلة التحقق؟
دقة المعلومات تتجاوز ChatGPT
ومن أجل استكشاف هذه المشكلة، استخدم الباحثون اللاما لإجراء اختبار بإجمالي ثلاث مهام اختبار.
الأول هو تعداد المعلومات، مثل إدراج المشاهير الذين ولدوا في مكان معين ويعملون في صناعة معينة.
في هذه المهمة، اختبر الباحثون إجمالي مجموعتين من البيانات - ويكي بيانات الأبسط وقائمة فئات ويكي الأكثر صعوبة (المستخرجة من ويكيبيديا).
أظهرت النتائج أنه بدعم من سلسلة التحقق ذات الوضع المكون من خطوتين لـ Llama بمعلمات 65B، زادت دقة الأسئلة البسيطة من 0.17 إلى 0.36، أي أكثر من الضعف**، كما تضاعفت دقة الأسئلة المعقدة أيضًا تقريبًا.
التالي هو سؤال "** سؤال وجواب المجال المغلق ** ". استخرج الباحثون معلومات متقطعة متعددة من مجموعة بيانات MultiSpanQA وطرحوا الأسئلة.
على سبيل المثال، "من أسس أول دار نشر في العالم في أي عام" (الجواب هو يوهانس جوتنبرج، 1450).
ونتيجة لذلك، أدى Cove أيضًا إلى تحسين دقة اللاما بنسبة 20%.
المهمة الثالثة هي "إنشاء سيرة ذاتية نصية طويلة"، والسؤال هو "أخبرني بالسيرة الذاتية لـ (اسم الشخص)"، والتي يتم تقييمها باستخدام مجموعة بيانات FactScore.
ونتيجة لذلك، في وضع العامل + المراجعة، لا يكون معدل الدقة أعلى بشكل ملحوظ فقط من معدل وضع سلسلة عدم التحقق، ولكنه أيضًا يتجاوز ChatGPT.
يمكن للأصدقاء المهتمين بهذا البحث معرفة المزيد من التفاصيل في المقالة.
عنوان الورقة:
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
دقة المعلومات النصية الطويلة تتجاوز ChatGPT، وتقترح Meta طريقة جديدة لتقليل وهم النماذج الكبيرة
المصدر: كيوبتس
هناك حل جديد لمشكلة هلوسة الموديلات الكبيرة!
تقترح Meta AI Labs حل "فرق تسد".
باستخدام هذا الحل، تضاعفت دقة المعلومات التي يخرجها Llama-65B، حتى تجاوزت ChatGPT.
"سلسلة التحقق" (CoVe) التي اقترحتها Meta هذه المرة هي طريقة سلسلة مشابهة لـ "سلسلة الفكر" (CoT).
والفرق هو أن سلسلة التفكير "خطوة بخطوة" تركز بشكل أكبر على التفكير المنطقي، بينما تركز سلسلة التحقق بشكل أكبر على المعلومات الواقعية**.
بعد قراءتها، وجد بعض مستخدمي الإنترنت أن سلسلة التحقق هذه تشبه إلى حد كبير الطريقة العلمية عند كتابة التعليمات البرمجية باستخدام ChatGPT:
تفكيك الإجابة وتقسيم تسد
الفكرة الأساسية لسلسلة التحقق هي تقسيم جزء كبير من المحتوى المراد التحقق منه إلى مشاكل صغيرة، والعملية المحددة هي كما يلي:
أولاً، يقوم النموذج بإنشاء إجابات كالمعتاد بناءً على السؤال الذي يطرحه المستخدم.
وبعد ذلك، استنادًا إلى محتوى الرد الذي تم إنشاؤه، يتم إنشاء سلسلة من أسئلة التحقق لكل جزء من المعلومات.
يُسمح بعد ذلك للنموذج بالإجابة على هذه الأسئلة من تلقاء نفسه، ويتم تعديل الإجابات الأولية بناءً على النتائج للوصول إلى النتيجة النهائية.
ولإعطاء مثال بسيط، لنفترض أنك تريد أن تسأل النموذج عن الأسباب الرئيسية للحرب الأمريكية المكسيكية في القرن التاسع عشر.
يجيب النموذج متى وقع الحدث وماذا حدث قبله.
ونتيجة لذلك، وجد النموذج أن وقت أحد العناصر التي ذكرها كان متباعدًا جدًا، وقام بتعديله لإعطاء الإجابة النهائية.
أصبحت هذه الأوضاع الأربعة أكثر دقة، ودقتها تزداد أعلى فأعلى.
فلماذا يؤدي تقسيم الأسئلة إلى تحسين دقة النموذج؟
بداية لأن الأسئلة المفككة أسهل من المهمة الشاملة، تصبح الأسئلة المقالية سؤال وجواب أو حتى أسئلة اختيار وحكم الأسئلة أبسط ونسبة الدقة محسنة.
بالإضافة إلى ذلك، فإن تقسيم المشكلة يسمح للنموذج بإعادة التفكير في المشكلة حقًا بدلاً من تكرار الإجابة الخاطئة مرارًا وتكرارًا.
إذًا، ما هو تأثير طريقة سلسلة التحقق؟
دقة المعلومات تتجاوز ChatGPT
ومن أجل استكشاف هذه المشكلة، استخدم الباحثون اللاما لإجراء اختبار بإجمالي ثلاث مهام اختبار.
الأول هو تعداد المعلومات، مثل إدراج المشاهير الذين ولدوا في مكان معين ويعملون في صناعة معينة.
في هذه المهمة، اختبر الباحثون إجمالي مجموعتين من البيانات - ويكي بيانات الأبسط وقائمة فئات ويكي الأكثر صعوبة (المستخرجة من ويكيبيديا).
التالي هو سؤال "** سؤال وجواب المجال المغلق ** ". استخرج الباحثون معلومات متقطعة متعددة من مجموعة بيانات MultiSpanQA وطرحوا الأسئلة.
على سبيل المثال، "من أسس أول دار نشر في العالم في أي عام" (الجواب هو يوهانس جوتنبرج، 1450).
ونتيجة لذلك، أدى Cove أيضًا إلى تحسين دقة اللاما بنسبة 20%.
ونتيجة لذلك، في وضع العامل + المراجعة، لا يكون معدل الدقة أعلى بشكل ملحوظ فقط من معدل وضع سلسلة عدم التحقق، ولكنه أيضًا يتجاوز ChatGPT.
عنوان الورقة: