مصدر الصورة: تم إنشاؤه بواسطة الذكاء الاصطناعي غير محدود
نظرا لظهور Transformer ، فقد تحسنت بشكل كبير قدرة نماذج اللغة الكبيرة مثل ChatGPT على معالجة مهام اللغة الطبيعية. ومع ذلك ، يحتوي المحتوى الذي تم إنشاؤه على الكثير من المعلومات غير الصحيحة أو القديمة ، ولا يوجد نظام تقييم واقعي للتحقق من صحة المحتوى.
من أجل إجراء تقييم شامل لقدرة نماذج اللغات الكبيرة على التكيف مع التغيرات في العالم وأصالة المحتوى ، نشر فريق بحث Google الذكاء الاصطناعي ورقة بعنوان "تعزيز دقة نماذج اللغات الكبيرة من خلال معرفة محرك البحث". تم اقتراح طريقة FRESH لتحسين دقة نماذج اللغات الكبيرة مثل ChatGPT و Bard من خلال الحصول على معلومات في الوقت الفعلي من محركات البحث.
قام الباحثون ببناء مجموعة مرجعية جديدة للأسئلة والأجوبة FRESHQA ، والتي تحتوي على 600 سؤال حقيقي من أنواع مختلفة ، وينقسم تواتر الإجابات إلى أربع فئات: "لا تتغير أبدا" و "التغيير البطيء" و "التغيير المتكرر" و "المقدمات الخاطئة" **.
في الوقت نفسه ، تم أيضا تصميم طريقتين للتقييم ، الوضع الصارم ، الذي يتطلب أن تكون جميع المعلومات الواردة في الإجابات دقيقة ومحدثة ، ووضع مريح ، والذي يقيم فقط صحة الإجابات الرئيسية.
أظهرت النتائج التجريبية أن FRESH يحسن بشكل كبير من دقة نماذج اللغات الكبيرة على FRESHQA. ** على سبيل المثال ، GPT-4 أكثر دقة بنسبة 47٪ من GPT-4 الأصلي بمساعدة الوضع الصارم ل FRESH **.
بالإضافة إلى ذلك ، فإن طريقة دمج محركات البحث هذه أكثر مرونة من توسيع معلمات النموذج مباشرة ، ويمكن أن توفر مصدر معرفة خارجي ديناميكي للنماذج الحالية. تظهر النتائج التجريبية أيضا أن FRESH يمكن أن يحسن بشكل كبير دقة نماذج اللغة الكبيرة في المشكلات التي تتطلب معرفة في الوقت الفعلي.
عنوان الورقة:
عنوان مفتوح المصدر: نموذج اللغة الكبير S / FreshQA (في طور الإعداد ، سيكون مفتوح المصدر قريبا)
من محتوى ورقة Google ، تتكون طريقة FRESH بشكل أساسي من 5 وحدات.
**بناء مجموعة معايير FRESHQA **
من أجل إجراء تقييم شامل لقدرة نماذج اللغات الكبيرة على التكيف مع العالم المتغير ، قام الباحثون أولا ببناء مجموعة معايير FRESHQA ، والتي تحتوي على 600 سؤال حقيقي مفتوح المجال ، والتي يمكن تقسيمها إلى أربع فئات وفقا لتكرار تغييرات الإجابة: "لا تتغير أبدا" و "التغيير البطيء" و "التغيير المتكرر" و "المقدمات الخاطئة".
لا تتغير أبدا: الإجابة على الأسئلة التي لن تتغير بشكل أساسي.
التغيير البطيء: تتغير إجابة السؤال كل بضع سنوات.
التغيير المتكرر: إجابات على الأسئلة التي قد تتغير كل عام أو أقل.
فرضية غير صحيحة: مشكلة تحتوي على فرضية غير صحيحة.
تغطي الأسئلة مجموعة متنوعة من الموضوعات ولها مستويات مختلفة من الصعوبة. الميزة الرئيسية ل FRESHQA هي أن الإجابة قد تتغير بمرور الوقت ، لذلك يجب أن يكون النموذج حساسا للتغيرات في العالم.
** الوضع الصارم مقابل تقييم الوضع المريح **
اقترح الباحثون وضعين للتقييم: الوضع الصارم ، الذي يتطلب أن تكون جميع المعلومات في الإجابات دقيقة ومحدثة ، والوضع المريح ، الذي يقيم فقط صحة الإجابات الرئيسية.
وهذا يوفر طريقة أكثر شمولا ودقة لقياس الطبيعة الواقعية لنماذج اللغة.
تقييم نماذج اللغات الكبيرة المختلفة بناء على FRESHQA
في FRESHQA ، قارن الباحثون نماذج لغوية كبيرة تغطي معايير مختلفة ، بما في ذلك GPT-3 و GPT-4 و ChatGPT وغيرها. يتم إجراء التقييمات في كل من الوضع الصارم (مطلوب خال من الأخطاء) والوضع المتساهل (يتم تقييم الإجابات الأولية فقط).
وجد أن جميع النماذج تعمل بشكل سيئ في المشكلات التي تتطلب معرفة في الوقت الفعلي ، خاصة المشكلات المتعلقة بالتغييرات المتكررة والمباني غير الصحيحة. هذا يدل على أن نموذج اللغة الكبيرة الحالي له قيود في قدرته على التكيف مع عالم متغير.
استرجاع المعلومات ذات الصلة من محركات البحث
لتحسين الطبيعة الواقعية لنموذج اللغة الكبيرة ، فإن الفكرة الأساسية ل FRESH هي استرداد المعلومات في الوقت الفعلي حول المشكلة من محرك البحث.
على وجه التحديد ، بالنظر إلى سؤال ، سوف تستفسر FRESH عن محرك بحث Google ككلمة رئيسية للحصول على أنواع متعددة من نتائج البحث بما في ذلك مربعات الإجابة ونتائج صفحات الويب و "سأل المستخدمون الآخرون أيضا" وما إلى ذلك.
** استرجاع المعلومات من خلال تكامل التدريب المتناثر **
يستخدم FRESH القليل من التعلم لدمج الأدلة المستردة في موجه الإدخال لنموذج اللغة الكبيرة بتنسيق موحد ، ويقدم العديد من العروض التوضيحية لكيفية تجميع الأدلة للوصول إلى الإجابة الصحيحة.
يمكن أن يعلم ذلك نماذج اللغة الكبيرة لفهم المهمة ودمج المعلومات من مصادر مختلفة للتوصل إلى إجابات محدثة ودقيقة.
قالت Google إن FRESH له أهمية كبيرة لتحسين القدرة الديناميكية على التكيف لنماذج اللغة الكبيرة ، وهو أيضا اتجاه مهم للبحث التكنولوجي المستقبلي لنماذج اللغات الكبيرة.
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
أحدث تقنيات جوجل: من خلال محرك البحث ، تعزز بشكل كبير دقة النماذج مثل ChatGPT
المصدر الأصلي: مجتمع AIGC المفتوح
نظرا لظهور Transformer ، فقد تحسنت بشكل كبير قدرة نماذج اللغة الكبيرة مثل ChatGPT على معالجة مهام اللغة الطبيعية. ومع ذلك ، يحتوي المحتوى الذي تم إنشاؤه على الكثير من المعلومات غير الصحيحة أو القديمة ، ولا يوجد نظام تقييم واقعي للتحقق من صحة المحتوى.
من أجل إجراء تقييم شامل لقدرة نماذج اللغات الكبيرة على التكيف مع التغيرات في العالم وأصالة المحتوى ، نشر فريق بحث Google الذكاء الاصطناعي ورقة بعنوان "تعزيز دقة نماذج اللغات الكبيرة من خلال معرفة محرك البحث". تم اقتراح طريقة FRESH لتحسين دقة نماذج اللغات الكبيرة مثل ChatGPT و Bard من خلال الحصول على معلومات في الوقت الفعلي من محركات البحث.
قام الباحثون ببناء مجموعة مرجعية جديدة للأسئلة والأجوبة FRESHQA ، والتي تحتوي على 600 سؤال حقيقي من أنواع مختلفة ، وينقسم تواتر الإجابات إلى أربع فئات: "لا تتغير أبدا" و "التغيير البطيء" و "التغيير المتكرر" و "المقدمات الخاطئة" **.
في الوقت نفسه ، تم أيضا تصميم طريقتين للتقييم ، الوضع الصارم ، الذي يتطلب أن تكون جميع المعلومات الواردة في الإجابات دقيقة ومحدثة ، ووضع مريح ، والذي يقيم فقط صحة الإجابات الرئيسية.
أظهرت النتائج التجريبية أن FRESH يحسن بشكل كبير من دقة نماذج اللغات الكبيرة على FRESHQA. ** على سبيل المثال ، GPT-4 أكثر دقة بنسبة 47٪ من GPT-4 الأصلي بمساعدة الوضع الصارم ل FRESH **.
بالإضافة إلى ذلك ، فإن طريقة دمج محركات البحث هذه أكثر مرونة من توسيع معلمات النموذج مباشرة ، ويمكن أن توفر مصدر معرفة خارجي ديناميكي للنماذج الحالية. تظهر النتائج التجريبية أيضا أن FRESH يمكن أن يحسن بشكل كبير دقة نماذج اللغة الكبيرة في المشكلات التي تتطلب معرفة في الوقت الفعلي.
عنوان الورقة:
عنوان مفتوح المصدر: نموذج اللغة الكبير S / FreshQA (في طور الإعداد ، سيكون مفتوح المصدر قريبا)
**بناء مجموعة معايير FRESHQA **
من أجل إجراء تقييم شامل لقدرة نماذج اللغات الكبيرة على التكيف مع العالم المتغير ، قام الباحثون أولا ببناء مجموعة معايير FRESHQA ، والتي تحتوي على 600 سؤال حقيقي مفتوح المجال ، والتي يمكن تقسيمها إلى أربع فئات وفقا لتكرار تغييرات الإجابة: "لا تتغير أبدا" و "التغيير البطيء" و "التغيير المتكرر" و "المقدمات الخاطئة".
لا تتغير أبدا: الإجابة على الأسئلة التي لن تتغير بشكل أساسي.
التغيير البطيء: تتغير إجابة السؤال كل بضع سنوات.
التغيير المتكرر: إجابات على الأسئلة التي قد تتغير كل عام أو أقل.
فرضية غير صحيحة: مشكلة تحتوي على فرضية غير صحيحة.
** الوضع الصارم مقابل تقييم الوضع المريح **
اقترح الباحثون وضعين للتقييم: الوضع الصارم ، الذي يتطلب أن تكون جميع المعلومات في الإجابات دقيقة ومحدثة ، والوضع المريح ، الذي يقيم فقط صحة الإجابات الرئيسية.
وهذا يوفر طريقة أكثر شمولا ودقة لقياس الطبيعة الواقعية لنماذج اللغة.
تقييم نماذج اللغات الكبيرة المختلفة بناء على FRESHQA
في FRESHQA ، قارن الباحثون نماذج لغوية كبيرة تغطي معايير مختلفة ، بما في ذلك GPT-3 و GPT-4 و ChatGPT وغيرها. يتم إجراء التقييمات في كل من الوضع الصارم (مطلوب خال من الأخطاء) والوضع المتساهل (يتم تقييم الإجابات الأولية فقط).
استرجاع المعلومات ذات الصلة من محركات البحث
لتحسين الطبيعة الواقعية لنموذج اللغة الكبيرة ، فإن الفكرة الأساسية ل FRESH هي استرداد المعلومات في الوقت الفعلي حول المشكلة من محرك البحث.
** استرجاع المعلومات من خلال تكامل التدريب المتناثر **
يستخدم FRESH القليل من التعلم لدمج الأدلة المستردة في موجه الإدخال لنموذج اللغة الكبيرة بتنسيق موحد ، ويقدم العديد من العروض التوضيحية لكيفية تجميع الأدلة للوصول إلى الإجابة الصحيحة.
يمكن أن يعلم ذلك نماذج اللغة الكبيرة لفهم المهمة ودمج المعلومات من مصادر مختلفة للتوصل إلى إجابات محدثة ودقيقة.