لا تستخدم GPT-4 لاستخراج الملخصات النصية مباشرةً! أصدر معهد ماساتشوستس للتكنولوجيا وكولومبيا وما إلى ذلك تذكيرًا جديدًا بـ "سلسلة الكثافة": الكثافة المادية هي مفتاح الجودة المجردة

2023-10-01 09:13:30

المصدر الأصلي: Xinzhiyuan

مصدر الصورة: تم إنشاؤها بواسطة Unbounded AI

بعد إصدار ChatGPT، تطورت تقنية إنشاء النص بسرعة، ويواجه عدد كبير من مهام البرمجة اللغوية العصبية معضلة التغلب عليها بالكامل، خاصة بالنسبة لمهمة "ملخص النص" التي تفتقر إلى الإجابات القياسية.

لكن كيفية تضمين "قدر معقول من المعلومات" في الملخص لا تزال صعبة للغاية: يجب أن يكون الملخص الجيد مفصلاً ومتمركزًا حول الكيان، وليس كثيف الكيان ويصعب فهمه.

من أجل فهم أفضل للمفاضلة بين حجم المعلومات وسهولة الفهم، اقترح باحثون من معهد ماساتشوستس للتكنولوجيا وجامعة كولومبيا ومؤسسات أخرى "سلسلة كثيفة" جديدة يمكن استخدامها دون إضافة نص مجرد. يتم تحسين ملخص الكيانات المتناثرة الذي تم إنشاؤه بواسطة GPT-4 بشكل متكرر، وتتم إضافة الكيانات المهمة المفقودة تدريجيًا.

رابط الورق:

البيانات مفتوحة المصدر:

انطلاقًا من النتائج التجريبية، فإن الملخص الناتج عن CoD أكثر تجريدًا من ملخص GPT-4 الناتج عن المطالبات العادية، مما يُظهر المزيد من الاندماج وتحيزًا أقل للرصاص.

بعد إجراء دراسة تفضيل الإنسان على 100 مقالة من مقالات CNN DailyMail، يمكن العثور على أن البشر أيضًا أكثر ميلًا لاختيار نتائج ملخصة ذات كيانات أكثر كثافة، وهو ما يشبه كثافة الكيانات في الملخصات المكتوبة بواسطة الإنسان.

قام الباحثون بفتح مصادر 500 ملخص CoD مشروح و5000 بيانات مجردة غير مشروحة.

تحسين تلخيص النص بشكل متكرر

تَلمِيح()

هدف المهمة هو استخدام GPT-4 لإنشاء مجموعة من الملخصات ذات "مستويات مختلفة من كثافة المعلومات" مع التحكم أيضًا في طول النص.

اقترح الباحثون تلميحات حول سلسلة الكثافة (CoD، سلسلة الكثافة) لإنشاء ملخص أولي وجعل الكيانات أكثر كثافة وكثافة تدريجيًا.

على وجه التحديد، في ظل عدد ثابت من جولات التكرار، يتم تحديد مجموعة من الكيانات الفريدة والبارزة في النص المصدر ودمجها في الملخص السابق دون زيادة طول النص.

الملخص الأول الذي تم إنشاؤه هو متناثر الكيان، مع التركيز فقط على 1-3 كيانات أولية؛ من أجل الحفاظ على نفس طول النص مع زيادة عدد الكيانات المغطاة، يجب تشجيع التجريد والدمج والضغط بشكل صريح. بدلاً من إزالة المعنى محتوى الملخص السابق.

ولم يحدد الباحثون نوع الكيان، بل عرّفوا ببساطة الكيان المفقود بأنه:

**ذات صلة: **تتعلق بالقصة الرئيسية؛

محدد: وصفي ولكن موجز (5 كلمات أو أقل)؛

**الرواية: **لم تظهر في الملخصات السابقة؛

**المؤمن: **موجود في النص الأصلي؛

في أي مكان: يمكن أن يظهر في أي مكان في المقالة.

فيما يتعلق باختيار البيانات، اختار الباحثون عشوائيًا 100 مقالة من مجموعة اختبار ملخص CNN/DailyMail لإنشاء ملخصات CoD.

تمت بعد ذلك مقارنة إحصائيات ملخص CoD مع الملخصات المرجعية ذات النمط النقطي المكتوبة بواسطة الإنسان والملخصات التي تم إنشاؤها بواسطة GPT-4 تحت الموجه العادي، حيث كان الموجه "اكتب ملخصًا مختصرًا جدًا للمقالة، لا يزيد عن 70 كلمة" ( - كتابة ملخص قصير جداً للمقال (لا يتجاوز 70 كلمة).

يتم تعيين طول الرمز المميز المتوقع ليتوافق مع طول الرمز المميز لملخص CoD.

نتائج إحصائية

مؤشرات إحصائية مباشرة

استخدم NLTK لحساب عدد الرموز المميزة، واستخدم Spacy2 لقياس عدد الكيانات الفريدة، وحساب نسبة كثافة الكيان.

يحد تلميح CoD بشكل كبير من العدد المتوقع من الرموز المميزة لإنشاء الملخص. ويمكن ملاحظة أنه بدءًا من الخطوة الثانية، تتم إزالة الكلمات غير الضرورية تدريجيًا من الملخص الأولي المطول، مما يؤدي إلى تقليل متوسط طول النص بمقدار 5 رموز مميزة ( 72 إلى 67).

تزداد كثافة الكيان أيضًا، في البداية عند 0.089، وهي أقل من نتائج الإنسان وGPT-4 (0.151 و0.122 على التوالي)، وبعد 5 خطوات ترتفع الكثافة إلى 0.167.

مؤشرات إحصائية غير مباشرة

باستخدام الكثافة الاستخراجية (مربع متوسط طول الأجزاء المستخرجة) لقياس تجريد النص، من المتوقع أن يزيد النص مع تقدم تكرارات CoD.

استخدم "عدد الجمل الموجزة المحاذاة مع النص المصدر" كمؤشر دمج المفاهيم، حيث تستخدم خوارزمية المحاذاة "كسب ROUGE النسبي" لمحاذاة الجملة المصدر مع الجملة الهدف حتى لا تزيد الجمل الإضافية المضافة من ROUGE النسبي ومن المتوقع أن يزداد الاندماج تدريجيًا.

باستخدام "موضع محتوى الملخص في النص المصدر" كمؤشر لتوزيع المحتوى (توزيع المحتوى)، فإن طريقة القياس المحددة هي متوسط الترتيب لجميع جمل المصدر المحاذاة. ومن المتوقع أن يُظهر ملخص CoD في البداية تحيزًا واضحًا للرصاص ، ثم نبدأ بالتحرك تدريجياً من منتصف المقال، والجزء الختامي يقدم الكيانات.

كما أثبتت النتائج الإحصائية صحة النتائج المتوقعة: فقد زاد التجريد تدريجيا مع عملية إعادة الكتابة، وزاد معدل الدمج، وبدأ دمج الملخص في منتصف المقال وفي نهايته.

وجميع ملخصات CoD أكثر تجريدًا من الملخصات المكتوبة بخط اليد والتي تم إنشاؤها بواسطة النماذج الأساسية.

نتائج تجريبية

لفهم أفضل لمقايضات تلخيص CoD، أجرينا دراسة بشرية قائمة على التفضيلات وتقييمًا قائمًا على التصنيف باستخدام GPT-4.

تقييم التفضيلات البشرية

ركز الباحثون على تقييم تأثير التكثيف على تقييم الكتلة البشرية بشكل عام.

على وجه التحديد، من خلال إدخال 100 مقالة، يمكنك الحصول على "5 خطوات*100=500 ملخص في المجموع". يتم عرض نتائج الملخص بشكل عشوائي لأربعة شروحيين، واستنادا إلى دقة النص الأصلي (الجوهر)، والوضوح (الوضوح)، والملخصات يتم تقييمها على أساس الدقة والغرض والموجزة والأسلوب.

وانطلاقا من نتائج التصويت، حصلت الخطوة الثانية من CoD على أعلى تقييم. وبالجمع مع النتائج التجريبية السابقة لمتوسط الكثافة، يمكن استنتاج أن البشر أكثر ميلا إلى اختيار ملخصات نصية ذات كثافة كيان تبلغ حوالي 15٪، وهو ما يعادل 15٪. أعلى بكثير من ملخص GPT-4 (كثافة الكيان 0.122).

مقاييس التقييم التلقائي

أظهرت بعض الأعمال الحديثة أن تقييم GPT-4 له علاقة عالية جدًا بنتائج التقييم البشري، وربما يكون أداؤه أفضل من العاملين في التعهيد الجماعي في بعض مهام التعليقات التوضيحية.

كملحق للتقييم اليدوي، اقترح الباحثون استخدام GPT-4 لتقييم ملخصات CoD (1-5) من 5 جوانب: إعلامية (إعلامية)، والجودة (الجودة)، والتماسك (التماسك)، والإسناد (العزي) والإجمالي.

قالب الأمر المستخدم هو:

المادة: المادة ملخص: ملخص يرجى تقييم الملخص (1=الأسوأ إلى 5=الأفضل) فيما يتعلق بالبعد. التعريف

تعريفات كل مؤشر هي:

إعلامية: يمكن للملخص الإعلامي التقاط المعلومات المهمة في المقالة وتقديمها بدقة وإيجاز. (الملخص الإعلامي يلتقط المعلومات المهمة في المقالة ويعرضها بدقة وإيجاز.)

الجودة: ملخصات عالية الجودة مفهومة. (الملخص عالي الجودة يكون مفهومًا ومفهومًا.)

التماسك: الملخص المتماسك منظم بشكل جيد وجيد التنظيم. (يكون الملخص المتماسك جيد التنظيم والتنظيم.)

الإسناد: هل جميع المعلومات الواردة في الملخص منسوبة بالكامل إلى المقالة؟ (هل جميع المعلومات الموجودة في

الملخص المنسوب بالكامل إلى المادة؟)

التفضيل العام: يجب أن ينقل الملخص الجيد النقاط الرئيسية للمقالة بطريقة موجزة ومنطقية ومتماسكة. (يجب أن ينقل الملخص الجيد الأفكار الرئيسية في المقالة بطريقة موجزة ومنطقية ومتماسكة).

تظهر النتائج التجريبية أن التكثيف يرتبط بمحتوى المعلومات، ولكن النتيجة تبلغ ذروتها في الخطوة 4 (4.74)؛ وتتراجع الجودة والتماسك بشكل أسرع؛ وتعتبر جميع الملخصات منسوبة إلى المقالة المصدر؛ وتميل الدرجات الإجمالية إلى أن تكون أكثر لملخصات أكثر كثافة وأكثر إفادة. ، الخطوة 4 تسجل أفضل النتائج. في المتوسط، خطوات CoD الأولى والأخيرة هي الأقل تفضيلاً، في حين أن الخطوات الثلاث الوسطى قريبة (4.78، 4.77، و4.76 على التوالي).

التحليل النوعي

هناك مفاضلة بين التماسك/سهولة القراءة وغني بالمعلومات للملخص أثناء العملية التكرارية.

يوضح المثال أعلاه خطوتين من خطوات CoD، إحداهما تحتوي على محتوى أكثر تفصيلاً والأخرى تحتوي على محتوى أكثر صرامة.

في المتوسط، تحقق ملخصات CoD للخطوات الوسيطة توازنًا أفضل، ولكن لم يتم بعد تحديد كيفية تحديد هذا التوازن وتحديده بدقة.

مراجع:

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

تسجيلات الإعجاب 1

أعجبني
1
تعليق
مشاركة

تعليق

0/400

لا توجد تعليقات

الموضوع
1/3
1Gate Launchpad List IKA
50k درجة الشعبية
2ETH Back to $3,800
7k درجة الشعبية
3Tariff Deal New Update
6k درجة الشعبية
4Stablecoin Regulation
658 درجة الشعبية
5Gate ETH 10th Anniversary Celebration
24k درجة الشعبية

تثبيت

خريطة الموقع