هل أصبح GPT-4 مراجعًا للطبيعة؟ اختبر خريجو جامعة ستانفورد وتسينغهوا ما يقرب من 5000 ورقة بحثية، وكان أكثر من 50% من النتائج متسقة مع المراجعين البشريين.
المقدمة: اكتشف الباحثون في جامعة ستانفورد أن آراء المراجعة التي قدمتها GPT-4 في أبحاث Nature وICLR تشبه آراء المراجعين البشريين بنسبة تزيد عن 50%. يبدو أنه ليس من الخيال أن نسمح للنماذج الكبيرة بمساعدتنا في مراجعة الأوراق.
تمت ترقية GPT-4 بنجاح إلى المراجع!
في الآونة الأخيرة، أرسل باحثون من جامعة ستانفورد ومؤسسات أخرى آلافًا من أفضل مقالات المؤتمرات من Nature، وICLR، وما إلى ذلك إلى GPT-4، مما يسمح لها بتوليد تعليقات المراجعة واقتراحات المراجعة، ثم مقارنتها بالآراء التي قدمها المراجعون البشريون. يقارن.
عنوان الورقة:
ونتيجة لذلك، لم يقم GPT-4 بالمهمة على أكمل وجه فحسب، بل قام بها بشكل أفضل من البشر!
أكثر من 50% من الآراء التي تقدمها تتفق مع مراجع بشري واحد على الأقل.
وقال أكثر من 82.4% من المؤلفين أن الآراء التي قدمها GPT-4 كانت مفيدة للغاية.
وخلص جيمس زو، مؤلف الورقة: ما زلنا بحاجة إلى تعليقات بشرية عالية الجودة، ولكن يمكن لماجستير القانون مساعدة المؤلفين على تحسين المسودة الأولى للورقة قبل مراجعة النظراء الرسمية.
## الآراء التي يقدمها لك GPT-4 قد تكون أفضل من البشر
إذًا، كيف تجعل LLM يراجع مخطوطتك؟
الأمر بسيط للغاية، ما عليك سوى استخراج النص من ملف PDF الورقي، وإدخاله في GPT-4، وسيقوم بإنشاء تعليقات على الفور.
على وجه التحديد، نحتاج إلى استخراج وتحليل العنوان والملخص والأشكال وعناوين الجداول والنص الرئيسي للورقة من ملف PDF.
ثم أخبر GPT-4 أنك بحاجة إلى اتباع نموذج تعليقات المراجعة الخاص بمؤتمرات أفضل المجلات في الصناعة، والذي يتضمن أربعة أجزاء - ما إذا كانت النتائج مهمة وجديدة، وأسباب قبول الورقة، وأسباب رفض الورقة، واقتراحات للتحسين.
كما ترون من الصورة أدناه، أعطى GPT-4 آراء بناءة للغاية، وتضمنت التعليقات أربعة أجزاء.
ما هي العيوب في هذه الورقة؟
أشارت GPT-4 بشكل واضح إلى ما يلي: على الرغم من أن الورقة ذكرت ظاهرة الفجوة النموذجية، إلا أنها لم تقترح طريقة لتقليل الفجوة، ولم تثبت فوائد القيام بذلك.
قارن الباحثون ردود الفعل البشرية وملاحظات ماجستير إدارة الأعمال على 3096 ورقة بحثية من سلسلة Nature و1709 ورقة بحثية من ICLR.
يستخرج خط أنابيب مطابقة التعليقات المكون من مرحلتين نقاط التعليق في LLM والتعليقات البشرية على التوالي، ثم يقوم بإجراء مطابقة النص الدلالي لمطابقة نقاط التعليق الشائعة بين LLM والتعليقات البشرية.
يوضح الشكل أدناه مسارًا محددًا لمطابقة المراجعة على مرحلتين.
لكل مراجعة مقترنة، يتم إعطاء تصنيف التشابه مع الأساس المنطقي.
حدد الباحثون حد التشابه بـ 7، وسيتم تصفية التعليقات الضعيفة المطابقة.
في مجموعتي بيانات Nature وICLR، كان متوسط الطول المميز للأبحاث والتعليقات البشرية على النحو التالي.
شملت هذه الدراسة 308 باحثين من 110 مؤسسات للذكاء الاصطناعي ومؤسسات البيولوجيا الحاسوبية في الولايات المتحدة.
قام كل باحث بتحميل الورقة التي كتبها، وقراءة ردود الفعل على LLM، ثم قام بملء تقييمه الخاص ومشاعره حول ردود الفعل على LLM.
تظهر النتائج أن الباحثين بشكل عام يعتقدون أن التعليقات الناتجة عن LLM لها تداخل كبير مع نتائج المراجعين البشريين وعادة ما تكون مفيدة للغاية.
إذا كان هناك أي عيب، فهو أنه أقل تحديدًا قليلاً.
如下图所示,对于提交给Nature的论文,大约三分之一(30.85%) من تعليقات GPT-4 تتداخل مع تعليقات المراجعين البشريين.
في أبحاث ICLR، أكثر من ثلث (39.23%) من تعليقات GPT-4 تتداخل مع تعليقات المراجعين البشريين.
## لدى LLM والمراجعين البشريين أولويات مختلفة قليلاً
وفيما يلي تعليقات LLM والتعليقات البشرية على نفس ورقة ICLR.ويمكن ملاحظة أن LLM لديها رؤية شريرة للغاية والتعليقات في صميم الموضوع.
على سبيل المثال، بالمقارنة مع الأبحاث السابقة، ذكر المراجعون البشريون:
المقارنة معيبة. على وجه الخصوص، لا يتم أخذ اتساق التسمية وخسائر الاتساق المركزي لطريقة GNN بعين الاعتبار. ستكون المقارنة الأكثر عدلاً هي استخدام طريقة GNN التي تأخذ كلا الخسارتين في الاعتبار.
تقييم GPT-4 هو:
تفتقر الورقة إلى مقارنة شاملة مع الأساليب الحالية. على الرغم من أن المؤلفين قارنوا خطوط الأساس لبعض الأساليب، إلا أن هناك حاجة إلى مقارنة أكثر شمولاً.
فيما يتعلق بالموثوقية النظرية، أعطى المراجعون البشريون هذا الرأي——
IMHO، والدليل على النظرية تافهة للغاية. الاستنتاج النهائي هو أنه إذا كان التشابه مناسبا، فإن الإجراء المتوقع دقيق. نظرًا لأن النموذج يتعلم التشابه الصحيح، فهذا يعني أنه إذا تم تدريب النموذج h جيدًا، فسيكون الإخراج صحيحًا. و هذا واضح.
رأي GPT-4 هو:
يجب على المؤلف تقديم المزيد من التحليل النظري لمقارنة العلاقة بين نقل المعلومات وقيود الاتساق، بحيث يكون من الأسهل على القراء أن يفهموا.
فيما يتعلق بإعادة إنتاج الأبحاث، يأمل المراجعون البشريون أن تتمكن الورقة من توفير التعليمات البرمجية حتى يتمكن القراء الآخرون من إعادة إنتاج التجربة.
كما أعطى GPT-4 نفس الرأي حول هذا الأمر: "يجب على المؤلفين تقديم معلومات أكثر تفصيلاً حول الإعدادات التجريبية لضمان إمكانية تكرار الدراسة."
يعتقد المستخدمون الذين شاركوا في الاستطلاع عمومًا أن تعليقات LLM يمكن أن تساعد في تحسين دقة المراجعات وتقليل عبء العمل على المراجعين البشريين. ويعتزم معظم المستخدمين استخدام نظام ردود الفعل LLM مرة أخرى.
ومن المثير للاهتمام أن مراجعي LLM لديهم خصائصهم الفريدة مقارنة بالمراجعين البشريين.
على سبيل المثال، فإنه يذكر عوامل التأثير بمعدل 7.27 مرة أكثر من المراجعين البشريين.
من المرجح أن يطلب المراجعون البشريون تجارب استئصال إضافية، بينما ستركز LLM على طلب تجارب على المزيد من مجموعات البيانات.
قال جميع مستخدمي الإنترنت: هذا العمل مذهل!
يقول بعض الأشخاص أيضًا إنني في الواقع أفعل هذا منذ فترة طويلة، ولقد كنت أستخدم العديد من شهادات الماجستير في القانون لمساعدتي في تلخيص أوراقي وتحسينها.
تساءل أحدهم، فهل سيكون مراجعو GPT متحيزين من أجل تلبية معايير مراجعة النظراء الحالية؟
أثار بعض الأشخاص أيضًا مسألة قياس التداخل بين GPT وآراء المراجعة البشرية، فهل هذا المؤشر مفيد؟
افهم أنه من الناحية المثالية، لا ينبغي أن يكون لدى المراجعين الكثير من الآراء المتداخلة، ويتم اختيارهم بهدف تقديم وجهات نظر مختلفة.
ولكن على الأقل، يتيح لنا هذا البحث معرفة أنه يمكن بالفعل استخدام LLM كأداة لمراجعة الأوراق.
ثلاث خطوات، اسمح لـ LLM بمراجعة المخطوطة نيابة عنك
قم بإنشاء خادم تحليل PDF وتشغيله في الخلفية:
conda env create -f conda_environment.ymlcondaactivate ScienceBeampython -m sciencebeam_parser.service.server --port=8080 # تأكد من تشغيل هذا في الخلفية
2. إنشاء وتشغيل خادم الملاحظات LLM:
conda create -n llm python=3.10condaactivate llmpip install -r requires.txtcat YOUR_OPENAI_API_KEY > key.txt # استبدل YOUR_OPENAI_API_KEY بمفتاح OpenAI API الخاص بك بدءًا بـ "sk-"python main.py
افتح متصفح الويب وقم بتحميل ورقتك البحثية:
افتح ورقتك وقم بتحميلها، وستحصل على تعليقات من LLM خلال 120 ثانية تقريبًا.
## عن المؤلف
ويشين ليانغ
Weixin Liang هو طالب دكتوراه في قسم علوم الكمبيوتر بجامعة ستانفورد وعضو في مختبر ستانفورد للذكاء الاصطناعي (SAIL)، تحت إشراف البروفيسور جيمس زو.
وقبل ذلك، حصل على درجة الماجستير في الهندسة الكهربائية من جامعة ستانفورد، تحت وصاية البروفيسور جيمس زو والبروفيسور تشو يو؛ ودرجة البكالوريوس في علوم الكمبيوتر من جامعة تشجيانغ، تحت وصاية البروفيسور كاي بو والبروفيسور مينجلي سونغ. .
وقد تدرب في Amazon Alexa AI وApple وTencent، وعمل مع الأساتذة دانييل جورافسكي ودانييل أ. ماكفارلاند وسيرينا يونغ.
** يوهوي تشانغ **
يوهوي تشانغ طالب دكتوراه في قسم علوم الكمبيوتر في جامعة ستانفورد، تحت إشراف البروفيسور سيرينا يونغ.
تركز أبحاثه على بناء أنظمة ذكاء اصطناعي متعددة الوسائط وتطوير التطبيقات الإبداعية التي تستفيد من المعلومات متعددة الوسائط.
وقبل ذلك، أكمل دراساته الجامعية والماجستير في جامعة تسينغهوا وجامعة ستانفورد، وعمل مع باحثين بارزين مثل البروفيسور جيمس زو، والبروفيسور كريس مانينغ، والبروفيسور جور ليسكوفيك.
** هانتشنغ تساو **
هانتشنغ كاو هو طالب دكتوراه في السنة السادسة في قسم علوم الكمبيوتر في جامعة ستانفورد (تخصص علوم الإدارة والهندسة)، وهو أيضًا عضو في مجموعة البرمجة اللغوية العصبية ومجموعة التفاعل بين الإنسان والحاسوب في جامعة ستانفورد، والتي يشرف عليها البروفيسور دان ماكفارلاند ومايكل بيرنشتاين.
حصل على درجة البكالوريوس في الهندسة الإلكترونية من جامعة تسينغهوا عام 2018 بمرتبة الشرف.
منذ عام 2015، عمل كمساعد باحث في جامعة تسينغهوا، تحت إشراف البروفيسور لي يونغ والبروفيسور فاسيليس كوستاكوس (جامعة ملبورن). وفي خريف عام 2016، عمل تحت إشراف البروفيسور حنان سامت، الأستاذ الجامعي المتميز في جامعة ميريلاند. في صيف عام 2017، عمل كطالب تبادل ومساعد باحث في مجموعة MIT Media Lab Human Dynamics Group، تحت إشراف البروفيسور Alex 'Sandy' Pentland البروفيسور Xiaowen Dong.
تشمل اهتماماته البحثية العلوم الاجتماعية الحاسوبية، والحوسبة الاجتماعية، وعلوم البيانات.
مراجع:
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
هل أصبح GPT-4 مراجعًا للطبيعة؟ اختبر خريجو جامعة ستانفورد وتسينغهوا ما يقرب من 5000 ورقة بحثية، وكان أكثر من 50% من النتائج متسقة مع المراجعين البشريين.
** المصدر: ** شينزييوان
المقدمة: اكتشف الباحثون في جامعة ستانفورد أن آراء المراجعة التي قدمتها GPT-4 في أبحاث Nature وICLR تشبه آراء المراجعين البشريين بنسبة تزيد عن 50%. يبدو أنه ليس من الخيال أن نسمح للنماذج الكبيرة بمساعدتنا في مراجعة الأوراق.
تمت ترقية GPT-4 بنجاح إلى المراجع!
في الآونة الأخيرة، أرسل باحثون من جامعة ستانفورد ومؤسسات أخرى آلافًا من أفضل مقالات المؤتمرات من Nature، وICLR، وما إلى ذلك إلى GPT-4، مما يسمح لها بتوليد تعليقات المراجعة واقتراحات المراجعة، ثم مقارنتها بالآراء التي قدمها المراجعون البشريون. يقارن.
ونتيجة لذلك، لم يقم GPT-4 بالمهمة على أكمل وجه فحسب، بل قام بها بشكل أفضل من البشر!
وقال أكثر من 82.4% من المؤلفين أن الآراء التي قدمها GPT-4 كانت مفيدة للغاية.
إذًا، كيف تجعل LLM يراجع مخطوطتك؟
الأمر بسيط للغاية، ما عليك سوى استخراج النص من ملف PDF الورقي، وإدخاله في GPT-4، وسيقوم بإنشاء تعليقات على الفور.
على وجه التحديد، نحتاج إلى استخراج وتحليل العنوان والملخص والأشكال وعناوين الجداول والنص الرئيسي للورقة من ملف PDF.
ثم أخبر GPT-4 أنك بحاجة إلى اتباع نموذج تعليقات المراجعة الخاص بمؤتمرات أفضل المجلات في الصناعة، والذي يتضمن أربعة أجزاء - ما إذا كانت النتائج مهمة وجديدة، وأسباب قبول الورقة، وأسباب رفض الورقة، واقتراحات للتحسين.
ما هي العيوب في هذه الورقة؟
أشارت GPT-4 بشكل واضح إلى ما يلي: على الرغم من أن الورقة ذكرت ظاهرة الفجوة النموذجية، إلا أنها لم تقترح طريقة لتقليل الفجوة، ولم تثبت فوائد القيام بذلك.
يستخرج خط أنابيب مطابقة التعليقات المكون من مرحلتين نقاط التعليق في LLM والتعليقات البشرية على التوالي، ثم يقوم بإجراء مطابقة النص الدلالي لمطابقة نقاط التعليق الشائعة بين LLM والتعليقات البشرية.
لكل مراجعة مقترنة، يتم إعطاء تصنيف التشابه مع الأساس المنطقي.
حدد الباحثون حد التشابه بـ 7، وسيتم تصفية التعليقات الضعيفة المطابقة.
قام كل باحث بتحميل الورقة التي كتبها، وقراءة ردود الفعل على LLM، ثم قام بملء تقييمه الخاص ومشاعره حول ردود الفعل على LLM.
إذا كان هناك أي عيب، فهو أنه أقل تحديدًا قليلاً.
في أبحاث ICLR، أكثر من ثلث (39.23%) من تعليقات GPT-4 تتداخل مع تعليقات المراجعين البشريين.
وفيما يلي تعليقات LLM والتعليقات البشرية على نفس ورقة ICLR.ويمكن ملاحظة أن LLM لديها رؤية شريرة للغاية والتعليقات في صميم الموضوع.
تقييم GPT-4 هو:
رأي GPT-4 هو:
كما أعطى GPT-4 نفس الرأي حول هذا الأمر: "يجب على المؤلفين تقديم معلومات أكثر تفصيلاً حول الإعدادات التجريبية لضمان إمكانية تكرار الدراسة."
على سبيل المثال، فإنه يذكر عوامل التأثير بمعدل 7.27 مرة أكثر من المراجعين البشريين.
من المرجح أن يطلب المراجعون البشريون تجارب استئصال إضافية، بينما ستركز LLM على طلب تجارب على المزيد من مجموعات البيانات.
يقول بعض الأشخاص أيضًا إنني في الواقع أفعل هذا منذ فترة طويلة، ولقد كنت أستخدم العديد من شهادات الماجستير في القانون لمساعدتي في تلخيص أوراقي وتحسينها.
افهم أنه من الناحية المثالية، لا ينبغي أن يكون لدى المراجعين الكثير من الآراء المتداخلة، ويتم اختيارهم بهدف تقديم وجهات نظر مختلفة.
ثلاث خطوات، اسمح لـ LLM بمراجعة المخطوطة نيابة عنك
conda env create -f conda_environment.ymlcondaactivate ScienceBeampython -m sciencebeam_parser.service.server --port=8080 # تأكد من تشغيل هذا في الخلفية 2. إنشاء وتشغيل خادم الملاحظات LLM:
conda create -n llm python=3.10condaactivate llmpip install -r requires.txtcat YOUR_OPENAI_API_KEY > key.txt # استبدل YOUR_OPENAI_API_KEY بمفتاح OpenAI API الخاص بك بدءًا بـ "sk-"python main.py
افتح ورقتك وقم بتحميلها، وستحصل على تعليقات من LLM خلال 120 ثانية تقريبًا.
ويشين ليانغ
وقبل ذلك، حصل على درجة الماجستير في الهندسة الكهربائية من جامعة ستانفورد، تحت وصاية البروفيسور جيمس زو والبروفيسور تشو يو؛ ودرجة البكالوريوس في علوم الكمبيوتر من جامعة تشجيانغ، تحت وصاية البروفيسور كاي بو والبروفيسور مينجلي سونغ. .
وقد تدرب في Amazon Alexa AI وApple وTencent، وعمل مع الأساتذة دانييل جورافسكي ودانييل أ. ماكفارلاند وسيرينا يونغ.
** يوهوي تشانغ **
تركز أبحاثه على بناء أنظمة ذكاء اصطناعي متعددة الوسائط وتطوير التطبيقات الإبداعية التي تستفيد من المعلومات متعددة الوسائط.
وقبل ذلك، أكمل دراساته الجامعية والماجستير في جامعة تسينغهوا وجامعة ستانفورد، وعمل مع باحثين بارزين مثل البروفيسور جيمس زو، والبروفيسور كريس مانينغ، والبروفيسور جور ليسكوفيك.
** هانتشنغ تساو **
حصل على درجة البكالوريوس في الهندسة الإلكترونية من جامعة تسينغهوا عام 2018 بمرتبة الشرف.
منذ عام 2015، عمل كمساعد باحث في جامعة تسينغهوا، تحت إشراف البروفيسور لي يونغ والبروفيسور فاسيليس كوستاكوس (جامعة ملبورن). وفي خريف عام 2016، عمل تحت إشراف البروفيسور حنان سامت، الأستاذ الجامعي المتميز في جامعة ميريلاند. في صيف عام 2017، عمل كطالب تبادل ومساعد باحث في مجموعة MIT Media Lab Human Dynamics Group، تحت إشراف البروفيسور Alex 'Sandy' Pentland البروفيسور Xiaowen Dong.
تشمل اهتماماته البحثية العلوم الاجتماعية الحاسوبية، والحوسبة الاجتماعية، وعلوم البيانات.
مراجع: