منطق GPT-4 شائن للغاية! النتيجة الإجمالية للرياضيات والفيزياء والكيمياء في الجامعة أقل من النصف ، وجميع الأنواع الـ 21 من أسئلة التفكير تم إبطالها. ماركوس: الذكاء الاصطناعي العام بعيد جدًا

2023-08-11 06:05:56

** المصدر: ** Xinzhiyuan

** الدليل: ** أقوى GPT-4 على السطح يخطئ في تفكير الأسئلة واحدًا تلو الآخر! اجتذبت أحدث الأبحاث التي أجراها خريجو معهد ماساتشوستس للتكنولوجيا والصينية بجامعة كاليفورنيا في لوس أنجلوس العديد من مستخدمي الإنترنت لمشاهدتها.

لا يستطيع GPT-4 التفكير على الإطلاق!

في الآونة الأخيرة ، ذكرت دراستان أن أداء GPT-4 ضعيف في التفكير.

قام قسطنطين أركوداس ، وهو خريج من معهد ماساتشوستس للتكنولوجيا ، بتقييم GPT-4 على 21 نوعًا مختلفًا من مجموعات الاستدلال.

بعد ذلك ، يتم إجراء تحليل نوعي مفصل لأداء GPT-4 بشأن هذه المشكلات.

لقد وجدت الدراسات أن GPT-4 يظهر أحيانًا موهبة "أقوى دماغ" ، ولكن في الوقت الحالي ، ليس لدى GPT-4 قدرة منطقية على الإطلاق.

عنوان الورق:

بمجرد ظهور البحث ، تجمع العديد من مستخدمي الإنترنت للمشاهدة.

قال ماركوس ، "إذا كان هذا صحيحًا - كما قلت سابقًا - فنحن ما زلنا بعيدين عن الذكاء الاصطناعي العام. قد نحتاج إلى إجراء الكثير من إعادة المعايرة: لا يمكن أن يكون هناك الذكاء الاصطناعي العام بدون التفكير".

وجدت دراسة أخرى من UCLA وجامعة واشنطن أيضًا أن أداء GPT-4 و GPT-3.5 ضعيف في التفكير في مهام الرياضيات والفيزياء والكيمياء في الجامعة.

عنوان الورق:

قدم الباحثون SCIBENCH ، وهي مؤسسة علمية جامعية لحل المشكلات ، والتي تحتوي على مجموعتي بيانات: مجموعة بيانات مفتوحة ومجموعة بيانات مغلقة.

من خلال البحث المتعمق حول GPT-4 و GPT-3.5 باستخدام استراتيجيات تحفيز مختلفة ، تُظهر النتائج أن متوسط الدرجة الإجمالية لـ GPT-4 هو 35.8٪ فقط.

هذا البحث أيضًا لفت انتباه ماركوس مرة أخرى:

مسح منهجي للتفكير في الرياضيات والكيمياء والفيزياء ، يوضح أن LLMs الحالية تفشل في تقديم أداء مرضٍ ... لا توجد استراتيجية تلميح أفضل بكثير من غيرها.

دعونا نلقي نظرة فاحصة على كيفية فشل GPT-4 فشلاً ذريعاً في 21 مجموعة من المسائل والرياضيات والفيزياء والكيمياء.

21 مجموعة مشاكل ، GPT-4 التمرير الكامل

ومع ذلك ، قبل النظر في GPT-4 للإجابة على السؤال ، يعطي المؤلف ملاحظة:

GPT-4 هو نظام غير حتمي وقد ينتج إجابات مختلفة في عمليات تشغيل مختلفة حتى مع نفس إعدادات المعلمة.

في حين أن التبادلات التجريبية التالية حرفيًا ، في تجربة المؤلف ، فإن الأشياء التي تمت مناقشتها في الورقة البحثية حيث يحدث خطأ في GPT-4 تميل إلى أن تكون قوية.

** عملية حسابية بسيطة واحدة **

تعد القدرة على إجراء العمليات الأساسية شرطًا ضروريًا للتفكير.

ومع ذلك ، لا يزال GPT-4 غير قادر على إجراء العمليات الحسابية الأساسية بشكل موثوق مثل الجمع والضرب.

على سبيل المثال ، اسمح لـ GPT-4 بتحديد رقمين بشكل عشوائي بين 1381 و 1453 لضربهما وإعطاء النتيجة.

اختارت GPT-4 1405 و 1421 ، لكن النتيجة النهائية كانت خاطئة بشكل واضح. لأن 1405 × 1421 = 1996505.

** عدد 2 بسيط **

في حين أن العد المحدد ليس بالضرورة نشاطًا منطقيًا ، فهو بالتأكيد شرط أساسي لأي نظام تفكير ذي قدرة عامة.

هنا ، يُعطى GPT-4 متغيرًا مقترحًا ويبدأ بـ 27 رمزًا للنفي ، ويطلب منه حساب عدد رموز النفي.

بالنسبة لنا ، كان الأمر سهلاً ، خاصة وأن النفي مكتوبة 5 على حدة ، وهناك 5 مجموعات ، مع آخر زوج من النفي يتبع مباشرة.

ومع ذلك ، أعطى GPT-4 "28" إجابة.

** 3 (طبي) الفطرة السليمة **

في الوقت الحالي ، يمكننا التفكير في الحجج المنطقية على أنها استنتاجات بسيطة مستمدة من معلومات معينة بالإضافة إلى شروط غير مذكورة (الافتراضي ، المعرفة الخلفية المقبولة عمومًا).

في هذه الحالة بالذات ، المعرفة المنطقية هي اقتراح مثل "يعيش الإنسان حتى يموت ، ولا يعيش أبدًا بعد الموت".

على سبيل المثال ، عندما تسأل GPT-4: معدل ضربات قلب ميبل هو 75 نبضة في الدقيقة في الساعة 9 صباحًا وضغط الدم 120/80 في الساعة 7 مساءً. توفيت في الساعة 11 مساءً. هل هي على قيد الحياة في الظهيرة؟

أجاب GPT-4: وفقًا للمعلومات المقدمة ، من المستحيل تحديد ما إذا كان Mable لا يزال على قيد الحياة عند الظهر.

ولكن من الواضح أنه بناءً على المعلومات المقدمة ، فإن الاستدلال المنطقي (بدون تفكير) يؤدي مباشرة إلى الاستنتاجات.

** 4 المنطق الابتدائي **

إذا كانت P (x) تحتوي على Q (x) ، و Q (a) لا تصمد ، فيمكننا أن نستنتج من النموذج أن P (a) لا تحمل (لأنه إذا احتفظت P (a) ، فإن Q (a) سوف عقد).

هذا حشو أساسي ، لكن GPT-4 يقترح نموذجًا مضادًا تمامًا:

值得注意的是，GPT-4认识到，P(x)实际上并不包含Q(x) ، واقترح أن x قد يكون عددًا زوجيًا سالبًا ، "لا يستبعد وجود نماذج بشروط معينة أخرى".

في الواقع ، يجب أن يفي النموذج المضاد بجميع الشروط المعطاة ويزور الاستنتاج في نفس الوقت.

علاوة على ذلك ، بعد بضع جمل فقط ، تدعي GPT-4 أن P (x) تعني Q (x) بموجب التفسير المحدد ، مما يتعارض مع بيانها السابق.

لاحظ أن GPT-4 بها أيضًا تناقضات داخلية.

** 5 دلالات الكمي البسيطة **

تأمل الجمل الثلاث التالية:

[forall x. الفوسفور (س) ==> س (س)]
[موجود س. ف (خ)]
[موجود x. ∼ س (خ)]

يرجى تزوير أو إثبات الادعاء التالي: هذه الجمل الثلاثة قابلة للإرضاء بشكل مشترك.

显然，这三个句子都是共同可满足的，一个简单的模型是具有P(a1)、Q(a1)、¬P(a2) والمجال {a1، a2} لـ ¬Q (a2) ، ومع ذلك ، فإن الاستنتاج الذي توصل إليه GPT-4 هو عكس ذلك.

** 6. تلوين بسيط للرسم البياني **

ضع في اعتبارك أولاً مشكلة تلوين الرسم البياني بدون حل.

ليس من الصعب رؤية أن لونين غير كافيين للرسم البياني الموصوف في هذا السؤال (على سبيل المثال ، تشكل الرؤوس 0 و 2 و 4 كتلة ، لذلك يلزم توفر 3 ألوان على الأقل).

في هذا الإخراج القصير ، هناك أطنان من أخطاء إسقاط الفك.

يبدأ GPT-4 بادعاء كاذب أن الرسم البياني مكتمل (من الواضح أنه لا يوجد حافة بين الرؤوس 2 و 3).

من الواضح أيضًا أنه إذا كان الرسم البياني مكتملًا حقًا ، فمن المستحيل تلوينه بلونين ، نظرًا لأن الرسم البياني الكامل المكون من 6 رؤوس يحتاج إلى 6 ألوان على الأقل.

بعبارة أخرى ، ادعاءات GPT-4 ليست خاطئة فحسب ، ولكنها غير متسقة: تخبرنا لحظة واحدة (خطأ) أن هذا الرسم البياني المكون من 6 رؤوس مكتمل ، مما يعني أنه من المستحيل تلوينه بلونين ، وهناك لحظة أخرى توفر A اثنان -لون "حل".

من الجدير بالذكر أن السبب وراء ضعف أداء GPT-4 ليس لأنه لا يحتوي على معلومات أو بيانات كافية بالرسم البياني.

عندما سأل الباحثون GPT-4 عن فهمه لـ "الرسوم البيانية الكاملة" ، فقد طرح التعريف الصحيح لـ "الرسوم البيانية الكاملة" ، جنبًا إلى جنب مع قائمة طويلة من النتائج لـ K \ _n (الرسوم البيانية الكاملة ذات الرؤوس n).

من الواضح أن GPT-4 قد حفظت كل هذه المعلومات ، لكن لا يمكنها تطبيقها على الظروف الجديدة.

** 7. مجموع المجموعة الفرعية **

S = {2 ، 8 ، 6 ، 32 ، 22 ، 44 ، 28 ، 12 ، 18 ، 10 ، 14}. إذن كم عدد مجموعات فرعية من S يبلغ مجموعها 37؟

في هذه المسألة ، تكون المجموعة الفرعية لـ S زوجية ، ولا يمكن أن يكون مجموع الأرقام الزوجية فرديًا ، لذا فإن الإجابة هي 0.

ومع ذلك ، بدلاً من التوقف عن التفكير في ما يحتويه S ، يولد GPT-4 بشكل انعكاسي ما يعتقد أنه إجابة مناسبة للسؤال ، ثم ينتقل إلى "السحر" إجابة "4".

** 8 الرياضيات المتقطعة الابتدائية **

أخبر GPT-4 أن A × B تمثل المنتج الديكارتي للمجموعتين A و B ، وأن العلاقة R من A إلى B هي مجموعة فرعية من A × B ، وهذا & يمثل تقاطع المجموعة ثم اطلب منه الإثبات أو التزوير :

其中R1和R2是从A到B的二元关系，dom(R) يمثل مجال العلاقة الثنائية R.

يلزم الاحتفاظ بعلاقة المجموعة الفرعية في كلا الاتجاهين (2) ، لكنها تبقى فقط في الاتجاه من اليسار إلى اليمين. من السهل العثور على أمثلة معاكسة في الاتجاه الآخر (على سبيل المثال ، خذ A = {(1، 2)} و B = {(1،3)}).

ومع ذلك ، يستنتج GPT-4 أن هذا صحيح ، وهو أمر غير صحيح بشكل واضح.

** 9 خطط ترتيب بسيطة **

فيما يتعلق بمسألة التوقيت ، فقد أخطأ GPT-4 أيضًا.

اسحب لأعلى ولأسفل لعرض الكل

** 10 مفارقة راسل **

تنص مفارقة الحلاق لدى راسل على وجود حلاق ب يحلق فقط أولئك الذين لا يحلقون أنفسهم.

إن نفي هذه الجملة هو حشو ، يمكن استنتاجه بسهولة باستخدام منطق الدرجة الأولى.

إذا فهمنا R (a ، b) على أنه كائن حلق بواسطة b ، فيمكننا أن نتوصل إلى هذا الحشو ونطلب من GPT-4 إثباته أو دحضه ، على النحو التالي:

إذا كان هناك مثل هذا الحلاق x ، فبالنسبة لكل y سيكون لدينا R (y، x) <==> ∼ R (y، y) ، لذا فإن استبدال x بـ y سيعطي R (x، x) <==> ∼ R (x، x) وهو تناقض.

GPT-4 لديه فهم لا تشوبه شائبة لهيكل الجمل التي يتم تقديمها وما يجب القيام به. ومع ذلك ، فإن دراسات الحالة اللاحقة مشوشة.

** 11 عالم طوب **

هذه مهمة تفكير بسيطة تتطلب تحليل حالة للكتلة الإنشائية قبل الأخيرة B3.

أولاً ، يكون B3 إما أخضر أو ليس كذلك.

إذا كان لونه أخضر ، فسيكون B3 أعلى الكتلة غير الخضراء B4 ، وبالتالي فإن الاستنتاج ثابت.

إذا لم يكن الأمر كذلك ، فإن الكتلة الخضراء الثانية B2 من الأعلى موجودة في الكتلة غير الخضراء B3 ، وبالتالي فإن النتيجة لا تزال قائمة.

ومع ذلك ، أظهرت النتائج أن GPT-4 لم يكن أداءً جيدًا.

هناك خمس كتل مكدسة من أعلى إلى أسفل: 1. الكتلة الثانية من الأعلى خضراء 2. الكتلة الرابعة من الأعلى ليست خضراء في الحالات التي تثبت فيها هذه الشروط أو تزيف أو تثبت ما يلي: هناك كتلة خضراء مباشرة فوق كتلة غير خضراء.

بادئ ذي بدء ، عندما يثبت التخمين ، يكون قد أخطأ بالفعل في استراتيجية الإثبات - يفترض PT-4 حالتين خاصتين للتفكير.

بالإضافة إلى ذلك ، توصل GPT-4 إلى نتيجة (وإن كانت خاطئة) في منطقه الخاص ، لكنه لا يزال يخبر المستخدم أن المشكلة لم يتم حلها عند الإجابة. وهذا يعكس التناقض الداخلي للنموذج.

** 12 التفكير المكاني **

هنا يختار المؤلف مشكلة توجه في العالم الحقيقي:

الإجابة التي قدمها GPT-4 لأول مرة على اليمين ، لكن المؤلف أشار إلى خطأها. على الرغم من أن بوسطن ، ماساتشوستس ، تقع بالفعل على يمين ساوث داكوتا من الخريطة ، إلا أن هناك شرطًا إضافيًا هنا: الاتجاه من الجسم إنها تكساس.

هذا يعني أن بوسطن على يسار المؤلف.

في وقت لاحق ، عندما أجاب GPT-4 على المناصب العالية والمنخفضة في بوسطن وساوث داكوتا ، ظهرت مشكلة أكثر خطورة: أعطت وصفين متناقضين في نفس الإجابة.

** 13 وقت التفكير **

يقدم المؤلف هنا سؤالًا منطقيًا بسيطًا نسبيًا ، لكن إجابة GPT-4 لا تزال فوضوية.

توم ونانسي بحاجة إلى وسيلة مواصلات للعمل. يستغرق وقت تنقل نانسي حوالي 30-40 دقيقة ، بينما يستغرق تنقل توم حوالي 40-50 دقيقة. يوم الجمعة الماضي ، غادرت نانسي المنزل بين الساعة 8:10 و 8:20 صباحًا ، ووصل توم إلى العمل بين الساعة 8: 5 و 9:10 صباحًا. أيضًا ، تصل نانسي إلى العمل بعد أن يغادر توم المنزل ، ولكن ليس بعد أكثر من 20 دقيقة. هل يمكنك أن تستنتج متى وصل توم ونانسي إلى العمل يوم الجمعة الماضي؟

بعد فرز المعلومات الواردة في السؤال ، تقدم GPT-4 عملية التفكير الخاصة بها:

"إذا غادر توم المنزل في آخر وقت ممكن (8:20 صباحًا) ..." تبدأ هذه الجملة بشكل خاطئ.

في الواقع ، لم يمنح العنوان آخر وقت لتوم لمغادرة المنزل ، وأساءت GPT-4 استخدام وقت نانسي ("غادرت نانسي المنزل بين 8: 10-8: 20 صباحًا") لتوم.

في الوقت نفسه ، فإن العبارة الشرطية التي قدمتها GPT-4 مربكة ، ويحتوي الافتراض على معلومات (توم) لا تتعلق بالاستنتاج (وقت وصول نانسي): "إذا غادر توم المنزل في آخر وقت (8:20) صباحًا) ، نانسي تغادر في موعد أقصاه (8:20 صباحًا) ، وتستغرق تنقلاتها 40 دقيقة على الأكثر ، وتصل نانسي إلى العمل في الساعة 9:00 صباحًا على أبعد تقدير. "

يجب ذكر ذلك على النحو التالي: "إذا غادرت نانسي في آخر موعد لها (8:20 صباحًا) ، وكانت تنقلاتها 40 دقيقة على الأكثر ، فستصل نانسي إلى العمل الساعة 9:00 صباحًا على أبعد تقدير."

ثم يستنتج GPT-4 عن طريق الخطأ ما يلي: "نظرًا لأن تنقل توم يستغرق 40 دقيقة على الأقل ، فهذا يعني أنه سيصل إلى العمل في موعد أقصاه 9:00 صباحًا."

من الواضح أن هذا الاستنتاج لا يمكن الدفاع عنه على الإطلاق. لا يمكن استخلاص هذا الاستنتاج من الحقيقة المعروفة المتمثلة في أن وقت تنقل توم لا يقل عن 40 دقيقة.

لا تزال الإجابة التالية مبنية على الافتراض الخاطئ بأن وقت مغادرة توم الأول هو 8:10 صباحًا (مرة أخرى ، وقت المغادرة هذا هو نانسي ، وليس وقت توم).

ثم تدعي أن نانسي وصلت في الساعة 8:45 ، وهي غير مؤهلة لمغادرة المنزل في الساعة 8:10 صباحًا خلال 20 دقيقة.

في النهاية ، خلصت بشكل غير صحيح إلى أن كلاً من توم ونانسي وصل بين الساعة 8:50 والساعة 9:00.

في عملية الاستدلال ، عرض GPT-4 المعلومات بشكل متكرر بطريقة خاطئة ، والإجابة النهائية هي أيضًا إجابة خاطئة بناءً على ظروف خاطئة.

** 14. قتل أم انتحار؟ **

تصور المؤلف لغزًا منطقيًا وسرد 9 شروطًا ليطلب من GPT-4 معرفة من قتل العمة أجاثا حقًا.

شخص عاش في Dreadbury Mansion قتل العمة أجاثا. 2. الساكنون الوحيدون في Dreadbury Mansion هم العمة أجاثا ومدبرة المنزل وتشارلز. 3. دائماً ما يكره القاتل ضحاياه ، ولا يزداد ثراءً أبدًا من ضحاياه. 4. تشارلز لا يكره الأشخاص الذين تكرههم العمة أجاثا. 5. كانت العمة أجاثا تكره الجميع باستثناء مدبرة المنزل. 6. الخادم الشخصي يكره كل من ليس أغنى من العمة أجاثا. 7. الخادم الشخصي يكره الجميع تكره العمة أجاثا. 8. لا أحد يكره الجميع. 9. لم تكن العمة أجاثا تعمل في منزلها.

الجواب الصحيح هو أن العمة أغاثا انتحرت.

أولاً ، بشرط 5 ، يجب أن تكره العمة أجاثا نفسها لأنها تكره الجميع باستثناء مدبرة المنزل.

لذلك ، وفقًا للشرط 4 ، يترتب على ذلك أن تشارلز لا يكرهها ، لذلك لا يمكنه قتلها.

وفقًا للشرطين 5 و 7 ، من المستحيل على الخادم الشخصي أن يكره نفسه ، لأنه إذا كره نفسه ، فلن يصمد الشرط 8 ، وسيكره الجميع.

ووفقًا للشرط 6 ، يستنتج أن الخادم الشخصي أغنى من العمة أجاثا ، وإلا فإنه سيكره نفسه ، وهو ما يتناقض مع ما خلصنا إليه سابقًا أنه لا يكره نفسه.

وفقًا للشرط 3 ، لن يكون الخادم الشخصي هو القاتل أيضًا (الشرط 3).

في التفكير ، استبعد GPT-4 تشارلز بشكل صحيح ، لكنه لم يستطع استبعاد الخادم الشخصي ، وتوصل إلى نتيجة خاطئة: الخادم الشخصي كان القاتل.

خطأ فادح آخر ارتكبته GPT-4: نظرًا لأن العمة أجاثا تكره الجميع باستثناء مدبرة المنزل (الحالة 5) ، فهذا يعني أنها على الأقل لا تكره نفسها.

هذا خطأ عجيب ، حيث يترتب على الشرط الخامس أن العمة أجاثا تكره نفسها.

في الوقت نفسه ، أظهر GPT-4 مرة أخرى تناقضات متكررة - في كل استجابة تقريبًا ، ادعى GPT-4 أنه اشتق اقتراحًا معينًا وشكله السلبي.

** مهمة اختيار 15 واتسون **

مهمة اختيار واطسون هي محتوى أساسي في مجال التفكير العقلي.

في ورقة يناير ، فشل GPT-3.5 في هذا الاختبار ، وفي هذه الدراسة ، لا يزال أداء GPT-4 غير مثالي.

هناك 7 بطاقات على الطاولة ، كل بطاقة بها رقم مكتوب على جانب واحد وكتلة ملونة واحدة على الجانب الآخر. تظهر على مقدمة هذه البطاقات 50 ، 16 ، أحمر ، أصفر ، 23 ، أخضر ، 30. لتحديد حقيقة الاقتراح "إذا أظهرت البطاقة مضاعفات 4 في المقدمة ، فإن اللون الموجود على ظهرها أصفر" ، ما هي البطاقات التي تحتاج إلى قلبها؟

تظهر هذه الردود أن GPT-4 لا يفهم دلالات العبارات الشرطية. عندما تقول GPT-4 أنه يجب قلب البطاقتين "50" و "30" ، يبدو أنه يخطئ في الشرط باعتباره شرطًا ضروريًا وكافيًا.

بغض النظر عما إذا كانت إجابة GPT-4 صحيحة أم خاطئة ، فإن بياناتها الداخلية غير متسقة.

** 16 الانتروبيا **

الاستنتاج الأساسي لنظرية المعلومات هو: الحد الأعلى للإنتروبيا للمتجه العشوائي Z لا يتجاوز مجموع إنتروبيا المتغيرات العشوائية التي تشكل Z.

لذلك ، يجب أن تكون الإجابة على السؤال التالي "لا تحت أي ظرف من الظروف".

** 17 تصحيح مترجم بسيط **

تعد مشكلة الاستدلال النهائية لـ GPT-4 هي الأكثر صعوبة: إثبات صحة مترجم التعبير البسيط.

ولكن في هذا الاختبار ، حصل GPT-4 على الدليل الصحيح من خلال تحديد الحث الهيكلي على البنية النحوية المجردة للتعبيرات.

قد يكون هذا بسبب أنها شاهدت براهين مماثلة من قبل ، والأمثلة التي قدمها المؤلفون هي نوع التمارين الشائعة في دورات البرمجة والكتب المدرسية.

ومع ذلك ، لا يزال لدى GPT-4 بعض الأخطاء في التفاصيل.

## ** الخلاصة: القدرة على التفكير أمر بالغ الأهمية ، لكن GPT-4 لن تكون كذلك **

بالنظر إلى أن GPT-4 هي حاليًا أكثر LLM قدرة ، يقدم المؤلف ثلاثة استنتاجات رئيسية بناءً على التحليل أعلاه:

استخدام الذكاء الاصطناعي التوليدي في تطوير البرمجيات (أو العلوم والهندسة بشكل عام) ، باستثناء بعض المهام الشاقة (كنوع من الإكمال التلقائي السريع لمشاكل الترميز التي تتطلب معرفة مكثفة) ، محفوف بالمخاطر. في هذه المجالات ، تعد المعيارية والصواب أمرًا بالغ الأهمية ، وتفشل LLM الحالية في تلبية هذه المعايير.
مع استمرار تحسن القدرة المنطقية لـ LLM ، سيصبح فحص الإثبات الصارم أكثر وأكثر أهمية. يمكن لهذا النهج فحص المنطق المعبر عنه في اللغة الطبيعية من خلال مطالبة LLMs بإضفاء الطابع الرسمي على منطقهم ، أو عن طريق تدريب LLMs الأخرى.
كما هو الحال ، فإن السيناريوهات البائسة للذكاء الاصطناعي الذي يغزو البشر أو البشر باستخدام الذكاء الاصطناعي لأغراض شائنة بعيدة المنال ، حتى إلى درجة العبثية. عندما لا تستطيع أنظمة الذكاء الاصطناعي الحديثة التمييز بين اليسار واليمين (السؤال 12 أعلاه) ، فإن المطالبة بسياسات لحماية البشر منه سابق لأوانه في أفضل الأحوال ، وفي أسوأ الأحوال إهدار للموارد.

حتما ، قد يقول البعض أن هذه النتائج هي "بيانات مختارة". لكن هذا بسبب سوء فهمهم لبيانات التنظيم. اعتمادًا على الهيكل المنطقي والسياق العام للمقترح المعني ، يكون انتقاء البيانات ضروريًا في بعض الأحيان.

تصحيح أخطاء برنامج كمبيوتر لاكتشاف وفهم نقاط ضعفه ، ومحاولة تزوير نظرية علمية ، واختبار قيادة سيارة جديدة ، ومحاولة العثور على نموذج مضاد لنظرية مفترضة ، وما إلى ذلك ، كلها أمور غير صحيحة في الأساس.

على سبيل المثال ، إذا اكتشفت أن سيارتك الجديدة بها إطار مثقوب ، فيمكن للوكيل الاحتجاج على أنك "تختار البيانات". بعد كل شيء ، بالنسبة للسيارة بأكملها ، فإن معدل سلامة الإطار يصل إلى 75٪.

وبالمثل ، فإن التطبيقات في العلوم والطب والهندسة ، وخاصة هندسة البرمجيات ، لها معايير صارمة.

تمامًا مثلما لا نريد جسرًا سيقف على أعمدة 90٪ من الوقت ، نحتاج إلى خوارزميات الفرز التي تعمل على جميع المدخلات ، وليس فقط معظمها ؛ نحتاج إلى عربات تشحن المبلغ الصحيح في كل مرة ، وليس فقط معظم الوقت ، إلخ.

ويجب أن تكون تطبيقات الحوسبة والاستدلال هذه ، على عكس محركات التوصية ، موثوقة للغاية.

عن المؤلف

** قسطنطين أركوداس **

حتى العام الماضي ، كان كونستانتين أركوداس باحثًا في قسم العلوم المعرفية في RPI وباحثًا في CSAIL التابع لمعهد ماساتشوستس للتكنولوجيا.

حاليًا ، هو عالم أبحاث أول في Telcordia Research Laboratories ، مع التركيز على الذكاء الاصطناعي وتطبيق الأساليب الرسمية على مشاكل العالم الحقيقي في صناعات الاتصالات والشبكات.

حصل على الدكتوراه في علوم الكمبيوتر من معهد ماساتشوستس للتكنولوجيا عام 2000. قبل ذلك ، حصل أيضًا على درجة الماجستير في علوم الكمبيوتر ، ودرجة الماجستير في الفلسفة ، ودرجة البكالوريوس في علوم الكمبيوتر مع تخصص فرعي في الفلسفة.

الرياضيات الجامعية والفيزياء والكيمياء ، درجة GPT-4 35.8٪

في بحث جامعة كاليفورنيا ، تم تقييم القدرة المنطقية لـ GPT-4 و GPT-3.5 في الرياضيات والكيمياء والفيزياء بشكل أساسي.

في الوقت الحالي ، من أجل تعزيز قدرة LLM على حل الرياضيات والمهام الأخرى ، اقترح بعض الأشخاص استراتيجية CoT مرتبطة بالتفكير لتوجيه النموذج الكبير لتوليد إجابات تدريجيًا ، وذلك للتفكير بشكل أعمق في المشكلة.

ومع ذلك ، حتى لو كان لمثل هذا النهج مزايا محددة ، فمن الصعب حل المشكلات العلمية المعقدة بشكل كامل.

أدناه ، هو مثال لمشكلة في الكيمياء الفيزيائية بالكلية والحلول التي تم إنشاؤها في إطار استراتيجيتي التلميح.

يحتوي GPT-4 مع نعمة CoT على أخطاء حسابية واضحة ، كما أن GPT-4 ، الذي يحفز استخدام Python كأداة خارجية ، سوف يسيء أيضًا فهم المعادلات الرياضية.

تم وضع علامة على الأخطاء باللون الأحمر ، والتصحيحات باللون الأرجواني

تحقيقا لهذه الغاية ، تم إدخال SCIBENCH ، وهو معيار على مستوى الجامعة للأسئلة العلمية ، في الدراسة.

من بينها ، تتضمن "مجموعة البيانات المفتوحة" 5 مسائل تم جمعها من الكتب المدرسية المستخدمة على نطاق واسع في الدورات الجامعية ، والتي تغطي الفيزياء الأساسية والديناميكا الحرارية والميكانيكا الكلاسيكية وكيمياء الكم والكيمياء الفيزيائية وحساب التفاضل والتكامل والإحصاء والمعادلات التفاضلية.

ملخص مشاكل الكتاب المدرسي المفتوح (يشمل النسبة المئوية لعدد المشاكل ، والنسبة المئوية مع الحلول التفصيلية)

والآخر عبارة عن "مجموعة بيانات مغلقة" ، والتي تحتوي على 7 مجموعات من أسئلة الاختبار النصفي والنهائي لثلاث دورات جامعية في علوم الكمبيوتر والرياضيات من أجل محاكاة تقييم العالم الحقيقي.

مجموعة بيانات الاختبار المغلق (تحتوي على عدد مثيلات الأسئلة في كل اختبار ، ونسبة الأسئلة في الاختبار التي تحتوي على حلول تفصيلية. أيضًا ، نسبة الأسئلة بتنسيقات مختلفة ، بما في ذلك الرد الحر ، والاختيار من متعدد ، والصواب-الخطأ الإجابات. كمرجع ، تشير الأرقام الموجودة بين قوسين إلى نقاط الائتمان للأسئلة.)

على عكس المعايير الحالية ، فإن جميع الأسئلة في SCIBENCH هي أسئلة مفتوحة ومجانية الإجابة.

مع توفر مجموعة البيانات ، ركزت الدراسة على تقييم اثنين من LLMs تمثيلية ، GPT-3.5 و GPT-4 ، واستخدمت استراتيجيات تحفيز مختلفة ، بما في ذلك CoT ، والتعلم بدون طلقة ، والتعلم قليل اللقطات.

بالإضافة إلى ذلك ، حث الباحثون النموذج أيضًا على استخدام أدوات خارجية ، مثل Python و Wolfram Language.

تظهر النتائج التجريبية أنه بدون أي تلميحات معقدة أو استخدام أدوات خارجية ، فإن متوسط معدلات الدقة لـ GPT-3.5 و GPT-4 في مجموعات البيانات المفتوحة هو 10.62٪ و 16.81٪ على التوالي.

بعد ذلك ، بعد إضافة CoT والأدوات الخارجية ، يكون أعلى معدل دقة في نفس مجموعة البيانات هو 35.8٪ فقط. ومع ذلك ، بالمقارنة مع السابق ، تم تحسين معدل الدقة بشكل كبير.

نتائج الدقة في مجموعات البيانات المفتوحة

في ظل أقوى تكوين باستخدام تلميحات CoT + الأدوات الخارجية ، حقق GPT-4 متوسط درجة 35.80٪ في مجموعة البيانات المفتوحة و 51.57٪ في مجموعة البيانات المغلقة.

تشير هذه النتائج إلى أن GPT-4 لديها إمكانات كبيرة للتحسين في LLMs في المستقبل.

النتائج التجريبية للنتيجة الإجمالية تحت التعلم بدون طلقة في مجموعة بيانات الاختبار

لاكتساب فهم شامل لقيود LLM في حل المشكلات العلمية ، يقترح الباحثون نهجًا جديدًا "لتحسين الذات" لاكتشاف أوجه القصور في الإجابات التي قدمتها LLM.

هذه هي "اتفاقية التقييم" على النحو التالي.

أولاً ، تتم مقارنة الحل الصحيح مع الحل الذي تم إنشاؤه بواسطة LLM ، وبمساعدة المعلقين البشريين ، يتم تلخيص 10 مهارات أساسية مطلوبة لحل المشكلات العلمية بنجاح.

تشمل على وجه التحديد: التحليل المنطقي والمهارات التحليلية ؛ تحديد الفرضيات ؛ الإدراك المكاني ؛ التفكير السببي ؛ استنتاج المشكلة ؛ التفكير المجرد ؛ المعرفة العلمية ؛ تبديل الكود ؛ التفكير المنطقي ؛ الحساب.

استخدم الفريق بعد ذلك نهج التقييم الذاتي القائم على LLM لتصنيف المهارات التي كانت تفتقر إليها الحلول التي تم إجراؤها بواسطة LLM الأساسي لكل تكوين تجريبي تلقائيًا.

ملفات تعريف أخطاء GPT-3.5 في مجموعات البيانات النصية ضمن 6 إعدادات ، تكشف عن توزيع العيوب في قدرات حل المشكلات الأساسية العشر

أخيرًا ، من خلال التحليل ، وجد أن:

(1) على الرغم من أن CoT تحسن بشكل كبير من القدرة الحاسوبية ، إلا أنها أقل فاعلية في الجوانب الأخرى ؛

(2) نصائح من استخدام أدوات خارجية قد تضعف المهارات الأساسية الأخرى ؛

(3) لا يؤدي التعلم بجرعات قليلة إلى تحسين حل المشكلات العلمية بشكل عام.

باختصار ، تظهر نتائج البحث أن النماذج اللغوية الحالية واسعة النطاق لا تزال ضعيفة في القدرة على حل المشكلات ، وبمساعدة الأدوات المختلفة ، لا تزال هناك قيود.

مراجع:

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.