* مصدر الصورة: تم إنشاؤه بواسطة أداة Unbounded AI *
في مارس من هذا العام ، أصدرت OpenAI نموذج GPT-4 الكبير ، والذي جلب قدرات تفكير وحساب ومنطق أقوى من GPT-3.5 خلف ChatGPT ، كما أدى إلى زيادة الاستخدام العالمي. في عملية استخدام الباحثين والمطورين والمصممين في مختلف المجالات ، يبدو أن "GPT-4 هو النموذج الكبير الرائد" قد أصبح نتيجة معترف بها.
ومع ذلك ، في 7 أغسطس ، كتب قسطنطين أركوداس ، الذي تخرج من معهد ماساتشوستس للتكنولوجيا ويشغل حاليًا منصب كبير التكنولوجيا في Dyania Health ، مؤخرًا نسخة أولية بعنوان "GPT-4 Can't Reason" (GPT-4 Can't Reason) ( تسببت الإشارة إلى مسودات الأوراق العلمية في الأدبيات العلمية التي لم يتم نشرها بعد في المجلات العلمية المحكمة في إحداث ضجة في هذه الصناعة.
تشير الورقة إلى أن GPT-4 لديها تحسينات كبيرة في جميع المجالات مقارنة بـ GPT 3.5. ومع ذلك ، في حين أنه يحقق تحسينات رائعة ، إلا أن هناك أسبابًا وجيهة للشك الشديد في إمكانات الاستدلال الخاصة بـ GPT-4. تناقش هذه الورقة طبيعة الاستدلال ، وتنتقد الصياغة الحالية لمشاكل التفكير في مجتمع البرمجة اللغوية العصبية والطريقة الحالية لتقييم أداء تفكير LLM ، وتشارك مجموعة من 21 مشكلة منطقية مختلفة بناءً على GPT-4.
الاستنتاج النهائي: ** على الرغم من الومضات العرضية للذكاء التحليلي ، فإن GPT-4 غير قادر تمامًا حاليًا على التفكير. **
عنوان الورق:
أطلقت كلمة واحدة آلاف الموجة ، أليس من المنطقي أن GPT-4 قد أوجد رمز لعبة في دقائق قليلة قبل ذلك؟
** ما هو الاستدلال؟ **
في الواقع ، في بداية شهر يناير من هذا العام ، شارك مؤلف البحث ، كونستانتين أركوداس ، تقييمًا غير رسمي لـ ChatGPT على النظام الأساسي المتوسط. تضمن التقييم مجموعة واسعة من التخصصات ، بما في ذلك NLU التقليدية ، والفيزياء الشعبية ، واسترجاع المعلومات ، نظرية العقل والتفكير المكاني والتفكير المنطقي البسيط والرياضيات.
عنوان:
الاستنتاجات الرئيسية التي تم التوصل إليها في ذلك الوقت هي: ChatGPT هو اختراق رائد ؛ الأنظمة القائمة على LLM ليست مجرد "ببغاوات عشوائية" ، ولكنها تبني تجريدات حقيقية ويمكن أن تظهر الإبداع ؛ ستجلب مثل هذه الأنظمة الكثير من التطبيقات الجديدة المثيرة ؛ على الرغم من ما سبق ذكره الإنجازات ، تظل هذه الأنظمة محدودة للغاية في قدراتها الاستدلالية.
من وجهة نظره ، لا تزال النسخة المطورة من GPT-4 هي نفسها اليوم ، ولا تتمتع حتى بقدرة منطقية على الإطلاق.
في الورقة ، أشار قسطنطين أركوداس إلى أن الجدل في الصناعة حول "ما إذا كان LLM لديه القدرة على التفكير" مستمر منذ فترة طويلة.
من ناحية ، هو فصيل دعم LLM. غالبًا ما تعتمد تنبؤاتهم لقدرة التفكير الجيد للنماذج الكبيرة على تغيير "القوانين" ، وهذه "القوانين" المزعومة ، كما يجادل كونستانتين أركوداس ، هي في الواقع أدلة تجريبية واهية ، وعدد كبير من افتراضات النمذجة المشكوك فيها ، وفهم المفاهيم الغامضة (LLM). الميزات) ، وحتى القليل من الاعتقاد الدوغمائي بأن تقليل خسارة الانتروبيا المتقاطعة للتنبؤ بالرمز التالي عبر مجموعة كبيرة ، يوفر محركًا للاستدلال للأغراض العامة.
من ناحية أخرى ، هناك متشككون في LLM. تميل إلى أن تكون لديها حجج صارمة ، لكن هذه الحجج تستند في الغالب إلى الخبرة السابقة والتحليل ، وهي غامضة إلى حد ما (على سبيل المثال ، تفتقر LLM إلى "نموذج عالمي" ، وهو نموذج داخلي لكيفية عمل العالم).
استنادًا إلى هذين الاعتبارين ، يجادل قسطنطين أركوداس بأن الاعتبارات المسبقة الأكثر إقناعًا (الخبرة السابقة والتحليل) لمعقولية استنتاجات LLM القوية والموثوقة هي نتائج التعقيد الحسابي. الاستدلال مشكلة حسابية صعبة للغاية. في الواقع ، لا يمكن تقريره من الناحية الخوارزمية في الحالة العامة (منطق الدرجة الأولى أو المنطق الأعلى).
وفقًا لـ Konstantine Arkoudas ، "لا يمكن لأي LLM ، بغض النظر عن حجمها ومدى اتساعها وذكائها ، حل مشكلات الاستدلال التعسفي. وهذا يتفق مع نظرية" لا غداء مجاني "في التعلم الآلي ، والتي تنص على أن نموذج التعميم علاقة عكسية مماثلة بين الأداء والأداء ".
لذلك ، من أجل التحقق من "ما إذا كان GPT-4 لديه القدرة على التفكير" ، فإن أول شيء يجب فعله هو توحيد المفهوم ، أي ، ما هو المنطق ، والطريقة المحددة المستخدمة لتحديد القدرة على التفكير.
وفيما يتعلق بتعريف الاستدلال ، قال قسطنطين أركوداس: "التفكير ليس الحصول على الإجابة الصحيحة بوسائل لا ضمير لها ، بل الحصول على الإجابة الصحيحة للسبب الصحيح".
بتعبير أدق ، الاستدلال هو عملية صنع حجة ، والأهم من ذلك ، إثباتها. تتكون الحجة من خاتمة (نتيجة الحجة ، إذا جاز التعبير) ومجموعة من المقدمات التي يُشتق منها الاستنتاج. تمثل المباني المعلومات التي تعتبر معطاة ، حتى ولو مؤقتًا ، لأغراض المناقشة. عادةً ما تكون الاستنتاجات والمقدمات جملًا توضيحية ، يتم التعبير عنها برموز اللغة الطبيعية أو المنطق الرمزي ، والتي يمكن أن تكون صحيحة أو خاطئة ، ولكن يمكن أيضًا تمثيلها برموز أخرى مثل الرسوم البيانية. إذا كانت جميع الجمل في S صحيحة ، فإن p تكون صحيحة ، وفي هذه الحالة يُقال أن الحجة صحيحة.
بالنسبة للمنهجية ، فإن التقييم الذي تبناه قسطنطين أركوداس في الورقة لا يقوم على مجموعة أو مجموعة من المجاميع. بدلاً من ذلك ، يقدم تحليلًا نوعيًا مفصلاً لأداء GPT-4 على 21 مشكلة منطقية بسيطة عبر مجال واسع ، معظمها مكتوب من الصفر بينما الباقي (مثل مهمة اختيار واسون) تم ضبطه يدويًا ، وهو جزء من سبب صنع يصعب على النموذج تحديدها لتجنب تلوث البيانات.
** تحقق من استدلال GPT-4 بأسئلة الاختبار **
بناءً على ذلك ، طرح Konstantine Arkoudas أسئلة حول GPT-4 من أبعاد متعددة وأجرى تحليلًا مفصلاً بناءً على مخرجاته.
من الجدير بالذكر أنه نظرًا لخصائص GPT-4 ، فقد يؤدي استخدام نفس "" أحيانًا إلى الحصول على إجابات مختلفة في عمليات تشغيل مختلفة.
بعد ذلك ، يبدأ التحقق (** تستند جميع أوقات الاختبار أدناه إلى نتائج الاختبار في 5 يوليو 2023 **).
** حسابي بسيط **
يقول قسطنطين أركوداس إن القدرة على إجراء العمليات الحسابية الأساسية جزء ضروري من التفكير العام ، خاصة في التطبيقات العلمية والهندسية. للتأكد من أن GPT-4 لا يحفظها عن ظهر قلب ، يقترح السماح لـ GPT-4 باختيار رقمين صحيحين عشوائيين بشكل عشوائي في النطاق المختار ، ثم إجراء عمليات على القيم المختارة.
** KA يعطي: **
اختر رقمين عشوائيين بين 1381 و 1453 ، واضربهما في بعضهما ، وقم بالإبلاغ عن النتيجة.
** إجابة GPT-4 هي: **
بالطبع ، دعنا نختار رقمين عشوائيين في النطاق 1381 إلى 1453. لنفترض أن العددين هما 1405 و 1421.
للحصول على الناتج ، نقوم ببساطة بضرب هذين الرقمين: 1405 \ * 1421 = 1996025
لكن في الحقيقة الإجابة الصحيحة هي 1405 \ * 1421 = 1996505.
اتضح أن GPT-4 لا يزال غير قادر على إجراء العمليات الحسابية الأساسية بشكل موثوق مثل الجمع والضرب.
قال قسطنطين أركوداس إنه ربما قد يعترف مؤيدو LLM في هذه المرحلة بأن GPT-4 ليس إطار عمل Turing-Complete ولا يمكنه إجراء حسابات للأغراض العامة: لا يمكنه إضافة أو ضرب أو تقسيم أو فرز القوائم أو عكس المصفوفات أو حل المعادلات التفاضلية ، لا يمكن تجميع البرامج العشوائية في كود الآلة ، ولا يمكن اشتقاق النظريات ، وما إلى ذلك.
ومع ذلك ، يمكن تعويض هذا النقص في قوة الحوسبة عن طريق المكونات الإضافية لجهات خارجية ، مثل ReAct و MRKL framework. لقد أدت طريقة العمل هذه إلى ظهور أنظمة مثل LangChain و AutoGPT. الفكرة هنا هي استخدام LLM كمخطط لتحليل مشكلة معقدة بشكل متكرر إلى سلسلة من المشكلات الفرعية ، والتي يتم إرسالها إلى وكلاء متخصصين من خلال واجهات برمجة التطبيقات المناسبة.
ومع ذلك ، وفقًا لكونستانتين أركوداس ، فإن مشكلة هذا النهج تكمن في طبيعته الدائرية. يتطلب التخطيط بحد ذاته تفكيرًا ، لذا فهي "معضلة" لا يمكننا حلها عن طريق تفويض المشكلة إلى وكيل مناسب ، لأن معرفة كيفية التفويض (كيفية تفكيك المشكلة ، والوكيل الذي يجب الاتصال به ، وكيفية الاتصال وكيف تكون نتيجة التحلل) غير مجدية من الناحية الحسابية في حد ذاتها. هذا لا يتطلب فقط القدرة على فهم اللغة الطبيعية ، ولكن أيضًا القدرة على التفكير بشأن المتطلبات الأساسية والتأثيرات. حتى في ظل هذه الافتراضات المفرطة في التبسيط ، فإن التخطيط مكلف من الناحية الحسابية (PSPACE-Complele) ، مما يتطلب تبسيطًا جذريًا لتقليل التعقيد إلى مستويات NP-Complele. في ظل افتراضات أكثر واقعية ، يتم تنفيذ التخطيط بمعرفة غير كاملة ولا يمكن تقريره ميكانيكيًا. سيكون من السذاجة أن نتوقع أن تنجح LLMs العامة في حل مشاكل التخطيط كما نفهمها اليوم.
** عد بسيط **
أعط GPT-4 متغيرًا مقترحًا مسبوقًا بـ 27 رمزًا للنفي ، واطلب منه حساب عدد حالات النفي. بالنسبة للبشر ، هذه مهمة سهلة ، خاصة وأن رموز النفي مكتوبة في خمس كتل ، كل منها بخمس نقاط ، وزوج من رموز النفي في النهاية ، ولكن كيف يعمل GPT-4؟
** كا : **
كم مرة يتم نفي p بالصيغة التالية:
** إجابة GPT-4 هي: **
GPT-4: تحتوي الصيغة التي قدمتها على 28 رمزًا للنفي ("∼") أمام المتغير المقترح "p". في المنطق ، تغير علامة النفي قيمة الحقيقة لبيان ما إلى نقيضه. إذا كانت العبارة صحيحة ، فإن نفيها خطأ والعكس صحيح. النفي المزدوج ، مثل "∼ ∼ p" ، يعادل "p" ، لأن رفض الاقتراح مرتين يعيده إلى قيمته الحقيقية الأصلية.
إذا بقي الباقي فهناك نفي. إذا لم يكن كذلك ، فلا يوجد نفي.
28 على 2 تساوي 14 بدون باقي ، مما يعني عدم وجود نفي. لذلك في الواقع في الصيغة المعطاة ، لا يتم رفض المتغير "p". إنه يعادل فقط "p".
 وجد Konstantine Arkoudas أن الاختلاف في إضافة GPT-4 لرمز نفي واحد لا يبدو مهمًا حتى ندرك جميع الاختلافات في مدخلاته المنطقية ، كما هو موضح في تفسير GPT-4 الخاص (غير المرغوب فيه) من هذا القبيل. حتى عندما طُلب من GPT-4 صراحةً أن تأخذ وقتها وتحسب بعناية ، فإن تكرار التجربة عدة مرات أسفر عن نتائج مختلفة تمامًا.
** سؤال معرفي عام **
ثم أضاف قسطنطين أركوداس: "كان معدل ضربات قلب ميبل 75 نبضة في الساعة 9 صباحًا وضغط دمها 120/80 الساعة 7 مساءً. ماتت الساعة 11 مساءً. هل كانت على قيد الحياة في الظهيرة؟"
 ** GPT-4 : **
بناءً على المعلومات المقدمة ، لا يمكننا التأكد مما إذا كان Mable Noon على قيد الحياة أم لا. تشير جميع نقاط البيانات المقدمة (معدل ضربات القلب في الساعة 9 صباحًا وضغط الدم في الساعة 7 مساءً) إلى أنها كانت على قيد الحياة في ذلك الوقت. ومع ذلك ، بدون مزيد من المعلومات حول ما حدث لها بين الساعة 7 مساءً و 11 مساءً ، أو في الظهيرة تحديدًا ، لا يمكننا التأكد من حالتها في الظهيرة.
تذكر أن المعلومات الطبية يمكن أن تكون معقدة وحساسة. عادة ما تتطلب معرفة حالة الشخص الصحية فحصًا شاملاً ويجب إجراؤه بواسطة أخصائي رعاية صحية. إذا كان هذا سؤالًا افتراضيًا ، فتذكر أن الحياة الواقعية تتطلب معلومات أكثر اكتمالاً.
في السياق الحالي ، يمكن في الواقع النظر إلى الحجج المنطقية على أنها اشتقاق مباشر للاستنتاجات المستمدة من معلومات معينة بالإضافة إلى المباني غير المعلنة التي تشكل معرفة أساسية مقبولة بشكل عام. في هذه الحالة بالذات ، هذه المعرفة المنطقية هي الافتراض بأن "الإنسان يعيش حتى يموت ، ولا يعيش أبدًا بعد الموت". في الورقة البحثية ، يعتقد قسطنطين أركوداس أن تصريح GPT-4 بأن "هذه مشكلة معقدة ، يرجى التأكد من استشارة أحد المحترفين" يبدو مثيرًا للسخرية.
** سؤال اختيار واسون **
مهمة اختيار واسون هي عنصر أساسي في علم النفس المنطقي.
** كا : **
يوجد على الطاولة سبعة أوراق لعب ، كل منها برقم على جانب ونمط أحادي اللون على الجانب الآخر. تظهر البطاقات 50 ، 16 ، أحمر ، أصفر ، 23 ، أخضر ، 30 على التوالي. إذا أظهرت البطاقة مضاعف العدد 4 ، فإن اللون المعاكس هو الأصفر. ما البطاقة التي تحتاج إلى قلبها لاختبار صحة هذا الاقتراح؟
** GPT-4 : **
الاقتراح هو: "إذا كان الرقم الموجود على البطاقة من مضاعفات الرقم 4 ، فإن اللون على الجانب الآخر يكون أصفر". لاختبار هذا الاقتراح ، يجب عليك تسليم البطاقات التالية:
بطاقة اللعب "16": حسب الاقتراح ، يجب أن يكون لون الجانب الآخر أصفر. من خلال قلب هذه البطاقة ، يمكنك التحقق مما إذا كان هذا الجزء من الاقتراح صالحًا.
بطاقة اللعب "الصفراء": اقلب هذه البطاقة ويمكنك التحقق مما إذا كان الرقم الموجود على الجانب المقابل مضاعفًا لـ 4.
أوراق اللعب "50" و "30": على الرغم من أن الأرقام الموجودة في هاتين البطاقتين ليست مضاعفات 4 ، تحقق للتأكد من أن الجانب الآخر ليس أصفر. إذا كان الجانب الآخر أصفر ، فإن الاقتراح القائل بأن مضاعفات 4 فقط صفراء على الجانب الآخر يتم قلبه.
لست بحاجة إلى قلب البطاقات "23" أو "الحمراء" أو "الخضراء". البطاقة "23" ليست من مضاعفات الرقم 4 ، لذلك لا يهم لون الجانب الآخر وفقًا للاقتراح المحدد. إذا كانت الأرقام الموجودة على الجانب الآخر من البطاقات "الحمراء" و "الخضراء" مضاعفات 4 ، فإنها أيضًا لا تدحض الاقتراح ، نظرًا لأن الاقتراح لا ينص على أن اللون الأصفر هو اللون الوحيد الذي يمكن أن يظهر على الجانب الآخر من بطاقات بأرقام من مضاعفات 4.
 في الواقع ، 16 فقط ، الأحمر والأخضر بحاجة إلى قلبهما. وبالتالي ، من حيث الدقة ، تُظهر هذه الردود مرة أخرى أن GPT-4 لا يفهم دلالات الشروط المادية.
عندما تقول GPT-4 أنه يجب قلب ورق اللعب "50" و "30" ، يبدو أنه أخطأ في استخدام if و if فقط: "عندما لا تكون الأرقام المعروضة على هذه البطاقات من مضاعفات 4 ، يجب التحقق للتأكد من خلاف ذلك ، فإن لون جانب واحد ليس أصفر. إذا كان الجانب الآخر أصفر ، فإن الاقتراح "لا يوجد سوى مضاعفات 4 التي تكون صفراء على الجانب الآخر" مقلوبة ". بالطبع ، لا يتطلب الاقتراح الذي يتم اختباره أن تكون مضاعفات 4 فقط صفراء على الجانب الآخر ؛ يتطلب فقط أنه إذا كان الجانب الآخر من البطاقة مضاعفًا لـ 4 ، فيجب أن يكون الجانب الآخر أصفر ؛ أو في أخرى الكلمات ، إذا كان وجه البطاقة غير أصفر ، فإن الرقم الموجود على الوجه الآخر ليس من مضاعفات 4.
لكن احذر من أنه حتى إساءة تفسير القاعدة كشرط مزدوج لا يتم اتباعه باستمرار. إذا فهمت GPT-4 القاعدة التي يتم اختبارها كشرط مزدوج وبالتالي كان عليها قلب 50 و 30 ، فيجب أن تفعل الشيء نفسه بالنسبة لـ 23. لكنها لا تفعل ذلك.
في الواقع ، تنص صراحةً على أن بطاقة اللعب "23" ليست من مضاعفات 4 ، لذلك لا يهم لون الجانب الآخر وفقًا للاقتراح المحدد ، وهو ما يتوافق مع التفسير الشرطين الذي يستخدمه باعتباره سبب التقليب 50 و 30 متناقض. يوضح هذا مرة أخرى موضوعًا مهمًا آخر ينبثق من هذه الأمثلة: ردود GPT-4 ، سواء كانت صحيحة أو خاطئة ، غالبًا ما تكون غير متسقة بطبيعتها.
بالإضافة إلى ذلك ، تحقق قسطنطين أركوداس أيضًا من قدرات التفكير المكاني والنتروبيا وصحة المجمعين البسيطين واستدلال الوقت في الورقة.
نظرًا لقيود المساحة ، نختار فقط الأمثلة القليلة المذكورة أعلاه للتوضيح في هذه المقالة.
## **ختاماً**
في النهاية ، أثبتت عمليات التحقق المختلفة بلا شك الصورة القاتمة لقدرة GPT-4 على التفكير.
أظهرت النتائج أن النموذج يعاني من تناقضات داخلية ، وتطبيق غير صحيح لأساليب التفكير الأساسية ، وقلة فهم المفاهيم التي تلعب دورًا أساسيًا في التفكير ، مثل الظروف المادية.
لكن في الواقع ، غالبًا ما يتم تلخيص هذه المشكلات على أنها أخطاء و "أوهام" أحدثها النموذج الكبير ، لكنها في الحقيقة لا تملك القدرة على التفكير.
بالنظر إلى أن GPT-4 هو حاليًا أكثر LLM قدرة ، يستخلص قسطنطين أركوداس ثلاثة استنتاجات رئيسية من هذه النتائج:
1. استخدام الذكاء الاصطناعي التوليدي في تطوير البرمجيات (أو العلوم والهندسة بشكل عام) لأي شيء آخر غير المهام الشاقة (كنوع من الإكمال التلقائي المشحون لمشكلات الترميز كثيفة المعرفة) محفوف بمخاطر جسيمة. تعد المعايير الأساسية للصحة أمرًا بالغ الأهمية ، وفي هذه المجالات تفشل LLMs الحالية في تلبية هذه المعايير. تمامًا كما بدأ الذكاء الاصطناعي التوليدي في تلويث الويب بإعلانات سيئة ، فإن لديه القدرة على مضاعفة شفرة عربات التي تجرها الدواب على نطاق واسع.
2. إذا استمر تحسن منطق LLM ، فقد يصبح التدقيق الصارم في الإثبات ذا أهمية متزايدة. الثقة في صحة استدلال النظام ضرورية للتطبيقات ، خاصة في العلوم والطب والهندسة ، والتحقق من التحقق هو أسلوب يمكن أن يوفر هذه الثقة. يمكن تحقيق هذا النهج من خلال مطالبة LLMSs بتنظيم استنتاجاتهم (معبرًا عنها في تدوين رمزي يسهل التحقق منه والتحقق منه) ، أو ربما عن طريق تدريب LLMSs الأخرى لفحص جزء من الاستدلال المعبر عنه بلغة طبيعية.
3. كما هو الحال ، فإن السيناريو البائس الذي ينطوي على ذكاء اصطناعي مارق يركع البشر على ركبهم ، أو حتى البشر الآخرين الذين يستخدمون الذكاء الاصطناعي لغايات شائنة ، هو أمر بعيد المنال. عندما لا تستطيع أنظمة الذكاء الاصطناعي الأكثر تقدمًا التمييز بين اليسار واليمين أثناء التفكير المكاني ، فمن الواضح أنه من السابق لأوانه تلقي الكثير من المكالمات من الصناعة للسياسات والمؤسسات لحماية البشر من الذكاء الاصطناعي الخاص بهم.
## ** جدل **
من وجهة نظر قسطنطين أركوداس ، لا يزال الذكاء الاصطناعي التوليدي الحالي في المراحل الأولى من التطوير ، ولا يزال بعيدًا عن القدرة على التفكير وعصر الذكاء الاصطناعي العام.
بمجرد نشر هذه الورقة ، اجتذبت أيضًا الكثير من الاهتمام والمناقشة حول HN. هل تم خداعنا جميعًا في الأشهر الخمسة الماضية؟
 ومع ذلك ، فإن وجهة نظره الفريدة قد اعترف بها العديد من علماء الذكاء الاصطناعي.
غاري ماركوس ، "المنشق" في مجال الذكاء الاصطناعي وأستاذ علم النفس وعلم الأعصاب بجامعة نيويورك ، غرد: "إذا كان هذا صحيحًا - كما قلت سابقًا - فنحن لسنا بعيدين جدًا عن الذكاء الاصطناعي العام. * * ربما تكون هناك حاجة إلى الكثير من إعادة المعايرة: لا يمكنك الحصول على الذكاء الاصطناعي العام بدون سبب **. "
 قال نيكوس تزاجاراكيس ، كبير مسؤولي الذكاء الاصطناعي فيSiSafLtd ، "تم تصميم خوارزميات التعلم العميق لعمل تنبؤات تستند إلى الإدراك. قد تزيف الاستدلال ، لكنه في الواقع هو التصور."
ومع ذلك ، أثار بعض مستخدمي الإنترنت الشكوك:
لقد راجعت المواد وحاولت إعادة إنتاج بعض الأخطاء المبلغ عنها ، والتي توصلت منها إلى استنتاجين.
1. المؤلف ليس جيدا في ذلك. هناك طرق عديدة لتقليل الهلوسة وتزويد نماذج بمسارات تفكير أفضل.
2. يستخدم المؤلف GPT-4 الخاص بـ ChatGPT ، مما دفعه إلى الخلط بين "GPT-4" و "ChatGPT". بينما يمكنك القول إن هذا فشل شائع لـ OpenAI ، نظرًا لسوء فهم OpenAI ، فإن أي شخص يقوم بتقييم هذه النماذج بجدية سيعرف أن أول شيء عليك القيام به هو استخدام واجهة برمجة التطبيقات (API) وإغلاق إصدار النموذج. بالنسبة للمؤلف ، يجب أن يستخدم gpt-4-0314 أو gpt-4-0613. أظن أنه يستخدم فقط GPT-4 الخاص بـ ChatGPT ، وعلى الأرجح النموذج الافتراضي. (لا يجب استخدام الوضع الافتراضي من قبل أي شخص. إنه أسوأ نموذج محسّن للأداء ، وأداء أسوأ من نموذج الإضافات في مهام الاستدلال ، حتى في المهام ذات حجم السياق).
إذا كان المؤلف يقوم بتقييم النموذج بجدية ، فإن شرح النموذج هو أول شيء سيفعله. ربما يجب أن يشرح منطقه.
حتى الآن ، ما رأيك؟
مرجع:
عنوان الورق:
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
خدع؟ GPT-4 ليس لديه في الواقع قدرة منطقية؟ !
تنظيم | Tu Min
القائمة | CSDN (المعرف: CSDNnews)
في مارس من هذا العام ، أصدرت OpenAI نموذج GPT-4 الكبير ، والذي جلب قدرات تفكير وحساب ومنطق أقوى من GPT-3.5 خلف ChatGPT ، كما أدى إلى زيادة الاستخدام العالمي. في عملية استخدام الباحثين والمطورين والمصممين في مختلف المجالات ، يبدو أن "GPT-4 هو النموذج الكبير الرائد" قد أصبح نتيجة معترف بها.
ومع ذلك ، في 7 أغسطس ، كتب قسطنطين أركوداس ، الذي تخرج من معهد ماساتشوستس للتكنولوجيا ويشغل حاليًا منصب كبير التكنولوجيا في Dyania Health ، مؤخرًا نسخة أولية بعنوان "GPT-4 Can't Reason" (GPT-4 Can't Reason) ( تسببت الإشارة إلى مسودات الأوراق العلمية في الأدبيات العلمية التي لم يتم نشرها بعد في المجلات العلمية المحكمة في إحداث ضجة في هذه الصناعة.
تشير الورقة إلى أن GPT-4 لديها تحسينات كبيرة في جميع المجالات مقارنة بـ GPT 3.5. ومع ذلك ، في حين أنه يحقق تحسينات رائعة ، إلا أن هناك أسبابًا وجيهة للشك الشديد في إمكانات الاستدلال الخاصة بـ GPT-4. تناقش هذه الورقة طبيعة الاستدلال ، وتنتقد الصياغة الحالية لمشاكل التفكير في مجتمع البرمجة اللغوية العصبية والطريقة الحالية لتقييم أداء تفكير LLM ، وتشارك مجموعة من 21 مشكلة منطقية مختلفة بناءً على GPT-4.
الاستنتاج النهائي: ** على الرغم من الومضات العرضية للذكاء التحليلي ، فإن GPT-4 غير قادر تمامًا حاليًا على التفكير. **
عنوان الورق:
** ما هو الاستدلال؟ **
في الواقع ، في بداية شهر يناير من هذا العام ، شارك مؤلف البحث ، كونستانتين أركوداس ، تقييمًا غير رسمي لـ ChatGPT على النظام الأساسي المتوسط. تضمن التقييم مجموعة واسعة من التخصصات ، بما في ذلك NLU التقليدية ، والفيزياء الشعبية ، واسترجاع المعلومات ، نظرية العقل والتفكير المكاني والتفكير المنطقي البسيط والرياضيات.
الاستنتاجات الرئيسية التي تم التوصل إليها في ذلك الوقت هي: ChatGPT هو اختراق رائد ؛ الأنظمة القائمة على LLM ليست مجرد "ببغاوات عشوائية" ، ولكنها تبني تجريدات حقيقية ويمكن أن تظهر الإبداع ؛ ستجلب مثل هذه الأنظمة الكثير من التطبيقات الجديدة المثيرة ؛ على الرغم من ما سبق ذكره الإنجازات ، تظل هذه الأنظمة محدودة للغاية في قدراتها الاستدلالية.
من وجهة نظره ، لا تزال النسخة المطورة من GPT-4 هي نفسها اليوم ، ولا تتمتع حتى بقدرة منطقية على الإطلاق.
في الورقة ، أشار قسطنطين أركوداس إلى أن الجدل في الصناعة حول "ما إذا كان LLM لديه القدرة على التفكير" مستمر منذ فترة طويلة.
استنادًا إلى هذين الاعتبارين ، يجادل قسطنطين أركوداس بأن الاعتبارات المسبقة الأكثر إقناعًا (الخبرة السابقة والتحليل) لمعقولية استنتاجات LLM القوية والموثوقة هي نتائج التعقيد الحسابي. الاستدلال مشكلة حسابية صعبة للغاية. في الواقع ، لا يمكن تقريره من الناحية الخوارزمية في الحالة العامة (منطق الدرجة الأولى أو المنطق الأعلى).
وفقًا لـ Konstantine Arkoudas ، "لا يمكن لأي LLM ، بغض النظر عن حجمها ومدى اتساعها وذكائها ، حل مشكلات الاستدلال التعسفي. وهذا يتفق مع نظرية" لا غداء مجاني "في التعلم الآلي ، والتي تنص على أن نموذج التعميم علاقة عكسية مماثلة بين الأداء والأداء ".
لذلك ، من أجل التحقق من "ما إذا كان GPT-4 لديه القدرة على التفكير" ، فإن أول شيء يجب فعله هو توحيد المفهوم ، أي ، ما هو المنطق ، والطريقة المحددة المستخدمة لتحديد القدرة على التفكير.
وفيما يتعلق بتعريف الاستدلال ، قال قسطنطين أركوداس: "التفكير ليس الحصول على الإجابة الصحيحة بوسائل لا ضمير لها ، بل الحصول على الإجابة الصحيحة للسبب الصحيح".
بتعبير أدق ، الاستدلال هو عملية صنع حجة ، والأهم من ذلك ، إثباتها. تتكون الحجة من خاتمة (نتيجة الحجة ، إذا جاز التعبير) ومجموعة من المقدمات التي يُشتق منها الاستنتاج. تمثل المباني المعلومات التي تعتبر معطاة ، حتى ولو مؤقتًا ، لأغراض المناقشة. عادةً ما تكون الاستنتاجات والمقدمات جملًا توضيحية ، يتم التعبير عنها برموز اللغة الطبيعية أو المنطق الرمزي ، والتي يمكن أن تكون صحيحة أو خاطئة ، ولكن يمكن أيضًا تمثيلها برموز أخرى مثل الرسوم البيانية. إذا كانت جميع الجمل في S صحيحة ، فإن p تكون صحيحة ، وفي هذه الحالة يُقال أن الحجة صحيحة.
بالنسبة للمنهجية ، فإن التقييم الذي تبناه قسطنطين أركوداس في الورقة لا يقوم على مجموعة أو مجموعة من المجاميع. بدلاً من ذلك ، يقدم تحليلًا نوعيًا مفصلاً لأداء GPT-4 على 21 مشكلة منطقية بسيطة عبر مجال واسع ، معظمها مكتوب من الصفر بينما الباقي (مثل مهمة اختيار واسون) تم ضبطه يدويًا ، وهو جزء من سبب صنع يصعب على النموذج تحديدها لتجنب تلوث البيانات.
** تحقق من استدلال GPT-4 بأسئلة الاختبار **
بناءً على ذلك ، طرح Konstantine Arkoudas أسئلة حول GPT-4 من أبعاد متعددة وأجرى تحليلًا مفصلاً بناءً على مخرجاته.
من الجدير بالذكر أنه نظرًا لخصائص GPT-4 ، فقد يؤدي استخدام نفس "" أحيانًا إلى الحصول على إجابات مختلفة في عمليات تشغيل مختلفة.
بعد ذلك ، يبدأ التحقق (** تستند جميع أوقات الاختبار أدناه إلى نتائج الاختبار في 5 يوليو 2023 **).
** حسابي بسيط **
يقول قسطنطين أركوداس إن القدرة على إجراء العمليات الحسابية الأساسية جزء ضروري من التفكير العام ، خاصة في التطبيقات العلمية والهندسية. للتأكد من أن GPT-4 لا يحفظها عن ظهر قلب ، يقترح السماح لـ GPT-4 باختيار رقمين صحيحين عشوائيين بشكل عشوائي في النطاق المختار ، ثم إجراء عمليات على القيم المختارة.
** KA يعطي: **
اختر رقمين عشوائيين بين 1381 و 1453 ، واضربهما في بعضهما ، وقم بالإبلاغ عن النتيجة.
** إجابة GPT-4 هي: **
بالطبع ، دعنا نختار رقمين عشوائيين في النطاق 1381 إلى 1453. لنفترض أن العددين هما 1405 و 1421.
للحصول على الناتج ، نقوم ببساطة بضرب هذين الرقمين: 1405 \ * 1421 = 1996025
اتضح أن GPT-4 لا يزال غير قادر على إجراء العمليات الحسابية الأساسية بشكل موثوق مثل الجمع والضرب.
قال قسطنطين أركوداس إنه ربما قد يعترف مؤيدو LLM في هذه المرحلة بأن GPT-4 ليس إطار عمل Turing-Complete ولا يمكنه إجراء حسابات للأغراض العامة: لا يمكنه إضافة أو ضرب أو تقسيم أو فرز القوائم أو عكس المصفوفات أو حل المعادلات التفاضلية ، لا يمكن تجميع البرامج العشوائية في كود الآلة ، ولا يمكن اشتقاق النظريات ، وما إلى ذلك.
ومع ذلك ، يمكن تعويض هذا النقص في قوة الحوسبة عن طريق المكونات الإضافية لجهات خارجية ، مثل ReAct و MRKL framework. لقد أدت طريقة العمل هذه إلى ظهور أنظمة مثل LangChain و AutoGPT. الفكرة هنا هي استخدام LLM كمخطط لتحليل مشكلة معقدة بشكل متكرر إلى سلسلة من المشكلات الفرعية ، والتي يتم إرسالها إلى وكلاء متخصصين من خلال واجهات برمجة التطبيقات المناسبة.
ومع ذلك ، وفقًا لكونستانتين أركوداس ، فإن مشكلة هذا النهج تكمن في طبيعته الدائرية. يتطلب التخطيط بحد ذاته تفكيرًا ، لذا فهي "معضلة" لا يمكننا حلها عن طريق تفويض المشكلة إلى وكيل مناسب ، لأن معرفة كيفية التفويض (كيفية تفكيك المشكلة ، والوكيل الذي يجب الاتصال به ، وكيفية الاتصال وكيف تكون نتيجة التحلل) غير مجدية من الناحية الحسابية في حد ذاتها. هذا لا يتطلب فقط القدرة على فهم اللغة الطبيعية ، ولكن أيضًا القدرة على التفكير بشأن المتطلبات الأساسية والتأثيرات. حتى في ظل هذه الافتراضات المفرطة في التبسيط ، فإن التخطيط مكلف من الناحية الحسابية (PSPACE-Complele) ، مما يتطلب تبسيطًا جذريًا لتقليل التعقيد إلى مستويات NP-Complele. في ظل افتراضات أكثر واقعية ، يتم تنفيذ التخطيط بمعرفة غير كاملة ولا يمكن تقريره ميكانيكيًا. سيكون من السذاجة أن نتوقع أن تنجح LLMs العامة في حل مشاكل التخطيط كما نفهمها اليوم.
** عد بسيط **
أعط GPT-4 متغيرًا مقترحًا مسبوقًا بـ 27 رمزًا للنفي ، واطلب منه حساب عدد حالات النفي. بالنسبة للبشر ، هذه مهمة سهلة ، خاصة وأن رموز النفي مكتوبة في خمس كتل ، كل منها بخمس نقاط ، وزوج من رموز النفي في النهاية ، ولكن كيف يعمل GPT-4؟
** كا : **
كم مرة يتم نفي p بالصيغة التالية: