* مصدر الصورة: تم إنشاؤه بواسطة أداة Unbounded AI ، نموذج عام (مقطوع بالورق) *
تتمتع النماذج اللغوية الكبيرة بقدرات محاكاة لغة بشرية ممتازة ، لكن العلماء ما زالوا منقسمين حول أداء الاستدلال.
في 25 يوليو ، ذكرت مجلة "نيتشر" في مقال أن ChatGPT قد كسرت اختبار تورينج ، وقد حان الوقت لتمكين طرق جديدة أخرى لتقييم تكنولوجيا الذكاء الاصطناعي.
يمكن لأقوى نظام ذكاء اصطناعي (AI) في العالم اجتياز اختبارات صارمة وكتابة أوراق مقنعة والمشاركة في الدردشات بسلاسة.لا يستطيع الكثير من الناس حتى التمييز بين الذكاء الاصطناعي والبشر من حيث التعبير اللغوي. هل هناك أي شيء لا يمكنهم فعله؟ بالطبع هناك أسئلة بسيطة للغاية.
يتم ترتيب سلسلة من الرسومات ذات الألوان الزاهية على الشاشة ، ويمكن لمعظم الأشخاص اكتشاف إجابة هذا النوع من اختبار المنطق البصري بسرعة. ولكن نظرًا للتكنولوجيا الكامنة وراء روبوت الدردشة ChatGPT ومحرك البحث Bing ، وأعلى تحفة من الذكاء الاصطناعي الحالي ، من الواضح أن GPT-4 غير قادر على فعل ما يريد. أظهرت دراسة أجريت في شهر مايو من هذا العام أن GPT-4 كان صحيحًا في ثلث الوقت فقط في نوع واحد من اختبار النمط ، و 3٪ في النوع الآخر.
يأمل فريق البحث وراء اللغز المنطقي أن يوفر الاختبار معيارًا أفضل لأنظمة الذكاء الاصطناعي ويساعد في معالجة أوجه القصور الكامنة في نماذج اللغة الكبيرة مثل GPT-4. لتلخيص: في اختبار اللغة ، أكمل نموذج اللغة الكبير بسهولة إنجاز الذكاء الذي كان يعتبر في السابق علامة فارقة ؛ ولكن في اختبار المنطق البصري ، كان أداؤهم ضعيفًا للغاية ، وهناك نقاط عمياء واضحة ، ولا يمكن أن تستند إلى على التجريد ، المفاهيم تصنع استدلالات.
تقول ميلاني ميتشل ، عالمة الكمبيوتر في معهد سانتا في للأبحاث في نيو مكسيكو: "يتصارع الممارسون في مجال الذكاء الاصطناعي مع المشكلة الصعبة المتمثلة في تقييم أنظمة نماذج اللغة الكبيرة". ولتحقيق هذه الغاية ، قام فريقها بتجميع هذه المجموعة من المشاكل المنطقية.
في العامين أو الثلاثة أعوام الماضية ، نجح نموذج اللغة الكبير في سحق نظام الذكاء الاصطناعي السابق تمامًا من حيث إمكانات تعدد المهام. مبدأ عملهم غير معقد: استنادًا إلى مليارات الجمل عبر الإنترنت التي تعرضوا لها أثناء التدريب ، يلخصون الارتباط الإحصائي بين كل كلمة ، ثم يولدون كلمة تالية معقولة لنص إدخال معين. بالنسبة إلى روبوتات المحادثة المبنية على قمة نماذج اللغات الكبيرة ، تمت إضافة عنصر إضافي: يقدم المدربون البشريون تعليقات مكثفة ، وبالتالي ضبط كيفية استجابة الروبوت.
من الجدير بالذكر أن الخوارزميات المدربة على مجموعات اللغة البشرية الضخمة ذات الخصائص المشابهة للإكمال التلقائي قد أثبتت بنجاح مجموعة واسعة من قدرات حل المشكلات. في حين أن أنظمة الذكاء الاصطناعي القديمة قد تكون قادرة على التغلب على النماذج اللغوية الكبيرة في مهمة محددة ، يجب تدريب الأولى على كميات محددة للمشكلة ، ولا يمكن نقل هذه القدرة بسرعة من مهمة إلى أخرى.
يقول تومر أولمان ، عالم الإدراك بجامعة هارفارد ، بشكل عام ، إن الباحثين في هذين المعسكرين لديهم وجهات نظر متعارضة تمامًا حول كيفية عمل النماذج اللغوية الكبيرة تحت الغطاء. يعزو البعض إنجازات الخوارزمية إلى التفكير أو الفهم الحقيقيين ، لكن البعض الآخر (بما في ذلك أولمان نفسه وباحثون مثل ميتشل أعلاه) أكثر حذراً.
ووفقًا لما قاله أولامن ، "كلا الجانبين في هذا النقاش بارعين وعالي المستوى". السبب الجذري للخلاف هو عدم وجود أدلة دامغة لدعم وجهات نظر كل منهما. "بعد كل شيء ، لا يوجد كاشف ذكي مستقر وموثوق به مثل عداد جيجر ، والذي يمكن أن يعطي إجابة واضحة عن الذكاء أو عدم الذكاء."
يقول الباحثون على جانبي المناقشة إن الاعتماد على اختبارات مثل الأسئلة المنطقية للكشف عن الاختلافات في القدرات بين البشر وأنظمة الذكاء الاصطناعي يجب أن يكون خطوة مهمة في الاتجاه الصحيح. يقول Brenden Lake ، عالم الحوسبة المعرفية في جامعة نيويورك ، إن مثل هذه المعايير يمكن أن تساعد أيضًا في الكشف عن القدرات المفقودة في أنظمة التعلم الآلي الحالية ، وتوضيح ما يتكون منه الذكاء البشري بالضبط.
بالإضافة إلى ذلك ، فإن هذا الاختبار لنماذج اللغة الكبيرة وأبحاث القدرة المعيارية له أهمية عملية أخرى. أشار ميتشل إلى أنه إذا كنت تريد تطبيق نماذج لغوية كبيرة على سيناريوهات العالم الحقيقي مثل الطب والقانون ، فيجب عليك أولاً توضيح أين تكمن حدود قدراتها. "علينا معرفة ما يمكن وما لا يمكنه فعله قبل أن نحكم على كيفية استخدامه بأمان."
هل اختبار تورينج عفا عليه الزمن؟
في مجال اختبار ذكاء الآلة ، كان أشهر مخطط دائمًا هو اختبار تورينج. تم اقتراح الاختبار من قبل عالم الرياضيات ورائد الكمبيوتر البريطاني آلان تورينج في عام 1950 ، عندما كانت أجهزة الكمبيوتر في مهدها. اقترح تورينج طريقة تقييم لما يسمى بـ "لعبة التقليد" ، وفي هذا السيناريو ، يكون للحكم البشري حوار نصي قصير مع الكمبيوتر والإنسان المختبئ خلف الشاشة لمعرفة ما إذا كان بإمكانه التعرف بدقة على الآلة والإنسان. . يعتقد تورينج أن هذا يجب أن يجيب على السؤال "هل الآلات لديها القدرة على التفكير؟"
أشار ميتشل إلى أن تورينج لم يحدد قدرًا كبيرًا من التفاصيل حول السيناريو ، لذلك لم تكن هناك قواعد دقيقة يجب اتباعها. وفقًا لفرانسوا شوليت ، مهندس برمجيات في Google ، "اختبار تورينج ليس اختبارًا ملموسًا يمكن تشغيله فعليًا على جهاز - إنه أكثر من تجربة فكرية."
لكن هذه النظرة لاستخدام اللغة لاختبار ما إذا كانت الآلة لديها القدرة على التفكير كانت متأصلة بعمق في مجال التكنولوجيا. على مدى عقود ، قام رجل الأعمال والمحسن هيو لوبنر منذ فترة طويلة بتمويل حدث اختبار تورينج السنوي ، المعروف باسم جائزة لوبنر. لكن عالم الكمبيوتر روب ورثام قال إن الحملة توقفت بعد عام 2019 لأن تمويل الحملة نفد بعد وفاة لوبنر. Wortham هو المدير المشارك للجمعية البريطانية للذكاء الاصطناعي وأبحاث المحاكاة السلوكية ، التي استضافت المسابقة نيابة عن Loebner منذ عام 2014. وأوضح أن النموذج اللغوي الكبير الآن لديه بشكل أساسي القدرة على خداع البشر ، لذلك اضطرت جائزة لوبنر للتوقف عشية الإقلاع الكامل لنموذج اللغة الكبير ، وهو نوع من الفكاهة السوداء.
يعتقد باحثون آخرون أيضًا أن النماذج اللغوية الكبيرة مثل GPT-4 لديها بالفعل القدرة على اجتياز اختبار تورينج. على الأقل في المحادثات القصيرة ، ربما يكون من الصعب على معظم الناس معرفة من هو الإنسان ومن هو النموذج الكبير. في مايو ، أفاد باحثون في مختبر AI21 في تل أبيب بإسرائيل أن أكثر من 1.5 مليون شخص قد لعبوا لعبة على الإنترنت بناءً على اختبار تورينج. سينخرط المستخدمون في محادثة لمدة دقيقتين مع مستخدم آخر أو نموذج لغة كبير يتنكر كشخص حقيقي بناءً على توجيهات الباحثين. تبلغ نسبة احتمال تحديد اللاعب للروبوت بشكل صحيح 60٪ فقط ، وهو ما يعادل تقريبًا التخمين العشوائي تمامًا 3.
ومع ذلك ، لا يزال بإمكان الباحثين الذين هم أكثر دراية بنماذج اللغات الكبيرة التمييز بين روبوتات المحادثة والتفاصيل المختلفة. لاحظ شوليت أنه وجد أنه كان من السهل اكتشاف من كان نموذجًا كبيرًا للغة ببساطة من خلال استغلال نقاط الضعف المعروفة في النظام. "إذا كنت سأخضع نفسي للاختبار لمعرفة ما إذا كنت أتحدث إلى نموذج لغوي كبير ، فسأحصل بالتأكيد على الإجابة الصحيحة."
المفتاح هو السماح للنموذج اللغوي الكبير بالخروج من منطقة الراحة الخاصة به. تتمثل حيلته في اقتراح سيناريوهات متمايزة لنموذج اللغة الكبير عن سيناريوهات التدريب الشائعة. في معظم الحالات ، يقوم نموذج اللغة الكبير بإخراج الكلمة الأكثر ترجيحًا بناءً على بيانات التدريب ، بدلاً من إعطاء الإجابة الصحيحة وفقًا للمشهد الجديد.
علاوة على ذلك ، يشكك Chollet وزملاؤه في طريقة الاختبار هذه القائمة على الأداء المخادع. "من الواضح أن هذا موجود لخداع الحكام البشر". ستشجع مثل هذه الاختبارات المطورين على غرس المزيد من مهارات التمويه في الذكاء الاصطناعي ، ولن تلهم المزيد من الوظائف المفيدة أو المثيرة للاهتمام.
المعايير غير موثوق بها
غالبًا ما يقوم الباحثون بتقييم أنظمة الذكاء الاصطناعي بمعايير تقوم بتقييم قدرات معينة ، مثل اللغة ، والتفكير المنطقي ، والرياضيات ، وتتزايد اعتماد فرق التكنولوجيا على الاختبارات الأكاديمية والمهنية المصممة للبشر.
عندما تم إصدار GPT-4 لأول مرة في مارس ، قامت شركة OpenAI ومقرها سان فرانسيسكو بولاية كاليفورنيا بتقييم أداء النموذج الجديد على سلسلة من المعايير المصممة للآلات ، بما في ذلك فهم القراءة والرياضيات والترميز. كما ذكرت شركة OpenAI ، كان أداء GPT-4 جيدًا في معظم الاختبارات 4. قاموا أيضًا بتعيين حوالي 30 اختبارًا لـ GPT-4 ، بما في ذلك: مجموعة متنوعة من الاختبارات لطلاب المدارس الثانوية الأمريكية ، والمعروفة باسم المستوى المتقدم ؛ اختبار لتقييم المعرفة السريرية للأطباء الأمريكيين ؛ والمعايير المستخدمة في عملية اختيار الخريجين الأمريكيين اختبار الطلاب (GRE). تمكنت GPT-4 من تحقيق أعلى 10٪ في امتحان الشريط الموحد (الذي تم تضمينه في امتحان المحاماة في العديد من الولايات الأمريكية).
أداء نظام الذكاء الاصطناعي - مقتطفات من النتائج
* المصدر: OpenAI / المرجع 4 *
النسبة المئوية للترتيب هنا هي موضع المرشحين البشريين الذين حققوا هذه الدرجة بين جميع المواد.
يقر ميتشل أن "عددًا قليلاً جدًا من نماذج اللغة تعمل جيدًا في هذه المعايير. ولكن في معظم الحالات ، لا يكفي هذا لإظهار تفوقها على البشر في القدرات العامة ، بل بالأحرى أن هناك قيودًا في المعيار نفسه." حالة شك في أنه نظرًا لأن النموذج تم تدريبه على كمية كبيرة من المواد النصية ، فمن المحتمل أن تكون قد لوحظت مشكلات مماثلة في بيانات التدريب. الاستنتاجات المعيارية المستخلصة في هذه الحالة تسمى "التلوث" ومن الواضح أنها لا تتمتع بالمصداقية.
تقول شركة OpenAI إنهم تحققوا من ذلك من خلال البحث عن سلاسل مماثلة في المشكلة وبيانات التدريب. يُظهر اختبار نماذج اللغة الكبيرة قبل وبعد إزالة السلاسل المتشابهة تغييرًا طفيفًا في الأداء. يشير هذا إلى أن الدرجات العالية للغاية لا علاقة لها بالتلوث ، لكن بعض الباحثين تساءلوا عما إذا كان الاختبار صارمًا بدرجة كافية.
سام بومان عالم تكنولوجيا اللغة بجامعة نيويورك ويعمل أيضًا في شركة Anthropic ، وهي شركة AI في سان فرانسيسكو. وحذر من مجرد إجراء اختبارات GPT-4 كنتيجة "لرؤية مشاكل مماثلة" وإنكار قدرة GPT-4. في رأيه ، "الحديث عن التلوث يعقد الوضع قليلاً ، لكنني لا أعتقد أنه يؤثر حقًا على الصورة الأكبر".
وأشار الباحثون أيضًا إلى أن قدرة النماذج اللغوية الكبيرة على الحصول على درجات عالية في الاختبارات هي أيضًا هشة نسبيًا ، وقد لا تكون قادرة على التحول إلى القدرة على إصدار أحكام صحيحة في العالم الحقيقي. وفقًا لميتشل ، فإن إجراء تغيير بسيط في أسئلة الامتحان قد يجعل النماذج الكبيرة غير مقبولة. على سبيل المثال ، قبلت سؤالاً من امتحان ماجستير إدارة الأعمال اجتازه موقع ChatGPT وقام بتغييره قليلاً.يمكن للبشر بسهولة تعديل الإجابة وفقًا للتغيير ، لكن ChatGPT فشلت فشلاً ذريعًا.
هناك مشكلة أخرى أعمق عندما يتعلق الأمر بفك رموز الآثار المترتبة على المقارنة المعيارية. بالنسبة للبشر ، تمثل الدرجات العالية في هذه الاختبارات عمومًا مستوى قويًا من الذكاء - في الواقع ، يعد مستوى الذكاء نفسه أيضًا مفهومًا غامضًا ، ويعكس بشكل أساسي القدرة على التكيف مع البيئات المختلفة الموضحة في سلسلة من المهام. بمعنى آخر ، تُظهر الدرجة العالية في الاختبار أن الشخص يتمتع بقدرات معرفية جيدة وإلمام جيد ببعض المفاهيم المجردة. لكن هذا ليس هو الحال بالنسبة لنماذج اللغات الكبيرة. شدد ميتشل على أن أسلوب الحكم في النماذج الكبيرة يختلف تمامًا عن أسلوب البشر. "في معظم الحالات ، لا تقوم أنظمة الذكاء الاصطناعي بالاستدلال بطريقة مألوفة لدى البشر."
قد يكون هذا بسبب أن النماذج اللغوية الكبيرة لا يمكنها التعلم إلا من تجربة اللغة ؛ نظرًا لعدم وجود قنوات للتواصل مع العالم الحقيقي ، لا يمكنهم تجربة الارتباط بين اللغة والأشياء والسمات والعواطف مثل البشر. يقول ليك: "من الواضح أنهم لا يفهمون الكلمات بالطريقة التي يفهمها البشر." ومن وجهة نظره ، تشير الدلائل الحالية إلى أن النماذج اللغوية الكبيرة "يمكنها استخدام اللغة بطلاقة دون فهم ما يقولونه".
من ناحية أخرى ، أظهرت النماذج اللغوية الكبيرة أيضًا بعض القدرات التي لا يمتلكها البشر ، مثل فهم العلاقة بين كل كلمة يكتبها البشر تقريبًا. قال ميتشل إن هذا قد يعني أن النموذج يعتمد على خصائص معينة للغة أو مؤشرات أخرى لحل المشكلة ، دون الحاجة إلى فهم قدرة التفكير الأوسع.
يتفق نيك رايدر ، الباحث في OpenAI ، مع هذا الحكم ، قائلاً إن أداء الذكاء الاصطناعي في اختبار واحد لا يكفي لإثبات قدرته العامة مثل البشر. "لا أعتقد أنه يجب على الأشخاص مقارنة النتائج البشرية بشكل مباشر مع عشرات النماذج اللغوية الكبيرة." لا تصف الدرجات الصادرة عن OpenAI القدرة الشبيهة بالإنسان أو مستوى التفكير الشبيه بالبشر لنماذج اللغة الكبيرة ، ولكنها توضح ذلك ببساطة تؤدي هذه النماذج أداءً جيدًا في هذه المهام ".
بالإضافة إلى معايير الآلة التقليدية والامتحانات المهنية البشرية ، استكشف الباحثون أيضًا نماذج لغوية كبيرة على نطاق أوسع. في شهر مارس من هذا العام ، أصدر سيباستيان بوبيك من Microsoft Research وزملاؤه الإصدار 5 المنشور مسبقًا بعنوان "Spark of General Artificial Intelligence: GPT-4 Early Experiments" ، مما تسبب في مناقشات ساخنة في الصناعة. باستخدام إصدار مبكر من GPT-4 ، قاموا بتوثيق مجموعة مذهلة من الميزات ، لم يكن الكثير منها مرتبطًا بشكل مباشر أو صريح باللغة. من السمات الجديرة بالملاحظة أنه يجتاز الاختبارات المستخدمة لتقييم النظريات النفسية. النظرية النفسية هي قدرة الإنسان الأساسية على التنبؤ والتفكير بالحالات العقلية للآخرين. وكتبوا في الورقة البحثية: "نظرًا لاتساع وعمق وظائف GPT-4 ، فلدينا سبب للاعتقاد بأنه يمثل بالفعل إصدارًا مبكرًا (ولكن ليس مثاليًا بعد) لنظام الذكاء الاصطناعي العام (AGI)".
لكن بوبيك نفسه أوضح لاحقًا ، مشددًا على أن "GPT-4 بالتأكيد لا يفكر مثل الإنسان ، وله طريقته الفريدة والمختلفة في تنفيذ أي وظيفة يعرضها."
يعتقد ميتشل أنه على الرغم من أن التقرير جذري تمامًا ، إلا أنه لا يستكشف بشكل منهجي قدرات النماذج اللغوية الكبيرة. "هذا يشبه إلى حد كبير دراسة أنثروبولوجية." قال أولمان أيضًا أنه من أجل إثبات أن الآلات يمكنها إتقان النظريات النفسية ، يجب على الأقل تقديم دليل على العملية المعرفية الأساسية المقابلة ، بدلاً من الاعتماد ببساطة على الآلة لإنتاج نفس الإجابة كبشر.
يعتقد باحثو الذكاء الاصطناعي أن هناك حاجة إلى فحص أوسع وأكثر صرامة لفهم نقاط القوة والضعف في نماذج اللغة الكبيرة. قد تكون مشكلة منطق اللون جزءًا مهمًا منها.
ألغاز جديدة
في عام 2019 ، قبل انفجار نماذج اللغات الكبيرة ، أصدرت Chollet مجموعة جديدة من مجموعات الاختبار المنطقية التي تم تجميعها خصيصًا لأنظمة الذكاء الاصطناعي على الإنترنت ، تسمى Abstract and Reasoning Corpus (ARC). يُقدم للحل عرضًا مرئيًا تتحول فيه عدة شبكات مربعة إلى نمط آخر ، والذي يرشد الشبكة التالية إلى كيفية التغيير لإثبات فهمهم لقواعد التغيير. "إنه اختبار لقدرتنا على التكيف مع الأشياء التي لم نرها من قبل" ، كما يقول شوليت ، الذي يعتقد أن هذه القدرة على إيجاد الأنماط هي جوهر الذكاء.
وفقًا لليك ، تلتقط ARC "السمة المميزة للذكاء البشري": التجريد من المعرفة اليومية وتطبيقها على مشاكل لم يسبق لها مثيل.
نظمت Chollet مسابقة ARC للروبوتات في عام 2020 ، قبل أن تكتسب النماذج اللغوية الكبيرة جاذبية واسعة النطاق. تم تدريب نظام الذكاء الاصطناعي الفائز خصيصًا ليكون جيدًا في مهام مثل ARC. ولكن على عكس نموذج اللغة الكبير ، فإنه لا يحتوي على وظيفة عامة ، وقد أجاب فقط على 21٪ من الأسئلة بشكل صحيح. بالمقارنة ، يقوم البشر بحل مشاكل ARC بشكل صحيح في 80٪ من الوقت 7. تستخدم فرق بحثية متعددة حاليًا ARC لاختبار قدرات نماذج اللغات الكبيرة ، ولم يقترب أي منها من الأداء البشري.
طورت ميتشل وزملاؤها مجموعة جديدة من الألغاز (تسمى ConceptARC) مستوحاة من ARC ، مع اختلافين رئيسيين. تعتبر ConceptARC أسهل: فقد أراد فريق Mitchell أن تعكس المعايير التقدم في قدرات الماكينة ، حتى لو كان قليلاً فقط. ثانيًا ، اختار الفريق مفاهيم محددة لاختبارها ثم أنشأ سلسلة من أشكال الألغاز ذات الصلة بالموضوع حول كل مفهوم.
على سبيل المثال ، لاختبار مفهوم الهوية ، تتطلب إحدى المشكلات من المحلل الاحتفاظ بأشياء من نفس الشكل في مكانها ، وتتطلب مشكلة أخرى من المحلل محاذاة كائنات من نفس الشكل على طول محور. الفكرة هي تقليل فرص نجاح نظام الذكاء الاصطناعي في الاختبار دون استيعاب المفهوم.
ماذا يعني الأداء الضعيف؟
أصدر الباحثون مهمة ConceptARC إلى GPT-4 وقاموا بتجنيد 400 شخص. سجل البشر متوسط 91٪ عبر جميع مجموعات المفاهيم (97٪ لأعلى مجموعة نقاط) ؛ 33٪ لمجموعة GPT-4 الحاصلة على أعلى الدرجات ، ولا تزيد عن 30٪ لمجموعات المفاهيم المتبقية.
قال ميتشل: "لقد أظهرنا أن الآلة لا تزال تفتقر إلى مستوى الذكاء البشري. ولكن من المدهش أنها كانت قادرة على حل بعض هذه المشاكل على الرغم من عدم تدريبها عليها".
اختبر الفريق أيضًا الروبوتات التي فازت في مسابقة Chollet ، وهي ليست أنظمة قدرة عامة مثل نماذج اللغات الكبيرة ، ولكن تم تدريبها خصيصًا لمشاكل الرؤية مثل ARC. بشكل عام ، كان أداؤهم أفضل من GPT-4 ، لكنهم لا يزالون أدنى من البشر ، حيث سجلوا 77٪ في أفضل مجموعة مفاهيم ولكن أقل من 60٪ في معظم مجموعات المفاهيم 1.
ومع ذلك ، يعتقد بومان أن فشل GPT-4 في اجتياز تدريب ConceptARC لا يثبت أنه يفتقر إلى إمكانات التفكير المجرد المحتملة. في رأيه ، هناك تحيز بين ConceptARC و GPT-4 ، وهو اختبار مرئي بعد كل شيء. "حتى لو كانت هذه النماذج جيدة حقًا في هذا النوع من التفكير النظري ، فمن غير المرجح أن تسجل نتائج جيدة في مثل هذه الاختبارات في المرة الأولى."
قد يكون تقييد طريقة الاختبار أيضًا هو العامل المؤثر في ضعف أداء GPT-4. يمكن للنسخة العامة من Big Language Model قبول إدخال النص فقط ، لذلك قدم الباحثون مصفوفات من الأرقام التي تصف الصور. (على سبيل المثال ، قد يتم تمثيل البكسل الفارغ بالرقم 0 ، وقد يتم تمثيل المربع الملون برقم مناظر.) على النقيض من ذلك ، تمكن الأشخاص من رؤية الصورة مباشرة. يعترف ميتشل أيضًا ، "نحن نقارن نظامًا لغويًا خالصًا بالإنسان ، والبشر لديهم نظام بصري متطور للغاية ، لذلك أخشى أن المقارنة ليست عادلة تمامًا."
قامت شركة OpenAI ببناء إصدار "متعدد الوسائط" من GPT-4 يمكنه قبول إدخال الصور مباشرة. ينتظر فريق ميتشل أن يتم الكشف عن التكنولوجيا رسميًا حتى يتمكن من القيام بجولة أخرى من ConceptARC. لكنها لا تعتقد أن GPT-4 متعدد الوسائط أفضل بكثير. "لا أعتقد أن هذه الأنظمة لا تزال تتمتع بمستوى من التجريد والتفكير يمكن مقارنته بالبشر."
يوافق سام أكوافيفا ، عالِم الإدراك الحاسوبي في معهد ماساتشوستس للتكنولوجيا ، على هذا الرأي ، ويقتصر النمط على صف واحد بدلاً من الشبكة 8. يجب أن يؤدي هذا إلى إزالة بعض مشكلات الظلم ، لكن Acquaviva يرى أنه على الرغم من تحسن أداء GPT-4 ، إلا أنه لا يكفي أيضًا إثبات فهم القواعد الموثوق بها والتفكير المنطقي لنماذج اللغة الكبيرة.
حجة المنطق
كما ذكر بومان بعض التجارب الأخرى ، فوفقًا للنتائج الشاملة ، فإن نموذج اللغة الكبير أتقن على الأقل القدرة الأساسية على التفكير في المفاهيم المجردة. في إحدى الحالات ، استخدم عالم الكمبيوتر في جامعة هارفارد كينيث لي وزملاؤه نسخة رقمية من ريفيرسي ، حيث يضع اللاعبون قطعًا سوداء وبيضاء على شبكة 8 × 8. إنهم يأملون في تقييم ما إذا كانت النماذج اللغوية الكبيرة تعتمد على العلاقات الإحصائية اللغوية المحفوظة لتوليد النص ، أو ما إذا كان بإمكانهم حقًا بناء تمثيلات داخلية لظواهر مثل البشر.
بعد إرسال مجموعة تدريب من تصرفات اللاعبين البشريين إلى نموذج اللغة الكبير ، أتقن الذكاء الاصطناعي بسرعة القدرة على اختيار الإستراتيجية الصحيحة للخطوة التالية. يعتقد الباحثون أن هذا يوضح أن نموذج اللغة الكبير يمكنه حتى فهم الموقف على رقعة الشطرنج ، وتقديم اقتراحات لحركات الشطرنج بناءً على الميزات الحالية ، والتي من الواضح أنها تخترق أغلال شكل النص 9.
يعترف بومان بأن القدرة المنطقية للنماذج اللغوية الكبيرة يمكن وصفها بأنها "متنوعة" بشكل عام ، ولا تصل إلى ذروة التفكير البشري. لكنه يعتقد أن القدرة على التفكير موجودة بالفعل ، ويبدو أنها تتحسن مع حجم النموذج. بعبارة أخرى ، ستؤدي نماذج اللغات الكبيرة المستقبلية بشكل أفضل وأفضل. "هذه الأنظمة ليست موثوقة أو عامة كما نرغب أن تكون ، وهم مرتبكون تمامًا بشأن أنواع معينة من التفكير المجرد. لكنني أعتقد أن قدراتهم المنطقية الأساسية موجودة بشكل موضوعي."
يتفق باحثون مثل بومان وميتشل أيضًا على أن كيفية اختبار نماذج اللغة الكبيرة بشكل أفضل للتفكير المجرد ومؤشرات الذكاء الأخرى تظل سؤالًا مفتوحًا. يعتقد مايكل فرانك ، عالم الإدراك بجامعة ستانفورد ، أنه لا يوجد اختبار واحد شامل يمكن أن يحل محل اختبار تورينج تمامًا. بدلاً من ذلك ، يجادل بأن الباحثين بحاجة إلى ابتكار اختبارات مكثفة لتحديد نقاط القوة والضعف في الأنظمة المختلفة. "هذه العوامل رائعة ، إنها معيبة من نواح كثيرة ، لذا فإن أهم شيء هو استكشاف هذا بشكل منهجي."
ينصح Wortham أولئك الجدد في أنظمة الذكاء الاصطناعي بالابتعاد عن هوس التجسيم. "نحاول دائمًا فهم أي شيء يظهر الذكاء كإنسان ، وهو أمر غير ضروري حقًا."
"بل إنها لعنة ، مما يعني أننا لا نستطيع تخيل أي شكل من أشكال الذكاء يظهر توجهًا واضحًا للهدف بخلاف اتجاهنا. نحن دائمًا نتمنى أنه يفعل ذلك بنفس طريقة التفكير العميقة كما نفعل نحن."
مراجع:
Moskvichev، A.، Odouard، VV & Mitchell، M. Preprint at (2023).
تورينج ، آم مايند ليكس ، 433-460 (1950).
مقالة Google Scholar
Jannai، D.، Meron، A.، Lenz، B.، Levine، Y. & Shoham، Y. Preprint at (2023).
Xu ، Y. ، Li ، W. ، Vaezipoor ، P. ، Sanner. S. & Khalil، EB Preprint at (2023).
لي ، ك وآخرون. بروك. الحادي عشر كثافة العمليات. أسيوط. يتعلم. يمثل. (2023).
** الرابط الأصلي: **
شاهد النسخة الأصلية
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
يكسر ChatGPT اختبار Turing ، فقد حان الوقت لإيجاد طريقة جديدة لتقييم تقنية الذكاء الاصطناعي
** المصدر: ** AI Frontline
** مؤلف | سيليست بيفير **
** مترجم | نوكلي كولا **
** التخطيط | Dongmei **
تتمتع النماذج اللغوية الكبيرة بقدرات محاكاة لغة بشرية ممتازة ، لكن العلماء ما زالوا منقسمين حول أداء الاستدلال.
في 25 يوليو ، ذكرت مجلة "نيتشر" في مقال أن ChatGPT قد كسرت اختبار تورينج ، وقد حان الوقت لتمكين طرق جديدة أخرى لتقييم تكنولوجيا الذكاء الاصطناعي.
يمكن لأقوى نظام ذكاء اصطناعي (AI) في العالم اجتياز اختبارات صارمة وكتابة أوراق مقنعة والمشاركة في الدردشات بسلاسة.لا يستطيع الكثير من الناس حتى التمييز بين الذكاء الاصطناعي والبشر من حيث التعبير اللغوي. هل هناك أي شيء لا يمكنهم فعله؟ بالطبع هناك أسئلة بسيطة للغاية.
يأمل فريق البحث وراء اللغز المنطقي أن يوفر الاختبار معيارًا أفضل لأنظمة الذكاء الاصطناعي ويساعد في معالجة أوجه القصور الكامنة في نماذج اللغة الكبيرة مثل GPT-4. لتلخيص: في اختبار اللغة ، أكمل نموذج اللغة الكبير بسهولة إنجاز الذكاء الذي كان يعتبر في السابق علامة فارقة ؛ ولكن في اختبار المنطق البصري ، كان أداؤهم ضعيفًا للغاية ، وهناك نقاط عمياء واضحة ، ولا يمكن أن تستند إلى على التجريد ، المفاهيم تصنع استدلالات.
تقول ميلاني ميتشل ، عالمة الكمبيوتر في معهد سانتا في للأبحاث في نيو مكسيكو: "يتصارع الممارسون في مجال الذكاء الاصطناعي مع المشكلة الصعبة المتمثلة في تقييم أنظمة نماذج اللغة الكبيرة". ولتحقيق هذه الغاية ، قام فريقها بتجميع هذه المجموعة من المشاكل المنطقية.
في العامين أو الثلاثة أعوام الماضية ، نجح نموذج اللغة الكبير في سحق نظام الذكاء الاصطناعي السابق تمامًا من حيث إمكانات تعدد المهام. مبدأ عملهم غير معقد: استنادًا إلى مليارات الجمل عبر الإنترنت التي تعرضوا لها أثناء التدريب ، يلخصون الارتباط الإحصائي بين كل كلمة ، ثم يولدون كلمة تالية معقولة لنص إدخال معين. بالنسبة إلى روبوتات المحادثة المبنية على قمة نماذج اللغات الكبيرة ، تمت إضافة عنصر إضافي: يقدم المدربون البشريون تعليقات مكثفة ، وبالتالي ضبط كيفية استجابة الروبوت.
من الجدير بالذكر أن الخوارزميات المدربة على مجموعات اللغة البشرية الضخمة ذات الخصائص المشابهة للإكمال التلقائي قد أثبتت بنجاح مجموعة واسعة من قدرات حل المشكلات. في حين أن أنظمة الذكاء الاصطناعي القديمة قد تكون قادرة على التغلب على النماذج اللغوية الكبيرة في مهمة محددة ، يجب تدريب الأولى على كميات محددة للمشكلة ، ولا يمكن نقل هذه القدرة بسرعة من مهمة إلى أخرى.
يقول تومر أولمان ، عالم الإدراك بجامعة هارفارد ، بشكل عام ، إن الباحثين في هذين المعسكرين لديهم وجهات نظر متعارضة تمامًا حول كيفية عمل النماذج اللغوية الكبيرة تحت الغطاء. يعزو البعض إنجازات الخوارزمية إلى التفكير أو الفهم الحقيقيين ، لكن البعض الآخر (بما في ذلك أولمان نفسه وباحثون مثل ميتشل أعلاه) أكثر حذراً.
ووفقًا لما قاله أولامن ، "كلا الجانبين في هذا النقاش بارعين وعالي المستوى". السبب الجذري للخلاف هو عدم وجود أدلة دامغة لدعم وجهات نظر كل منهما. "بعد كل شيء ، لا يوجد كاشف ذكي مستقر وموثوق به مثل عداد جيجر ، والذي يمكن أن يعطي إجابة واضحة عن الذكاء أو عدم الذكاء."
يقول الباحثون على جانبي المناقشة إن الاعتماد على اختبارات مثل الأسئلة المنطقية للكشف عن الاختلافات في القدرات بين البشر وأنظمة الذكاء الاصطناعي يجب أن يكون خطوة مهمة في الاتجاه الصحيح. يقول Brenden Lake ، عالم الحوسبة المعرفية في جامعة نيويورك ، إن مثل هذه المعايير يمكن أن تساعد أيضًا في الكشف عن القدرات المفقودة في أنظمة التعلم الآلي الحالية ، وتوضيح ما يتكون منه الذكاء البشري بالضبط.
بالإضافة إلى ذلك ، فإن هذا الاختبار لنماذج اللغة الكبيرة وأبحاث القدرة المعيارية له أهمية عملية أخرى. أشار ميتشل إلى أنه إذا كنت تريد تطبيق نماذج لغوية كبيرة على سيناريوهات العالم الحقيقي مثل الطب والقانون ، فيجب عليك أولاً توضيح أين تكمن حدود قدراتها. "علينا معرفة ما يمكن وما لا يمكنه فعله قبل أن نحكم على كيفية استخدامه بأمان."
هل اختبار تورينج عفا عليه الزمن؟
في مجال اختبار ذكاء الآلة ، كان أشهر مخطط دائمًا هو اختبار تورينج. تم اقتراح الاختبار من قبل عالم الرياضيات ورائد الكمبيوتر البريطاني آلان تورينج في عام 1950 ، عندما كانت أجهزة الكمبيوتر في مهدها. اقترح تورينج طريقة تقييم لما يسمى بـ "لعبة التقليد" ، وفي هذا السيناريو ، يكون للحكم البشري حوار نصي قصير مع الكمبيوتر والإنسان المختبئ خلف الشاشة لمعرفة ما إذا كان بإمكانه التعرف بدقة على الآلة والإنسان. . يعتقد تورينج أن هذا يجب أن يجيب على السؤال "هل الآلات لديها القدرة على التفكير؟"
أشار ميتشل إلى أن تورينج لم يحدد قدرًا كبيرًا من التفاصيل حول السيناريو ، لذلك لم تكن هناك قواعد دقيقة يجب اتباعها. وفقًا لفرانسوا شوليت ، مهندس برمجيات في Google ، "اختبار تورينج ليس اختبارًا ملموسًا يمكن تشغيله فعليًا على جهاز - إنه أكثر من تجربة فكرية."
لكن هذه النظرة لاستخدام اللغة لاختبار ما إذا كانت الآلة لديها القدرة على التفكير كانت متأصلة بعمق في مجال التكنولوجيا. على مدى عقود ، قام رجل الأعمال والمحسن هيو لوبنر منذ فترة طويلة بتمويل حدث اختبار تورينج السنوي ، المعروف باسم جائزة لوبنر. لكن عالم الكمبيوتر روب ورثام قال إن الحملة توقفت بعد عام 2019 لأن تمويل الحملة نفد بعد وفاة لوبنر. Wortham هو المدير المشارك للجمعية البريطانية للذكاء الاصطناعي وأبحاث المحاكاة السلوكية ، التي استضافت المسابقة نيابة عن Loebner منذ عام 2014. وأوضح أن النموذج اللغوي الكبير الآن لديه بشكل أساسي القدرة على خداع البشر ، لذلك اضطرت جائزة لوبنر للتوقف عشية الإقلاع الكامل لنموذج اللغة الكبير ، وهو نوع من الفكاهة السوداء.
يعتقد باحثون آخرون أيضًا أن النماذج اللغوية الكبيرة مثل GPT-4 لديها بالفعل القدرة على اجتياز اختبار تورينج. على الأقل في المحادثات القصيرة ، ربما يكون من الصعب على معظم الناس معرفة من هو الإنسان ومن هو النموذج الكبير. في مايو ، أفاد باحثون في مختبر AI21 في تل أبيب بإسرائيل أن أكثر من 1.5 مليون شخص قد لعبوا لعبة على الإنترنت بناءً على اختبار تورينج. سينخرط المستخدمون في محادثة لمدة دقيقتين مع مستخدم آخر أو نموذج لغة كبير يتنكر كشخص حقيقي بناءً على توجيهات الباحثين. تبلغ نسبة احتمال تحديد اللاعب للروبوت بشكل صحيح 60٪ فقط ، وهو ما يعادل تقريبًا التخمين العشوائي تمامًا 3.
ومع ذلك ، لا يزال بإمكان الباحثين الذين هم أكثر دراية بنماذج اللغات الكبيرة التمييز بين روبوتات المحادثة والتفاصيل المختلفة. لاحظ شوليت أنه وجد أنه كان من السهل اكتشاف من كان نموذجًا كبيرًا للغة ببساطة من خلال استغلال نقاط الضعف المعروفة في النظام. "إذا كنت سأخضع نفسي للاختبار لمعرفة ما إذا كنت أتحدث إلى نموذج لغوي كبير ، فسأحصل بالتأكيد على الإجابة الصحيحة."
المفتاح هو السماح للنموذج اللغوي الكبير بالخروج من منطقة الراحة الخاصة به. تتمثل حيلته في اقتراح سيناريوهات متمايزة لنموذج اللغة الكبير عن سيناريوهات التدريب الشائعة. في معظم الحالات ، يقوم نموذج اللغة الكبير بإخراج الكلمة الأكثر ترجيحًا بناءً على بيانات التدريب ، بدلاً من إعطاء الإجابة الصحيحة وفقًا للمشهد الجديد.
علاوة على ذلك ، يشكك Chollet وزملاؤه في طريقة الاختبار هذه القائمة على الأداء المخادع. "من الواضح أن هذا موجود لخداع الحكام البشر". ستشجع مثل هذه الاختبارات المطورين على غرس المزيد من مهارات التمويه في الذكاء الاصطناعي ، ولن تلهم المزيد من الوظائف المفيدة أو المثيرة للاهتمام.
المعايير غير موثوق بها
غالبًا ما يقوم الباحثون بتقييم أنظمة الذكاء الاصطناعي بمعايير تقوم بتقييم قدرات معينة ، مثل اللغة ، والتفكير المنطقي ، والرياضيات ، وتتزايد اعتماد فرق التكنولوجيا على الاختبارات الأكاديمية والمهنية المصممة للبشر.
عندما تم إصدار GPT-4 لأول مرة في مارس ، قامت شركة OpenAI ومقرها سان فرانسيسكو بولاية كاليفورنيا بتقييم أداء النموذج الجديد على سلسلة من المعايير المصممة للآلات ، بما في ذلك فهم القراءة والرياضيات والترميز. كما ذكرت شركة OpenAI ، كان أداء GPT-4 جيدًا في معظم الاختبارات 4. قاموا أيضًا بتعيين حوالي 30 اختبارًا لـ GPT-4 ، بما في ذلك: مجموعة متنوعة من الاختبارات لطلاب المدارس الثانوية الأمريكية ، والمعروفة باسم المستوى المتقدم ؛ اختبار لتقييم المعرفة السريرية للأطباء الأمريكيين ؛ والمعايير المستخدمة في عملية اختيار الخريجين الأمريكيين اختبار الطلاب (GRE). تمكنت GPT-4 من تحقيق أعلى 10٪ في امتحان الشريط الموحد (الذي تم تضمينه في امتحان المحاماة في العديد من الولايات الأمريكية).
أداء نظام الذكاء الاصطناعي - مقتطفات من النتائج
النسبة المئوية للترتيب هنا هي موضع المرشحين البشريين الذين حققوا هذه الدرجة بين جميع المواد.
يقر ميتشل أن "عددًا قليلاً جدًا من نماذج اللغة تعمل جيدًا في هذه المعايير. ولكن في معظم الحالات ، لا يكفي هذا لإظهار تفوقها على البشر في القدرات العامة ، بل بالأحرى أن هناك قيودًا في المعيار نفسه." حالة شك في أنه نظرًا لأن النموذج تم تدريبه على كمية كبيرة من المواد النصية ، فمن المحتمل أن تكون قد لوحظت مشكلات مماثلة في بيانات التدريب. الاستنتاجات المعيارية المستخلصة في هذه الحالة تسمى "التلوث" ومن الواضح أنها لا تتمتع بالمصداقية.
تقول شركة OpenAI إنهم تحققوا من ذلك من خلال البحث عن سلاسل مماثلة في المشكلة وبيانات التدريب. يُظهر اختبار نماذج اللغة الكبيرة قبل وبعد إزالة السلاسل المتشابهة تغييرًا طفيفًا في الأداء. يشير هذا إلى أن الدرجات العالية للغاية لا علاقة لها بالتلوث ، لكن بعض الباحثين تساءلوا عما إذا كان الاختبار صارمًا بدرجة كافية.
سام بومان عالم تكنولوجيا اللغة بجامعة نيويورك ويعمل أيضًا في شركة Anthropic ، وهي شركة AI في سان فرانسيسكو. وحذر من مجرد إجراء اختبارات GPT-4 كنتيجة "لرؤية مشاكل مماثلة" وإنكار قدرة GPT-4. في رأيه ، "الحديث عن التلوث يعقد الوضع قليلاً ، لكنني لا أعتقد أنه يؤثر حقًا على الصورة الأكبر".
وأشار الباحثون أيضًا إلى أن قدرة النماذج اللغوية الكبيرة على الحصول على درجات عالية في الاختبارات هي أيضًا هشة نسبيًا ، وقد لا تكون قادرة على التحول إلى القدرة على إصدار أحكام صحيحة في العالم الحقيقي. وفقًا لميتشل ، فإن إجراء تغيير بسيط في أسئلة الامتحان قد يجعل النماذج الكبيرة غير مقبولة. على سبيل المثال ، قبلت سؤالاً من امتحان ماجستير إدارة الأعمال اجتازه موقع ChatGPT وقام بتغييره قليلاً.يمكن للبشر بسهولة تعديل الإجابة وفقًا للتغيير ، لكن ChatGPT فشلت فشلاً ذريعًا.
هناك مشكلة أخرى أعمق عندما يتعلق الأمر بفك رموز الآثار المترتبة على المقارنة المعيارية. بالنسبة للبشر ، تمثل الدرجات العالية في هذه الاختبارات عمومًا مستوى قويًا من الذكاء - في الواقع ، يعد مستوى الذكاء نفسه أيضًا مفهومًا غامضًا ، ويعكس بشكل أساسي القدرة على التكيف مع البيئات المختلفة الموضحة في سلسلة من المهام. بمعنى آخر ، تُظهر الدرجة العالية في الاختبار أن الشخص يتمتع بقدرات معرفية جيدة وإلمام جيد ببعض المفاهيم المجردة. لكن هذا ليس هو الحال بالنسبة لنماذج اللغات الكبيرة. شدد ميتشل على أن أسلوب الحكم في النماذج الكبيرة يختلف تمامًا عن أسلوب البشر. "في معظم الحالات ، لا تقوم أنظمة الذكاء الاصطناعي بالاستدلال بطريقة مألوفة لدى البشر."
قد يكون هذا بسبب أن النماذج اللغوية الكبيرة لا يمكنها التعلم إلا من تجربة اللغة ؛ نظرًا لعدم وجود قنوات للتواصل مع العالم الحقيقي ، لا يمكنهم تجربة الارتباط بين اللغة والأشياء والسمات والعواطف مثل البشر. يقول ليك: "من الواضح أنهم لا يفهمون الكلمات بالطريقة التي يفهمها البشر." ومن وجهة نظره ، تشير الدلائل الحالية إلى أن النماذج اللغوية الكبيرة "يمكنها استخدام اللغة بطلاقة دون فهم ما يقولونه".
من ناحية أخرى ، أظهرت النماذج اللغوية الكبيرة أيضًا بعض القدرات التي لا يمتلكها البشر ، مثل فهم العلاقة بين كل كلمة يكتبها البشر تقريبًا. قال ميتشل إن هذا قد يعني أن النموذج يعتمد على خصائص معينة للغة أو مؤشرات أخرى لحل المشكلة ، دون الحاجة إلى فهم قدرة التفكير الأوسع.
يتفق نيك رايدر ، الباحث في OpenAI ، مع هذا الحكم ، قائلاً إن أداء الذكاء الاصطناعي في اختبار واحد لا يكفي لإثبات قدرته العامة مثل البشر. "لا أعتقد أنه يجب على الأشخاص مقارنة النتائج البشرية بشكل مباشر مع عشرات النماذج اللغوية الكبيرة." لا تصف الدرجات الصادرة عن OpenAI القدرة الشبيهة بالإنسان أو مستوى التفكير الشبيه بالبشر لنماذج اللغة الكبيرة ، ولكنها توضح ذلك ببساطة تؤدي هذه النماذج أداءً جيدًا في هذه المهام ".
بالإضافة إلى معايير الآلة التقليدية والامتحانات المهنية البشرية ، استكشف الباحثون أيضًا نماذج لغوية كبيرة على نطاق أوسع. في شهر مارس من هذا العام ، أصدر سيباستيان بوبيك من Microsoft Research وزملاؤه الإصدار 5 المنشور مسبقًا بعنوان "Spark of General Artificial Intelligence: GPT-4 Early Experiments" ، مما تسبب في مناقشات ساخنة في الصناعة. باستخدام إصدار مبكر من GPT-4 ، قاموا بتوثيق مجموعة مذهلة من الميزات ، لم يكن الكثير منها مرتبطًا بشكل مباشر أو صريح باللغة. من السمات الجديرة بالملاحظة أنه يجتاز الاختبارات المستخدمة لتقييم النظريات النفسية. النظرية النفسية هي قدرة الإنسان الأساسية على التنبؤ والتفكير بالحالات العقلية للآخرين. وكتبوا في الورقة البحثية: "نظرًا لاتساع وعمق وظائف GPT-4 ، فلدينا سبب للاعتقاد بأنه يمثل بالفعل إصدارًا مبكرًا (ولكن ليس مثاليًا بعد) لنظام الذكاء الاصطناعي العام (AGI)".
لكن بوبيك نفسه أوضح لاحقًا ، مشددًا على أن "GPT-4 بالتأكيد لا يفكر مثل الإنسان ، وله طريقته الفريدة والمختلفة في تنفيذ أي وظيفة يعرضها."
يعتقد ميتشل أنه على الرغم من أن التقرير جذري تمامًا ، إلا أنه لا يستكشف بشكل منهجي قدرات النماذج اللغوية الكبيرة. "هذا يشبه إلى حد كبير دراسة أنثروبولوجية." قال أولمان أيضًا أنه من أجل إثبات أن الآلات يمكنها إتقان النظريات النفسية ، يجب على الأقل تقديم دليل على العملية المعرفية الأساسية المقابلة ، بدلاً من الاعتماد ببساطة على الآلة لإنتاج نفس الإجابة كبشر.
يعتقد باحثو الذكاء الاصطناعي أن هناك حاجة إلى فحص أوسع وأكثر صرامة لفهم نقاط القوة والضعف في نماذج اللغة الكبيرة. قد تكون مشكلة منطق اللون جزءًا مهمًا منها.
ألغاز جديدة
في عام 2019 ، قبل انفجار نماذج اللغات الكبيرة ، أصدرت Chollet مجموعة جديدة من مجموعات الاختبار المنطقية التي تم تجميعها خصيصًا لأنظمة الذكاء الاصطناعي على الإنترنت ، تسمى Abstract and Reasoning Corpus (ARC). يُقدم للحل عرضًا مرئيًا تتحول فيه عدة شبكات مربعة إلى نمط آخر ، والذي يرشد الشبكة التالية إلى كيفية التغيير لإثبات فهمهم لقواعد التغيير. "إنه اختبار لقدرتنا على التكيف مع الأشياء التي لم نرها من قبل" ، كما يقول شوليت ، الذي يعتقد أن هذه القدرة على إيجاد الأنماط هي جوهر الذكاء.
وفقًا لليك ، تلتقط ARC "السمة المميزة للذكاء البشري": التجريد من المعرفة اليومية وتطبيقها على مشاكل لم يسبق لها مثيل.
نظمت Chollet مسابقة ARC للروبوتات في عام 2020 ، قبل أن تكتسب النماذج اللغوية الكبيرة جاذبية واسعة النطاق. تم تدريب نظام الذكاء الاصطناعي الفائز خصيصًا ليكون جيدًا في مهام مثل ARC. ولكن على عكس نموذج اللغة الكبير ، فإنه لا يحتوي على وظيفة عامة ، وقد أجاب فقط على 21٪ من الأسئلة بشكل صحيح. بالمقارنة ، يقوم البشر بحل مشاكل ARC بشكل صحيح في 80٪ من الوقت 7. تستخدم فرق بحثية متعددة حاليًا ARC لاختبار قدرات نماذج اللغات الكبيرة ، ولم يقترب أي منها من الأداء البشري.
طورت ميتشل وزملاؤها مجموعة جديدة من الألغاز (تسمى ConceptARC) مستوحاة من ARC ، مع اختلافين رئيسيين. تعتبر ConceptARC أسهل: فقد أراد فريق Mitchell أن تعكس المعايير التقدم في قدرات الماكينة ، حتى لو كان قليلاً فقط. ثانيًا ، اختار الفريق مفاهيم محددة لاختبارها ثم أنشأ سلسلة من أشكال الألغاز ذات الصلة بالموضوع حول كل مفهوم.
على سبيل المثال ، لاختبار مفهوم الهوية ، تتطلب إحدى المشكلات من المحلل الاحتفاظ بأشياء من نفس الشكل في مكانها ، وتتطلب مشكلة أخرى من المحلل محاذاة كائنات من نفس الشكل على طول محور. الفكرة هي تقليل فرص نجاح نظام الذكاء الاصطناعي في الاختبار دون استيعاب المفهوم.
ماذا يعني الأداء الضعيف؟
أصدر الباحثون مهمة ConceptARC إلى GPT-4 وقاموا بتجنيد 400 شخص. سجل البشر متوسط 91٪ عبر جميع مجموعات المفاهيم (97٪ لأعلى مجموعة نقاط) ؛ 33٪ لمجموعة GPT-4 الحاصلة على أعلى الدرجات ، ولا تزيد عن 30٪ لمجموعات المفاهيم المتبقية.
قال ميتشل: "لقد أظهرنا أن الآلة لا تزال تفتقر إلى مستوى الذكاء البشري. ولكن من المدهش أنها كانت قادرة على حل بعض هذه المشاكل على الرغم من عدم تدريبها عليها".
اختبر الفريق أيضًا الروبوتات التي فازت في مسابقة Chollet ، وهي ليست أنظمة قدرة عامة مثل نماذج اللغات الكبيرة ، ولكن تم تدريبها خصيصًا لمشاكل الرؤية مثل ARC. بشكل عام ، كان أداؤهم أفضل من GPT-4 ، لكنهم لا يزالون أدنى من البشر ، حيث سجلوا 77٪ في أفضل مجموعة مفاهيم ولكن أقل من 60٪ في معظم مجموعات المفاهيم 1.
ومع ذلك ، يعتقد بومان أن فشل GPT-4 في اجتياز تدريب ConceptARC لا يثبت أنه يفتقر إلى إمكانات التفكير المجرد المحتملة. في رأيه ، هناك تحيز بين ConceptARC و GPT-4 ، وهو اختبار مرئي بعد كل شيء. "حتى لو كانت هذه النماذج جيدة حقًا في هذا النوع من التفكير النظري ، فمن غير المرجح أن تسجل نتائج جيدة في مثل هذه الاختبارات في المرة الأولى."
قد يكون تقييد طريقة الاختبار أيضًا هو العامل المؤثر في ضعف أداء GPT-4. يمكن للنسخة العامة من Big Language Model قبول إدخال النص فقط ، لذلك قدم الباحثون مصفوفات من الأرقام التي تصف الصور. (على سبيل المثال ، قد يتم تمثيل البكسل الفارغ بالرقم 0 ، وقد يتم تمثيل المربع الملون برقم مناظر.) على النقيض من ذلك ، تمكن الأشخاص من رؤية الصورة مباشرة. يعترف ميتشل أيضًا ، "نحن نقارن نظامًا لغويًا خالصًا بالإنسان ، والبشر لديهم نظام بصري متطور للغاية ، لذلك أخشى أن المقارنة ليست عادلة تمامًا."
قامت شركة OpenAI ببناء إصدار "متعدد الوسائط" من GPT-4 يمكنه قبول إدخال الصور مباشرة. ينتظر فريق ميتشل أن يتم الكشف عن التكنولوجيا رسميًا حتى يتمكن من القيام بجولة أخرى من ConceptARC. لكنها لا تعتقد أن GPT-4 متعدد الوسائط أفضل بكثير. "لا أعتقد أن هذه الأنظمة لا تزال تتمتع بمستوى من التجريد والتفكير يمكن مقارنته بالبشر."
يوافق سام أكوافيفا ، عالِم الإدراك الحاسوبي في معهد ماساتشوستس للتكنولوجيا ، على هذا الرأي ، ويقتصر النمط على صف واحد بدلاً من الشبكة 8. يجب أن يؤدي هذا إلى إزالة بعض مشكلات الظلم ، لكن Acquaviva يرى أنه على الرغم من تحسن أداء GPT-4 ، إلا أنه لا يكفي أيضًا إثبات فهم القواعد الموثوق بها والتفكير المنطقي لنماذج اللغة الكبيرة.
حجة المنطق
كما ذكر بومان بعض التجارب الأخرى ، فوفقًا للنتائج الشاملة ، فإن نموذج اللغة الكبير أتقن على الأقل القدرة الأساسية على التفكير في المفاهيم المجردة. في إحدى الحالات ، استخدم عالم الكمبيوتر في جامعة هارفارد كينيث لي وزملاؤه نسخة رقمية من ريفيرسي ، حيث يضع اللاعبون قطعًا سوداء وبيضاء على شبكة 8 × 8. إنهم يأملون في تقييم ما إذا كانت النماذج اللغوية الكبيرة تعتمد على العلاقات الإحصائية اللغوية المحفوظة لتوليد النص ، أو ما إذا كان بإمكانهم حقًا بناء تمثيلات داخلية لظواهر مثل البشر.
بعد إرسال مجموعة تدريب من تصرفات اللاعبين البشريين إلى نموذج اللغة الكبير ، أتقن الذكاء الاصطناعي بسرعة القدرة على اختيار الإستراتيجية الصحيحة للخطوة التالية. يعتقد الباحثون أن هذا يوضح أن نموذج اللغة الكبير يمكنه حتى فهم الموقف على رقعة الشطرنج ، وتقديم اقتراحات لحركات الشطرنج بناءً على الميزات الحالية ، والتي من الواضح أنها تخترق أغلال شكل النص 9.
يعترف بومان بأن القدرة المنطقية للنماذج اللغوية الكبيرة يمكن وصفها بأنها "متنوعة" بشكل عام ، ولا تصل إلى ذروة التفكير البشري. لكنه يعتقد أن القدرة على التفكير موجودة بالفعل ، ويبدو أنها تتحسن مع حجم النموذج. بعبارة أخرى ، ستؤدي نماذج اللغات الكبيرة المستقبلية بشكل أفضل وأفضل. "هذه الأنظمة ليست موثوقة أو عامة كما نرغب أن تكون ، وهم مرتبكون تمامًا بشأن أنواع معينة من التفكير المجرد. لكنني أعتقد أن قدراتهم المنطقية الأساسية موجودة بشكل موضوعي."
يتفق باحثون مثل بومان وميتشل أيضًا على أن كيفية اختبار نماذج اللغة الكبيرة بشكل أفضل للتفكير المجرد ومؤشرات الذكاء الأخرى تظل سؤالًا مفتوحًا. يعتقد مايكل فرانك ، عالم الإدراك بجامعة ستانفورد ، أنه لا يوجد اختبار واحد شامل يمكن أن يحل محل اختبار تورينج تمامًا. بدلاً من ذلك ، يجادل بأن الباحثين بحاجة إلى ابتكار اختبارات مكثفة لتحديد نقاط القوة والضعف في الأنظمة المختلفة. "هذه العوامل رائعة ، إنها معيبة من نواح كثيرة ، لذا فإن أهم شيء هو استكشاف هذا بشكل منهجي."
ينصح Wortham أولئك الجدد في أنظمة الذكاء الاصطناعي بالابتعاد عن هوس التجسيم. "نحاول دائمًا فهم أي شيء يظهر الذكاء كإنسان ، وهو أمر غير ضروري حقًا."
"بل إنها لعنة ، مما يعني أننا لا نستطيع تخيل أي شكل من أشكال الذكاء يظهر توجهًا واضحًا للهدف بخلاف اتجاهنا. نحن دائمًا نتمنى أنه يفعل ذلك بنفس طريقة التفكير العميقة كما نفعل نحن."
مراجع:
Moskvichev، A.، Odouard، VV & Mitchell، M. Preprint at (2023).
تورينج ، آم مايند ليكس ، 433-460 (1950).
مقالة Google Scholar
Jannai، D.، Meron، A.، Lenz، B.، Levine، Y. & Shoham، Y. Preprint at (2023).
أوبن إيه آي. ما قبل الطباعة في (2023).
Bubeck، S. et al. ما قبل الطباعة في (2023).
Chollet ، F. الطباعة المسبقة في (2019).
Johnson، A.، Vong، WK، Lake، BM & Gureckis، TM Preprint في (2021).
Xu ، Y. ، Li ، W. ، Vaezipoor ، P. ، Sanner. S. & Khalil، EB Preprint at (2023).
لي ، ك وآخرون. بروك. الحادي عشر كثافة العمليات. أسيوط. يتعلم. يمثل. (2023).
** الرابط الأصلي: **