هل الذكاء الاصطناعي فهم ما يولده؟ بعد التجارب على GPT-4 و Midjourney ، قام شخص ما بحل القضية

2023-11-04 09:52:17

مصدر المقال: قلب الآلة

تحرير: طبق كبير من الدجاج وصلصة البيض

بدون "فهم" ، لا يمكن أن يكون هناك "خلق".

* مصدر الصورة: تم إنشاؤه بواسطة الذكاء الاصطناعي غير محدود *

من ChatGPT إلى GPT4 ، من DALL ・E 2/3 إلى Midjourney ، حظيت الذكاء الاصطناعي التوليدية باهتمام عالمي غير مسبوق. إمكانات الذكاء الاصطناعي ضخمة ، لكن الذكاء الكبير يمكن أن يسبب الخوف والقلق. في الآونة الأخيرة ، كان هناك نقاش حاد حول هذه المسألة. أولا ، "تشاجر" الفائزون في تورينج ، ثم انضم أندرو نج.

في مجال اللغة والرؤية ، يمكن إخراج النماذج التوليدية اليوم في غضون ثوان ويمكن أن تتحدى حتى الخبراء الذين يتمتعون بسنوات من المهارات والمعرفة. يبدو أن هذا يوفر دافعا مقنعا للادعاء بأن النماذج قد تجاوزت الذكاء البشري. ومع ذلك ، من المهم أيضا ملاحظة أنه غالبا ما تكون هناك أخطاء أساسية في الفهم في إخراج النموذج.

بهذه الطريقة ، يبدو أن المفارقة تظهر: كيف نوفق بين القدرات التي تبدو خارقة لهذه النماذج مع الأخطاء الأساسية التي لا تزال قائمة والتي يمكن لمعظم البشر تصحيحها؟

في الآونة الأخيرة ، أصدرت جامعة واشنطن ومعهد ألين الذكاء الاصطناعي ورقة مشتركة لدراسة هذه المفارقة.

عنوان:

تجادل هذه الورقة بأن هذه الظاهرة تحدث لأن تكوين القدرة في النماذج التوليدية اليوم ينحرف عن تكوين الذكاء البشري. تقترح هذه المقالة وتختبر الفرضية المتناقضة الذكاء الاصطناعي التوليدية: يتم تدريب النماذج التوليدية على إخراج نتائج مباشرة تشبه نتائج الخبراء ، وهي عملية تتخطى القدرة على فهم القدرة على توليد مخرجات عالية الجودة. ومع ذلك ، بالنسبة للبشر ، هذا مختلف تماما ، وغالبا ما يكون الفهم الأساسي شرطا أساسيا لقدرات الإخراج على مستوى الخبراء.

في هذه الورقة ، يختبر الباحثون هذه الفرضية من خلال التجارب الخاضعة للرقابة ويحللون قدرة النموذج التوليدي على توليد وفهم النص والرؤية. في هذه المقالة ، سنتحدث أولا عن مفهوم "فهم" النماذج التوليدية من منظورين:

1. بالنظر إلى مهمة التوليد ، إلى أي مدى يمكن للنموذج تحديد الاستجابة الصحيحة في النسخة التمييزية لنفس المهمة ؛
1. بالنظر إلى الاستجابة التي تم إنشاؤها بشكل صحيح ، إلى أي مدى يمكن للنموذج الإجابة على المحتوى والأسئلة حول تلك الاستجابة. ينتج عن هذا إعدادان تجريبيان ، انتقائيان واستفهام.

وجد الباحثون أنه في التقييم الانتقائي ، غالبا ما كان أداء النموذج جيدا أو أفضل من البشر في إعداد مهمة التوليد ، ولكن في الإعداد التمييزي (الفهم) ، كان أداء النموذج أقل من البشر. يظهر تحليل إضافي أنه بالمقارنة مع GPT-4 ، فإن القدرة على التمييز البشري ترتبط ارتباطا وثيقا بالقدرة التوليدية ، والقدرة على التمييز البشري أكثر قوة للمدخلات العدائية ، وتزداد الفجوة بين النموذج والقدرة على التمييز البشري مع زيادة صعوبة المهمة.

وبالمثل ، في تقييمات الاستفهام ، في حين أن النماذج يمكن أن تنتج مخرجات عالية الجودة عبر مهام مختلفة ، لاحظ الباحثون أن النماذج غالبا ما ترتكب أخطاء في الإجابة على الأسئلة حول هذه المخرجات ، وأن فهم النموذج أقل مرة أخرى من فهم البشر. تناقش هذه المقالة مجموعة من الأسباب المحتملة للاختلاف بين النماذج التوليدية والبشر من حيث تكوين القدرات ، بما في ذلك أهداف تدريب النموذج وحجم وطبيعة المدخلات.

تكمن أهمية هذا البحث في أنه يعني أولا وقبل كل شيء أن المفاهيم الحالية للذكاء المستمدة من التجربة البشرية قد لا تكون قابلة للتعميم على الذكاء الاصطناعي ، وعلى الرغم من أن قدرات الذكاء الاصطناعي تبدو وكأنها تحاكي أو تفوق الذكاء البشري من نواح كثيرة ، إلا أن قدراتها قد تختلف اختلافا جوهريا عن الأنماط المتوقعة للبشر. من ناحية أخرى ، تشير نتائج هذه الورقة أيضا إلى توخي الحذر عند دراسة النماذج التوليدية لاكتساب نظرة ثاقبة للذكاء البشري والإدراك البشري ، حيث أن المخرجات الشبيهة بالإنسان على مستوى الخبراء قد تحجب الآليات غير البشرية.

في الختام ، تشجع مفارقة الذكاء الاصطناعي التوليدية الناس على دراسة النماذج كنقيض مثير للاهتمام للذكاء البشري ، وليس كنقيض مواز.

"تسلط مفارقة الذكاء الاصطناعي التوليدية الضوء على الفكرة المثيرة للاهتمام بأن النماذج الذكاء الاصطناعي يمكنها إنشاء محتوى قد لا يفهمونه تماما. وهذا يثير المشاكل المحتملة وراء محدودية فهم الذكاء الاصطناعي وقدراته التوليدية القوية". قال مستخدمو الإنترنت.

ما هي المفارقة التوليدية الذكاء الاصطناعي

لنبدأ بالنظر إلى مفارقة الذكاء الاصطناعي التوليدية والتصميم التجريبي لاختبارها.

* الشكل 1: يمكن أن يؤدي الذكاء الاصطناعي التوليدي في اللغة والرؤية إلى نتائج عالية الجودة. ومن المفارقات ، مع ذلك ، أن النموذج يواجه صعوبة في إظهار فهم انتقائي (A ، C) أو استفهام (B ، D) لهذه الأنماط. *

يبدو أن النماذج التوليدية أكثر فعالية في اكتساب القدرات التوليدية من الفهم ، على عكس الذكاء البشري ، الذي غالبا ما يكون اكتسابه أكثر صعوبة.

لاختبار هذه الفرضية ، يلزم تعريف عملي لمختلف جوانب المفارقة. أولا ، بالنسبة لنموذج معين ومهمة t ، مع الذكاء البشري كخط أساس ، ما يعنيه أن تكون "أكثر فعالية" من فهم القدرة. باستخدام g و U كبعض مؤشرات الأداء للتوليد والفهم ، قام الباحثون بإضفاء الطابع الرسمي على فرضية المفارقة التوليدية الذكاء الاصطناعي على النحو التالي:

ببساطة ، بالنسبة للمهمة t ، إذا كان الأداء التوليدي البشري g هو نفس النموذج ، فإن أداء الفهم البشري ستكون أعلى بكثير من النموذج (> ε تحت ε معقول). وبعبارة أخرى، كان أداء النموذج أسوأ من حيث الفهم مما يتوقعه الباحثون من البشر الذين يتمتعون بقدرات توليدية قوية مماثلة.

التعريف التشغيلي للتوليد بسيط: بالنظر إلى إدخال المهمة (سؤال / موجه) ، فإن التوليد يدور حول إنشاء محتوى يمكن ملاحظته لتلبية هذا المدخل. نتيجة لذلك ، يمكن تقييم الأداء g (على سبيل المثال ، الأسلوب ، والصحة ، والتفضيل) تلقائيا أو من قبل البشر. في حين أن الفهم لا يتم تعريفه من خلال عدد قليل من المخرجات التي يمكن ملاحظتها ، إلا أنه يمكن اختباره من خلال تحديد آثاره بوضوح:

التقييم الانتقائي. إلى أي مدى لا يزال بإمكان النموذج اختيار إجابة دقيقة من مجموعة المرشحين المقدمة في نسخة تمييزية من نفس المهمة لمهمة معينة يمكنها توليد إجابة؟ ومن الأمثلة الشائعة على ذلك إجابات الاختيار من متعدد ، والتي تعد واحدة من أكثر الطرق شيوعا لاختبار الفهم البشري وفهم اللغة الطبيعية في نماذج اللغة. (الشكل 1 ، الأعمدة A ، C)
التقييم القائم على الأسئلة. إلى أي مدى يمكن للنموذج أن يجيب بدقة على الأسئلة المتعلقة بمحتوى وملاءمة ناتج نموذج معين تم إنشاؤه؟ هذا مشابه للامتحان الشفوي في التعليم. (الشكل 1 ، الأعمدة B ، D).

توفر تعريفات الفهم هذه مخططا لتقييم "مفارقة الذكاء الاصطناعي التوليدية" وتسمح للباحثين باختبار ما إذا كانت الفرضية 1 صحيحة عبر أنماط ومهام ونماذج مختلفة.

عندما يمكن إنشاء نماذج ، هل يمكن التمييز بينها؟ **

أولا ، أجرى الباحثون تحليل أداء جنبا إلى جنب لمتغيرات المهمة التوليدية والمهمة التمييزية في التقييم الانتقائي لتقييم توليد النموذج وقدرته على الفهم في اللغة والأنماط البصرية. قارنوا هذا الجيل وأداء التمييز بالبشر.

يقارن الشكل 2 أدناه أداء التوليد والتمييز ل GPT-3.5 و GPT-4 والبشر. يمكنك أن ترى أنه في 10 من 13 مجموعة بيانات ، هناك نموذج واحد على الأقل يدعم الفرضية الفرعية 1 ، مع نماذج أفضل من البشر من حيث الجيل ولكنها أقل تمييزا من البشر. من بين 13 مجموعة بيانات ، تدعم 7 مجموعات بيانات الفرضية الفرعية 1 لكلا النموذجين.

إن توقع قيام البشر بإنشاء صور مفصلة مثل النماذج المرئية أمر غير واقعي ، ولا يمكن للشخص العادي أن يتطابق مع الجودة الأسلوبية لنماذج مثل Midjourney ، لذلك من المفترض أن البشر لديهم أداء توليدي أقل. تتم مقارنة دقة التوليد والتمييز فقط للنموذج بدقة التمييز بين البشر. على غرار مجال اللغة ، يوضح الشكل 3 أن CLIP و OpenCLIP أقل دقة من البشر من حيث الأداء التمييزي. من المفترض أن البشر أقل قدرة على التوليد ، وهو ما يتفق مع الفرضية الفرعية 1: الرؤية الذكاء الاصطناعي أعلى من المتوسط البشري من حيث الجيل ، ولكنها متخلفة عن البشر من حيث الفهم.

يوضح الشكل 4 (يسار) GPT-4 مقارنة بالبشر. من خلال النظر إليه ، يمكن ملاحظة أنه عندما تكون الإجابات طويلة وصعبة ، مثل تلخيص مستند طويل ، يميل النموذج إلى ارتكاب معظم الأخطاء في المهمة التمييزية. ** على النقيض من ذلك ، فإن البشر قادرون على الحفاظ على معدل دقة مرتفع باستمرار في المهام ذات الصعوبة المتفاوتة.

يوضح الشكل 4 (يمين) أداء OpenCLIP التمييزي مقارنة بالبشر في مستويات مختلفة من الصعوبة. تسلط هذه النتائج مجتمعة الضوء على قدرة البشر على تمييز الإجابة الصحيحة حتى في مواجهة العينات الصعبة أو العدائية ، لكن هذه القدرة ليست قوية في نماذج اللغة. يثير هذا التناقض تساؤلات حول مدى فهم هذه النماذج حقا.

يوضح الشكل 5 اتجاها ملحوظا: يميل المقيمون إلى تفضيل استجابات GPT-4 على الاستجابات التي ينتجها الإنسان.

هل يفهم النموذج النتائج التي يولدها؟ **

أظهر القسم السابق أن النماذج جيدة بشكل عام في توليد إجابات دقيقة ، ولكنها متخلفة عن البشر في مهمة التمييز. الآن ، في التقييمات القائمة على الأسئلة ، يطرح الباحثون أسئلة النموذج مباشرة حول المحتوى الذي تم إنشاؤه للتحقيق في مدى قدرة النموذج على إظهار فهم ذي مغزى للمحتوى الذي تم إنشاؤه - وهو قوة البشر.

يوضح الشكل 6 (يسار) نتائج طريقة اللغة. بينما يتفوق النموذج في التوليد ، فإنه غالبا ما يرتكب أخطاء عند الإجابة على أسئلة حول جيله ، مما يشير إلى أن النموذج يرتكب أخطاء في الفهم. بافتراض أن الإنسان لا يمكنه إنشاء مثل هذا النص بنفس السرعة أو المقياس ، على الرغم من أن السؤال يتعلق بناتج النموذج نفسه ، فإن دقة ضمان الجودة البشرية كانت عالية باستمرار مقارنة بالنموذج. كما هو موضح في الفرضية الفرعية 2 ، يتوقع الباحثون أن يحقق البشر دقة أعلى في النص الذي تم إنشاؤه بأنفسهم. في الوقت نفسه ، يمكن الإشارة إلى أن البشر في هذه الدراسة ليسوا خبراء ، ويمكن أن يكون تحديا كبيرا لإنتاج نص معقد مثل ناتج النموذج.

ونتيجة لذلك، يتوقع الباحثون أنه إذا تمت مقارنة النموذج بخبير بشري، فإن فجوة الأداء في فهم المحتوى الذي ينشئونه ستتسع، حيث من المرجح أن يجيب الخبير البشري على مثل هذه الأسئلة بدقة شبه مثالية.

يوضح الشكل 6 (يمين) نتائج سؤال في الوضع المرئي. كما ترى ، لا تزال نماذج فهم الصور غير قابلة للمقارنة مع البشر في الدقة عند الإجابة على أسئلة بسيطة حول العناصر الموجودة في الصور التي تم إنشاؤها. في الوقت نفسه ، تتفوق نماذج SOTA لتوليد الصور على معظم الأشخاص العاديين من حيث جودة وسرعة توليد الصور (من المتوقع أن يكون من الصعب على الأشخاص العاديين إنشاء صور واقعية مماثلة) ، مما يشير إلى أن الذكاء الاصطناعي البصري بعيد نسبيا عن البشر من حيث التوليد (أقوى) والفهم (أضعف). والمثير للدهشة أن هناك فجوة أداء أصغر بين النماذج البسيطة والبشر مقارنة ب LLMs متعددة الوسائط المتقدمة (مثل Bard و BingChat) ، والتي تتمتع ببعض الفهم البصري الرائع ولكنها لا تزال تكافح للإجابة على أسئلة بسيطة حول الصور التي تم إنشاؤها.

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

تسجيلات الإعجاب 2

أعجبني
2
تعليق
مشاركة

تعليق

0/400

لا توجد تعليقات

الموضوع
#Gate & WLFI USD1 Points Program
11239 درجة الشعبية
#Show My Alpha Points
74567 درجة الشعبية
#ETH Whales Accumulate
18222 درجة الشعبية
#SOL Futures Reach New High
21383 درجة الشعبية
#ETH ETF Sees 12 Weeks of Inflows
6383 درجة الشعبية

تثبيت

خريطة الموقع

هل الذكاء الاصطناعي فهم ما يولده؟ بعد التجارب على GPT-4 و Midjourney ، قام شخص ما بحل القضية

**ما هي المفارقة التوليدية الذكاء الاصطناعي **

عندما يمكن إنشاء نماذج ، هل يمكن التمييز بينها؟ **

هل يفهم النموذج النتائج التي يولدها؟ **

ما هي المفارقة التوليدية الذكاء الاصطناعي