أثارت قدرات ChatGPT متعددة الوسائط حالة من الجنون، لكن ورقتها البحثية كشفت أن GPT-4V لا يزال يعاني من عيوب

كتبه كايل ويجرز

المصدر: تك كرانش

مصدر الصورة: تم إنشاؤها بواسطة أداة Unbounded AI

عندما أصدرت OpenAI لأول مرة نموذجها الرائد لإنشاء النصوص باستخدام الذكاء الاصطناعي GPT-4، روجت الشركة لتعدد الوسائط في النموذج - وبعبارة أخرى، قدرته على فهم ليس فقط النص ولكن الصور أيضًا. يقول OpenAI إن GPT-4 يمكنه التعليق وحتى شرح الصور المعقدة نسبيًا، مثل التعرف على محول Lightning Cable من صورة جهاز iPhone متصل به.

ولكن منذ إصدار GPT-4 في أواخر مارس، احتفظت OpenAI بقدرات التصوير الخاصة بالنموذج، وذلك بسبب المخاوف بشأن إساءة الاستخدام ومشكلات الخصوصية. وحتى وقت قريب، ظلت الطبيعة الدقيقة لهذه المخاوف لغزا. في وقت سابق من هذا الأسبوع، نشرت OpenAI ورقة فنية توضح بالتفصيل عملها لتقليل الجوانب الإشكالية لأداة تحليل الصور GPT-4.

حتى الآن، يتم استخدام GPT-4 الممكّن للرؤية (يشار إليه داخليًا باسم "GPT-4V" في OpenAI) بشكل منتظم فقط من قبل الآلاف من مستخدمي Be My Eyes، وهو تطبيق يساعد الأشخاص ضعاف البصر والمكفوفين على التنقل في محيطهم. ومع ذلك، خلال الأشهر القليلة الماضية، بدأت OpenAI أيضًا العمل مع "الفريق الأحمر" لاستكشاف النموذج بحثًا عن علامات السلوك غير المتوقع، وفقًا للورقة البحثية.

في المقال، تدعي OpenAI أن لديها ضمانات لمنع استخدام GPT-4V بشكل ضار، مثل اختراق اختبارات CAPTCHA، وتحديد شخص ما أو تقدير عمره أو عرقه، واستخلاص استنتاجات بناءً على معلومات غير موجودة في الصورة. . وقالت OpenAI أيضًا إنها عملت على قمع التحيزات الأكثر ضررًا في GPT-4V، خاصة تلك المتعلقة بمظهر الشخص أو جنسه أو عرقه.

ولكن كما هو الحال مع جميع نماذج الذكاء الاصطناعي، لا يمكن للضمانات أن تذهب أبعد من ذلك.

يُظهر البحث أن GPT-4V كان يواجه أحيانًا صعوبة في التوصل إلى استنتاجات صحيحة، على سبيل المثال عن طريق الجمع بشكل غير صحيح بين سلسلتين من النص في صورة ما لإنشاء مصطلح وهمي. مثل قاعدة GPT-4، فإن GPT-4V عرضة للهلوسة أو اختلاق الحقائق بنبرة موثوقة. بالإضافة إلى ذلك، فإنه يفتقد الكلمات أو الأحرف، ويتجاهل الرموز الرياضية، ويفشل في التعرف على الأشياء الواضحة إلى حد ما وإعدادات الأماكن.

لذلك ليس من المستغرب أن تنص OpenAI صراحةً على أنه لا يمكن استخدام GPT-4V لاكتشاف المواد أو المواد الكيميائية الخطرة في الصور. (لم يفكر هذا المراسل حتى في حالة الاستخدام هذه، ولكن يبدو أن OpenAI مهتمة بدرجة كافية بالاحتمال الذي جعل الشركة تشعر أنه من الضروري الإشارة إليه). وجد أعضاء الفريق الأحمر أنه على الرغم من أن النموذج حدد في بعض الأحيان بشكل صحيح الأطعمة السامة، مثل الفطر السام، إلا أنه حدد بشكل غير صحيح أيضًا مواد مثل الفنتانيل والكارفنتانيل والكوكايين في صور الهياكل الكيميائية.

كان أداء GPT-4V ضعيفًا أيضًا عند تطبيقه على التصوير الطبي، وفي بعض الأحيان أعطى إجابات غير صحيحة على نفس السؤال عندما كان قد أجاب بشكل صحيح في مواقف سابقة. بالإضافة إلى ذلك، لا يعرف GPT-4V بعض الممارسات القياسية، مثل عرض فحوصات التصوير والمريض مواجهًا لك (بمعنى أن الجانب الأيمن من الصورة يتوافق مع الجانب الأيسر للمريض)، مما قد يؤدي أيضًا إلى تشخيص خاطئ.

في مكان آخر، يحذر OpenAI من أن GPT-4V لا يفهم أيضًا الفروق الدقيقة في بعض رموز الكراهية - على سبيل المثال، لا يعرف المعنى الحديث لـ Temple Cross (للسيادة البيضاء) في الولايات المتحدة. والأكثر غرابة، وربما من أعراض ميوله الهلوسة، لوحظ أن GPT-4V يؤلف أغانٍ أو قصائد تمدح شخصيات أو مجموعات بغيضة معينة عندما تُعطى صور لها، حتى لو لم يتم تمثيل تلك الشخصيات أو المجموعات. قم بتسميتها بوضوح.

يميز GPT-4V أيضًا ضد بعض الأجناس وأنواع الجسم - وإن كان ذلك فقط عندما يتم تعطيل ضمانات العائد الخاصة بـ OpenAI. في أحد الاختبارات، عندما طُلب منه تقديم نصيحة لامرأة ترتدي ملابس السباحة، أعطى GPT-4V إجابات كانت مرتبطة بالكامل تقريبًا بمفاهيم وزن المرأة وحالتها البدنية، حسبما كتب OpenAI. نشك في أن هذا لن يكون هو الحال إذا كان الشخص الموجود في الصورة ذكراً.

انطلاقًا من التحذيرات الواردة في الورقة البحثية، لا يزال GPT-4V عملاً قيد التقدم، ولا يزال على بعد عدة خطوات من رؤية OpenAI الأصلية. في كثير من الحالات، اضطرت الشركة إلى تنفيذ إجراءات وقائية صارمة للغاية لمنع العارضات من نشر معلومات سامة أو مضللة أو المساس بالخصوصية الشخصية.

تدعي شركة OpenAI أنها تقوم ببناء "عمليات تخفيف" و"عمليات" لتوسيع قدرات النموذج بطريقة "آمنة"، مثل السماح لـ GPT-4V بوصف الوجوه والأشخاص دون تسميتهم. لكن هذه الورقة تظهر أن GPT-4V ليس كلي القدرة، ولا يزال أمام OpenAI الكثير من العمل للقيام به.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • مشاركة
تعليق
0/400
لا توجد تعليقات
  • تثبيت