تم رفع الحظر متعدد الوسائط على ChatGPT، وأصيب مستخدمو الإنترنت بالجنون!

** المصدر: ** شينزييوان

في يوم الأربعاء، أعلنت OpenAI للتو عن رفع الحظر المفروض على قدرات ChatGPT متعددة الوسائط.

الآن، بمجرد أن يتم نشره على الإنترنت، يصاب مستخدمو الإنترنت بالجنون على الفور.

بعد ذلك، دعونا نلقي نظرة على مدى قوة إمكانيات التعرف على الصور في ChatGPT.

التقط صورة وقم بتحميلها، وسيتم إنشاء الرمز على الفور

قام أحد مستخدمي الإنترنت بتسجيل مقطع فيديو وتحميل صورة السبورة أثناء الاجتماع، ثم طلب من ChatGPT كتابة الرمز.

يمكنك أيضًا تحميل رسم تخطيطي مرسوم يدويًا ومطالبة ChatGPT بإنشاء صفحة ويب بتنسيق HTML.

ووش ووش، الرمز كان يخرج كل دقيقة.

هذه ببساطة هي القدرة متعددة الوسائط التي أظهرها جريج بروكمان عندما تم إصدار GPT-4 للتو هذا العام.

للحصول على مثال آخر، التقط صورة لدفتر قائمة المهام الخاص بك.

ثم اسمح لـ GPT-4 بإنشاء واجهة المستخدم الرسومية Python Tkinter، ثم تم تنفيذها ...

المخطوطات القديمة المخطوطة، مترجمة في لمحة

إليكم مخطوطة أخرى مأخوذة من الكيميائي روبرت بويل الذي عاش في القرن السابع عشر. هل يستطيع GPT-4 قراءتها؟

هذه قطعة من الكعكة لذلك.

على سبيل المثال، "الدليل الطبي الكاتالوني عن المومياوات الطبية".

يمكن لـ ChatGPT أيضًا النسخ والترجمة.

وقال بنجامين برين، أستاذ التاريخ المساعد في جامعة كاليفورنيا، سان فرانسيسكو:

وسيكون لهذا تأثير كبير على المؤرخين. تخيل جهاز GPT-4 مخصصًا متعدد الوسائط تم تدريبه على مجموعة محددة من المخطوطات. لا يمكنه النسخ فحسب، بل يمكنه أيضًا الترجمة والتصنيف. (إن الكتابة بدون ماجستير في القانون هي مشكلة كبيرة في رأيي).

ملخص الرسم البياني هو أيضًا 6 جدًا

يمكنك أيضًا إصدار أمر GPT-4 لاستخراج البيانات بناءً على المخطط.

يمكن بعد ذلك إنشاء كود بايثون لتكرار المخطط وجعله أشبه بالمخطط.

ثم قم بوضع مخطط اتجاه السهم عليه، ويمكنه أيضًا تحليل وتلخيص الخصائص.

التعرف على الصور "معدل الذكاء المتفوق"

أعط GPT-4 صورة مجردة.

يمكنها في الواقع أن تحدد بدقة استعارة "أهمية التواصل" التي تريد هذه الصور الأربع التعبير عنها، وهذا أمر شنيع.

ويمكن لـGPT-4V قراءة خط يد الأطباء.

استخدم بعض مستخدمي الإنترنت اليابانيين Sun Wukong مباشرة من "Dragon Ball" لإجراء اختبار ChatGPT.

هناك أيضًا رموز تحقق مختلفة لـ "هل أنت إنسان؟"

قم بتحميل جزء من عملك الخاص، ويمكن أن يقدم لك GPT-4 أيضًا اقتراحات للتحسين.

اكتشف بعض مستخدمي الإنترنت أن GPT-4V أعطى الإجابة الصحيحة على هذا السؤال في ورقة kosmos-1، ولكن كان هناك خطأ في عملية الاستدلال.

مع هذه الميزة، لم يعد الأطفال بحاجة إلى القيام بالواجبات المنزلية.

ملخص من مستخدمي الإنترنت

بالإضافة إلى التجربة المذكورة أعلاه، كتب بعض مستخدمي الإنترنت مقالًا طويلًا يعرضون فيه اختبارهم الخاص لـ GPT-4V.

الاختبار الأول: أسئلة وأجوبة مرئية

أعطني رمزًا تعبيريًا وشاهد مدى فهم GPT-4V له؟

يشرح GPT-4V بنجاح سبب كونه مثيرًا للاهتمام ويذكر المكونات الفردية للصورة وكيفية اتصالها.

ومن الجدير بالذكر أن GPT-4V قادر على قراءة التعليقات المقدمة بين قوسين والرد عليها.

على الرغم من ذلك، لا يزال GPT-4V يرتكب خطأً، حيث وضع علامة "NVIDIA BURGER" على الدجاج المقلي بدلاً من "GPU".

ثم اختبرها مرة أخرى بعملة معدنية، وهي صورة بنس أمريكي. GPT-4V قادر على تحديد أصل العملة وفئتها بنجاح.

ولكن إذا كانت صورة لعدة عملات معدنية وتسأل GPT-4V، ما هو مقدار المال الذي أملكه؟

في هذه المرحلة، يمكنه فقط تحديد عدد العملات، وليس نوع العملة.

الاختبار الثاني: التعرف الضوئي على الحروف

التقط صورًا نصية من صفحات الويب وقم بتحميلها، ويمكن لـ GPT-4V قراءة المحتوى جيدًا.

الاختبار 3: التعرف الضوئي على الحروف في الرياضيات

يعد التعرف الضوئي على الحروف الرياضي شكلاً خاصًا من أشكال التعرف البصري على الأحرف الذي يستهدف المعادلات الرياضية.

سأل أحد مستخدمي الإنترنت GPT-4V عن مشكلة رياضية وقدمها في شكل لقطة شاشة للمستند.

تتضمن هذه المشكلة حساب طول خط السحاب بمعلومية زاويتين، مع ظهور رسالة "حلها" على الصورة.

يحدد النموذج المشكلات التي يمكن حلها باستخدام علم المثلثات، ويحدد الوظائف التي سيتم استخدامها، ويقدم إرشادات خطوة بخطوة حول كيفية حل المشكلة. ثم يقدم GPT-4V الإجابة الصحيحة على السؤال.

ومع ذلك، تشير بطاقة النظام GPT-4V إلى أن النموذج قد يفتقد رموزًا رياضية.

قد تشير الاختبارات المختلفة، بما في ذلك الاختبارات التي تحتوي على معادلات أو تعبيرات مكتوبة بخط اليد على الورق، إلى عدم قدرة النموذج على الإجابة على أسئلة الرياضيات.

الاختبار الرابع: اكتشاف الأشياء

بمطالبة GPT-4V باكتشاف كلب في صورة ما وتوفير قيم x_min وy_min وx_max وy_max المتعلقة بموضع الكلب، فإن إحداثيات المربع المحيط التي تم إرجاعها بواسطة GPT-4V غير متطابقة موقف الكلب.

على الرغم من أن GPT-4V قوي جدًا في الإجابة على أسئلة الصور، إلا أن هذا النموذج لا يمكنه أن يحل محل نماذج اكتشاف الكائنات ذات الضبط الدقيق عندما تريد معرفة مكان وجود الكائن في الصورة.

الاختبار الخامس: رمز التحقق

تبين أن GPT-4V قادر على التعرف على الصور التي تحتوي على رموز التحقق، لكنه غالبًا ما يفشل في الاختبار.

في أحد الأمثلة على اختيار شبكات إشارات المرور، اختار GPT-4V عددًا أقل من الشبكات التي تحتوي على إشارات المرور.

الاختبار السادس: الكلمات المتقاطعة والسودوكو

في اختبار سودوكو، تعرف GPT-4V على اللعبة ولكنه أساء فهم بنية اللوحة وبالتالي أعاد نتائج غير دقيقة.

بالمناسبة، عادت وظيفة شبكة ChatGPT.

مراجع:

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • مشاركة
تعليق
0/400
لا توجد تعليقات
  • تثبيت