قامت Microsoft بكتابة دليل GPT-4V: 166 صفحة تحتوي على شروحات كاملة ومفصلة، بما في ذلك أمثلة تجريبية للكلمات السريعة.

المصدر: كيوبتس

تم إصدار النموذج الملكي متعدد الوسائط GPT-4V، 166 صفحة من "التعليمات"! ويتم إنتاجه بواسطة فريق Microsoft.

ما نوع الورق الذي يمكن كتابته في 166 صفحة؟

فهو لا يقوم فقط بتقييم أداء GPT-4V بالتفصيل في المهام العشرة الأولى، ولكنه يوضح أيضًا كل شيء بدءًا من التعرف الأساسي على الصور وحتى التفكير المنطقي المعقد؛

كما أنه يعلم أيضًا مجموعة كاملة من النماذج الكبيرة متعددة الوسائط مهارات استخدام الكلمات الإرشادية ——

إنه يعلمك خطوة بخطوة كيفية كتابة كلمات سريعة من 0 إلى 1، ومن السهل فهم المستوى الاحترافي للإجابة في لمحة. إنه حقًا يجعل عتبة استخدام GPT-4V غير موجودة.

ومن الجدير بالذكر أن مؤلف هذه الورقة هو أيضًا "طبقة صينية بالكامل"، والمؤلفون السبعة جميعهم صينيون، والقائدة هي مديرة أبحاث رئيسية عملت في Microsoft لمدة 17 عامًا.

قبل إصدار التقرير المكون من 166 صفحة، شاركوا أيضًا في البحث الخاص بأحدث DALL·E 3 من OpenAI ولديهم فهم عميق لهذا المجال.

بالمقارنة مع ورقة GPT-4V المكونة من 18 صفحة من OpenAI، تم اعتبار "دليل الأكل" المكون من 166 صفحة على الفور بمثابة كتاب يجب قراءته لمستخدمي GPT-4V:

وأعرب بعض مستخدمي الإنترنت عن أسفهم قائلين: هذه ليست ورقة، بل هو كتاب مكون من 166 صفحة تقريبًا.

أصيب بعض مستخدمي الإنترنت بالذعر بالفعل بعد القراءة:

لا تنظر فقط إلى تفاصيل إجابة GPT-4V، فأنا خائف حقًا من القدرات المحتملة للذكاء الاصطناعي.

إذن، ما الذي تتحدث عنه "ورقة" Microsoft بالضبط، وما هي "الإمكانات" التي تظهرها بشأن GPT-4V؟

**ماذا يقول تقرير Microsoft المكون من 166 صفحة؟ **

يدرس هذا البحث طريقة GPT-4V، والتي يعتمد جوهرها على كلمة واحدة - "حاول".

صمم باحثو مايكروسوفت سلسلة من المدخلات التي تغطي مجالات متعددة، وقاموا بتغذيتها إلى GPT-4V، وقاموا بمراقبة وتسجيل مخرجات GPT-4V.

بعد ذلك، قاموا بتقييم قدرة GPT-4V على إكمال المهام المختلفة، وقدموا أيضًا تقنيات كلمات سريعة جديدة لاستخدام GPT-4V، بما في ذلك أربعة جوانب رئيسية:

**1. استخدام GPT-4V: **

5 طرق للاستخدام: صور الإدخال (الصور)، الصور الفرعية (الصور الفرعية)، النصوص (النصوص)، نصوص المشهد (نصوص المشهد) والمؤشرات المرئية (المؤشرات المرئية).

3 قدرات مدعومة: متابعة التعليمات، وتسلسل الأفكار، والتعلم في سياق قصير.

على سبيل المثال، هذه هي قدرة التعليمات التالية التي أظهرها GPT-4V بعد تغيير طريقة طرح الأسئلة بناءً على سلسلة التفكير:

**2. أداء GPT-4V في 10 مهام رئيسية: **

الفهم البصري للعالم المفتوح، الوصف البصري، المعرفة متعددة الوسائط، المنطق السليم، فهم نص المشهد، استدلال المستندات، ترميز الكتابة، الاستدلال الزمني، الاستدلال المجرد، فهم العاطفة

من بينها هذا النوع من "أسئلة الاستدلال بالصورة" التي تتطلب بعض معدل الذكاء لحلها:

**3. مهارات الكلمات السريعة للنماذج الكبيرة متعددة الوسائط المشابهة لـ GPT-4V: **

تم اقتراح تقنية جديدة متعددة الوسائط للكلمات الإرشادية "الإحالة المرئية"، والتي يمكن أن تشير إلى المهمة محل الاهتمام عن طريق تحرير الصورة المدخلة مباشرةً واستخدامها مع تقنيات الكلمات الإرشادية الأخرى.

**4. إمكانات البحث والتنفيذ للنماذج الكبيرة متعددة الوسائط: **

يتم التنبؤ بنوعين من المجالات التي يجب على الباحثين في مجال التعلم متعدد الوسائط التركيز عليها، بما في ذلك التنفيذ (سيناريوهات التطبيق المحتملة) واتجاهات البحث.

على سبيل المثال، هذا أحد السيناريوهات المحتملة لـ GPT-4V التي وجدها الباحثون - اكتشاف الأخطاء:

ولكن سواء كان الأمر يتعلق بتقنية الكلمات السريعة الجديدة أو سيناريوهات تطبيق GPT-4V، فإن أكثر ما يثير قلق الجميع هو القوة الحقيقية لـ GPT-4V.

لذلك، استخدم "دليل التعليمات" هذا لاحقًا أكثر من 150 صفحة لعرض عروض توضيحية متنوعة، مع تفصيل قدرات GPT-4V في مواجهة الإجابات المختلفة.

دعونا نلقي نظرة على مدى تطور قدرات GPT-4V متعددة الوسائط اليوم.

يتقن الصور في المجالات المهنية، ويمكنه أيضًا تعلم المعرفة الآن

تعريف الصورة

التعريف الأساسي هو بالطبع قطعة من الكعكة، مثل المشاهير من جميع مناحي الحياة في دوائر التكنولوجيا والرياضة والترفيه:

ولا يمكنك فقط معرفة من هم هؤلاء الأشخاص، ولكن يمكنك أيضًا تفسير ما يفعلونه، على سبيل المثال، في الصورة أدناه، يقدم Huang منتجات بطاقة الرسومات الجديدة من Nvidia.

بالإضافة إلى الأشخاص، تعد المعالم أيضًا أمرًا سهلاً بالنسبة لـ GPT-4V، فهو لا يمكنه تحديد الاسم والموقع فحسب، بل يمكنه أيضًا تقديم مقدمات تفصيلية.

يسار: تايمز سكوير، نيويورك، يمين: معبد كينكاكوجي، كيوتو

ومع ذلك، كلما زاد عدد الأشخاص والأماكن المشهورة، أصبح الحكم أسهل، لذلك هناك حاجة إلى صور أكثر صعوبة لإظهار إمكانيات GPT-4V.

على سبيل المثال، في التصوير الطبي، بالنسبة للأشعة المقطعية للرئة التالية، أعطى GPT-4V هذا الاستنتاج:

هناك توحيدات وعتامة زجاجية مطحونة في مناطق متعددة من الرئتين، وقد يكون هناك عدوى أو التهاب في الرئتين. قد يكون هناك أيضًا كتلة أو عقيدة في الفص العلوي من الرئة اليمنى.

وحتى بدون إخبار GPT-4V بنوع الصورة وموقعها، يمكنه الحكم عليها بنفسه.

في هذه الصورة، نجح GPT-4V في التعرف عليها كصورة للدماغ بالرنين المغناطيسي.

وفي الوقت نفسه، عثر GPT-4V أيضًا على كمية كبيرة من تراكم السوائل، والذي كان يعتبر ورمًا دبقيًا عالي الجودة.

وبعد الحكم المهني، فإن الاستنتاج الذي قدمه GPT-4V صحيح تمامًا.

بالإضافة إلى هذه المحتويات "الخطيرة"، تم أيضًا التقاط رموز "التراث الثقافي غير المادي" للمجتمع البشري المعاصر بواسطة GPT-4V.

الترجمة الآلية، كمرجع فقط

لا يمكنه فقط تفسير الميمات في الرموز التعبيرية، ولكن يمكن أيضًا رؤية المشاعر التي تعبر عنها التعبيرات البشرية في العالم الحقيقي بواسطة GPT-4.

بالإضافة إلى هذه الصور الحقيقية، يعد التعرف على النص أيضًا مهمة مهمة في الرؤية الآلية.

وفي هذا الصدد، لا يستطيع GPT-4V التعرف على اللغات المكتوبة بأحرف لاتينية فحسب، بل يمكنه أيضًا التعرف على لغات أخرى مثل الصينية واليابانية واليونانية.

حتى الصيغ الرياضية المكتوبة بخط اليد:

### استدلال الصورة

العرض التوضيحي الموضح أعلاه، بغض النظر عن مدى احترافه أو صعوبة فهمه، لا يزال في نطاق الاعتراف، ولكن هذا مجرد غيض من فيض من مهارات GPT-4V.

بالإضافة إلى فهم المحتوى الموجود في الصورة، يتمتع GPT-4V أيضًا بقدرات تفكير معينة.

وبكل بساطة، يستطيع GPT-4V العثور على الاختلافات بين الصورتين (رغم أنه لا تزال هناك بعض الأخطاء).

في مجموعة الصور التالية، تم اكتشاف الاختلافات بين التاج والقوس بواسطة GPT-4V.

إذا قمت بزيادة الصعوبة، فيمكن لـ GPT-4V أيضًا حل مشكلات الرسومات في اختبار الذكاء.

إن الخصائص أو العلاقات المنطقية في الأسئلة الثلاثة المذكورة أعلاه بسيطة نسبياً، لكن الصعوبة ستظهر بعد ذلك:

بالطبع الصعوبة لا تكمن في الرسومات نفسها، انتبه إلى وصف النص الرابع في الصورة، ترتيب الرسومات في السؤال الأصلي ليس كما هو موضح في الصورة.

### تعليق توضيحي للصورة

بالإضافة إلى الإجابة على الأسئلة المختلفة بالنص، يستطيع GPT-4V أيضًا إجراء سلسلة من العمليات على الصور.

على سبيل المثال، لدينا صورة جماعية لأربعة من عمالقة الذكاء الاصطناعي، ونحتاج إلى GPT-4V لتأطير الشخصيات وتسمية أسمائهم ومقدماتهم المختصرة.

أجاب GPT-4V أولاً على هذه الأسئلة بنص، ثم قدم الصور المعالجة:

### تحليل المحتوى الديناميكي

بالإضافة إلى هذه المحتويات الثابتة، يمكن لـ GPT-4V أيضًا إجراء تحليل ديناميكي، لكنه لا يغذي النموذج بالفيديو مباشرة.

الصور الخمس أدناه مأخوذة من فيديو تعليمي حول صنع السوشي.وتتمثل مهمة GPT-4V في تخمين الترتيب الذي تظهر به هذه الصور (استنادًا إلى فهم المحتوى).

بالنسبة لنفس سلسلة الصور، قد تكون هناك طرق مختلفة لفهمها، ولهذا السبب سيصدر GPT-4V أحكامًا بناءً على المطالبات النصية.

على سبيل المثال، في مجموعة الصور التالية، ما إذا كان إجراء الشخص هو فتح الباب أو إغلاق الباب سيؤدي إلى نتائج فرز معاكسة تمامًا.

وبالطبع، من خلال التغييرات التي تطرأ على حالة الشخصيات في الصور المتعددة، يمكننا أيضًا استنتاج ما يفعلونه.

أو حتى التنبؤ بما سيحدث بعد ذلك:

### "التعلم في الموقع"

لا يتمتع GPT-4V بمهارات بصرية قوية فحسب، بل إن المفتاح هو أنه يمكن تعلمه وبيعه على الفور.

على سبيل المثال، إذا طُلب من GPT-4V قراءة لوحة قيادة السيارة، فإن الإجابة التي تم الحصول عليها في البداية خاطئة:

ثم أعطيت الطريقة لـ GPT-4V نصيًا، لكن هذه الإجابة لا تزال خاطئة:

ثم عرضت المثال على GPT-4V، وكانت الإجابة مشابهة، لكن للأسف تم تجميع الأرقام بشكل عشوائي.

مثال واحد فقط هو في الواقع صغير بعض الشيء، ولكن مع زيادة عدد العينات (في الواقع لا يوجد سوى عينة أخرى)، يؤتي العمل الشاق ثماره أخيرًا، ويعطي GPT-4V الإجابة الصحيحة.

يعرض GPT-4V فقط العديد من التأثيرات. بالطبع، يدعم أيضًا المزيد من المجالات والمهام. من المستحيل إظهارها واحدًا تلو الآخر هنا. إذا كنت مهتمًا، يمكنك قراءة التقرير الأصلي.

إذًا، ما هو نوع الفريق الذي يقف وراء تأثيرات هذه القطع الأثرية مثل GPT-4V؟

قيادة خريجي تسينغهوا

هناك إجمالي 7 مؤلفين لهذه الورقة، جميعهم صينيون، 6 منهم مؤلفون أساسيون.

المؤلف الرئيسي للمشروع، ليجوان وانغ، هو مدير الأبحاث الرئيسي للحوسبة السحابية والذكاء الاصطناعي في مايكروسوفت.

تخرجت من جامعة هواتشونغ للعلوم والتكنولوجيا وحصلت على درجة الدكتوراه من جامعة تسينغهوا في الصين، وانضمت إلى أبحاث مايكروسوفت آسيا في عام 2006 وأبحاث مايكروسوفت في ريدموند في عام 2016.

مجال بحثها هو التعلم العميق والتعلم الآلي استنادًا إلى الذكاء الإدراكي متعدد الوسائط، والذي يتضمن على وجه التحديد التدريب المسبق لنموذج اللغة المرئية، وتوليد ترجمة الصور، واكتشاف الأهداف وتقنيات الذكاء الاصطناعي الأخرى.

العنوان الأصلي:

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • مشاركة
تعليق
0/400
لا توجد تعليقات
  • تثبيت