تعلم GPT-4V تصفح الإنترنت باستخدام لوحة المفاتيح والماوس ، وشاهده البشر وهو ينشر ويلعب الألعاب

مصدر المقال: الكيوبتات

تعلم GPT-4V تشغيل أجهزة الكمبيوتر تلقائيا ، وقد وصل اليوم أخيرا.

ما عليك سوى توصيل ** الماوس ** و ** لوحة المفاتيح ** ب GPT-4V ، ويمكنه تصفح الإنترنت وفقا لواجهة المتصفح:

يمكنك حتى معرفة موقع المشغل وزر "تشغيل الموسيقى" بسرعة ، ومنح نفسك قطعة موسيقية:

أليس هذا مخيفا بعض الشيء؟

هذه وظيفة جديدة قام بها شقيق جامعي في معهد ماساتشوستس للتكنولوجيا ، يدعى ** GPT-4V-Act **.

باستخدام عدد قليل من الأدوات البسيطة ، يمكن ل GPT-4V تعلم التحكم في لوحة المفاتيح والماوس ، واستخدام المتصفح للنشر عبر الإنترنت ، وشراء البقالة ، وحتى ممارسة الألعاب.

إذا حدث خطأ ما في الأداة المستخدمة ، فسيكون GPT-4V على دراية بها ويحاول إصلاحها.

إليك الطريقة.

** تعليم GPT-4V "تصفح الإنترنت تلقائيا" **

GPT-4V-Act ، وهو في الأساس مساعد متعدد الوسائط يعتمد على متصفح الويب الذكاء الاصطناعي (Chromium Copilot).

يمكنه "رؤية" واجهة الويب باستخدام الماوس ولوحة المفاتيح والشاشة تماما مثل الإنسان ، واستخدام المفاتيح التفاعلية في صفحة الويب لاتخاذ الخطوة التالية.

لتحقيق هذا التأثير ، بالإضافة إلى GPT-4V ، يتم استخدام ثلاث أدوات.

أحدهما هو واجهة المستخدم ، والتي تسمح ل GPT-4V "برؤية" لقطات شاشة لصفحات الويب ، كما تسمح للمستخدمين بالتفاعل مع GPT-4V.

بهذه الطريقة ، يمكن أن يعكس GPT-4V فكرة كل خطوة في شكل مربع حوار ، ويمكن للمستخدم أن يقرر ما إذا كان سيستمر في تشغيله.

والآخر هو أداة Set-of-Mark ing (SoM) ، وهي أداة تسمح ل GPT-4V بتعلم التفاعل.

تم اختراع هذه الأداة بواسطة Microsoft لهندسة الكلمات السريعة بشكل أفضل ل GPT-4V.

بدلا من السماح ل GPT-4V مباشرة "بالنظر إلى الصورة والتحدث" ، يمكن لهذه الأداة تقسيم التفاصيل الأساسية للصورة إلى أجزاء مختلفة وترقيمها ، بحيث يمكن استهداف GPT-4V:

وينطبق الشيء نفسه على الويب ، حيث تستخدم Set-of-Mark ing نهجا مشابها للسماح ل GPT-4V بمعرفة أي جزء من متصفح الويب للبحث عن الإجابة منه والتفاعل معه.

أخيرا ، تحتاج أيضا إلى استخدام ملصق تلقائي JS DOM ، والذي يمكنه تحديد جميع الأزرار التفاعلية على جانب الويب ، والسماح ل GPT-4V بتحديد الأزرار التي يجب الضغط عليها.

بعد مجموعة من العمليات ، لا يمكن ل GPT-4V تحديد المحتوى الموجود على الصورة بدقة لتلبية الاحتياجات فحسب ، بل يمكنه أيضا العثور بدقة على الأزرار التفاعلية وتعلم "تصفح الإنترنت تلقائيا".

إنه مشروع كبير ، وقد تم تنفيذ بعض الميزات فقط حتى الآن ، بما في ذلك النقر وتفاعل الكتابة والتعليق التوضيحي التلقائي وما إلى ذلك.

بعد ذلك ، هناك ميزات أخرى يجب تنفيذها ، مثل تجربة علامة الذكاء الاصطناعي (لا يزال التفاعل الحالي على جانب الويب من خلال واجهة JS لمعرفة مكان التفاعل وليس التعرف الذكاء الاصطناعي) ، ومطالبة المستخدم بإدخال معلومات مفصلة.

بالإضافة إلى ذلك ، ذكر المؤلف أيضا أنه لا تزال هناك بعض النقاط التي يجب الانتباه إليها في استخدام GPT-4V-Act في هذه المرحلة.

على سبيل المثال ، قد يتم "الخلط" بين GPT-4V-Act من خلال الإعلانات المنبثقة الساحقة بعد فتح صفحة الويب ، وبعد ذلك سيكون هناك خطأ في التفاعل.

مثال آخر هو أن هذا النوع من اللعب قد ينتهك لوائح استخدام منتجات OpenAI:

باستثناء ما تسمح به واجهة برمجة التطبيقات ، لا يجوز لك استخدام أي طرق آلية أو برمجية لاستخراج البيانات من الخدمات والمخرجات ، بما في ذلك الكشط أو جمع الويب أو استخراج بيانات الويب.

لذلك يجب أيضا أن تكون منخفضا عند استخدامه (دوج)

**يأتي مؤلفو Microsoft SoM أيضا لمشاهدة **

بعد نشر المشروع على الإنترنت ، اجتذب العديد من المتفرجين.

على سبيل المثال ، وجد مؤلف أداة Set-of-Mark من Microsoft التي يستخدمها أخي هذا المشروع:

عمل ممتاز!

ذكر بعض مستخدمي الإنترنت أنه يمكن استخدامه حتى لجعل الذكاء الاصطناعي يقرأ رمز التحقق بنفسه.

كما هو مذكور في مشروع SoM ، يمكن ل GPT-4V فك تشفير اختبارات CAPTCHA بنجاح (لذلك قد لا تعرف ما إذا كان إنسانا أو آلة تتصفح الإنترنت في المستقبل.)

)。

في الوقت نفسه ، يتخيل بعض مستخدمي الإنترنت بالفعل تشغيل أتمتة سطح المكتب.

فأجاب صاحب البلاغ:

يجب أن يكون > الذكاء الاصطناعي التعليق التلقائي قادرا على القيام بذلك ، وأنا أخطط لإنشاء مساعد طيار أكثر عمومية.

ومع ذلك ، في الوقت الحالي ، لا يزال يتعين شحن GPT-4V ، فهل هناك أي طريقة أخرى لتنفيذه؟

يقول المؤلفون أيضا أنه لا يوجد بعد ، لكنهم قد يجربون نماذج مفتوحة المصدر مثل Fuyu-8B أو LLa.

من المتوقع أن يكون مساعد الذكاء الاصطناعي البث الآلي المجاني لسطح المكتب على بعد موجة.

الروابط المرجعية:
[1]
[2]

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • 1
  • إعادة النشر
  • مشاركة
تعليق
0/400
GoodFortuneComesvip
· 2023-11-05 05:24
الذكاء الاصطناعي يتطور إلى شخص بالغ ، أليس مخيفا [مندهشا]
شاهد النسخة الأصليةرد0
  • تثبيت