تعلم GPT-4V تصفح الإنترنت باستخدام لوحة المفاتيح والماوس ، وشاهده البشر وهو ينشر ويلعب الألعاب

巴比特_

2023-11-05 02:16:51

مصدر المقال: الكيوبتات

تعلم GPT-4V تشغيل أجهزة الكمبيوتر تلقائيا ، وقد وصل اليوم أخيرا.

ما عليك سوى توصيل ** الماوس ** و ** لوحة المفاتيح ** ب GPT-4V ، ويمكنه تصفح الإنترنت وفقا لواجهة المتصفح:

يمكنك حتى معرفة موقع المشغل وزر "تشغيل الموسيقى" بسرعة ، ومنح نفسك قطعة موسيقية:

أليس هذا مخيفا بعض الشيء؟

هذه وظيفة جديدة قام بها شقيق جامعي في معهد ماساتشوستس للتكنولوجيا ، يدعى ** GPT-4V-Act **.

باستخدام عدد قليل من الأدوات البسيطة ، يمكن ل GPT-4V تعلم التحكم في لوحة المفاتيح والماوس ، واستخدام المتصفح للنشر عبر الإنترنت ، وشراء البقالة ، وحتى ممارسة الألعاب.

إذا حدث خطأ ما في الأداة المستخدمة ، فسيكون GPT-4V على دراية بها ويحاول إصلاحها.

إليك الطريقة.

تعليم GPT-4V "تصفح الإنترنت تلقائيا"

GPT-4V-Act ، وهو في الأساس مساعد متعدد الوسائط يعتمد على متصفح الويب الذكاء الاصطناعي (Chromium Copilot).

يمكنه "رؤية" واجهة الويب باستخدام الماوس ولوحة المفاتيح والشاشة تماما مثل الإنسان ، واستخدام المفاتيح التفاعلية في صفحة الويب لاتخاذ الخطوة التالية.

لتحقيق هذا التأثير ، بالإضافة إلى GPT-4V ، يتم استخدام ثلاث أدوات.

أحدهما هو واجهة المستخدم ، والتي تسمح ل GPT-4V "برؤية" لقطات شاشة لصفحات الويب ، كما تسمح للمستخدمين بالتفاعل مع GPT-4V.

بهذه الطريقة ، يمكن أن يعكس GPT-4V فكرة كل خطوة في شكل مربع حوار ، ويمكن للمستخدم أن يقرر ما إذا كان سيستمر في تشغيله.

والآخر هو أداة Set-of-Mark ing (SoM) ، وهي أداة تسمح ل GPT-4V بتعلم التفاعل.

تم اختراع هذه الأداة بواسطة Microsoft لهندسة الكلمات السريعة بشكل أفضل ل GPT-4V.

بدلا من السماح ل GPT-4V مباشرة "بالنظر إلى الصورة والتحدث" ، يمكن لهذه الأداة تقسيم التفاصيل الأساسية للصورة إلى أجزاء مختلفة وترقيمها ، بحيث يمكن استهداف GPT-4V:

وينطبق الشيء نفسه على الويب ، حيث تستخدم Set-of-Mark ing نهجا مشابها للسماح ل GPT-4V بمعرفة أي جزء من متصفح الويب للبحث عن الإجابة منه والتفاعل معه.

أخيرا ، تحتاج أيضا إلى استخدام ملصق تلقائي JS DOM ، والذي يمكنه تحديد جميع الأزرار التفاعلية على جانب الويب ، والسماح ل GPT-4V بتحديد الأزرار التي يجب الضغط عليها.

بعد مجموعة من العمليات ، لا يمكن ل GPT-4V تحديد المحتوى الموجود على الصورة بدقة لتلبية الاحتياجات فحسب ، بل يمكنه أيضا العثور بدقة على الأزرار التفاعلية وتعلم "تصفح الإنترنت تلقائيا".

إنه مشروع كبير ، وقد تم تنفيذ بعض الميزات فقط حتى الآن ، بما في ذلك النقر وتفاعل الكتابة والتعليق التوضيحي التلقائي وما إلى ذلك.

بعد ذلك ، هناك ميزات أخرى يجب تنفيذها ، مثل تجربة علامة الذكاء الاصطناعي (لا يزال التفاعل الحالي على جانب الويب من خلال واجهة JS لمعرفة مكان التفاعل وليس التعرف الذكاء الاصطناعي) ، ومطالبة المستخدم بإدخال معلومات مفصلة.

بالإضافة إلى ذلك ، ذكر المؤلف أيضا أنه لا تزال هناك بعض النقاط التي يجب الانتباه إليها في استخدام GPT-4V-Act في هذه المرحلة.

على سبيل المثال ، قد يتم "الخلط" بين GPT-4V-Act من خلال الإعلانات المنبثقة الساحقة بعد فتح صفحة الويب ، وبعد ذلك سيكون هناك خطأ في التفاعل.

مثال آخر هو أن هذا النوع من اللعب قد ينتهك لوائح استخدام منتجات OpenAI:

باستثناء ما تسمح به واجهة برمجة التطبيقات ، لا يجوز لك استخدام أي طرق آلية أو برمجية لاستخراج البيانات من الخدمات والمخرجات ، بما في ذلك الكشط أو جمع الويب أو استخراج بيانات الويب.

لذلك يجب أيضا أن تكون منخفضا عند استخدامه (دوج)

يأتي مؤلفو Microsoft SoM أيضا لمشاهدة

بعد نشر المشروع على الإنترنت ، اجتذب العديد من المتفرجين.

على سبيل المثال ، وجد مؤلف أداة Set-of-Mark من Microsoft التي يستخدمها أخي هذا المشروع:

عمل ممتاز!

ذكر بعض مستخدمي الإنترنت أنه يمكن استخدامه حتى لجعل الذكاء الاصطناعي يقرأ رمز التحقق بنفسه.

كما هو مذكور في مشروع SoM ، يمكن ل GPT-4V فك تشفير اختبارات CAPTCHA بنجاح (لذلك قد لا تعرف ما إذا كان إنسانا أو آلة تتصفح الإنترنت في المستقبل.)

）。

في الوقت نفسه ، يتخيل بعض مستخدمي الإنترنت بالفعل تشغيل أتمتة سطح المكتب.

فأجاب صاحب البلاغ:

يجب أن يكون > الذكاء الاصطناعي التعليق التلقائي قادرا على القيام بذلك ، وأنا أخطط لإنشاء مساعد طيار أكثر عمومية.

ومع ذلك ، في الوقت الحالي ، لا يزال يتعين شحن GPT-4V ، فهل هناك أي طريقة أخرى لتنفيذه؟

يقول المؤلفون أيضا أنه لا يوجد بعد ، لكنهم قد يجربون نماذج مفتوحة المصدر مثل Fuyu-8B أو LLa.

من المتوقع أن يكون مساعد الذكاء الاصطناعي البث الآلي المجاني لسطح المكتب على بعد موجة.

الروابط المرجعية:
[1]
[2]

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

تسجيلات الإعجاب 2

أعجبني
2
1
إعادة النشر
مشاركة

تعليق

0/400

GoodFortuneComes

· 2023-11-05 05:24

الذكاء الاصطناعي يتطور إلى شخص بالغ ، أليس مخيفا [مندهشا]

شاهد النسخة الأصليةرد0

الموضوع
#Gate & WLFI USD1 Points Program
58k درجة الشعبية
#Trump Allows 401(k) Crypto Investing
33k درجة الشعبية
#Join Copy Trading Share to Win $2,000
25k درجة الشعبية
#Show My Alpha Points
77k درجة الشعبية
#SOL Futures Reach New High
22k درجة الشعبية

تثبيت

خريطة الموقع

تعلم GPT-4V تصفح الإنترنت باستخدام لوحة المفاتيح والماوس ، وشاهده البشر وهو ينشر ويلعب الألعاب

** تعليم GPT-4V "تصفح الإنترنت تلقائيا" **

**يأتي مؤلفو Microsoft SoM أيضا لمشاهدة **

تعليم GPT-4V "تصفح الإنترنت تلقائيا"

يأتي مؤلفو Microsoft SoM أيضا لمشاهدة