تعلم GPT-4V تشغيل أجهزة الكمبيوتر تلقائيا ، وقد وصل اليوم أخيرا.
ما عليك سوى توصيل ** الماوس ** و ** لوحة المفاتيح ** ب GPT-4V ، ويمكنه تصفح الإنترنت وفقا لواجهة المتصفح:
يمكنك حتى معرفة موقع المشغل وزر "تشغيل الموسيقى" بسرعة ، ومنح نفسك قطعة موسيقية:
أليس هذا مخيفا بعض الشيء؟
هذه وظيفة جديدة قام بها شقيق جامعي في معهد ماساتشوستس للتكنولوجيا ، يدعى ** GPT-4V-Act **.
باستخدام عدد قليل من الأدوات البسيطة ، يمكن ل GPT-4V تعلم التحكم في لوحة المفاتيح والماوس ، واستخدام المتصفح للنشر عبر الإنترنت ، وشراء البقالة ، وحتى ممارسة الألعاب.
إذا حدث خطأ ما في الأداة المستخدمة ، فسيكون GPT-4V على دراية بها ويحاول إصلاحها.
إليك الطريقة.
** تعليم GPT-4V "تصفح الإنترنت تلقائيا" **
GPT-4V-Act ، وهو في الأساس مساعد متعدد الوسائط يعتمد على متصفح الويب الذكاء الاصطناعي (Chromium Copilot).
يمكنه "رؤية" واجهة الويب باستخدام الماوس ولوحة المفاتيح والشاشة تماما مثل الإنسان ، واستخدام المفاتيح التفاعلية في صفحة الويب لاتخاذ الخطوة التالية.
لتحقيق هذا التأثير ، بالإضافة إلى GPT-4V ، يتم استخدام ثلاث أدوات.
أحدهما هو واجهة المستخدم ، والتي تسمح ل GPT-4V "برؤية" لقطات شاشة لصفحات الويب ، كما تسمح للمستخدمين بالتفاعل مع GPT-4V.
بهذه الطريقة ، يمكن أن يعكس GPT-4V فكرة كل خطوة في شكل مربع حوار ، ويمكن للمستخدم أن يقرر ما إذا كان سيستمر في تشغيله.
والآخر هو أداة Set-of-Mark ing (SoM) ، وهي أداة تسمح ل GPT-4V بتعلم التفاعل.
تم اختراع هذه الأداة بواسطة Microsoft لهندسة الكلمات السريعة بشكل أفضل ل GPT-4V.
بدلا من السماح ل GPT-4V مباشرة "بالنظر إلى الصورة والتحدث" ، يمكن لهذه الأداة تقسيم التفاصيل الأساسية للصورة إلى أجزاء مختلفة وترقيمها ، بحيث يمكن استهداف GPT-4V:
وينطبق الشيء نفسه على الويب ، حيث تستخدم Set-of-Mark ing نهجا مشابها للسماح ل GPT-4V بمعرفة أي جزء من متصفح الويب للبحث عن الإجابة منه والتفاعل معه.
أخيرا ، تحتاج أيضا إلى استخدام ملصق تلقائي JS DOM ، والذي يمكنه تحديد جميع الأزرار التفاعلية على جانب الويب ، والسماح ل GPT-4V بتحديد الأزرار التي يجب الضغط عليها.
بعد مجموعة من العمليات ، لا يمكن ل GPT-4V تحديد المحتوى الموجود على الصورة بدقة لتلبية الاحتياجات فحسب ، بل يمكنه أيضا العثور بدقة على الأزرار التفاعلية وتعلم "تصفح الإنترنت تلقائيا".
إنه مشروع كبير ، وقد تم تنفيذ بعض الميزات فقط حتى الآن ، بما في ذلك النقر وتفاعل الكتابة والتعليق التوضيحي التلقائي وما إلى ذلك.
بعد ذلك ، هناك ميزات أخرى يجب تنفيذها ، مثل تجربة علامة الذكاء الاصطناعي (لا يزال التفاعل الحالي على جانب الويب من خلال واجهة JS لمعرفة مكان التفاعل وليس التعرف الذكاء الاصطناعي) ، ومطالبة المستخدم بإدخال معلومات مفصلة.
بالإضافة إلى ذلك ، ذكر المؤلف أيضا أنه لا تزال هناك بعض النقاط التي يجب الانتباه إليها في استخدام GPT-4V-Act في هذه المرحلة.
على سبيل المثال ، قد يتم "الخلط" بين GPT-4V-Act من خلال الإعلانات المنبثقة الساحقة بعد فتح صفحة الويب ، وبعد ذلك سيكون هناك خطأ في التفاعل.
مثال آخر هو أن هذا النوع من اللعب قد ينتهك لوائح استخدام منتجات OpenAI:
باستثناء ما تسمح به واجهة برمجة التطبيقات ، لا يجوز لك استخدام أي طرق آلية أو برمجية لاستخراج البيانات من الخدمات والمخرجات ، بما في ذلك الكشط أو جمع الويب أو استخراج بيانات الويب.
لذلك يجب أيضا أن تكون منخفضا عند استخدامه (دوج)
**يأتي مؤلفو Microsoft SoM أيضا لمشاهدة **
بعد نشر المشروع على الإنترنت ، اجتذب العديد من المتفرجين.
على سبيل المثال ، وجد مؤلف أداة Set-of-Mark من Microsoft التي يستخدمها أخي هذا المشروع:
عمل ممتاز!
ذكر بعض مستخدمي الإنترنت أنه يمكن استخدامه حتى لجعل الذكاء الاصطناعي يقرأ رمز التحقق بنفسه.
كما هو مذكور في مشروع SoM ، يمكن ل GPT-4V فك تشفير اختبارات CAPTCHA بنجاح (لذلك قد لا تعرف ما إذا كان إنسانا أو آلة تتصفح الإنترنت في المستقبل.)
)。
في الوقت نفسه ، يتخيل بعض مستخدمي الإنترنت بالفعل تشغيل أتمتة سطح المكتب.
فأجاب صاحب البلاغ:
يجب أن يكون > الذكاء الاصطناعي التعليق التلقائي قادرا على القيام بذلك ، وأنا أخطط لإنشاء مساعد طيار أكثر عمومية.
ومع ذلك ، في الوقت الحالي ، لا يزال يتعين شحن GPT-4V ، فهل هناك أي طريقة أخرى لتنفيذه؟
يقول المؤلفون أيضا أنه لا يوجد بعد ، لكنهم قد يجربون نماذج مفتوحة المصدر مثل Fuyu-8B أو LLa.
من المتوقع أن يكون مساعد الذكاء الاصطناعي البث الآلي المجاني لسطح المكتب على بعد موجة.
الروابط المرجعية:
[1]
[2]
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
تسجيلات الإعجاب 2
أعجبني
2
1
إعادة النشر
مشاركة
تعليق
0/400
GoodFortuneComes
· 2023-11-05 05:24
الذكاء الاصطناعي يتطور إلى شخص بالغ ، أليس مخيفا [مندهشا]
تعلم GPT-4V تصفح الإنترنت باستخدام لوحة المفاتيح والماوس ، وشاهده البشر وهو ينشر ويلعب الألعاب
مصدر المقال: الكيوبتات
ما عليك سوى توصيل ** الماوس ** و ** لوحة المفاتيح ** ب GPT-4V ، ويمكنه تصفح الإنترنت وفقا لواجهة المتصفح:
هذه وظيفة جديدة قام بها شقيق جامعي في معهد ماساتشوستس للتكنولوجيا ، يدعى ** GPT-4V-Act **.
إذا حدث خطأ ما في الأداة المستخدمة ، فسيكون GPT-4V على دراية بها ويحاول إصلاحها.
** تعليم GPT-4V "تصفح الإنترنت تلقائيا" **
GPT-4V-Act ، وهو في الأساس مساعد متعدد الوسائط يعتمد على متصفح الويب الذكاء الاصطناعي (Chromium Copilot).
يمكنه "رؤية" واجهة الويب باستخدام الماوس ولوحة المفاتيح والشاشة تماما مثل الإنسان ، واستخدام المفاتيح التفاعلية في صفحة الويب لاتخاذ الخطوة التالية.
لتحقيق هذا التأثير ، بالإضافة إلى GPT-4V ، يتم استخدام ثلاث أدوات.
أحدهما هو واجهة المستخدم ، والتي تسمح ل GPT-4V "برؤية" لقطات شاشة لصفحات الويب ، كما تسمح للمستخدمين بالتفاعل مع GPT-4V.
بهذه الطريقة ، يمكن أن يعكس GPT-4V فكرة كل خطوة في شكل مربع حوار ، ويمكن للمستخدم أن يقرر ما إذا كان سيستمر في تشغيله.
بدلا من السماح ل GPT-4V مباشرة "بالنظر إلى الصورة والتحدث" ، يمكن لهذه الأداة تقسيم التفاصيل الأساسية للصورة إلى أجزاء مختلفة وترقيمها ، بحيث يمكن استهداف GPT-4V:
أخيرا ، تحتاج أيضا إلى استخدام ملصق تلقائي JS DOM ، والذي يمكنه تحديد جميع الأزرار التفاعلية على جانب الويب ، والسماح ل GPT-4V بتحديد الأزرار التي يجب الضغط عليها.
إنه مشروع كبير ، وقد تم تنفيذ بعض الميزات فقط حتى الآن ، بما في ذلك النقر وتفاعل الكتابة والتعليق التوضيحي التلقائي وما إلى ذلك.
بعد ذلك ، هناك ميزات أخرى يجب تنفيذها ، مثل تجربة علامة الذكاء الاصطناعي (لا يزال التفاعل الحالي على جانب الويب من خلال واجهة JS لمعرفة مكان التفاعل وليس التعرف الذكاء الاصطناعي) ، ومطالبة المستخدم بإدخال معلومات مفصلة.
على سبيل المثال ، قد يتم "الخلط" بين GPT-4V-Act من خلال الإعلانات المنبثقة الساحقة بعد فتح صفحة الويب ، وبعد ذلك سيكون هناك خطأ في التفاعل.
**يأتي مؤلفو Microsoft SoM أيضا لمشاهدة **
بعد نشر المشروع على الإنترنت ، اجتذب العديد من المتفرجين.
على سبيل المثال ، وجد مؤلف أداة Set-of-Mark من Microsoft التي يستخدمها أخي هذا المشروع:
فأجاب صاحب البلاغ:
يجب أن يكون > الذكاء الاصطناعي التعليق التلقائي قادرا على القيام بذلك ، وأنا أخطط لإنشاء مساعد طيار أكثر عمومية.
يقول المؤلفون أيضا أنه لا يوجد بعد ، لكنهم قد يجربون نماذج مفتوحة المصدر مثل Fuyu-8B أو LLa.
الروابط المرجعية:
[1]
[2]