بقيادة فريق Tsinghua ، تم إطلاق أول اختبار معياري منهجي لوكيل الذكاء الاصطناعي

2023-08-09 02:18:36

وكلاء الذكاء الاصطناعي ، أو الوكلاء الأذكياء المستقلون ، ليسوا فقط مساعدين بشريين خارقين في أفلام الخيال العلمي مثل جارفيس ، ولكنهم كانوا أيضًا نقطة ساخنة للبحث في مجال الذكاء الاصطناعي في العالم الحقيقي. على وجه الخصوص ، أدى ظهور نماذج الذكاء الاصطناعي الكبيرة التي يمثلها GPT-4 إلى دفع مفهوم وكلاء الذكاء الاصطناعي إلى طليعة التكنولوجيا.

في "المدينة الافتراضية" الشهيرة سابقًا في ستانفورد ، نما 25 وكيلًا للذكاء الاصطناعي بحرية في المدينة الافتراضية وأقاموا حفلة عيد الحب ؛ نموذج العميل المتجسد فوييجر الذي اقترحته Nvidia وآخرون تعلموا أيضًا في "My World" مهارات البقاء المختلفة ابتكرت مهاراتهم الخاصة العالم ؛ بالإضافة إلى ذلك ، أثارت AutoGPT و BabyAGI و AgentGPT ، التي يمكنها إكمال المهام بشكل مستقل ، اهتمامًا واسع النطاق وأثارت مناقشات ساخنة بين الجمهور.

حتى Andrej Karpathy ، المدير السابق لـ Tesla AI والعودة إلى OpenAI ، كشف في حدث للمطورين أنه عندما يكون هناك ورقة وكيل AI جديدة ، فإن OpenAI ستكون مهتمة للغاية وستجري مناقشة جادة **.

على الرغم من أن البحث الحالي عن وكيل الذكاء الاصطناعي ساخن للغاية ، ** في الوقت الحالي ، تفتقر صناعة الذكاء الاصطناعي إلى معيار منهجي وموحد لتقييم مستوى ذكاء LLMs كوكلاء **.

تحقيقًا لهذه الغاية ، اقترح فريق بحثي من ** جامعة تسينغهوا ، وجامعة ولاية أوهايو ، وجامعة كاليفورنيا ، بيركلي ** أول اختبار معياري منهجي - AgentBench ، لتقييم ماجستير إدارة الأعمال كوكلاء في مختلف تحديات العالم الحقيقي والأداء (مثل مهارات التفكير واتخاذ القرار) في 8 بيئات مختلفة.

أظهرت النتائج أن ** أفضل نماذج اللغات التجارية مثل GPT-4 تعمل بشكل جيد في البيئات المعقدة ، مع ميزة كبيرة ** بين النماذج مفتوحة المصدر. تحقيقا لهذه الغاية ، يقترح فريق البحث أنه من الضروري بذل مزيد من الجهود لتحسين قدرات التعلم في LLM مفتوحة المصدر.

تم نشر ورقة بحثية ذات صلة بعنوان "* AgentBench: uating LLMs as Agents *" على موقع الويب لما قبل الطباعة arXiv. بالإضافة إلى ذلك ، تم أيضًا نشر ** مجموعات البيانات والبيئات وحزم التقييم المتكاملة ذات الصلة على GitHub **.

المعيار المنهجي الأول

في الأبحاث والممارسات السابقة ، تم استخدام بيئات الألعاب القائمة على النصوص لتقييم وكالة اللغة. ومع ذلك ، غالبًا ما تكون محدودة بسبب مساحات العمل المنفصلة المغلقة ، وينصب تركيزها بشكل أساسي على القدرات القائمة على المنطق للنماذج.

تستخدم بعض المحاولات الأخيرة على الوكلاء المتجسدين محاكيات معقدة متعددة الوسائط تعتمد على الألعاب وواجهات المستخدم الرسومية (GUIs) والمشاهد الداخلية. ومع ذلك ، على الرغم من تعقيد هذه المحاكيات ، فإنها لا يمكن أن تعكس بدقة استخدام LLM في حالات الاستخدام في العالم الحقيقي ، كما أن طبيعتها متعددة الوسائط تشكل أيضًا عقبات أمام التقييم السريع للنص العادي LLM.

علاوة على ذلك ، تركز معظم معايير الوكيل على بيئة واحدة ، مما يحد من قدرتها على تقديم نظرة عامة شاملة على LLM في سيناريوهات تطبيق مختلفة.

في هذا العمل ، عمل فريق البحث على نظام التشغيل (OS) وقاعدة البيانات (DB) والرسم البياني المعرفي (KG) ولعبة الورق (DCG) والتخمين بالسيناريو (LTP) وتأثيث المنزل (Alfworld) والتسوق عبر الإنترنت (WebShop)) وتصفح الويب (Mind2Web) ** تم تقييم 25 نموذجًا مختلفًا للغة (كل من النماذج المعتمدة على واجهة برمجة التطبيقات والنماذج مفتوحة المصدر) باستخدام برنامج AgentBench في 8 مهام بيئية مختلفة.

تظهر نتائج الاختبار أن أحدث النماذج مثل GPT-4 قادرة على التعامل مع مجموعة متنوعة من مهام العالم الحقيقي ، في حين أن ** معظم LLMs مفتوحة المصدر تؤدي أداءً أسوأ بكثير من LLM المستندة إلى API في AgentBench ** ؛ حتى ، الأكثر قدرة هناك أيضًا فجوة كبيرة في الأداء بين نموذج المصدر المفتوح openchat-13b-v3.2 و gpt-3.5-turbo.

على الرغم من أنه من خلال التدريب المكثف على المحاذاة ، فإن LLM لا يمكنها فقط إتقان مهام البرمجة اللغوية العصبية التقليدية مثل الإجابة على الأسئلة ، والتفكير اللغوي الطبيعي ، وتلخيص النص ، ولكن أيضًا إثبات القدرة على فهم النوايا البشرية وتنفيذ التعليمات ، إلا أنها تؤدي أداءً ضعيفًا في مهام AgentBench مثل فعالية الإجراء ، والسياق الطويل ، والاتساق متعدد الدورات ، والتدريب على الكود) أداء متأخر نسبيًا.

وفقًا لفريق البحث ، ** هناك حاجة إلى مزيد من العمل في المستقبل لإجراء تقييمات أكثر صرامة ومنهجية ، ولتوفير أدوات قوية مفتوحة المصدر لتسهيل مثل هذه التقييمات ** ، مثل التحسين المستمر لـ AgentBench لجعله أكثر شمولاً وشمولية ، وإنشاء نظام تقييم أكثر منهجية للماجستير ، إلخ.

السباق نحو وكلاء الذكاء الاصطناعي "المستقلين" يجتاح وادي السيليكون

أدى التطور المستمر لنماذج الذكاء الاصطناعي الكبيرة إلى ولادة مساعدين جدد. يؤدي السباق على وكلاء الذكاء الاصطناعي "المستقلين" حاليًا إلى تأجيج الهيجان في وادي السيليكون. لم يقتصر الأمر على جذب المطورين الفرديين فحسب ، بل شاركت أيضًا الشركات العملاقة مثل Microsoft و Alphabet ، الشركة الأم لـ Google ، بالإضافة إلى العديد من الشركات الناشئة.

لنأخذ على سبيل المثال شركة Start Inflection AI ، التي قال مؤسساها ريد هوفمان ومصطفى سليمان في تدوينة صوتية إنهما يطوران مساعدًا شخصيًا يمكنه العمل كمرشد ويتولى مهام مثل ترتيب ائتمانات الرحلات وشؤون الفنادق.

قال مطور شركة MultiOn ، Div Garg ، إن الهدف هو تطويره ليصبح صديقًا شخصيًا للذكاء الاصطناعي ، على غرار المساعد الافتراضي "جارفيس". يريدون أن يكون هذا الوكيل قادرًا على الاتصال بالخدمات الفردية.

بشكل عام ، قال الرئيس التنفيذي لشركة Intelligent Kanjun Qiu: "الأشياء السهلة على البشر لا تزال صعبة للغاية على أجهزة الكمبيوتر ، مثل تحديد موعد اجتماع للرئيس مع مجموعة من العملاء المهمين. وهذا يتطلب قدرات تفكير معقدة للغاية ، بما في ذلك الوصول إلى تفضيلات الجميع ، وحل تتعارض ، مع مراعاة الفروق الدقيقة أيضًا عند العمل مع العملاء ".

يتوقع Qiu وأربعة مطورين من الوكالات الأخرى أن الأنظمة الأولى التي يمكنها أداء مهام متعددة الخطوات بشكل موثوق مع بعض الاستقلالية ستكون متاحة في غضون عام ، مع التركيز على القطاعات مثل الترميز والتسويق.

قال الرئيس التنفيذي لشركة Microsoft ، ساتيا ناديلا ، ذات مرة في مقابلة مع صحيفة فاينانشيال تايمز: "سواء كانت مايكروسوفت كورتانا ، أليكسا أمازون ، مساعد جوجل ، أو سيري من آبل ، فهم ليسوا أذكياء بما يكفي لتلبية التوقعات الأولية."

** بغض النظر عن المخاوف المستمرة ، أظهر وكلاء الذكاء الاصطناعي إمكانات كبيرة وسوقًا كبيرًا. ** على الرغم من أننا قد نواجه بعض التحديات في عملية الاستكشاف والتطبيق ، تمامًا مثل العديد من الابتكارات في التاريخ ، ومع مرور الوقت ، يمكننا أن نتوقع أن نرى عوامل الذكاء الاصطناعي هذه تجلب فوائد إيجابية وإيجابية للمجتمع البشري من خلال التحسين والتحسين المستمر. تأثير عميق.

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.