تعلم أن Orangutans للعب "Minecraft" ، فإن الطريقة هي في الواقع نفس هيئة GPT-4 الذكية؟

巴比特_

2023-08-14 06:00:21

المصدر الأصلي: Xinzhiyuan

مصدر الصورة: تم إنشاؤه بواسطة Unbounded AI‌

لاحظ أن هذا اللاعب يلعب "Minecraft" بمهارة ، وهو قادر على جمع الوجبات الخفيفة وكسر الكتل بسهولة.

بمجرد أن استدارت الكاميرا ، اكتشفنا أن الهوية الحقيقية للاعب تحولت إلى إنسان الغاب!

نعم ، هذه تجربة شبكة عصبية بيولوجية غير بشرية من مبادرة القرود.

بطل التجربة ، كانزي ، يبلغ من العمر 42 عامًا من البونوبو.

بعد التدريب ، تعلمت مهارات مختلفة ، وواجهت البيئات الصعبة مثل القرى ، والمعابد الصحراوية ، والبوابات في العالم السفلي ، وتخلصت من الجمارك طوال الطريق حتى النهاية.

وجد خبراء الذكاء الاصطناعي أن عملية تعليم مدربي إنسان الغاب لتعلم المهارات مماثلة لتلك التي يقوم بها البشر الذين يقومون بتدريس الذكاء الاصطناعي للعب Minecraft ، مثل التعلم المعزز السياقي ، RLHF ، التعلم بالمحاكاة ، التعلم بالطبع ، إلخ.

عندما يتعلم إنسان الغاب لعب Minecraft

كانزي ، بونوبو من مبادرة القرود ، هو أحد أذكى إنسان الغاب في العالم ، ويفهم اللغة الإنجليزية ويستخدم شاشة تعمل باللمس.

في Ape Initiative ، يتمتع Kanzi بإمكانية الوصول إلى العديد من الشاشات الإلكترونية التي تعمل باللمس ، والتي ربما تكون قد أرست الأساس له ليبدأ بسرعة مع "Minecraft".

في المرة الأولى التي أظهر فيها الأشخاص Kanzi Minecraft ، عثروا على سهم أخضر بمجرد جلوسه أمام الشاشة ، ثم مرر إصبعه باتجاه الهدف.

### ** تعلم ثلاث مهارات **

في غضون ثوانٍ ، اكتشف Kanzi كيفية التنقل في Minecraft.

بعد ذلك ، تعلمت أيضًا جمع المكافآت.

في كل مرة يتم فيها جمع مكافأة ، سيتم مكافأتها بوجبات خفيفة مثل الفول السوداني والعنب والتفاح.

تزداد مهارة عملية كانزي.

يتعرف على العقبات التي هي نفس الأسطوانة الخضراء مثل السهم المستهدف ، ويتجنبها عند جمع المكافآت.

بالطبع ، سيواجه كنزي صعوبات أيضًا. تطلب الأمر كسر الكتل الكبيرة باستخدام أداة الكسر ، والتي لم يسبق لها مثيل من قبل.

عند رؤية كانزي يتعثر ، بدأ البشر في المساعدة من خلال الإشارة إلى أزرار الأداة المطلوبة. ومع ذلك ، لا يزال Kanzi لا يستطيع الفهم بعد قراءته.

كان على البشر أن يفعلوا ذلك بأنفسهم ، ويكسرون كتل الخشب بالأدوات. كان كنزي مدروسًا بعد مشاهدته ، وفي نظر توقعات الجميع ، حذا حذوه أيضًا ، وحطم الكتلة الخشبية بعد النقر على الزر. اندفع الناس في الهتافات على الفور.

الآن ، شجرة مهارات Kanzi لها شيئان: جمع الوجبات الخفيفة وكتل الكتل.

أثناء تعلم مهارات الكهف ، اكتشف الموظفون أنه إذا انزلق كانزي من الكتلة الخشبية التي كان يحاول كسرها ، فسيبتعد كانزي. لذلك ، خصص الأشخاص مهمة خصيصًا لها ——

سحق كتل من الخشب في كهف مليء بجدران الماس لإثبات مهارات جمعها وتحطيمها.

كان كل شيء على ما يرام في الكهف ، ومع ذلك ، كان لدى كانزي مشكلة: لقد علقت في الزاوية. في هذا الوقت ، هناك حاجة إلى البشر لتقديم يد العون.

في النهاية ، وصل كانزي إلى قاع الكهف ، وحطم الجدار الأخير.

اندلع الحشد في الهتافات ، وأهدى كانزي للموظفين خمس مرات.

### ** البشر المخدوعون **

بعد ذلك ، جاء الشيء المثير للاهتمام: قام طاقم العمل بدعوة لاعب بشري للعب اللعبة مع كانزي ، بالطبع ، لم يكن يعرف هوية كانزي.

يعتزم طاقم العمل معرفة الوقت الذي يستغرقه اللاعب ليدرك أن الشخص الذي يلعب اللعبة معه ليس إنسانًا.

في البداية ، شعر هذا الأخ الصغير أن سرعة حركة الخصم كانت بطيئة بشكل لا يصدق ،

عندما عُرضت صورة كانزي أمام عينيه ، شعر الأخ الصغير بالخوف والارتباك.

اخرج من المتاهة

بعد لعب "Minecraft" ، أصبح Kanzi أكثر شجاعة.

عندما يجمع Kanzi مكافأة ، سيؤكد الناس سلوكها في شكل هتافات ، وإذا فشلت ، سيشجعها المدرب أيضًا على مواصلة اللعبة بالتصفيق والهتاف.

في هذا الوقت ، تعلمت فتح خريطة المتاهة تحت الأرض:

حطم العقبات أمامك:

ابحث عن الجمشت:

عندما يعلق كانزي ، سيخرج في نزهة ويعيد عصا ليضعها بجانب نفسه.

حتى لو فشل لسوء الحظ ، سينقر كانزي على الزر لتجديد نفسه.

المستوى الأخير متاهة ضخمة مليئة بالشوك.

بسبب التأخير في الخروج من المتاهة ، أصبح كنزي قلقًا وبدأ بالصراخ مع الفرع ، أو كسر الفرع بغضب.

في النهاية هدأ المكان واستمر في اختراق المستوى وخرج من المتاهة.

على الفور ، أحاط كانزي بالتصفيق والهتافات.

يبدو أن "عالمي" لعبها كانزي ، بونوبو.

** أوجه التشابه بين تعليم إنسان الغاب وتعليم الذكاء الاصطناعي **

إن مشاهدة لعبة البونوبو وهي تلعب بخبرة لعبة فيديو يمكن أن تشعر بشيء من الغرابة والغرابة.

علق كبير علماء Nvidia Jim Fan على هذا -

على الرغم من أن Kanzi وأسلافه لم يروا Minecraft مطلقًا في حياتهم ، إلا أنها تكيفت بسرعة مع نسيج وفيزياء Minecraft المعروضة على شاشة إلكترونية.

وهذا يختلف تمامًا عن البيئة الطبيعية التي تعرضوا لها وعاشوا فيها. هذا المستوى من التعميم يتجاوز بكثير نماذج الرؤية الأقوى حتى الآن.

تقنيات تدريب الحيوانات على لعب Minecraft هي في الأساس نفس مبادئ تدريب الذكاء الاصطناعي:

** - التعلم المعزز القائم على السياق: **

عندما يصل Kanzi إلى علامة فارقة في اللعبة ، يحصل على فاكهة أو فول سوداني ، مما يحفزه على الاستمرار في اتباع القواعد في اللعبة.

** - RLHF ： **

كانزي لا يفهم لغة البشر ، لكن يمكنه رؤية مدربيه يهتفون له ويردون من حين لآخر. أعطت هتافات طاقم التدريب إشارة قوية لكانزي بأنه يسير على الطريق الصحيح.

** - التعلم عن طريق التقليد: **

بعد أن أوضح المدرب لكانزي كيفية إكمال المهمة ، أدرك على الفور معنى العملية ذات الصلة. يتجاوز تأثير العرض إلى حد بعيد استراتيجية استخدام المكافآت وحدها.

** - تعلم المناهج: **

يبدأ المدرب وكانزي ببيئة بسيطة للغاية ويقومان بتعليم Kanzi تدريجياً مهارات التحكم. أخيرًا ، كانزي قادرًا على السفر عبر الكهوف المعقدة والمتاهات والنثر.

ليس ذلك فحسب ، حتى مع تقنيات التدريب المماثلة ، يمكن للنظام البصري للحيوان التعرف على بيئة جديدة والتكيف معها في فترة زمنية قصيرة جدًا ، بينما يستغرق نموذج رؤية الذكاء الاصطناعي مزيدًا من الوقت وتكاليف التدريب ، وغالبًا ما يكون يصعب تحقيقه تأثير مثالي.

مرة أخرى نقع في هاوية مفارقة مورافيك:

الذكاء الاصطناعي يتصرف عكسيا مع القدرات البشرية. في أنشطة الذكاء منخفضة المستوى التي نعتقد أنها لا تفكر أو غريزية (مثل الإدراك والتحكم الحركي) ، يكون الذكاء الاصطناعي أمرًا مروعًا. ولكن في الأنشطة الذكية المتقدمة التي تتطلب التفكير والتجريد (مثل التفكير المنطقي وفهم اللغة) ، يمكن للذكاء الاصطناعي أن يتفوق على البشر بسهولة.

هذا يتوافق تمامًا مع النتائج المقدمة في هذه التجربة:

إن أفضل ذكاء اصطناعي لدينا (GPT-4) قريب من مستوى الإنسان في فهم اللغة ، ولكنه بعيد جدًا عن الحيوانات في الإدراك والتعرف.

** مستخدم الإنترنت: اتضح أن إنسان الغاب سيغضب عندما يلعب الألعاب **

يمكن لكل من Kanzi و LLMs لعب Minecraft ، ولكن هناك فرق غير مهم بين الطريقة التي يتعلم بها Kanzi و LLMs ، والتي يجب أن نكون على دراية بها.

في مواجهة قدرة التعلم الممتازة لدى كانزي ، بدأ مستخدمو الإنترنت بالخداع.

يتوقع البعض أن العالم في 6 سنوات سيكون حربًا على كوكب القردة ...

أو أنسان الغاب يشرب كوكاكولا ويندمج في المجتمع البشري ...

حتى بوس ما تم إطلاق النار عليه وتحويله إلى "نسخة قرد" من المسك.

يقال أيضًا أن كانزي هو أول شخص غير بشري يغضب اللاعب ، وهو راضٍ.

"لو كان لدى Kanzi قناة ألعاب خاصة به ، لكنت أشاهدها بصدق."

"لا يوجد فرق كبير بين البشر والبونوبو عندما يتعلق الأمر بممارسة الألعاب. كلنا مدفوعون بالمكافآت لأداء مهام معينة وإكمال الأهداف ، والفرق الوحيد هو المحتوى الفعلي للمكافآت."

"في Minecraft ، تكون مكافآت Kanzi لتعدين الماس أكثر فورية وخامة (طعام) ، في حين أن مكافآتنا لتعدين الماس تتأخر أكثر وتتعلق باللعبة. على أي حال ، نوع من الجنون."

أولاً ، تعلمت GPT لعب "Minecraft" ، والآن يمكن للبونوبو أيضًا اللعب ، مما يجعل الناس يتطلعون إلى مستقبل استخدام Neuralink.

** يعلم Jim Fan وكلاء الذكاء الاصطناعي بلعب Minecraft **

لقد اكتسب البشر بالفعل الكثير من الخبرة المتقدمة في تدريس الذكاء الاصطناعي للعب Minecraft.

في وقت مبكر من شهر مايو من هذا العام ، قام فريق Jim Fan بتوصيل وكيل الذكاء الاصطناعي الخاص بشركة Nvidia بـ GPT-4 وأنشأ وكيلًا جديدًا للذكاء الاصطناعي Voyager.

لا تتفوق Voyager على AutoGPT في الأداء فحسب ، بل يمكنها أيضًا إجراء التعلم مدى الحياة في اللعبة في المشهد بأكمله!

يمكنه كتابة التعليمات البرمجية بشكل مستقل للسيطرة على "Minecraft" دون تدخل بشري.

يمكن القول أنه بعد ظهور Voyager ، نقترب خطوة واحدة من الذكاء الاصطناعي العام AGI.

** الحياة الرقمية الحقيقية **

بعد الوصول إلى GPT-4 ، لا داعي لأن تقلق Voyager بشأن البشر على الإطلاق ، فهي تعلم نفسها بنفسها تمامًا.

لم يتقن مهارات البقاء الأساسية للحفر وبناء المنازل والجمع والصيد فحسب ، بل تعلم أيضًا إجراء الاستكشاف المفتوح بنفسه.

مدفوعة من تلقاء نفسها ، تعمل باستمرار على توسيع عناصرها ومعداتها ، ومجهزة بمستويات مختلفة من الدروع ، واستخدام الدروع لمنع شنغهاي ، واستخدام الأسوار لإيواء الحيوانات.

جلب ظهور نماذج لغوية كبيرة إمكانيات جديدة لبناء العوامل المجسدة. لأن الوكيل القائم على LLM يمكنه استخدام المعرفة العالمية الواردة في النموذج المدرّب مسبقًا لإنشاء خطة عمل متسقة أو إستراتيجية قابلة للتنفيذ.

جيم فان: كانت لدينا هذه الفكرة قبل BabyAGI / AutoGPT وقضينا الكثير من الوقت في اكتشاف أفضل بنية خالية من التدرج اللوني

إن إدخال GPT-4 في الوكيل يفتح نموذجًا جديدًا ("التدريب" عن طريق تنفيذ الكود ، بدلاً من النسب المتدرج) ، مما يسمح للعامل بالتخلص من عيب عدم القدرة على التعلم مدى الحياة.

كما أشاد كارباثي ، عالم أوبن إيه آي ، بهذا قائلاً: إن هذه "بنية خالية من التدرج" للمهارات المتقدمة. هنا ، LLM مكافئ لقشرة الفص الجبهي ، ويتم إنشاء واجهة برمجة التطبيقات لطبقة الألغام ذات المستوى الأدنى من خلال التعليمات البرمجية.

** 3 مكونات رئيسية **

من أجل جعل Voyager وكيلًا فعالاً للتعلم مدى الحياة ، اقترحت فرق من Nvidia و Caltech ومؤسسات أخرى 3 مكونات رئيسية:

** 1. آلية فورية متكررة تجمع بين ملاحظات اللعبة وأخطاء التنفيذ والتحقق الذاتي لتحسين البرنامج **

** 2. قاعدة رمز مهارات لتخزين واسترجاع السلوكيات المعقدة **

** 3. برنامج تعليمي آلي يزيد من استكشاف الوكيل **

أولاً ، ستحاول Voyager استخدام Minecraft Java API (Mineflayer) لكتابة برنامج لتحقيق هدف معين.

ستساعد ملاحظات بيئة اللعبة وأخطاء تنفيذ Java (إن وجدت) GPT-4 على تحسين البرنامج.

اليسار: ملاحظات بيئية. تدرك GPT-4 أنها تحتاج إلى لوحين إضافيين قبل عمل العصا. اليمين: خطأ في التنفيذ. أدرك GPT-4 أنه يجب أن يصنع فأسًا خشبيًا ، وليس فأس "أكاسيا" ، لأنه لا يوجد فأس "أكاسيا" في Minecraft.

من خلال توفير الحالة والمهمة الحالية للوكيل ، يخبر GPT-4 البرنامج ما إذا كان قد أكمل المهمة.

بالإضافة إلى ذلك ، إذا فشلت المهمة ، سيقدم GPT-4 أيضًا النقد ويقترح كيفية إكمال المهمة.

التحقق الذاتي

ثانيًا ، تبني Voyager تدريجيًا بنكًا للمهارات من خلال تخزين الإجراءات الناجحة في قاعدة بيانات موجهة. يمكن استرجاع كل برنامج من خلال تضمين سلسلة docstring الخاصة به.

يتم تجميع المهارات المعقدة من خلال الجمع بين المهارات البسيطة ، مما يسمح لقدرات Voyager بالنمو بسرعة بمرور الوقت والتخفيف من فقدان الذاكرة الكارثي.

لأعلى: أضف مهارات. تتم فهرسة كل مهارة من خلال تضمين وصفها ، والذي يمكن استرجاعه في مواقف مماثلة في المستقبل. الأسفل: استرداد المهارات. عند مواجهة مهمة جديدة يقترحها المنهج الآلي ، يتم إجراء استعلام وتحديد أفضل 5 مهارات ذات صلة.

ثالثًا ، يقترح المنهج التلقائي مهام استكشاف مناسبة بناءً على مستوى المهارة الحالية للوكيل وحالته العالمية.

على سبيل المثال ، إذا وجدت نفسها في الصحراء بدلاً من الغابة ، فتعلم كيفية جمع الرمال والصبار بدلاً من الحديد. يتم إنشاء الدروس بواسطة GPT-4 بناءً على هدف "اكتشاف أكبر قدر ممكن من التنوع".

دورة تلقائية

كأول ذكاء متجسد يحركه LLM يمكنه التعلم مدى الحياة ، يمكن أن تمنحنا أوجه التشابه بين عملية تدريب Voyager وعملية تدريب إنسان الغاب الكثير من الإلهام.

مراجع:

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

تسجيلات الإعجاب 2