في هذه المرحلة ، يبدو أن وكلاء الذكاء الاصطناعي يتمتعون بالقدرة المطلقة ، ويلعبون الألعاب ويقلدون البشر لإكمال المهام المختلفة ، ويتم تدريب هؤلاء العملاء أساسًا في بيئات معقدة. ليس هذا فقط ، ولكن كلما أصبحت مهمة التعلم أكثر تعقيدًا ، يزداد أيضًا تعقيد بيئة المحاكاة ، مما يزيد من تكلفة البيئة المحاكاة.
حتى بالنسبة للشركات والمؤسسات التي لديها موارد على نطاق الحوسبة الفائقة ، فإن تدريب وكيل قابل للاستخدام قد يستغرق أيامًا حتى يكتمل.
هذا يعيق التقدم في هذا المجال ويقلل من التطبيق العملي لتدريب وكلاء الذكاء الاصطناعي المتقدمين. لمواجهة التكلفة العالية لمحاكاة البيئة ، أعادت الجهود البحثية الحديثة تصميم أجهزة المحاكاة بشكل أساسي لتحقيق كفاءة أكبر عند تدريب الوكلاء. تشترك هذه الأعمال في فكرة محاكاة الدُفعات ، وهي التنفيذ المتزامن للعديد من البيئات المستقلة (مثيلات التدريب) داخل محرك محاكاة واحد.
في هذه الورقة ، اقترح باحثون من جامعة ستانفورد ومؤسسات أخرى ** محرك لعبة تعلم معززًا يسمى Madrona ، يمكنه تشغيل آلاف البيئات بالتوازي على وحدة معالجة رسومات واحدة ، مما يقلل من وقت تدريب الوكلاء من ساعات إلى ساعات. دقيقة * *.
* العنوان الورقي:
الصفحة الرئيسية للورق:
على وجه التحديد ، Madrona عبارة عن محرك ألعاب بحث مصمم لإنشاء بيئات تعليمية يمكنها تشغيل الآلاف من مثيلات البيئة في وقت واحد على وحدة معالجة رسومات واحدة ، وبإنتاجية عالية جدًا (ملايين خطوات التجميع في الثانية). الهدف من Madrona هو تسهيل الأمر على الباحثين لإنشاء بيئات جديدة عالية الأداء لمجموعة متنوعة من المهام ، وبالتالي تسريع تدريب وكلاء الذكاء الاصطناعي بأعداد كبيرة.
يحتوي Madrona على الميزات التالية:
محاكاة دفعة وحدة معالجة الرسومات: يمكن تشغيل آلاف البيئات على وحدة معالجة رسومات واحدة ؛
بنية نظام مكونات الكيان (ECS) ؛
سهل التشغيل المتبادل مع PyTorch.
مثال بيئة Madrona:
كما ذكرنا أعلاه ، استخدمت الدراسة مبادئ تصميم ECS ، والعملية المحددة على النحو التالي:
باستخدام إطار عمل Madrona ، قام الباحثون بتنفيذ بيئات تعليمية متعددة ، حيث أظهروا تسريع من 2 إلى 3 أوامر من الحجم على وحدات معالجة الرسومات مقارنةً بخط أساس مفتوح المصدر لوحدة المعالجة المركزية ، وتسريع مقارنة بخط أساس قوي يعمل على وحدة معالجة مركزية ذات 32 مؤشر ترابط .5-33 مرة . بالإضافة إلى ذلك ، طبق البحث أيضًا بيئة "إخفاء والبحث عن ثلاثية الأبعاد" الخاصة بـ OpenAI في إطار العمل ، وكل خطوة من خطوات المحاكاة تؤدي فيزياء الجسم الصارمة وتتبع الأشعة ، مما يحقق سرعة تزيد عن 1.9 مليون خطوة في الثانية على وحدة معالجة رسومات واحدة.
قال أحد المؤلفين ، Kayvon Fatahalian ، الأستاذ المشارك في علوم الكمبيوتر بجامعة ستانفورد ، إنه على Overcooked ، وهي لعبة طبخ للعديد من الوكلاء للعب ، بمساعدة محرك لعبة Madrona ، كان الوقت لمحاكاة 8 ملايين خطوة بيئية تقصير من ساعة واحدة إلى ثلاث ثوان.
حاليًا ، يتطلب Madrona C ++ لكتابة منطق اللعبة. يوفر Madrona دعم تقديم التصور فقط ، وبينما يمكنه محاكاة آلاف البيئات في وقت واحد ، يمكن للمتخيل عرض بيئة واحدة فقط في كل مرة.
** ما هي المحاكيات البيئية المعتمدة على Madrona؟ **
Madrona في حد ذاته ليس محاكي بيئة RL ، ولكنه محرك ألعاب أو إطار عمل. إنه يسهل على المطورين تنفيذ محاكيات البيئة الجديدة الخاصة بهم ، وتحقيق أداء عالٍ من خلال تشغيل عمليات محاكاة الدُفعات على وحدة معالجة الرسومات (GPU) والربط بإحكام بين ناتج المحاكاة وكود التعلم.
فيما يلي بعض محاكيات البيئة المبنية على Madrona.
** غرفة الهروب Madrona **
Madrona Escape Room هي بيئة ثلاثية الأبعاد بسيطة تستخدم واجهة برمجة تطبيقات ECS الخاصة بـ Madrona بالإضافة إلى الفيزياء وقدرات العرض. في هذه المهمة البسيطة ، يجب أن يتعلم الوكيل الضغط على الزر الأحمر ودفع الصناديق ذات الألوان الأخرى للتنقل عبر سلسلة من الغرف.
** أوفيركوكيد AI **
تمت إعادة كتابة بيئة Overcooked AI ، وهي بيئة تعليمية متعددة الوكلاء قائمة على ألعاب الفيديو (لعبة طبخ تعاونية متعددة اللاعبين) ، في إعادة كتابة Madrona عالية الإنتاجية.
مصدر:
الغميضة
في سبتمبر 2019 ، شن عميل أوبن إيه آي معركة هجومية ودفاعية ، وخلق إجراءاته الروتينية والمضادة للروتين. تمت إعادة إنتاج بيئة "الغميضة" هنا باستخدام Madrona.
** حنبي **
Hanabi هي تطبيق للعبة ورق Hanabi تعتمد على محرك ألعاب Madrona و Dec-POMDP التعاوني. تعتمد البيئة على بيئة Hanabi الخاصة بـ DeepMind وتدعم جزءًا من تنفيذ MAPPO.
** كارتبول **
Cartpole هي بيئة تدريب RL نموذجية مع نفس ديناميكيات تنفيذ الصالة الرياضية المبنية على قمة محرك ألعاب Madrona.
عنوان جيثب:
** لعبة طبخ مطبوخ: تدريب أفضل وكيل في دقيقة **
تم طهيها في آلاف المطابخ: تدريب أفضل الوكلاء في أقل من دقيقة
كتب بيديبتا ساركار ، وهو طالب جامعي في جامعة ستانفورد ، وهو أحد مؤلفي الورقة ، مدونة توضح بالتفصيل عملية تدريب وكيل للعب لعبة الطبخ Overcooked. Overcooked هي لعبة طبخ شائعة تعمل أيضًا كمعيار للبحث التعاوني متعدد الوكالات.
في بحث RL الخاص بـ Sarkar ، كانت التكلفة العالية لمحاكاة البيئات الافتراضية دائمًا عقبة رئيسية أمام تدريب الوكلاء بالنسبة له.
في حالة لعبة الطهي Overcooked ، يلزم ما يقرب من 8 ملايين خطوة من خطوات اللعبة لتدريب زوج من العوامل التي تتقارب مع استراتيجية توازن مستقرة في تخطيط الغرفة الضيقة Overcooked (أدناه). يتم كتابة تطبيق Overcooked مفتوح المصدر بلغة Python ويعمل بسرعة 2000 خطوة في الثانية على وحدة معالجة مركزية AMD ذات 8 نواة ، لذلك يستغرق إنشاء تجربة الوكيل الضرورية أكثر من ساعة واحدة.
في المقابل ، يستغرق إجراء جميع العمليات الأخرى المطلوبة للتدريب (بما في ذلك استدلال السياسة لجميع خطوات المحاكاة البالغ عددها 8 ملايين ، والانتشار العكسي للتدريب على السياسة) أقل من دقيقة واحدة على وحدة معالجة الرسومات NVIDIA A40. من الواضح أن تدريب وكلاء Overcooked محدود بسبب سرعة محاكي البيئة Overcooked.
بالنظر إلى أن Overcooked هي بيئة بسيطة ، يبدو من السخف أن تكافح مع سرعة المحاكاة. لذلك حاول ساركار معرفة ما إذا كان يمكن تحسين سرعة محاكاة بيئة Overcooked ، الأمر الذي تطلب استخدام محرك لعبة Madrona.
باستخدام محرك لعبة Madrona ، يحصل Sarkar على استبدال مُسارع من خلال وحدة معالجة الرسومات (GPU) للتوصيل والتشغيل لتطبيق Overcooked Python الأصلي. عند محاكاة 1000 بيئة مطبوخة بشكل زائد على التوازي ، يمكن أن يولد التنفيذ المسرّع من خلال وحدة معالجة الرسومات 3.5 مليون خطوة في الثانية من الخبرة على وحدة معالجة الرسومات A40.
ونتيجة لذلك ، تم تقليل الوقت اللازم لمحاكاة 8 ملايين خطوة بيئية من ساعة واحدة إلى 3 ثوانٍ ، مما يتيح تدريب السياسة في أقل من دقيقة واحدة باستخدام وحدة معالجة الرسومات A40.
تفتح سرعة المحاكي إمكانيات جديدة لإجراء عمليات مسح شاملة للمعلمات الفائقة في Overcooked ، لا سيما إمكانية تدريب سياسات متعددة في الوقت المطلوب مسبقًا لتدريب سياسة واحدة.
في النهاية ، أدرك ساركار أن نقل Overcooked إلى Madrona كان عملية أكثر سلاسة من البدائل الحالية لإنشاء بيئات تسريع GPU مثل PyTorch و Taichi Lang و Direct CUDA C ++.
تفاصيل المدونة:
رابط المرجع: *
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
يستغرق الأمر 3 ثوانٍ فقط لوحدة معالجة رسومات واحدة لتشغيل آلاف البيئات و 8 ملايين خطوة من المحاكاة.وقد طور ستانفورد محرك ألعاب فائق
في هذه المرحلة ، يبدو أن وكلاء الذكاء الاصطناعي يتمتعون بالقدرة المطلقة ، ويلعبون الألعاب ويقلدون البشر لإكمال المهام المختلفة ، ويتم تدريب هؤلاء العملاء أساسًا في بيئات معقدة. ليس هذا فقط ، ولكن كلما أصبحت مهمة التعلم أكثر تعقيدًا ، يزداد أيضًا تعقيد بيئة المحاكاة ، مما يزيد من تكلفة البيئة المحاكاة.
حتى بالنسبة للشركات والمؤسسات التي لديها موارد على نطاق الحوسبة الفائقة ، فإن تدريب وكيل قابل للاستخدام قد يستغرق أيامًا حتى يكتمل.
هذا يعيق التقدم في هذا المجال ويقلل من التطبيق العملي لتدريب وكلاء الذكاء الاصطناعي المتقدمين. لمواجهة التكلفة العالية لمحاكاة البيئة ، أعادت الجهود البحثية الحديثة تصميم أجهزة المحاكاة بشكل أساسي لتحقيق كفاءة أكبر عند تدريب الوكلاء. تشترك هذه الأعمال في فكرة محاكاة الدُفعات ، وهي التنفيذ المتزامن للعديد من البيئات المستقلة (مثيلات التدريب) داخل محرك محاكاة واحد.
في هذه الورقة ، اقترح باحثون من جامعة ستانفورد ومؤسسات أخرى ** محرك لعبة تعلم معززًا يسمى Madrona ، يمكنه تشغيل آلاف البيئات بالتوازي على وحدة معالجة رسومات واحدة ، مما يقلل من وقت تدريب الوكلاء من ساعات إلى ساعات. دقيقة * *.
على وجه التحديد ، Madrona عبارة عن محرك ألعاب بحث مصمم لإنشاء بيئات تعليمية يمكنها تشغيل الآلاف من مثيلات البيئة في وقت واحد على وحدة معالجة رسومات واحدة ، وبإنتاجية عالية جدًا (ملايين خطوات التجميع في الثانية). الهدف من Madrona هو تسهيل الأمر على الباحثين لإنشاء بيئات جديدة عالية الأداء لمجموعة متنوعة من المهام ، وبالتالي تسريع تدريب وكلاء الذكاء الاصطناعي بأعداد كبيرة.
يحتوي Madrona على الميزات التالية:
قال أحد المؤلفين ، Kayvon Fatahalian ، الأستاذ المشارك في علوم الكمبيوتر بجامعة ستانفورد ، إنه على Overcooked ، وهي لعبة طبخ للعديد من الوكلاء للعب ، بمساعدة محرك لعبة Madrona ، كان الوقت لمحاكاة 8 ملايين خطوة بيئية تقصير من ساعة واحدة إلى ثلاث ثوان.
** ما هي المحاكيات البيئية المعتمدة على Madrona؟ **
Madrona في حد ذاته ليس محاكي بيئة RL ، ولكنه محرك ألعاب أو إطار عمل. إنه يسهل على المطورين تنفيذ محاكيات البيئة الجديدة الخاصة بهم ، وتحقيق أداء عالٍ من خلال تشغيل عمليات محاكاة الدُفعات على وحدة معالجة الرسومات (GPU) والربط بإحكام بين ناتج المحاكاة وكود التعلم.
فيما يلي بعض محاكيات البيئة المبنية على Madrona.
** غرفة الهروب Madrona **
Madrona Escape Room هي بيئة ثلاثية الأبعاد بسيطة تستخدم واجهة برمجة تطبيقات ECS الخاصة بـ Madrona بالإضافة إلى الفيزياء وقدرات العرض. في هذه المهمة البسيطة ، يجب أن يتعلم الوكيل الضغط على الزر الأحمر ودفع الصناديق ذات الألوان الأخرى للتنقل عبر سلسلة من الغرف.
تمت إعادة كتابة بيئة Overcooked AI ، وهي بيئة تعليمية متعددة الوكلاء قائمة على ألعاب الفيديو (لعبة طبخ تعاونية متعددة اللاعبين) ، في إعادة كتابة Madrona عالية الإنتاجية.
الغميضة
في سبتمبر 2019 ، شن عميل أوبن إيه آي معركة هجومية ودفاعية ، وخلق إجراءاته الروتينية والمضادة للروتين. تمت إعادة إنتاج بيئة "الغميضة" هنا باستخدام Madrona.
Hanabi هي تطبيق للعبة ورق Hanabi تعتمد على محرك ألعاب Madrona و Dec-POMDP التعاوني. تعتمد البيئة على بيئة Hanabi الخاصة بـ DeepMind وتدعم جزءًا من تنفيذ MAPPO.
Cartpole هي بيئة تدريب RL نموذجية مع نفس ديناميكيات تنفيذ الصالة الرياضية المبنية على قمة محرك ألعاب Madrona.
عنوان جيثب:
** لعبة طبخ مطبوخ: تدريب أفضل وكيل في دقيقة **
تم طهيها في آلاف المطابخ: تدريب أفضل الوكلاء في أقل من دقيقة
كتب بيديبتا ساركار ، وهو طالب جامعي في جامعة ستانفورد ، وهو أحد مؤلفي الورقة ، مدونة توضح بالتفصيل عملية تدريب وكيل للعب لعبة الطبخ Overcooked. Overcooked هي لعبة طبخ شائعة تعمل أيضًا كمعيار للبحث التعاوني متعدد الوكالات.
في حالة لعبة الطهي Overcooked ، يلزم ما يقرب من 8 ملايين خطوة من خطوات اللعبة لتدريب زوج من العوامل التي تتقارب مع استراتيجية توازن مستقرة في تخطيط الغرفة الضيقة Overcooked (أدناه). يتم كتابة تطبيق Overcooked مفتوح المصدر بلغة Python ويعمل بسرعة 2000 خطوة في الثانية على وحدة معالجة مركزية AMD ذات 8 نواة ، لذلك يستغرق إنشاء تجربة الوكيل الضرورية أكثر من ساعة واحدة.
بالنظر إلى أن Overcooked هي بيئة بسيطة ، يبدو من السخف أن تكافح مع سرعة المحاكاة. لذلك حاول ساركار معرفة ما إذا كان يمكن تحسين سرعة محاكاة بيئة Overcooked ، الأمر الذي تطلب استخدام محرك لعبة Madrona.
باستخدام محرك لعبة Madrona ، يحصل Sarkar على استبدال مُسارع من خلال وحدة معالجة الرسومات (GPU) للتوصيل والتشغيل لتطبيق Overcooked Python الأصلي. عند محاكاة 1000 بيئة مطبوخة بشكل زائد على التوازي ، يمكن أن يولد التنفيذ المسرّع من خلال وحدة معالجة الرسومات 3.5 مليون خطوة في الثانية من الخبرة على وحدة معالجة الرسومات A40.
ونتيجة لذلك ، تم تقليل الوقت اللازم لمحاكاة 8 ملايين خطوة بيئية من ساعة واحدة إلى 3 ثوانٍ ، مما يتيح تدريب السياسة في أقل من دقيقة واحدة باستخدام وحدة معالجة الرسومات A40.
تفتح سرعة المحاكي إمكانيات جديدة لإجراء عمليات مسح شاملة للمعلمات الفائقة في Overcooked ، لا سيما إمكانية تدريب سياسات متعددة في الوقت المطلوب مسبقًا لتدريب سياسة واحدة.
في النهاية ، أدرك ساركار أن نقل Overcooked إلى Madrona كان عملية أكثر سلاسة من البدائل الحالية لإنشاء بيئات تسريع GPU مثل PyTorch و Taichi Lang و Direct CUDA C ++.
تفاصيل المدونة: