استغرق الأمر عامين ، تعاونت Meta مع CMU لإنشاء أقوى "ذكاء روبوت عالمي"! الاختصاصي الذي يمسح الشاي والأوعية ، يعمم بسهولة أكثر من 100 مهمة غير معروفة

** المصدر: ** Xinzhiyuan

** الدليل: ** في الطريق إلى "ذكاء الروبوت العالمي" ، أصبحت Google مشهورة باستخدام RT-2. الآن ، RoboAgent ، الذي استغرق بناؤه سنتان بواسطة فرق Meta و CMU ، يستخدم كمية صغيرة من البيانات لتحقيق 12 مهارة معقدة ، ويمكنه فعل كل شيء من خبز الشاي إلى مسح الطاولة.

النموذج المتفجر يعيد تشكيل البحث عن "العوامل الروبوتية العالمية".

منذ بعض الوقت ، أطلق Google DeepMind مشروع RT-2 الذي استغرق بناءه 7 أشهر ، ويمكنه التفكير رياضيًا وتحديد النجوم ، وقد أصبح شائعًا على الإنترنت.

بالإضافة إلى Google ، أمضى باحثون من Meta و CMU عامين في بناء أقوى عامل آلي للأغراض العامة "RoboAgent" في التاريخ.

الفرق هو أن RoboAgent مدرب فقط على 7500 مسار.

على وجه التحديد ، نفذ RoboAgent 12 مهارة معقدة مختلفة في 38 مهمة ، مثل الخبز والتقاط العناصر وتقديم الشاي وتنظيف المطبخ وما إلى ذلك.

حتى ، يمكن تعميم قدرتها على 100 سيناريو غير معروف.

يمكن القول أنه إذا صعدت إلى القاعة ، يمكنك النزول إلى المطبخ.

من المثير للاهتمام ، بغض النظر عن مدى تدخلك في ذلك ، لا يزال RoboAgent قادرًا على إكمال المهمة.

ما الذي يمكن أن يفعله RoboAgent أيضًا؟

** الخَبز ، تقديم الشاي ، تنظيف الطاولة يدوياً بالكامل **

بادئ ذي بدء ، يمكن لـ RoboAgent فتح أو إغلاق الأدراج بسلاسة.

على الرغم من أن الزبادي قد تم تقريبه تقريبًا عند فتحه ، إلا أنه لم يكن هناك أي تأخير في الاتصال بالحركة ، وتم الانتهاء من عملية الدفع والسحب بسلاسة.

بالإضافة إلى الأدراج ، يمكن لـ RoboAgent فتح أو إغلاق باب فرن الميكروويف بسهولة.

لكن بدلاً من الإمساك بالمقبض مثل الإنسان ، حشر نفسه في الفجوة بين المقبض والباب ، وفتح وأغلق باب الميكروويف بالقوة.

وبالمثل ، عند مواجهة أغطية الزجاجات والعلب ، يمكن لـ RoboAgent أيضًا التعامل مع الأغطية وفتحها وإغلاقها بدقة - لا تسبب الفوضى أبدًا.

ومع ذلك ، في المطبخ ، بالإضافة إلى برطمانات التوابل المغطاة ، هناك أيضًا بعض الجرار التي يجب فكها ، مثل نبيذ الطهي ولاوغانما ، إلخ ...

لحسن الحظ ، بالنسبة للعديد من مهام الانتقاء والمكان ، فإن RoboAgent لا يدعو للقلق بشكل أساسي.

في الفيديو ، يقوم RoboAgent بإخراج الأشياء من الدرج ، أو وضع أكياس الشاي في أكواب ، وتشغيل الميكروويف ووضع الأوعية ، وما إلى ذلك. ما هو موضح هو أن RoboAgent يمكنه فهم سلسلة الإجراءات المتضمنة في مهام مثل صنع الشاي وتسخين الطعام.

يمكن أن يؤدي ترتيب الإجراءات التسعة المذكورة أعلاه والجمع بينها إلى تغطية سلسلة من المهام في المطبخ.

تشمل الأمثلة التحضير للخبز وتنظيف المطبخ وتقديم الحساء وصنع الشاي وتخزين أدوات المائدة والمزيد.

عند التحضير للخبز ، فإن الخطوة الأولى هي فتح الدرج والعثور على الزبدة بالداخل. عندما تجدها ، ضع الزبدة على لوح التقطيع ، وأخيرًا أغلق الدرج.

يبدو أن التسلسل المنطقي لسلسلة إجراءات RoboAgent قريب جدًا من مشهد الحياة الواقعية.

لكن RoboAgent لا يزال غير مرن مثل البشر ، ناهيك عن أن البشر لديهم يدان ، يمكنهما حمل الزبدة بيد واحدة وإغلاق الدرج باليد الأخرى. حتى بيد واحدة ، يمكن للإنسان أن يمسك الزبدة بينما يدفع الدرج للخلف جانبًا. لكن RoboAgent يمكنه فقط وضع الزبدة أولاً ، ثم إغلاق الدرج.

لا تبدو مرنة.

عند تنظيف المطبخ ، يقوم RoboAgent أيضًا بأربع خطوات:

أغلق الدرج أولاً ، ثم الميكروويف. ثم أخرج منشفة من الجانب وامسح لوح التقطيع أخيرًا.

لتقديم الحساء ، يقوم RoboAgent أولاً بتشغيل الميكروويف ، ثم إزالة الوعاء من الميكروويف. ثم ضع الوعاء على الطاولة وأوقف تشغيل الميكروويف.

لكن أداء RoboAgent هنا ليس مطمئنًا.

يمكن القول فقط لحسن الحظ أن الوعاء الموجود في الفيديو التوضيحي فارغ. إذا تم السماح لـ RoboAgent حقًا بالتقاط الوعاء المليء بالطعام في الواقع ، فمن المقدر أن الطعام سينتشر في جميع أنحاء الأرض بمجرد التقاطه عليه.

ومع ذلك ، فإن RoboAgent مفيد لصنع الشاي:

قم أولاً بإزالة الغطاء عن إبريق الشاي ، وأخرج كيس الشاي من الداخل ، ثم قم بإسقاط كيس الشاي في الكوب بدقة ، وأخيراً ارفع الغطاء وضعه مرة أخرى في القدر.

لكنها خطوة واحدة أقرب إلى فنجان الشاي المثالي: صب الماء. أم أن RoboAgent يدعونا لشرب الهواء برائحة الشاي؟

بالنظر إلى أداء RoboAgent المذكور أعلاه ، على الرغم من أنه يمكن إكمال معظم المهام بسلاسة ، إلا أنه لا يزال من غير الملائم استخدام يد واحدة فقط.

آمل أن يتمكن Meta و CMU من منح RoboAgent المزيد من الأيدي ، حتى يتمكن من القيام بالعديد من الأشياء في نفس الوقت ، مما يؤدي إلى تحسين الكفاءة بشكل كبير.

** استغرق الأمر عامين لإنشاء "وكيل روبوت عالمي" **

يأمل باحثو Meta و CMU أن يصبح RoboAgent حقًا عاملًا آليًا للأغراض العامة.

على مدار العامين الماضيين ، عملوا باستمرار على تطوير المشروع. RoboAgent عبارة عن مجموعة من الأبحاث متعددة الاتجاهات ، وهي أيضًا نقطة البداية لمزيد من اتجاهات البحث في المستقبل.

في تطوير "وكلاء الروبوت العالمي" ، استوحى الباحثون من العديد من مشاريع التعلم الروبوتية القابلة للتعميم الحديثة.

في الوقت الحالي ، في الطريق إلى وكيل روبوت عام ، هناك مشكلتان رئيسيتان بحاجة إلى حل.

** الأولى هي معضلة السبب والنتيجة. **

كان امتلاك روبوت قادر على التعامل مع الأشياء العشوائية في بيئات مختلفة هدفًا بعيدًا وطموحًا لعقود. ويرجع ذلك جزئيًا إلى نقص مجموعات البيانات لتدريب هؤلاء الوكلاء ، ولكن أيضًا بسبب نقص العوامل العامة القادرة على توليد مثل هذه البيانات.

والثاني هو التخلص من الحلقة المفرغة. **

للخروج من هذه الحلقة المفرغة ، يركز البحث على تطوير نموذج فعال.

يمكن أن يوفر وكيلًا عامًا قادرًا على اكتساب مهارات متعددة بميزانية بيانات واقعية وتعميمها على مواقف غير معروفة مختلفة.

عنوان الورق:

وفقًا للمقدمة ، فإن RoboAgent مبني على العناصر المعيارية والقابلة للتعويض التالية:

** - RoboPen : **

يمكن أن تعمل البنية الأساسية للروبوت الموزع التي تم إنشاؤها باستخدام أجهزة سلعة دون انقطاع لفترة طويلة.

** - RoboHive : **

إطار عمل موحد لتعلم الروبوت عبر عمليات المحاكاة والعمليات الواقعية.

** - RoboSet : ** مجموعة بيانات عالية الجودة تمثل المهارات المتنوعة للأشياء اليومية في سيناريوهات مختلفة.

** - MT-ACT : **

إطار عمل فعال لتعلم التقليد دون اتصال بالإنترنت في تعدد المهام اللغوي الشرطي. يضاعف مجموعات البيانات غير المتصلة بالإنترنت من خلال إنشاء مجموعة متنوعة من التعزيزات الدلالية بناءً على تجربة الروبوتات الحالية ، ويستخدم بنية سياسة جديدة مع تمثيل إجراءات فعال لاستعادة السياسات عالية الأداء ضمن ميزانية البيانات.

** كتلة حركة ، هيكل جديد MT-ACT **

من أجل تعلم سياسات التشغيل العامة ، يجب أن تتعرض الروبوتات لتجارب غنية ومتنوعة ، بما في ذلك المهارات المختلفة والتغيرات البيئية.

ومع ذلك ، فإن التكاليف التشغيلية والتحديات العملية لجمع مثل هذه المجموعة الواسعة من البيانات تحد من الحجم الكلي لمجموعة البيانات.

يهدف الباحثون إلى معالجة هذه القيود من خلال تطوير نموذج يمكنه تعلم عوامل متعددة المهام فعالة بميزانية بيانات محدودة.

كما هو موضح في الشكل أدناه ، اقترحت فرق Meta و CMU MT-ACT ، محول تقسيم العمل متعدد المهام (محول تقسيم العمل متعدد المهام).

تتكون هذه الطريقة من مرحلتين:

** المرحلة 1: التحسين الدلالي **

يقوم RoboAgent بحقن نماذج العالم السابقة من النماذج الأساسية الحالية عن طريق إنشاء زيادة دلالية لمجموعة بيانات RoboSet (MT-ACT).

تضاعف مجموعة البيانات الناتجة تجربة الروبوت مع نظرائه العالميين دون أي تكلفة إضافية على الإنسان / الروبوت.

ثم استخدم الباحثون نظام SAM لتقسيم الكائن المستهدف وتحسينه معنويًا إلى كائنات مميزة مع اختلافات في الشكل واللون والملمس.

** المرحلة الثانية: التمثيل الفعال للسياسة **

مجموعة البيانات الناتجة متعددة الوسائط ، وتحتوي على مجموعة متنوعة غنية من المهارات والمهام والسيناريوهات.

من خلال تكييف تقسيم العمل مع إعدادات المهام المتعددة ، قام الباحثون بتطوير MT-ACT - تمثيل سياسي جديد وفعال يمكنه استيعاب مجموعات بيانات متعددة الوسائط للغاية مع تجنب الإفراط في التجهيز في إعدادات ميزانية البيانات المنخفضة.

فيما يلي المكونات المختلفة لاستراتيجية MT-ACT.

** مجموعة بيانات RoboSet **

كان الهدف من الدراسة هو إنشاء نموذج تعليمي آلي فعال للبيانات ، والذي اقتصر الباحثون فيه على مجموعة بيانات صغيرة مجمدة مسبقًا ولكنها متنوعة.

لالتقاط التنوع السلوكي ، طبق الباحثون أيضًا مهارات مختلفة على مهام مختلفة في سيناريوهات مطبخ مختلفة.

في هذا المشروع ، تتكون مجموعة البيانات RoboSet (MT-ACT) من 7500 مسار تم جمعها عن طريق التشغيل البشري عن بعد.

تحتوي مجموعة البيانات على 12 مهارة تغطي مهام وسيناريوهات متعددة.

يوضح الشكل أدناه توزيع المهارات في مجموعة البيانات.

في حين أن مهارة "الانتقاء والمكان" شائعة الاستخدام تمثل 40٪ من مجموعة البيانات ، يتم أيضًا تضمين مهارات الاتصال الغنية مثل المسح ، والسد ، والمهارات التي تتضمن أشياء مفصلية (انعكاس ، فتح ، إغلاق).

جمع الباحثون مجموعة البيانات بأكملها في 4 حالات مختلفة من مشاهد المطبخ ، والتي تحتوي على أشياء مختلفة للاستخدام اليومي.

بالإضافة إلى ذلك ، قام الفريق بتبديل كل حالة من المشهد بأشكال مختلفة من الكائن ، مما يتيح لكل قدرة الوصول إلى كائنات مستهدفة متعددة ومثيلات المشهد.

** زيادة البيانات **

نظرًا لأن مجموعات البيانات التي تم جمعها لا يمكنها تلبية الحاجة إلى تنوع المشهد والأشياء ، فقد زاد الباحثون مجموعة البيانات عن طريق إضافة مشاهد متغيرة مختلفة في وضع عدم الاتصال مع الحفاظ على سلوك التلاعب في كل مسار.

بناءً على التطورات الحديثة في نماذج التجزئة والرسومات ، يستخلص الباحثون مقدمات دلالية في العالم الحقيقي من بيانات الإنترنت لتعديل المشاهد بطريقة منظمة.

** MT-ACT العمارة **

تم تصميم بنية سياسة MT-ACT كنموذج محول مع قدرة كافية للتعامل مع مجموعات بيانات الروبوت متعدد المهام متعدد الوسائط.

لالتقاط بيانات متعددة الوسائط ، يتابع الباحثون العمل السابق عن طريق إضافة CVAE الذي يشفر تسلسلات العمل على أنها زخارف نمط كامنة z.

لنمذجة البيانات متعددة المهام ، نستخدم برنامج تشفير لغة مدرب مسبقًا يتعلم تضمين T لوصف خاص بالمهمة.

لتقليل مشكلة الخطأ المركب ، يتم توقع الإجراءات على H خطوات للأمام في كل خطوة زمنية ويتم تنفيذها عن طريق التنعيم الزمني للإجراءات المتداخلة المتوقعة في خطوة زمنية معينة.

بالإضافة إلى ذلك ، لتحسين المتانة لتغييرات المشهد ، قدم الباحثون استراتيجية MT-ACT بأربعة مناظر مختلفة لمساحة العمل من خلال 4 زوايا للكاميرا.

بعد ذلك ، يتم استخدام طريقة تكييف قائمة على FiLM للتأكد من أن الرموز المميزة للصور يمكن أن تركز بشكل موثوق على تعليمات اللغة ، بحيث لا تخلط استراتيجية MT-ACT بين المهام عندما يكون هناك مهام متعددة في المشهد.

ستدخل الرموز المميزة المشفرة إلى وحدة فك ترميز سياسة Transformer مع تضمين موضع ثابت ، وأخيراً إخراج كتلة الإجراء التالية (إجراءات H).

في وقت التنفيذ ، يأخذ الباحث متوسط جميع العمليات المتداخلة المتوقعة في الخطوة الزمنية الحالية (عندما تتداخل H> 1 ، تتداخل كتل الإجراءات) ، وينفذ الإجراء المتوسط الناتج.

** قدر ضئيل من البيانات ، تابع Google RT-1 **

كيف تعمل إستراتيجية MT-ACT في العالم الحقيقي؟

قام الباحثون بشكل تجريبي بتقييم كفاءة العينة للإطار المقترح ، وكذلك عمومية العامل في سيناريوهات مختلفة.

يقارن الشكل أدناه إستراتيجية MT-ACT مع بنى التعلم التقليد الشائعة الاستخدام.

رسم الباحثون نتائج تعميم L1 فقط لأن هذا هو الإعداد القياسي المستخدم في معظم خوارزميات التعلم المحاكاة الأخرى.

كما يتضح من الشكل ، فإن جميع الطرق التي تحاكي سلوك الخطوة التالية فقط (بدلاً من المسارات الفرعية) تؤدي أداءً ضعيفًا.

من بين هذه الطرق ، وجد الباحثون أن الطريقة القائمة على تجميع الإجراءات (BeT) كان أداؤها أسوأ بكثير في بيئة المهام المتعددة.

علاوة على ذلك ، لا تؤدي طرق مثل RT1 التي تتطلب كميات كبيرة من البيانات أداءً جيدًا في هذا الإعداد بسبب نظام البيانات المنخفض المستخدم في الدراسة.

في المقابل ، تستخدم استراتيجية MT-ACT الفحص الإجرائي لنمذجة المسارات الفرعية ، والتي تتفوق بشكل كبير على جميع طرق خط الأساس.

يوضح الشكل 7 (أسفل اليمين) نتائج جميع الطرق عبر مستويات تعميم متعددة (L1 و L2 و L3).

بالإضافة إلى ذلك ، قدم الباحثون نتائج التعميم لكل نشاط على حدة. من الشكل 8 ، يمكننا أن نرى أن كل طريقة من طرق التحسين الدلالي تؤثر بشكل إيجابي على أداء كل نشاط.

أخيرًا ، قام الباحثون أيضًا بالتحقيق في الهندسة المعمارية باستخدام تصميمات مختلفة ، مثل حجم كتل تمثيل الحركة ، واللدونة ، والمتانة.

مراجع:

الروبوت /

الملحق. html

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • مشاركة
تعليق
0/400
لا توجد تعليقات
  • تثبيت