قام معهد ماساتشوستس للتكنولوجيا بجامعة سنترال ميشيغان للتكنولوجيا بتفجير أول تيار لا نهائي للعامل في العالم ، ولا يمكن للروبوت "007" التوقف عن العمل الإضافي والتعلم الذاتي! الذكاء المتجسد يحدث ثورة
في الآونة الأخيرة ، يمكن ل RoboGen ، أول وكيل روبوت توليدي في العالم اقترحته جامعة CMU / MIT / Tsinghua / Umass ، توليد البيانات بلا حدود والسماح للروبوتات بالتدريب بدون توقف 24/7. AIGC للروبوتات هو في الواقع طريق المستقبل.
تم إصدار أول وكيل روبوت توليدي في العالم!
لفترة طويلة ، مقارنة بنماذج اللغة أو الرؤية التي يمكن تدريبها على بيانات الإنترنت واسعة النطاق ، يتطلب النموذج الاستراتيجي لتدريب الروبوتات بيانات ذات معلومات تفاعل مادي ديناميكية ، وكان نقص هذه البيانات دائما أكبر عنق الزجاجة في تطوير الذكاء المجسد.
في الآونة الأخيرة ، اقترح باحثون من جامعة سنترال ميشيغان وجامعة تسينغهوا ومعهد ماساتشوستس للتكنولوجيا و UMass ومؤسسات أخرى وكيل RoboGen جديد.
باستخدام المعرفة واسعة النطاق الواردة في نماذج اللغة الكبيرة والنماذج التوليدية ، إلى جانب المعلومات المادية التي توفرها عوالم محاكاة واقعية ، يمكن إنشاء العديد من المهام والسيناريوهات وبيانات التدريس "بشكل غير محدود" ، ويمكن تدريب الروبوت بشكل كامل 24/7.
في الوقت الحالي ، ننفد بسرعة من الرموز المميزة عالية الجودة في العالم الحقيقي من الشبكة. البيانات المستخدمة لتدريب الذكاء الاصطناعي حول العالم آخذة في النفاد.
وقال هينتون، والد التعلم العميق: "تقوم شركات التكنولوجيا بتدريب نماذج جديدة بقوة حوسبة أكبر 100 مرة من GPT-4 في الأشهر ال 18 المقبلة". معلمات النموذج أكبر ، والطلب على طاقة الحوسبة ضخم ، ولكن أين البيانات؟
في مواجهة النماذج الجائعة ، فإن التوليف الذكاء الاصطناعي هو الحل.
عنوان:
الصفحة الرئيسية للمشروع:
عنوان مفتوح المصدر:
على وجه التحديد ، اقترح فريق بحثي بقيادة Gan Chuang ، كبير العلماء في MIT-IBM ، حلقة "اقتراح - توليد - تعلم" بدعم من الذكاء الاصطناعي التوليدية ومحاكاة الفيزياء القابلة للتمييز ، مما يسمح للوكلاء بحل المشكلات وتدريب الروبوتات بأنفسهم.
بادئ ذي بدء ، اقترح الوكيل أنه يجب علينا تطوير هذه المهارة.
ثم يقوم بإنشاء البيئة المناسبة والتكوين وإرشادات تعلم المهارات لإنشاء بيئة محاكاة.
أخيرا ، سيقوم الوكيل بتحليل مهمة المستوى الأعلى المقترحة إلى مهام فرعية ، وتحديد أفضل طريقة تعلم ، ثم تعلم الإستراتيجية وإتقان المهارات المقترحة.
تجدر الإشارة إلى أن العملية برمتها لا تتطلب أي إشراف بشري تقريبا ، وعدد المهام غير محدود!
بالنسبة لهذه الدراسة الرائجة ، قام جيم فان ، أحد كبار العلماء في NVIDIA ، بإرسالها أيضا.
الآن ، تعلم الروبوت سلسلة من عمليات التفجير -
ضع متعلقاتك في خزانة:
ضع وعاء من الحساء في الميكروويف:
اسحب الرافعة لتحضير القهوة:
بالإضافة إلى الشقلبة الخلفية والمزيد:
بيئة محاكاة، مفتاح تعلم المهارات المتنوعة
المعضلة الدائمة في أبحاث الروبوتات هي كيفية إعطاء الروبوتات المهارات اللازمة للعمل في بيئات غير مصنعية وأداء مجموعة واسعة من المهام للبشر.
في السنوات الأخيرة ، قمنا بتعليم الروبوتات مجموعة متنوعة من المهارات المعقدة ، مثل التلاعب بالسوائل ، ورمي الأشياء ، ولعب كرة القدم ، والباركور ، وأكثر من ذلك ، ولكن هذه المهارات منعزلة ، ولها مجال رؤية قصير ، وتتطلب أوصافا للمهام من تصميم الإنسان والإشراف على التدريب.
نظرا لأن جمع البيانات في العالم الحقيقي مكلف وشاق ، يتم تدريب هذه المهارات في عمليات محاكاة عشوائية في المجال المناسب ثم نشرها في العالم الحقيقي.
تتمتع البيئات المحاكية بالعديد من المزايا مقارنة بالاستكشاف وجمع البيانات في العالم الحقيقي ، مثل توفير وصول متميز إلى حالة منخفضة المستوى وفرص غير محدودة للاستكشاف ؛ يدعم الحوسبة المتوازية على نطاق واسع ، ويتم تسريع سرعة جمع البيانات بشكل كبير ؛ يسمح للروبوتات بتطوير استراتيجيات الحلقة المغلقة وقدرات استعادة الأخطاء.
ومع ذلك ، فإن بناء بيئة محاكاة يتطلب سلسلة من المهام الشاقة (تصميم المهام ، واختيار الأصول ذات الصلة وذات المغزى الدلالي ، وإنشاء تخطيطات وتكوينات سيناريو معقولة ، وصياغة الإشراف على التدريب مثل وظائف المكافأة أو الخسارة). حتى في عالم المحاكاة ، فإن قابلية تطوير تعلم مهارات الروبوت محدودة للغاية.
لذلك ، يقترح الباحثون نموذج "المحاكاة التوليدية" الذي يجمع بين التقدم في تعلم مهارات الروبوت المحاكية مع أحدث التطورات في النماذج التأسيسية والتوليدية.
من خلال الاستفادة من قدرات التوليد للنماذج الأساسية الحديثة ، يمكن للمحاكاة التوليدية توليد معلومات لجميع المراحل المطلوبة لمهارات الروبوت المختلفة في المحاكاة.
بفضل معرفة الترميز الشاملة في أحدث النماذج الأساسية ، يمكن أن تكون بيانات السيناريو والمهام التي تم إنشاؤها بهذه الطريقة مشابهة جدا لتوزيع سيناريوهات العالم الحقيقي.
بالإضافة إلى ذلك، يمكن لهذه النماذج أن توفر أيضا مهام فرعية متحللة منخفضة المستوى يمكن التعامل معها بسلاسة من خلال أساليب تعلم السياسات الخاصة بالمجال، مما يؤدي إلى عروض توضيحية مغلقة الحلقة لمختلف المهارات والسيناريوهات.
عملية روبوجين
RoboGen هي عملية مؤتمتة بالكامل تسمح للروبوتات بتعلم مهارات مختلفة 24/7 وتتكون من 4 مراحل:
اقتراح المهمة.
توليد المشهد.
تدريب جيل تحت الإشراف.
استخدم المعلومات التي تم إنشاؤها لتعلم المهارات.
من خلال الاستفادة من الحس السليم المضمن وقدرات التوليد لأحدث النماذج الأساسية ، يمكن ل RoboGen أتمتة إنشاء المهام والسيناريوهات والإشراف على التدريب ، مما يتيح التعلم متعدد المهارات للروبوتات على نطاق واسع.
اقتراح المهمة
في هذه المرحلة ، يكون RoboGen قادرا على اقتراح مهام المستوى الأعلى ، وإنشاء البيئة المقابلة ، وتحليل أهداف المستوى الأعلى إلى مهام فرعية منخفضة المستوى ، ثم تعلم المهارات الفرعية بالتتابع.
يقوم الباحث بتهيئة النظام باستخدام نوع روبوت معين وعينات عشوائية من الكائنات من البركة. ثم يتم إدخال معلومات الروبوت وعينة الكائن المقدمة في LLM.
تضمن عملية أخذ العينات هذه تنوع مهام التوليد.
على سبيل المثال ، يمكن للروبوت ذو الأرجل مثل الروبوت الرباعي أن يكتسب مجموعة متنوعة من المهارات الحركية ، في حين أن مناور الذراع الروبوتي ، عند إقرانه ، لديه القدرة على أداء مجموعة متنوعة من مهام التلاعب بكائنات أخذ عينات مختلفة.
استخدم الباحثون GPT-4 لإجراء استفسارات في العملية الحالية. يتبع ذلك شرح لتفاصيل RoboGen في سياق الجهاز ، بالإضافة إلى المهام المتعلقة بمعالجة الأشياء.
يتم أخذ عينات من الكائنات المستخدمة للتهيئة من قائمة محددة مسبقا ، بما في ذلك الكائنات المفصلية وغير المفصلية الشائعة في المشاهد المنزلية ، مثل الأفران وأفران الميكروويف وموزعات المياه وأجهزة الكمبيوتر المحمولة وغسالات الصحون وما إلى ذلك.
نظرا لأن GPT-4 قد تم تدريبه على مجموعات بيانات الإنترنت الكبيرة ، فإنه يتمتع بفهم غني لتكلفة هذه الأشياء ، وكيفية التفاعل معها ، والمهام ذات المغزى التي يمكن ربطها بها.
على سبيل المثال ، إذا كان الكائن المفصلي الذي تم أخذ عينات منه عبارة عن فرن ميكروويف ، حيث يكون المفصل 0 هو المفصل الدوار الذي يربط الباب ، والمفصل 1 هو مفصل دوار آخر يتحكم في مقبض المؤقت ، فسيعيد GPT-4 مهمة - "يضع ذراع الروبوت وعاءا من الحساء في فرن الميكروويف ، ويغلق الباب ، ويضبط مؤقت الميكروويف لتسخين الوقت ".
الكائنات الأخرى المطلوبة للمهمة التي تم إنشاؤها ، هناك وعاء من الحساء أ ، والمفاصل والروابط المرتبطة بالمهمة ، بما في ذلك المفصل 0 (لفتح باب الميكروويف) ، والمفصل 1 (لضبط المؤقت) ، والرابط 0 (إلى الباب) ، والرابط 1 (مقبض المؤقت).
بالنسبة للكائنات المفصلية ، نظرا لأن PartNetMobility هي مجموعة بيانات الكائنات المفصلية الوحيدة عالية الجودة وتغطي بالفعل مجموعة واسعة من الأصول المفصلية ، يتم إنشاء المهام بناء على الأصول التي تم أخذ عينات منها.
من خلال الاستعلام بشكل متكرر عن كائنات وأمثلة مختلفة ، يمكن إنشاء مجموعة متنوعة من العمليات ومهام الحركة.
توليد المشهد
بالنظر إلى مهمة ، يمكنك الاستمرار في إنشاء سيناريو المحاكاة المقابل لتعلم المهارات اللازمة لإكمال هذه المهمة.
كما هو موضح في الصورة ، يتم إنشاء مكونات المشهد والتكوينات وفقا لوصف المهمة ، ويتم استرداد أصول الكائن أو إنشاؤها ، والتي يتم ملؤها بعد ذلك بمشهد المحاكاة.
تتكون مكونات المشهد وتكويناته من العناصر التالية: استعلام عن الأصل ذي الصلة المراد ملؤه في المشهد ، ومعلماته المادية (مثل الحجم) ، والتكوين (مثل زاوية المفصل الأولية) ، والتكوين المكاني العام للأصل.
بالإضافة إلى أصول الكائن الضرورية المطلوبة للمهمة التي تم إنشاؤها في الخطوة السابقة ، من أجل زيادة تعقيد وتنوع المشهد الذي تم إنشاؤه ، مع تشبه توزيع الكائن للمشهد الحقيقي ، طلب الباحثون أيضا من GPT-4 إرجاع استعلامات إضافية للكائنات المتعلقة بدلالات المهمة.
على سبيل المثال ، بالنسبة لمهمة "فتح الخزانة ، ووضع اللعبة فيها ، وإغلاقها" ، سيتضمن المشهد الناتج أيضا حصيرة غرفة المعيشة ومصباح وكتاب وكرسي مكتب.
### تدريب الجيل الخاضع للإشراف
من أجل اكتساب المهارات ذات الصلة ، يجب الإشراف على تعلم المهارات.
سيقوم RoboGen أولا بالاستعلام عن GPT-4 لتخطيط المهام الطويلة وتقسيمها إلى مهام فرعية أقصر.
الافتراض الرئيسي هو أنه عندما يتم تقسيم المهمة إلى مهام فرعية قصيرة بما فيه الكفاية ، يمكن حل كل مهمة فرعية بشكل موثوق بواسطة الخوارزميات الحالية مثل التعلم المعزز وتخطيط الحركة وتحسين المسار وما إلى ذلك.
بعد التحليل ، يستعلم RoboGen عن GPT-4 لتحديد الخوارزمية المناسبة لحل كل مهمة فرعية.
تم دمج عدة أنواع مختلفة من خوارزميات التعلم في RoboGen: التعلم المعزز ، والاستراتيجيات التطورية ، وتحسين المسار القائم على التدرج ، وتهيئة الإجراء مع تخطيط الحركة.
كل منها مناسب لمهام مختلفة ، مثل تحسين المسار القائم على التدرج ، وهو الأنسب لتعلم مهام المعالجة الدقيقة التي تتضمن أجساما ناعمة ، مثل تشكيل العجين في شكل مستهدف.
تعد تهيئة الإجراء مع تخطيط الحركة أكثر موثوقية عند حل المهام ، مثل الاقتراب من كائن مستهدف عبر مسار خال من الاصطدام.
يعد التعلم المعزز والاستراتيجيات التطورية أكثر ملاءمة للمهام الغنية بالتلامس والتي تتضمن تفاعلا مستمرا مع مكونات المشهد الأخرى ، مثل حركات الساق ، أو عندما لا يمكن ببساطة تحديد الإجراء المطلوب بواسطة وضع مستجيب نهائي منفصل ، مثل تدوير مقبض الفرن.
باختصار ، يختار GPT-4 الخوارزمية التي سيتم استخدامها عبر الإنترنت بناء على المهام الفرعية التي تم إنشاؤها.
بعد ذلك ، حان الوقت لبناء سيناريو محاكاة للروبوت والسماح لهم بتعلم المهارات.
** روبوت يتعلم فتح آمن **
على سبيل المثال ، سيطلب RoboGen من الروبوت تعلم المهمة الحساسة للغاية المتمثلة في ضبط اتجاه المصباح المكتبي.
ومن المثير للاهتمام ، في هذا المشهد ، هناك أشياء هشة مثل شاشات الكمبيوتر على الأرض.
يمكن القول أنه اختبار رائع لقدرة الروبوت على التعرف البيئي.
لهذا ، يقوم RoboGen بإنشاء رمز تشغيل مفصل للغاية ، بما في ذلك تكوين المشهد وتحليل المهام والإشراف:
بالإضافة إلى ذلك ، سيتم تدريب المهام التي تتطلب العديد من الخطوات لإكمالها ، مثل إخراج الروبوت لمحتويات الخزنة.
يتضمن ذلك فتح الباب وأخذه وإخماده وإغلاقه وغيرها من العمليات ، والتي من الضروري خلالها أيضا محاولة تجنب الاصطدام بالأثاث.
الكود الذي قدمه RoboGen هو كما يلي:
أو ، على سبيل المثال ، وجود روبوت بشري في Boston Dynamics يدور في مكانه ، والذي يمكن مواجهته في مساحة صغيرة.
ها هو الكود:
النتائج التجريبية
** - تنوع المهام **
كما هو موضح في الجدول 1 ، يحقق RoboGen أدنى تشابه ذاتي في BLEU وتضمين مقارنة بجميع المعايير السابقة. بمعنى آخر ، تنوع مهام إنشاء RoboGen أعلى من تنوع معايير تعلم المهارات ومجموعات البيانات المصطنعة!
** - فعالية السيناريو **
كما هو موضح في الشكل 4 ، تؤدي إزالة التحقق من الحجم إلى انخفاض حاد في درجات BLIP-2 بسبب التناقض الكبير بين حجم الكائنات في Objaverse و PartNetMobility والحجم الفعلي في العالم الحقيقي. بالإضافة إلى ذلك ، كان ل BLIP-2 بدون التحقق من صحة الكائن أيضا درجة أقل وتباين أكبر.
في المقابل ، يمكن لخطوة التحقق من الصحة في RoboGen تحسين فعالية اختيار الكائن بشكل كبير.
- فعالية تعليمات التدريب
كما هو موضح في الشكل 3 ، يتعلم الروبوت المهارات بناء على إرشادات التدريب (أي تحليل المهام ووظيفة المكافأة) التي تم إنشاؤها بواسطة RoboGen في أربع مهام طويلة المدى.
تظهر النتائج أن الروبوت يتعلم بنجاح المهارات اللازمة لإكمال المهام المقابلة. بمعنى آخر ، مدربو التدريب الذين يتم إنشاؤهم تلقائيا فعالون في اشتقاق مهارات مفيدة ومفيدة.
- تعلم المهارات
تظهر النتائج في الجدول 2 أن السماح باختيار خوارزمية التعلم مفيد لتحسين أداء إكمال المهمة. إذا كنت تستخدم RL فقط ، فسوف تفشل في تعلم المهارات لمعظم المهام.
-نظام
كما هو موضح في الشكل 1 ، يمكن ل RoboGen إنشاء مجموعة متنوعة من المهام لتعلم المهارات ، بما في ذلك معالجة الأشياء الصلبة / المشتركة ، والحركة ، والتلاعب بالجسم الناعم.
يوضح الشكل 3 كذلك أن RoboGen قادر على توفير مهارات تشغيل بعيدة المدى بطريقة تحلل معقولة.
مقدمة المؤلف
يوفي وانغ طالب دكتوراه في السنة الثالثة في معهد الروبوتات بجامعة كارنيجي ميلون ، حيث يشرف عليه البروفيسور زاكوري إريكسون والبروفيسور ديفيد هيلد ، مع اهتمام بحثي بتعلم الروبوتات.
حصل سابقا على درجة الماجستير في علوم الكمبيوتر من جامعة سنترال ميشيغان في ديسمبر 2020 تحت إشراف البروفيسور ديفيد هيلد ، ودرجة البكالوريوس في علوم البيانات من كلية يوانبي ، جامعة بكين في يوليو 2019 تحت إشراف البروفيسور بن دونغ.
تشو شيان طالبة دكتوراه في معهد الروبوتات بجامعة كارنيجي ميلون تحت إشراف كاترينا فراجكياداكي. اهتماماته البحثية هي الروبوتات ، ورؤية الكمبيوتر ، وتعلم النماذج العالمية.
قبل انضمامه إلى جامعة سنترال ميشيغان ، أكمل درجة البكالوريوس في جامعة نانيانغ التكنولوجية ، سنغافورة ، تحت إشراف فام كوانغ كوونغ وآي مينغ تشن. كما تدرب في Meta الذكاء الاصطناعي و Akshara Rai و MIT-IBM الذكاء الاصطناعي Lab تحت إشراف Chuang Gan.
يركز بحثه حاليا على بناء استراتيجية عصبية موحدة وبنية تحتية للمحاكاة لتعلم الروبوت القابل للتطوير.
بالإضافة إلى ذلك ، هناك أيضا تشن فنغ من تسينغهوا ياو بان.
قائد الفريق ، غان تشوانغ ، هو حاليا كبير العلماء في IBM وأستاذ مساعد في جامعة ماساتشوستس ، وهو تلميذ الأكاديمي ياو تشيزي. خلال الدكتوراه ، فاز بجائزة تسينغهوا الخاصة ، وباحث مايكروسوفت ، وباحث بايدو. تم تمويل أبحاثه من قبل جائزة أمازون للأبحاث ، وجائزة سوني لأعضاء هيئة التدريس ، وجائزة أعضاء هيئة التدريس من Cisco ، وبرنامج أبحاث نماذج مؤسسة Microsoft Accelerate ، وغيرها.
موارد:
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
قام معهد ماساتشوستس للتكنولوجيا بجامعة سنترال ميشيغان للتكنولوجيا بتفجير أول تيار لا نهائي للعامل في العالم ، ولا يمكن للروبوت "007" التوقف عن العمل الإضافي والتعلم الذاتي! الذكاء المتجسد يحدث ثورة
مصدر المادة: نيو تشييوان
مونتاج: اينيس نعسان
تم إصدار أول وكيل روبوت توليدي في العالم!
لفترة طويلة ، مقارنة بنماذج اللغة أو الرؤية التي يمكن تدريبها على بيانات الإنترنت واسعة النطاق ، يتطلب النموذج الاستراتيجي لتدريب الروبوتات بيانات ذات معلومات تفاعل مادي ديناميكية ، وكان نقص هذه البيانات دائما أكبر عنق الزجاجة في تطوير الذكاء المجسد.
في الآونة الأخيرة ، اقترح باحثون من جامعة سنترال ميشيغان وجامعة تسينغهوا ومعهد ماساتشوستس للتكنولوجيا و UMass ومؤسسات أخرى وكيل RoboGen جديد.
باستخدام المعرفة واسعة النطاق الواردة في نماذج اللغة الكبيرة والنماذج التوليدية ، إلى جانب المعلومات المادية التي توفرها عوالم محاكاة واقعية ، يمكن إنشاء العديد من المهام والسيناريوهات وبيانات التدريس "بشكل غير محدود" ، ويمكن تدريب الروبوت بشكل كامل 24/7.
وقال هينتون، والد التعلم العميق: "تقوم شركات التكنولوجيا بتدريب نماذج جديدة بقوة حوسبة أكبر 100 مرة من GPT-4 في الأشهر ال 18 المقبلة". معلمات النموذج أكبر ، والطلب على طاقة الحوسبة ضخم ، ولكن أين البيانات؟
في مواجهة النماذج الجائعة ، فإن التوليف الذكاء الاصطناعي هو الحل.
الصفحة الرئيسية للمشروع:
عنوان مفتوح المصدر:
على وجه التحديد ، اقترح فريق بحثي بقيادة Gan Chuang ، كبير العلماء في MIT-IBM ، حلقة "اقتراح - توليد - تعلم" بدعم من الذكاء الاصطناعي التوليدية ومحاكاة الفيزياء القابلة للتمييز ، مما يسمح للوكلاء بحل المشكلات وتدريب الروبوتات بأنفسهم.
بادئ ذي بدء ، اقترح الوكيل أنه يجب علينا تطوير هذه المهارة.
ثم يقوم بإنشاء البيئة المناسبة والتكوين وإرشادات تعلم المهارات لإنشاء بيئة محاكاة.
أخيرا ، سيقوم الوكيل بتحليل مهمة المستوى الأعلى المقترحة إلى مهام فرعية ، وتحديد أفضل طريقة تعلم ، ثم تعلم الإستراتيجية وإتقان المهارات المقترحة.
تجدر الإشارة إلى أن العملية برمتها لا تتطلب أي إشراف بشري تقريبا ، وعدد المهام غير محدود!
بالنسبة لهذه الدراسة الرائجة ، قام جيم فان ، أحد كبار العلماء في NVIDIA ، بإرسالها أيضا.
ضع متعلقاتك في خزانة:
بيئة محاكاة، مفتاح تعلم المهارات المتنوعة
المعضلة الدائمة في أبحاث الروبوتات هي كيفية إعطاء الروبوتات المهارات اللازمة للعمل في بيئات غير مصنعية وأداء مجموعة واسعة من المهام للبشر.
في السنوات الأخيرة ، قمنا بتعليم الروبوتات مجموعة متنوعة من المهارات المعقدة ، مثل التلاعب بالسوائل ، ورمي الأشياء ، ولعب كرة القدم ، والباركور ، وأكثر من ذلك ، ولكن هذه المهارات منعزلة ، ولها مجال رؤية قصير ، وتتطلب أوصافا للمهام من تصميم الإنسان والإشراف على التدريب.
نظرا لأن جمع البيانات في العالم الحقيقي مكلف وشاق ، يتم تدريب هذه المهارات في عمليات محاكاة عشوائية في المجال المناسب ثم نشرها في العالم الحقيقي.
تتمتع البيئات المحاكية بالعديد من المزايا مقارنة بالاستكشاف وجمع البيانات في العالم الحقيقي ، مثل توفير وصول متميز إلى حالة منخفضة المستوى وفرص غير محدودة للاستكشاف ؛ يدعم الحوسبة المتوازية على نطاق واسع ، ويتم تسريع سرعة جمع البيانات بشكل كبير ؛ يسمح للروبوتات بتطوير استراتيجيات الحلقة المغلقة وقدرات استعادة الأخطاء.
ومع ذلك ، فإن بناء بيئة محاكاة يتطلب سلسلة من المهام الشاقة (تصميم المهام ، واختيار الأصول ذات الصلة وذات المغزى الدلالي ، وإنشاء تخطيطات وتكوينات سيناريو معقولة ، وصياغة الإشراف على التدريب مثل وظائف المكافأة أو الخسارة). حتى في عالم المحاكاة ، فإن قابلية تطوير تعلم مهارات الروبوت محدودة للغاية.
من خلال الاستفادة من قدرات التوليد للنماذج الأساسية الحديثة ، يمكن للمحاكاة التوليدية توليد معلومات لجميع المراحل المطلوبة لمهارات الروبوت المختلفة في المحاكاة.
بفضل معرفة الترميز الشاملة في أحدث النماذج الأساسية ، يمكن أن تكون بيانات السيناريو والمهام التي تم إنشاؤها بهذه الطريقة مشابهة جدا لتوزيع سيناريوهات العالم الحقيقي.
بالإضافة إلى ذلك، يمكن لهذه النماذج أن توفر أيضا مهام فرعية متحللة منخفضة المستوى يمكن التعامل معها بسلاسة من خلال أساليب تعلم السياسات الخاصة بالمجال، مما يؤدي إلى عروض توضيحية مغلقة الحلقة لمختلف المهارات والسيناريوهات.
عملية روبوجين
RoboGen هي عملية مؤتمتة بالكامل تسمح للروبوتات بتعلم مهارات مختلفة 24/7 وتتكون من 4 مراحل:
اقتراح المهمة.
توليد المشهد.
تدريب جيل تحت الإشراف.
استخدم المعلومات التي تم إنشاؤها لتعلم المهارات.
اقتراح المهمة
في هذه المرحلة ، يكون RoboGen قادرا على اقتراح مهام المستوى الأعلى ، وإنشاء البيئة المقابلة ، وتحليل أهداف المستوى الأعلى إلى مهام فرعية منخفضة المستوى ، ثم تعلم المهارات الفرعية بالتتابع.
أولا ، يولد RoboGen مهام هادفة ومتنوعة وعالية المستوى ليتعلمها الروبوت.
يقوم الباحث بتهيئة النظام باستخدام نوع روبوت معين وعينات عشوائية من الكائنات من البركة. ثم يتم إدخال معلومات الروبوت وعينة الكائن المقدمة في LLM.
تضمن عملية أخذ العينات هذه تنوع مهام التوليد.
على سبيل المثال ، يمكن للروبوت ذو الأرجل مثل الروبوت الرباعي أن يكتسب مجموعة متنوعة من المهارات الحركية ، في حين أن مناور الذراع الروبوتي ، عند إقرانه ، لديه القدرة على أداء مجموعة متنوعة من مهام التلاعب بكائنات أخذ عينات مختلفة.
يتم أخذ عينات من الكائنات المستخدمة للتهيئة من قائمة محددة مسبقا ، بما في ذلك الكائنات المفصلية وغير المفصلية الشائعة في المشاهد المنزلية ، مثل الأفران وأفران الميكروويف وموزعات المياه وأجهزة الكمبيوتر المحمولة وغسالات الصحون وما إلى ذلك.
نظرا لأن GPT-4 قد تم تدريبه على مجموعات بيانات الإنترنت الكبيرة ، فإنه يتمتع بفهم غني لتكلفة هذه الأشياء ، وكيفية التفاعل معها ، والمهام ذات المغزى التي يمكن ربطها بها.
على سبيل المثال ، إذا كان الكائن المفصلي الذي تم أخذ عينات منه عبارة عن فرن ميكروويف ، حيث يكون المفصل 0 هو المفصل الدوار الذي يربط الباب ، والمفصل 1 هو مفصل دوار آخر يتحكم في مقبض المؤقت ، فسيعيد GPT-4 مهمة - "يضع ذراع الروبوت وعاءا من الحساء في فرن الميكروويف ، ويغلق الباب ، ويضبط مؤقت الميكروويف لتسخين الوقت ".
بالنسبة للكائنات المفصلية ، نظرا لأن PartNetMobility هي مجموعة بيانات الكائنات المفصلية الوحيدة عالية الجودة وتغطي بالفعل مجموعة واسعة من الأصول المفصلية ، يتم إنشاء المهام بناء على الأصول التي تم أخذ عينات منها.
من خلال الاستعلام بشكل متكرر عن كائنات وأمثلة مختلفة ، يمكن إنشاء مجموعة متنوعة من العمليات ومهام الحركة.
توليد المشهد
بالنظر إلى مهمة ، يمكنك الاستمرار في إنشاء سيناريو المحاكاة المقابل لتعلم المهارات اللازمة لإكمال هذه المهمة.
كما هو موضح في الصورة ، يتم إنشاء مكونات المشهد والتكوينات وفقا لوصف المهمة ، ويتم استرداد أصول الكائن أو إنشاؤها ، والتي يتم ملؤها بعد ذلك بمشهد المحاكاة.
بالإضافة إلى أصول الكائن الضرورية المطلوبة للمهمة التي تم إنشاؤها في الخطوة السابقة ، من أجل زيادة تعقيد وتنوع المشهد الذي تم إنشاؤه ، مع تشبه توزيع الكائن للمشهد الحقيقي ، طلب الباحثون أيضا من GPT-4 إرجاع استعلامات إضافية للكائنات المتعلقة بدلالات المهمة.
على سبيل المثال ، بالنسبة لمهمة "فتح الخزانة ، ووضع اللعبة فيها ، وإغلاقها" ، سيتضمن المشهد الناتج أيضا حصيرة غرفة المعيشة ومصباح وكتاب وكرسي مكتب.
من أجل اكتساب المهارات ذات الصلة ، يجب الإشراف على تعلم المهارات.
سيقوم RoboGen أولا بالاستعلام عن GPT-4 لتخطيط المهام الطويلة وتقسيمها إلى مهام فرعية أقصر.
الافتراض الرئيسي هو أنه عندما يتم تقسيم المهمة إلى مهام فرعية قصيرة بما فيه الكفاية ، يمكن حل كل مهمة فرعية بشكل موثوق بواسطة الخوارزميات الحالية مثل التعلم المعزز وتخطيط الحركة وتحسين المسار وما إلى ذلك.
بعد التحليل ، يستعلم RoboGen عن GPT-4 لتحديد الخوارزمية المناسبة لحل كل مهمة فرعية.
كل منها مناسب لمهام مختلفة ، مثل تحسين المسار القائم على التدرج ، وهو الأنسب لتعلم مهام المعالجة الدقيقة التي تتضمن أجساما ناعمة ، مثل تشكيل العجين في شكل مستهدف.
تعد تهيئة الإجراء مع تخطيط الحركة أكثر موثوقية عند حل المهام ، مثل الاقتراب من كائن مستهدف عبر مسار خال من الاصطدام.
يعد التعلم المعزز والاستراتيجيات التطورية أكثر ملاءمة للمهام الغنية بالتلامس والتي تتضمن تفاعلا مستمرا مع مكونات المشهد الأخرى ، مثل حركات الساق ، أو عندما لا يمكن ببساطة تحديد الإجراء المطلوب بواسطة وضع مستجيب نهائي منفصل ، مثل تدوير مقبض الفرن.
باختصار ، يختار GPT-4 الخوارزمية التي سيتم استخدامها عبر الإنترنت بناء على المهام الفرعية التي تم إنشاؤها.
بعد ذلك ، حان الوقت لبناء سيناريو محاكاة للروبوت والسماح لهم بتعلم المهارات.
** روبوت يتعلم فتح آمن **
على سبيل المثال ، سيطلب RoboGen من الروبوت تعلم المهمة الحساسة للغاية المتمثلة في ضبط اتجاه المصباح المكتبي.
ومن المثير للاهتمام ، في هذا المشهد ، هناك أشياء هشة مثل شاشات الكمبيوتر على الأرض.
يمكن القول أنه اختبار رائع لقدرة الروبوت على التعرف البيئي.
يتضمن ذلك فتح الباب وأخذه وإخماده وإغلاقه وغيرها من العمليات ، والتي من الضروري خلالها أيضا محاولة تجنب الاصطدام بالأثاث.
النتائج التجريبية
** - تنوع المهام **
كما هو موضح في الجدول 1 ، يحقق RoboGen أدنى تشابه ذاتي في BLEU وتضمين مقارنة بجميع المعايير السابقة. بمعنى آخر ، تنوع مهام إنشاء RoboGen أعلى من تنوع معايير تعلم المهارات ومجموعات البيانات المصطنعة!
كما هو موضح في الشكل 4 ، تؤدي إزالة التحقق من الحجم إلى انخفاض حاد في درجات BLIP-2 بسبب التناقض الكبير بين حجم الكائنات في Objaverse و PartNetMobility والحجم الفعلي في العالم الحقيقي. بالإضافة إلى ذلك ، كان ل BLIP-2 بدون التحقق من صحة الكائن أيضا درجة أقل وتباين أكبر.
في المقابل ، يمكن لخطوة التحقق من الصحة في RoboGen تحسين فعالية اختيار الكائن بشكل كبير.
كما هو موضح في الشكل 3 ، يتعلم الروبوت المهارات بناء على إرشادات التدريب (أي تحليل المهام ووظيفة المكافأة) التي تم إنشاؤها بواسطة RoboGen في أربع مهام طويلة المدى.
تظهر النتائج أن الروبوت يتعلم بنجاح المهارات اللازمة لإكمال المهام المقابلة. بمعنى آخر ، مدربو التدريب الذين يتم إنشاؤهم تلقائيا فعالون في اشتقاق مهارات مفيدة ومفيدة.
تظهر النتائج في الجدول 2 أن السماح باختيار خوارزمية التعلم مفيد لتحسين أداء إكمال المهمة. إذا كنت تستخدم RL فقط ، فسوف تفشل في تعلم المهارات لمعظم المهام.
كما هو موضح في الشكل 1 ، يمكن ل RoboGen إنشاء مجموعة متنوعة من المهام لتعلم المهارات ، بما في ذلك معالجة الأشياء الصلبة / المشتركة ، والحركة ، والتلاعب بالجسم الناعم.
يوضح الشكل 3 كذلك أن RoboGen قادر على توفير مهارات تشغيل بعيدة المدى بطريقة تحلل معقولة.
مقدمة المؤلف
حصل سابقا على درجة الماجستير في علوم الكمبيوتر من جامعة سنترال ميشيغان في ديسمبر 2020 تحت إشراف البروفيسور ديفيد هيلد ، ودرجة البكالوريوس في علوم البيانات من كلية يوانبي ، جامعة بكين في يوليو 2019 تحت إشراف البروفيسور بن دونغ.
قبل انضمامه إلى جامعة سنترال ميشيغان ، أكمل درجة البكالوريوس في جامعة نانيانغ التكنولوجية ، سنغافورة ، تحت إشراف فام كوانغ كوونغ وآي مينغ تشن. كما تدرب في Meta الذكاء الاصطناعي و Akshara Rai و MIT-IBM الذكاء الاصطناعي Lab تحت إشراف Chuang Gan.
يركز بحثه حاليا على بناء استراتيجية عصبية موحدة وبنية تحتية للمحاكاة لتعلم الروبوت القابل للتطوير.
بالإضافة إلى ذلك ، هناك أيضا تشن فنغ من تسينغهوا ياو بان.
موارد: