من خلال الجمع بين ChatGPT والروبوتات المادية ، طورت Boston Dynamics وحشا!

المصدر الأصلي: مجتمع AIGC المفتوح

مصدر الصورة: تم إنشاؤه بواسطة الذكاء الاصطناعي غير محدود

في 27 أكتوبر ، عرضت Boston Dynamics ، أكبر مطور للروبوتات في العالم ، دراسة جديدة على موقعها على الإنترنت طورت كلبا آليا موجها بدليل ناطق من خلال الجمع بين ChatGPT و Spot ونماذج الذكاء الاصطناعي الأخرى.

يذكر أن الكلب الآلي يمكنه التحدث إلى البشر وفقا للمطالبات النصية والصوتية ، ويوفر وظيفة الأسئلة والأجوبة المرئية ، والتي يمكنها تحليل الصورة التي التقطتها الكاميرا وإنشاء أوصاف الصور تلقائيا.

تقول Boston Dynamics إن نماذج اللغة الكبيرة مثل ChatGPT أظهرت قدرات تحكم وإخراج قوية ، مما ألهمها للتحكم في السلوك ووظائف صنع القرار للروبوتات المادية. على سبيل المثال ، يسمح إدخال بعض بيانات الجذب المحددة والصور وما إلى ذلك للروبوت بتوفير وظائف مرشد سياحي منطقية ومنظمة.

بالإضافة إلى ذلك ، يعزز هذا أيضا القدرة المجسمة للروبوتات المادية ، مثل إخبارك بنكتة باردة والقيام بعمل مضحك يجعلك سعيدا. إذا كنت تستخدم طريقة الشعر التقليدية ، فسيكون ذلك أمرا صعبا للغاية.

**مبادئ تكنولوجيا الكلاب الآلية للمرشد السياحي **

تستخدم Boston Dynamics روبوتها الرباعي المطور ذاتيا Spot كإطار روبوت مادي لتحقيق الوظائف الأساسية مثل المشي والمراقبة والملاحة والمسح.

من أجل السماح للكلب الآلي بالتحدث والتفاعل مع البشر ، قام المطورون بتزويده بمكبر صوت Respeaker V2 ، وميكروفون صفيف حلقي مزود بمصابيح LED ، والتي يمكن توصيلها ب EAP 2 من Spot عبر USB لنقل البيانات.

1) بقعة EAP 2) المتكلم 3) مكبر صوت بلوتوث 4) ذراع نقطة وكاميرا لاعبا اساسيا

تم استخدام الكمبيوتر كدماغ تحكم للكلب الآلي وتفاعل معه من خلال Spot SDK. من أجل جعل الكلب الآلي لديه إجراءات مجسمة ، مثل الإيماء وتمديد رقبته ، يتم استخدام ذراع نقطة بقعة وكاميرا المشبك.

** اجعل الكلب الآلي يتحدث مع ChatGPT **

بعد بناء بيئة الأجهزة المادية ، من أجل جعل الكلب الآلي لديه وظيفة الحوار ، يستخدم موظفو البحث والتطوير GPT-3.5 و GPT-4 جنبا إلى جنب مع Spot SDK ، وينفذون تعليمات بسيطة ضبط دقيق ، بحيث يكون للكلب الآلي وظيفة الحكم والحوار الأساسي.

بعد ذلك ، للسماح ل Spot بالتفاعل مع البشر والبيئة ، تم دمج VQA وبرنامج تحويل الكلام إلى نص. في الوقت نفسه ، يتم إدخال كاميرا القابض للروبوت وكاميرا الجسم الأمامية في BLIP-2 وعرضها في وضع الأسئلة والأجوبة المرئية (على سبيل المثال ، "ما المثير للاهتمام في هذه الصورة؟"). وأسئلة بسيطة أخرى) أو وضع التسمية التوضيحية للصورة لتشغيلها.

يتم تشغيل العملية مرة واحدة تقريبا في الثانية ، ويتم إدخال النتائج مباشرة في المطالبة.

من أجل السماح للكلب الآلي بإدراك وظيفة "الاستماع" ، يقوم المطورون بإدخال بيانات الميكروفون في نموذج الكلام الخاص ب OpenAI Whisper في النص الإنجليزي.

لكي يجري الكلب الآلي محادثة مع إنسان ، يحتاج إلى تحويل الأوامر الصوتية البشرية إلى نص لمطالبة ChatGPT ، لذلك هناك حاجة أيضا إلى أداة تحويل. بعد تجربة مجموعة متنوعة من الأدوات ، قرر المطورون استخدام الخدمة السحابية ElevenLabs.

ظواهر مفاجئة في التجارب

في سياق محادثات الاختبار المتعددة ، وجد المطورون ظاهرة مفاجئة ، يبدو أن الكلب الآلي لديه قدرة بسيطة على اتخاذ القرار الذاتي.

على سبيل المثال ، عندما تسأل الكلب الآلي من هو مارك رايبرت (المدير التنفيذي لشركة Boston Dynamics)؟ أجابت: "لا أعرف من هو ، دعنا نذهب إلى مكتب المساعدة ونسأل". "**

بمجرد وصوله إلى مكتب الخدمة ، استمر الكلب الآلي في سؤال موظفي الخدمة من هو مارك رايبرت؟

عندما يسأل المطورون: من هم والديك؟ مشى الكلب الآلي إلى مناطق عرض Spot V1 و Big Dog ، واعتبر هذه الروبوتات آباءها. في الواقع ، لديهم علاقة **.

يظهر الكلب الآلي أيضا جانبا مثيرا للاهتمام ، ويمكنه أن يسأل المارة بنشاط عما إذا كان هناك أي مخلوقات غامضة حوله.

قالت Boston Dynamics إنها ستواصل تحسين وظائف المنتج في المستقبل. إن الجمع بين ChatGPT والروبوتات المادية يفتح الباب أمام الهبوط المادي لنماذج اللغات الكبيرة ، والتي يمكن استخدامها على نطاق واسع في المرشدين السياحيين والترفيه والخدمات اللوجستية والرفقة وغيرها من المجالات.

نبذة عن بوسطن ديناميكس

تأسست Boston Dynamics في عام 1992 ومقرها في بوسطن ، ماساتشوستس. ما بدأ كفرع لمعهد ماساتشوستس للتكنولوجيا (MIT) نما إلى شركة مستقلة.

تشتهر Boston Dynamics بتطوير روبوتات متقدمة للغاية ومرنة وعملية ، وتستخدم منتجاتها في المجالات الصناعية والبحثية والاستهلاكية ، وتشمل الروبوتات التمثيلية بشكل أساسي: BigDog و Atlas و Spot و Handle وما إلى ذلك.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • مشاركة
تعليق
0/400
لا توجد تعليقات
  • تثبيت