في 29 تموز (يوليو) ، تولى مراسل من نيويورك تايمز زمام المبادرة في رؤية أحدث روبوت من طراز RT-2 من Google في Google Lab.
يقف روبوت بذراع واحد أمام طاولة. على الطاولة تجلس ثلاثة تماثيل بلاستيكية: أسد وحوت وديناصور. أعطى المهندس الأمر للروبوت: "التقط الحيوانات المنقرضة". أزيز الروبوت للحظة ، ثم مدد ذراعيه ، وانتشرت الكفوف وسقطت. أمسكت بالديناصور.
إنه وميض ذكاء.
وصفت صحيفة نيويورك تايمز ، "حتى الأسبوع الماضي ، كان هذا العرض مستحيلًا. لا يمكن للروبوتات التعامل بشكل موثوق مع الأشياء التي لم ترها من قبل من قبل ، وبالتأكيد لا يمكنها تحقيق هدف الانتقال من" الحيوانات المنقرضة "إلى" الديناصورات البلاستيكية ". قفزة منطقية. "
** أثناء وجوده في العرض التوضيحي ، ولا تخطط Google لإصدار إصدار أكبر أو تسويقه على الفور ، كان العرض التوضيحي كافياً لإظهار لمحة صغيرة عن الفرص التي يمكن أن توفرها النماذج الكبيرة للروبوتات. **
قبل وصول عصر النماذج الكبيرة ، كان الأشخاص الروبوتات مدربة ، وعادة ما تكون محسّنة لكل مهمة ، مثل الإمساك بلعبة معينة ، والتي تتطلب قدرًا كافيًا من البيانات ، حتى يتمكن الروبوت من تحديد هذه اللعبة بدقة من جميع الزوايا وتحت مختلف أضواء ، وفهم اللعبة. النجاح. لجعل الروبوت يدرك أن لديه مهمة الإمساك باللعبة ، يحتاج الروبوت إلى البرمجة لحلها.
تسمح قدرات الذكاء والتعميم للنموذج الكبير للناس برؤية فجر حل هذه المشكلات والتقدم نحو الروبوتات العالمية.
** تطبيق Transformer على الروبوت **
يستخدم نموذج RT-2 الجديد من Google ، المسمى Robotic Transformer 2 ، بنية Transformer كأساس لنموذجها.
تعتبر بنية المحولات المقترحة في 2018 هي القاعدة السفلية لنموذج اللغة الكبير (LLM) المشهور حاليًا في جميع أنحاء العالم ، ولكن في الواقع ، كعمارة ، يمكن استخدام Transformer ليس فقط في نماذج اللغات الكبيرة ، ولكن أيضًا في Train على أنواع أخرى من البيانات. في وقت مبكر من شهر مارس من هذا العام ، أصدرت Google PaLM-E ، والذي كان أكبر نموذج للغة المرئية (VLM) في العالم في ذلك الوقت.
في نموذج اللغة الكبير ، يتم ترميز اللغة كمتجه ، ويقدم الأشخاص قدرًا كبيرًا من مجموعة المعلومات للنموذج ، بحيث يمكنه التنبؤ بما يقوله البشر عادةً في الجملة التالية ، وذلك لتوليد إجابة لغوية.
في نموذج اللغة المرئية ، يمكن للنموذج ترميز معلومات الصورة إلى متجه يشبه اللغة ، مما يسمح للنموذج بـ "فهم" النص و "فهم" الصور بنفس الطريقة. قدم الباحثون كمية كبيرة من المقتطفات والصور إلى نموذج اللغة المرئية ، مما مكنه من أداء مهام مثل الإجابة على الأسئلة المرئية ، والتعليق على الصور ، والتعرف على الأشياء.
من السهل نسبيًا الحصول على كمية كبيرة من البيانات من الصور واللغة. لذلك ، من السهل على النموذج تحقيق نتائج مذهلة.
ومع ذلك ، هناك صعوبة كبيرة في استخدام بنية المحولات لتوليد سلوك الروبوت. "البيانات المتعلقة بحركات الروبوت باهظة الثمن." قال البروفيسور Xu Huazhe ، الأستاذ المساعد في معهد المعلومات متعددة التخصصات بجامعة تسينغهوا ، لـ Geek Park ، "تأتي بيانات الرؤية واللغة من البشر ، وهي بيانات سلبية ، بينما تأتي بيانات الروبوت تأتي جميع بيانات الحركة من البيانات النشطة للروبوتات.
** على سبيل المثال ، أرغب في دراسة عمل روبوت يسكب القهوة. سواء أكان كتابة التعليمات البرمجية للروبوت لتنفيذها ، أو باستخدام طرق أخرى لينفذها الروبوت ، فمن الضروري أن يقوم الروبوت بالفعل بتنفيذ هذه العملية مرة واحدة للحصول على هذه البيانات. ** لذلك ، يختلف حجم وحجم بيانات الروبوت ولغته وصورته تمامًا. "
** في الجيل الأول من نموذج الروبوت Transformer RT-1 الذي بحثته Google ، فتحت Google مثل هذا التحدي لأول مرة ، في محاولة لبناء نموذج حركة لغة بصرية. **
من أجل بناء مثل هذا النموذج ، استخدمت Google 13 روبوتًا وقضت 17 شهرًا في جمع مجموعة بيانات تتكون من بيانات الروبوتات النشطة في أكثر من 700 مهمة في بيئة مطبخ مبنية.
تسجل مجموعة البيانات ثلاثة أبعاد في وقت واحد:
الرؤية - بيانات الكاميرا عندما يقوم الروبوت بأداء المهام ؛
اللغة - نص مهمة موصوفة بلغة طبيعية ؛
وحركة الروبوت - محور xyz وبيانات الانحراف ، وما إلى ذلك عندما تؤدي يد الروبوت مهمة.
على الرغم من الحصول على نتائج تجريبية جيدة في ذلك الوقت ، فمن المتصور أنه سيكون من الصعب جدًا زيادة كمية البيانات في مجموعة البيانات.
مصدر الصورة: مقدمة فيديو جوجل AI
** يتمثل ابتكار RT-2 في أن RT-2 تستخدم نموذج اللغة المرئية المذكور أعلاه (VLM) PaLM-E ونموذج لغة بصرية آخر PaLI-X كقاعدة لها - يمكن تمرير نموذج لغة بصرية خالص بيانات مستوى الشبكة تم تدريبه ، لأن كمية البيانات كبيرة بما يكفي ، ويمكن الحصول على نتائج جيدة كافية.في مرحلة الضبط الدقيق ، تتم إضافة بيانات حركة الروبوت إليه وضبطها معًا (التوليف المشترك). **
وبهذه الطريقة ، يكون الروبوت مكافئًا لامتلاك نظام الفطرة السليمة الذي تم تعلمه من خلال البيانات الضخمة - على الرغم من أنه لا يمكنه استيعاب الموز حتى الآن ، إلا أنه يمكنه بالفعل التعرف على الموز ، وحتى يعرف أن الموز هو نوع من الفاكهة. لتناول الطعام.
في مرحلة الضبط الدقيق ، من خلال إضافة المعرفة بكيفية إمساك الروبوت بالموز بعد رؤيته في العالم الحقيقي ، لا يمتلك الروبوت فقط القدرة على التعرف على الموز تحت الأضواء والزوايا المختلفة ، ولكن لديه أيضًا القدرة على فهم الموز. قدرة.
بهذه الطريقة ، يتم تقليل البيانات المطلوبة لتدريب الروبوت على بنية المحولات بشكل كبير.
يستخدم RT-2 مباشرة مجموعة بيانات الرؤية / اللغة / عمل الروبوت المستخدمة في مرحلة التدريب لـ RT-1 في مرحلة الضبط الدقيق. تُظهر البيانات التي قدمتها Google أن RT-2 يعمل بالإضافة إلى RT-1 عند الاستيلاء على العناصر التي ظهرت في الأصل في بيانات التدريب. وبسبب "العقل السليم" ، عند الإمساك بأشياء لم نشهدها من قبل ، ارتفع معدل النجاح من 32٪ من RT-1 إلى 62٪.
قال Xu Huazhe: "هذا هو جمال النموذج الكبير." زاد معدل الإمساك. بعد أن يتعلم أشياء كافية ، ستظهر بعض القدرات ".
** مستقبل التفاعل مع الروبوتات باستخدام اللغة الطبيعية **
أكاديميًا ، قد يحل التعميم القوي الذي أظهره RT-2 مشكلة عدم كفاية بيانات تدريب الروبوت. ** بالإضافة إلى ذلك ، لا تزال الصدمة الحدسية لـ RT-2 تأتي من جانبها الذكي. **
في التجارب التي أراد فيها الباحثون أن يتمكن من التقاط "شيء يمكن استخدامه كمطرقة" ، التقط الروبوت صخرة في كومة من الأشياء ، وعندما طُلب منه التقاط مشروب تم تقديمه إلى ريد بول المرهق محددًا في كومة العناصر.
تأتي هذه المهارة من قدرة الباحث على تقديم "سلسلة فكرية" عند تدريب النماذج الكبيرة. من الصعب جدًا تحقيق مثل هذا التفكير الدلالي متعدد الأجزاء في أبحاث التعلم التقليدية لتقليد الروبوت.
ومع ذلك ، فإن استخدام اللغة الطبيعية للتفاعل مع الروبوتات ليس فكرة أصلية لـ RT-2.
في أبحاث الروبوتات السابقة ، كان الباحثون بحاجة دائمًا إلى تحويل متطلبات المهام إلى أكواد لفهم الروبوتات. وفي الوقت نفسه ، بمجرد حدوث المشكلات ، احتاجوا أيضًا إلى كتابة أكواد لتصحيح سلوك الروبوتات.تطلبت العملية برمتها تفاعلات متعددة وكانت غير فعالة . ** والآن بعد أن أصبح لدينا بالفعل روبوت حوار ذكي للغاية ، فإن الخطوة الطبيعية التالية هي السماح للروبوت بالتفاعل مع البشر بلغة طبيعية. **
يقول عالم الأبحاث في Google Karol Hausman: "لقد بدأنا العمل على نماذج اللغة هذه منذ حوالي عامين ، ثم أدركنا وجود ثروة من المعرفة فيها ، لذلك بدأنا في ربطها بالروبوتات."
ومع ذلك ، فإن استخدام نموذج كبير كعقل الروبوت له صعوباته الخاصة. واحدة من أهم المشاكل هي مشكلة التأريض ، أي كيفية تحويل استجابة النموذج الكبير ، والتي عادة ما تكون غير مقيدة نسبيًا ، إلى تعليمات تقود تصرفات الروبوت.
** في عام 2022 ، أطلقت Google نموذج Say-can. ** تستخدم النماذج ، كما يوحي الاسم ، اعتبارات ذات شقين لمساعدة الروبوت على العمل. الاعتبار الأول هو على سبيل المثال. تم دمج النموذج مع نموذج لغة Google الكبير PaLM ، والذي يمكنه تحليل المهام التي تم الحصول عليها من خلال اللغة الطبيعية والتفاعل البشري ، والعثور على الأكثر ملاءمة للإجراء الحالي ؛ وهناك اعتبار آخر هو يمكن. يستخدم النموذج خوارزمية لحساب أوجد احتمالية أن يتمكن الروبوت الحالي من أداء هذه المهمة بنجاح. يتحرك الروبوت بناءً على هذين الاعتبارين.
على سبيل المثال ، قل للروبوت "تسرب الحليب لدي ، هل يمكنك مساعدتي؟" سيخطط الروبوت أولاً للمهمة من خلال نموذج اللغة. في هذا الوقت ، قد تكون الطريقة الأكثر منطقية هي العثور على منظف ، ثم العثور على اسفنجة لمسحه بنفسه. ثم يحسب الروبوت من خلال خوارزمية أنه كإنسان آلي ، فإن احتمال العثور على منظف بنجاح منخفض للغاية ، واحتمال العثور على إسفنجة لمسحه بنفسه مرتفع. بعد دراسة مضاعفة ، سيختار الروبوت طريقة البحث عن إسفنجة لمسح الحليب.
مصدر الصورة: مقدمة فيديو Saycan
على الرغم من أنه في بنية النموذج المكونة من طبقتين ، فإن الإجراءات التي يمكن أن يقوم بها الروبوت بنجاح هي بالفعل مصممة مسبقًا ، إلا أن نموذج اللغة الكبيرة يمكن أن يساعد الروبوت فقط في اختيار خطة مهمة مناسبة. في مثل هذا النموذج ، أظهر الروبوت بالفعل إحساسًا قويًا بالذكاء.
** ومع ذلك ، بينما يبدو التأثير مشابهًا من الخارج ، يأخذ RT-2 مسارًا مختلفًا. أثناء التدريب ، يتعلم النموذج الأنواع الثلاثة لبيانات الرؤية ، واللغة ، وسلوك الروبوت في نفس الوقت. لا يقوم نموذج RT-2 بتحليل المهام أولاً ، ثم يؤدي عمليات المهمة ، ولكن بعد إدخال اللغة الطبيعية ، فإنه يولد مباشرة الإجراءات من خلال تشغيل النموذج. **
"الهيكل ذو المستويين مشابه لما أريد القيام به. أفكر أولاً في الخطوة الأولى للقيام بذلك ، الخطوة الثانية للقيام بذلك ، ثم تنفيذ هذه الاستراتيجيات واحدة تلو الأخرى." قال البروفيسور Xu Huazhe ، "و البنية الشاملة متشابهة. لذلك لم أفكر حقًا في الخطوة الأولى والخطوة الثانية ، لذلك قمت بذلك للتو. "يمكن مقارنة مثال على الأخير بالكتابة والدردشة على الهواتف المحمولة كل يوم عادة لا نأخذ الأمر على محمل الجد عند الكتابة والدردشة. فكر في كيفية تحرك العضلات ، لكن فكر في الكلمات التي يجب كتابتها ، واكتبها مباشرة.
قال شو هواتشي "هناك طريقان مختلفان أو طريقتان مختلفتان لم يثبتا أنهما الطريقة الصحيحة الوحيدة". ومع ذلك ، نظرًا للأداء الممتاز لـ RT-2 ، فإن النموذج الذي يمكنه تولي الاتجاه الفني للمدخلات والمخرجات يبدو يستحق الاستكشاف.
قال فينسينت فانهوك ، مدير الروبوتات في DeepMind التابع لشركة Google ، "بسبب هذا التغيير (الأداء الممتاز لـ RT-2) ، كان علينا إعادة التفكير في خطتنا البحثية بأكملها". "الكثير من الأشياء التي فعلتها من قبل لا جدوى منها على الإطلاق."
** RT-2 هي لحظة GPT3 للروبوتات؟ **
روبوت RT-2 من Google ليس مثاليًا. في مظاهرة فعلية شهدها مراسل نيويورك تايمز ، أخطأ في التعرف على نكهة علبة صودا الليمون (يقول "برتقالي"). مرة أخرى ، عندما سئل عن الفاكهة الموجودة على الطاولة ، أجاب الروبوت "بيضاء" (كانت في الواقع موزة). أوضح متحدث باسم Google أن الروبوت استخدم إجابات مخبأة للإجابة على أسئلة من المختبرين السابقين بسبب انقطاع شبكة Wi-Fi لفترة وجيزة.
** بالإضافة إلى ذلك ، فإن استخدام نماذج كبيرة لتدريب الروبوتات سيواجه حتمًا مشكلات في التكلفة. ** في الوقت الحالي ، عندما تُصدر روبوتات Google المنطق والأحكام ، فإنها تحتاج إلى نقل البيانات إلى السحابة ، وستقوم وحدات TPU المتعددة بحسابها معًا ، ثم إرسال النتائج مرة أخرى إلى الروبوت ، وسيقوم الروبوت بتنفيذ العملية. يمكن تخيل مثل هذه الحسابات لتكون باهظة الثمن.
يعتقد فينسينت فانهوك ، مدير الروبوتات في DeepMind التابع لشركة Google ، أن البحث الجديد يفتح الباب أمام الروبوتات لاستخدامها في البيئات البشرية - يعتقد الباحثون أن الروبوتات ذات النماذج اللغوية المضمنة يمكن أن تدخل المستودعات ، في الصناعة الطبية ، وحتى مساعد منزلي ، يساعد في طي الملابس ، وإزالة العناصر من غسالة الأطباق ، والترتيب في جميع أنحاء المنزل.
"إذا فتحت مصنعًا واحتجت إلى استخدام الروبوتات ، فيجب أن يكون معدل النجاح مرتفعًا للغاية. ولا تريد أن تقول إنه بعد شراء روبوت ، فإنك تحتاج إلى الكثير من الأشخاص لصيانة الروبوت وتحسين الأشياء التي الروبوت لا يعمل بشكل جيد. ثم هذه التكلفة مرتفعة للغاية. "قال البروفيسور Xu Huazhe ،" الروبوتات في المشهد المنزلي قد تكون حالة أخرى ، لأنه ربما متطلبات معدل النجاح لبعض المهام في المشهد المنزلي ليست عالية جدا. على سبيل المثال ، طي الملابس ليس جيدًا. في نظرك ، فشلت هذه المهمة ، لكن لن يكون لها تأثير كبير عليك. "
يانغ ليكون (Yaan Lecun) ، أحد عمالقة الذكاء الاصطناعي الثلاثة ، لديه تأكيد شهير تم التأكيد عليه عدة مرات: الذكاء الاصطناعي ليس ذكيًا بدرجة كافية. يمكن لأي طفل أن يتعلم بسرعة تنظيف الطاولة ووضع الأطباق في غسالة الصحون ، لكن الروبوت لا يمكنه ذلك.
قد يكون هذا صحيحًا بالنسبة لأبحاث الروبوت الحالية ، ولكن تمامًا كما أظهر GPT-3 غير الكامل للصناعة اتجاه تطوير النماذج واسعة النطاق ، ربما يفتح RT-2 غير الكامل اليوم أيضًا حقبة مستقبلية تدخل فيها الروبوتات إلى المنزل و يصبحون مساعدين لنا.
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
هل RT-2 من Google ، هو لحظة GPT-3 للروبوتات؟
في 29 تموز (يوليو) ، تولى مراسل من نيويورك تايمز زمام المبادرة في رؤية أحدث روبوت من طراز RT-2 من Google في Google Lab.
يقف روبوت بذراع واحد أمام طاولة. على الطاولة تجلس ثلاثة تماثيل بلاستيكية: أسد وحوت وديناصور. أعطى المهندس الأمر للروبوت: "التقط الحيوانات المنقرضة". أزيز الروبوت للحظة ، ثم مدد ذراعيه ، وانتشرت الكفوف وسقطت. أمسكت بالديناصور.
إنه وميض ذكاء.
وصفت صحيفة نيويورك تايمز ، "حتى الأسبوع الماضي ، كان هذا العرض مستحيلًا. لا يمكن للروبوتات التعامل بشكل موثوق مع الأشياء التي لم ترها من قبل من قبل ، وبالتأكيد لا يمكنها تحقيق هدف الانتقال من" الحيوانات المنقرضة "إلى" الديناصورات البلاستيكية ". قفزة منطقية. "
** أثناء وجوده في العرض التوضيحي ، ولا تخطط Google لإصدار إصدار أكبر أو تسويقه على الفور ، كان العرض التوضيحي كافياً لإظهار لمحة صغيرة عن الفرص التي يمكن أن توفرها النماذج الكبيرة للروبوتات. **
قبل وصول عصر النماذج الكبيرة ، كان الأشخاص الروبوتات مدربة ، وعادة ما تكون محسّنة لكل مهمة ، مثل الإمساك بلعبة معينة ، والتي تتطلب قدرًا كافيًا من البيانات ، حتى يتمكن الروبوت من تحديد هذه اللعبة بدقة من جميع الزوايا وتحت مختلف أضواء ، وفهم اللعبة. النجاح. لجعل الروبوت يدرك أن لديه مهمة الإمساك باللعبة ، يحتاج الروبوت إلى البرمجة لحلها.
تسمح قدرات الذكاء والتعميم للنموذج الكبير للناس برؤية فجر حل هذه المشكلات والتقدم نحو الروبوتات العالمية.
** تطبيق Transformer على الروبوت **
يستخدم نموذج RT-2 الجديد من Google ، المسمى Robotic Transformer 2 ، بنية Transformer كأساس لنموذجها.
تعتبر بنية المحولات المقترحة في 2018 هي القاعدة السفلية لنموذج اللغة الكبير (LLM) المشهور حاليًا في جميع أنحاء العالم ، ولكن في الواقع ، كعمارة ، يمكن استخدام Transformer ليس فقط في نماذج اللغات الكبيرة ، ولكن أيضًا في Train على أنواع أخرى من البيانات. في وقت مبكر من شهر مارس من هذا العام ، أصدرت Google PaLM-E ، والذي كان أكبر نموذج للغة المرئية (VLM) في العالم في ذلك الوقت.
في نموذج اللغة الكبير ، يتم ترميز اللغة كمتجه ، ويقدم الأشخاص قدرًا كبيرًا من مجموعة المعلومات للنموذج ، بحيث يمكنه التنبؤ بما يقوله البشر عادةً في الجملة التالية ، وذلك لتوليد إجابة لغوية.
في نموذج اللغة المرئية ، يمكن للنموذج ترميز معلومات الصورة إلى متجه يشبه اللغة ، مما يسمح للنموذج بـ "فهم" النص و "فهم" الصور بنفس الطريقة. قدم الباحثون كمية كبيرة من المقتطفات والصور إلى نموذج اللغة المرئية ، مما مكنه من أداء مهام مثل الإجابة على الأسئلة المرئية ، والتعليق على الصور ، والتعرف على الأشياء.
من السهل نسبيًا الحصول على كمية كبيرة من البيانات من الصور واللغة. لذلك ، من السهل على النموذج تحقيق نتائج مذهلة.
ومع ذلك ، هناك صعوبة كبيرة في استخدام بنية المحولات لتوليد سلوك الروبوت. "البيانات المتعلقة بحركات الروبوت باهظة الثمن." قال البروفيسور Xu Huazhe ، الأستاذ المساعد في معهد المعلومات متعددة التخصصات بجامعة تسينغهوا ، لـ Geek Park ، "تأتي بيانات الرؤية واللغة من البشر ، وهي بيانات سلبية ، بينما تأتي بيانات الروبوت تأتي جميع بيانات الحركة من البيانات النشطة للروبوتات.
** على سبيل المثال ، أرغب في دراسة عمل روبوت يسكب القهوة. سواء أكان كتابة التعليمات البرمجية للروبوت لتنفيذها ، أو باستخدام طرق أخرى لينفذها الروبوت ، فمن الضروري أن يقوم الروبوت بالفعل بتنفيذ هذه العملية مرة واحدة للحصول على هذه البيانات. ** لذلك ، يختلف حجم وحجم بيانات الروبوت ولغته وصورته تمامًا. "
** في الجيل الأول من نموذج الروبوت Transformer RT-1 الذي بحثته Google ، فتحت Google مثل هذا التحدي لأول مرة ، في محاولة لبناء نموذج حركة لغة بصرية. **
من أجل بناء مثل هذا النموذج ، استخدمت Google 13 روبوتًا وقضت 17 شهرًا في جمع مجموعة بيانات تتكون من بيانات الروبوتات النشطة في أكثر من 700 مهمة في بيئة مطبخ مبنية.
تسجل مجموعة البيانات ثلاثة أبعاد في وقت واحد:
على الرغم من الحصول على نتائج تجريبية جيدة في ذلك الوقت ، فمن المتصور أنه سيكون من الصعب جدًا زيادة كمية البيانات في مجموعة البيانات.
** يتمثل ابتكار RT-2 في أن RT-2 تستخدم نموذج اللغة المرئية المذكور أعلاه (VLM) PaLM-E ونموذج لغة بصرية آخر PaLI-X كقاعدة لها - يمكن تمرير نموذج لغة بصرية خالص بيانات مستوى الشبكة تم تدريبه ، لأن كمية البيانات كبيرة بما يكفي ، ويمكن الحصول على نتائج جيدة كافية.في مرحلة الضبط الدقيق ، تتم إضافة بيانات حركة الروبوت إليه وضبطها معًا (التوليف المشترك). **
وبهذه الطريقة ، يكون الروبوت مكافئًا لامتلاك نظام الفطرة السليمة الذي تم تعلمه من خلال البيانات الضخمة - على الرغم من أنه لا يمكنه استيعاب الموز حتى الآن ، إلا أنه يمكنه بالفعل التعرف على الموز ، وحتى يعرف أن الموز هو نوع من الفاكهة. لتناول الطعام.
في مرحلة الضبط الدقيق ، من خلال إضافة المعرفة بكيفية إمساك الروبوت بالموز بعد رؤيته في العالم الحقيقي ، لا يمتلك الروبوت فقط القدرة على التعرف على الموز تحت الأضواء والزوايا المختلفة ، ولكن لديه أيضًا القدرة على فهم الموز. قدرة.
بهذه الطريقة ، يتم تقليل البيانات المطلوبة لتدريب الروبوت على بنية المحولات بشكل كبير.
يستخدم RT-2 مباشرة مجموعة بيانات الرؤية / اللغة / عمل الروبوت المستخدمة في مرحلة التدريب لـ RT-1 في مرحلة الضبط الدقيق. تُظهر البيانات التي قدمتها Google أن RT-2 يعمل بالإضافة إلى RT-1 عند الاستيلاء على العناصر التي ظهرت في الأصل في بيانات التدريب. وبسبب "العقل السليم" ، عند الإمساك بأشياء لم نشهدها من قبل ، ارتفع معدل النجاح من 32٪ من RT-1 إلى 62٪.
قال Xu Huazhe: "هذا هو جمال النموذج الكبير." زاد معدل الإمساك. بعد أن يتعلم أشياء كافية ، ستظهر بعض القدرات ".
** مستقبل التفاعل مع الروبوتات باستخدام اللغة الطبيعية **
أكاديميًا ، قد يحل التعميم القوي الذي أظهره RT-2 مشكلة عدم كفاية بيانات تدريب الروبوت. ** بالإضافة إلى ذلك ، لا تزال الصدمة الحدسية لـ RT-2 تأتي من جانبها الذكي. **
في التجارب التي أراد فيها الباحثون أن يتمكن من التقاط "شيء يمكن استخدامه كمطرقة" ، التقط الروبوت صخرة في كومة من الأشياء ، وعندما طُلب منه التقاط مشروب تم تقديمه إلى ريد بول المرهق محددًا في كومة العناصر.
تأتي هذه المهارة من قدرة الباحث على تقديم "سلسلة فكرية" عند تدريب النماذج الكبيرة. من الصعب جدًا تحقيق مثل هذا التفكير الدلالي متعدد الأجزاء في أبحاث التعلم التقليدية لتقليد الروبوت.
ومع ذلك ، فإن استخدام اللغة الطبيعية للتفاعل مع الروبوتات ليس فكرة أصلية لـ RT-2.
في أبحاث الروبوتات السابقة ، كان الباحثون بحاجة دائمًا إلى تحويل متطلبات المهام إلى أكواد لفهم الروبوتات. وفي الوقت نفسه ، بمجرد حدوث المشكلات ، احتاجوا أيضًا إلى كتابة أكواد لتصحيح سلوك الروبوتات.تطلبت العملية برمتها تفاعلات متعددة وكانت غير فعالة . ** والآن بعد أن أصبح لدينا بالفعل روبوت حوار ذكي للغاية ، فإن الخطوة الطبيعية التالية هي السماح للروبوت بالتفاعل مع البشر بلغة طبيعية. **
يقول عالم الأبحاث في Google Karol Hausman: "لقد بدأنا العمل على نماذج اللغة هذه منذ حوالي عامين ، ثم أدركنا وجود ثروة من المعرفة فيها ، لذلك بدأنا في ربطها بالروبوتات."
ومع ذلك ، فإن استخدام نموذج كبير كعقل الروبوت له صعوباته الخاصة. واحدة من أهم المشاكل هي مشكلة التأريض ، أي كيفية تحويل استجابة النموذج الكبير ، والتي عادة ما تكون غير مقيدة نسبيًا ، إلى تعليمات تقود تصرفات الروبوت.
** في عام 2022 ، أطلقت Google نموذج Say-can. ** تستخدم النماذج ، كما يوحي الاسم ، اعتبارات ذات شقين لمساعدة الروبوت على العمل. الاعتبار الأول هو على سبيل المثال. تم دمج النموذج مع نموذج لغة Google الكبير PaLM ، والذي يمكنه تحليل المهام التي تم الحصول عليها من خلال اللغة الطبيعية والتفاعل البشري ، والعثور على الأكثر ملاءمة للإجراء الحالي ؛ وهناك اعتبار آخر هو يمكن. يستخدم النموذج خوارزمية لحساب أوجد احتمالية أن يتمكن الروبوت الحالي من أداء هذه المهمة بنجاح. يتحرك الروبوت بناءً على هذين الاعتبارين.
على سبيل المثال ، قل للروبوت "تسرب الحليب لدي ، هل يمكنك مساعدتي؟" سيخطط الروبوت أولاً للمهمة من خلال نموذج اللغة. في هذا الوقت ، قد تكون الطريقة الأكثر منطقية هي العثور على منظف ، ثم العثور على اسفنجة لمسحه بنفسه. ثم يحسب الروبوت من خلال خوارزمية أنه كإنسان آلي ، فإن احتمال العثور على منظف بنجاح منخفض للغاية ، واحتمال العثور على إسفنجة لمسحه بنفسه مرتفع. بعد دراسة مضاعفة ، سيختار الروبوت طريقة البحث عن إسفنجة لمسح الحليب.
على الرغم من أنه في بنية النموذج المكونة من طبقتين ، فإن الإجراءات التي يمكن أن يقوم بها الروبوت بنجاح هي بالفعل مصممة مسبقًا ، إلا أن نموذج اللغة الكبيرة يمكن أن يساعد الروبوت فقط في اختيار خطة مهمة مناسبة. في مثل هذا النموذج ، أظهر الروبوت بالفعل إحساسًا قويًا بالذكاء.
** ومع ذلك ، بينما يبدو التأثير مشابهًا من الخارج ، يأخذ RT-2 مسارًا مختلفًا. أثناء التدريب ، يتعلم النموذج الأنواع الثلاثة لبيانات الرؤية ، واللغة ، وسلوك الروبوت في نفس الوقت. لا يقوم نموذج RT-2 بتحليل المهام أولاً ، ثم يؤدي عمليات المهمة ، ولكن بعد إدخال اللغة الطبيعية ، فإنه يولد مباشرة الإجراءات من خلال تشغيل النموذج. **
"الهيكل ذو المستويين مشابه لما أريد القيام به. أفكر أولاً في الخطوة الأولى للقيام بذلك ، الخطوة الثانية للقيام بذلك ، ثم تنفيذ هذه الاستراتيجيات واحدة تلو الأخرى." قال البروفيسور Xu Huazhe ، "و البنية الشاملة متشابهة. لذلك لم أفكر حقًا في الخطوة الأولى والخطوة الثانية ، لذلك قمت بذلك للتو. "يمكن مقارنة مثال على الأخير بالكتابة والدردشة على الهواتف المحمولة كل يوم عادة لا نأخذ الأمر على محمل الجد عند الكتابة والدردشة. فكر في كيفية تحرك العضلات ، لكن فكر في الكلمات التي يجب كتابتها ، واكتبها مباشرة.
قال شو هواتشي "هناك طريقان مختلفان أو طريقتان مختلفتان لم يثبتا أنهما الطريقة الصحيحة الوحيدة". ومع ذلك ، نظرًا للأداء الممتاز لـ RT-2 ، فإن النموذج الذي يمكنه تولي الاتجاه الفني للمدخلات والمخرجات يبدو يستحق الاستكشاف.
قال فينسينت فانهوك ، مدير الروبوتات في DeepMind التابع لشركة Google ، "بسبب هذا التغيير (الأداء الممتاز لـ RT-2) ، كان علينا إعادة التفكير في خطتنا البحثية بأكملها". "الكثير من الأشياء التي فعلتها من قبل لا جدوى منها على الإطلاق."
** RT-2 هي لحظة GPT3 للروبوتات؟ **
روبوت RT-2 من Google ليس مثاليًا. في مظاهرة فعلية شهدها مراسل نيويورك تايمز ، أخطأ في التعرف على نكهة علبة صودا الليمون (يقول "برتقالي"). مرة أخرى ، عندما سئل عن الفاكهة الموجودة على الطاولة ، أجاب الروبوت "بيضاء" (كانت في الواقع موزة). أوضح متحدث باسم Google أن الروبوت استخدم إجابات مخبأة للإجابة على أسئلة من المختبرين السابقين بسبب انقطاع شبكة Wi-Fi لفترة وجيزة.
** بالإضافة إلى ذلك ، فإن استخدام نماذج كبيرة لتدريب الروبوتات سيواجه حتمًا مشكلات في التكلفة. ** في الوقت الحالي ، عندما تُصدر روبوتات Google المنطق والأحكام ، فإنها تحتاج إلى نقل البيانات إلى السحابة ، وستقوم وحدات TPU المتعددة بحسابها معًا ، ثم إرسال النتائج مرة أخرى إلى الروبوت ، وسيقوم الروبوت بتنفيذ العملية. يمكن تخيل مثل هذه الحسابات لتكون باهظة الثمن.
يعتقد فينسينت فانهوك ، مدير الروبوتات في DeepMind التابع لشركة Google ، أن البحث الجديد يفتح الباب أمام الروبوتات لاستخدامها في البيئات البشرية - يعتقد الباحثون أن الروبوتات ذات النماذج اللغوية المضمنة يمكن أن تدخل المستودعات ، في الصناعة الطبية ، وحتى مساعد منزلي ، يساعد في طي الملابس ، وإزالة العناصر من غسالة الأطباق ، والترتيب في جميع أنحاء المنزل.
"إذا فتحت مصنعًا واحتجت إلى استخدام الروبوتات ، فيجب أن يكون معدل النجاح مرتفعًا للغاية. ولا تريد أن تقول إنه بعد شراء روبوت ، فإنك تحتاج إلى الكثير من الأشخاص لصيانة الروبوت وتحسين الأشياء التي الروبوت لا يعمل بشكل جيد. ثم هذه التكلفة مرتفعة للغاية. "قال البروفيسور Xu Huazhe ،" الروبوتات في المشهد المنزلي قد تكون حالة أخرى ، لأنه ربما متطلبات معدل النجاح لبعض المهام في المشهد المنزلي ليست عالية جدا. على سبيل المثال ، طي الملابس ليس جيدًا. في نظرك ، فشلت هذه المهمة ، لكن لن يكون لها تأثير كبير عليك. "
يانغ ليكون (Yaan Lecun) ، أحد عمالقة الذكاء الاصطناعي الثلاثة ، لديه تأكيد شهير تم التأكيد عليه عدة مرات: الذكاء الاصطناعي ليس ذكيًا بدرجة كافية. يمكن لأي طفل أن يتعلم بسرعة تنظيف الطاولة ووضع الأطباق في غسالة الصحون ، لكن الروبوت لا يمكنه ذلك.
قد يكون هذا صحيحًا بالنسبة لأبحاث الروبوت الحالية ، ولكن تمامًا كما أظهر GPT-3 غير الكامل للصناعة اتجاه تطوير النماذج واسعة النطاق ، ربما يفتح RT-2 غير الكامل اليوم أيضًا حقبة مستقبلية تدخل فيها الروبوتات إلى المنزل و يصبحون مساعدين لنا.