LINGO-1 الذي أطلقته شركة Wayve يمنح القيادة الذاتية متعة كبيرة! كيفية قيادة هذه السيارة، تشرح لنفسها، نموذج لغة كبير، لم تعد صندوقا أسود.
منذ اختراعها، فإن الأمر الأكثر إثارة للقلق بشأن القيادة الذاتية هو أن البشر لا يستطيعون معرفة ما يدور في ذهنها.
ابتداءً من اليوم، هل يمكنها فعلاً "التعبير" عن أفكارها؟
أطلقت Wayve مؤخرًا LINGO-1، وهو نموذج تفاعلي كبير للقيادة الذاتية يعتمد على نماذج كبيرة لحركة اللغة المرئية (VLAMs)، والتي تدمج بعمق نماذج اللغة الكبيرة والقيادة الذاتية.
على وجه التحديد، قام LINGO-1 بتدريب نموذج لغة فيديو، والذي يمكن القول بأنه مخصص تمامًا - يمكنه التعليق على المشهد الذي يحدث أمامه!
-ماذا تفعل؟ -أعبر حركة المرور بحذر لأن ظروف الطريق معقدة في الوقت الحالي.
-ماذا ستفعل بعد ذلك؟ -سأتجه إلى اليسار.
ما هي المخاطر المحتملة في السيناريو المطروح؟ - إشارات المرور وراكبي الدراجات والمشاة الذين يعبرون الطريق
وسوف يشرح لك كل شكوكك حول نظام القيادة الذكي بشكل واضح.
س: لماذا توقفت؟ الجواب: لأنه ضوء أحمر الآن.
بعد تدريبه على مجموعة متنوعة من البيانات المرئية واللغوية، لا يستطيع LINGO-1 أداء مهام الإجابة على الأسئلة المرئية (VQA) مثل الإدراك والواقع المضاد والتخطيط والاستدلال والانتباه فحسب، بل يمكنه أيضًا وصف سلوك القيادة والاستدلال.
بمعنى آخر، يمكننا فهم العوامل التي تؤثر على قرارات القيادة من خلال طرح الأسئلة على LINGO-1.
وأعرب مستخدمو الإنترنت عن أسفهم: "لقد تم فتح الصندوق الأسود الشامل بهذه الطريقة. إنها ببساطة معجزة في عصر GPT. لقد خطى نظام القيادة الذاتية خطوة كبيرة إلى الأمام من التفاعل مع العالم المادي الحقيقي."
ومن المتصور أنه بينما ندفع حدود الذكاء الاصطناعي المتجسد، فإن نموذج الرؤية والكلام والفعل سيكون له تأثير هائل، لأن اللغة توفر نموذجا جديدا لتعزيز الطريقة التي نفسر بها وندرب نماذج القيادة الذاتية.
**المجاملة تأتي في السيارة ذاتية القيادة؟ **
الميزة الفريدة لـ LINGO-1 هي تقديم خبير بشري للتدريب على بيانات التعليق اللفظي لمشاهد القيادة، مما يسمح للنموذج بالربط بين الإدراك البيئي وصنع القرار العملي وتفسير المشاهد الشبيهة بالإنسان.
وبهذه الطريقة، يمكنه تفسير قرارات وإجراءات نظام القيادة الذاتية من خلال تفاعل اللغة الطبيعية.
علق جيم فان، أحد كبار علماء الذكاء الاصطناعي في NVIDIA، بحماس: هذا هو العمل الأكثر إثارة للاهتمام في مجال القيادة الذاتية الذي قرأته مؤخرًا!
في الماضي، كانت القيادة الأوتوماتيكية عبارة عن "الإدراك -> عملية القيادة"، ولكن في المستقبل، أضافت القيادة الأوتوماتيكية خطوة التفكير، وهي "الإدراك -> التفكير اللفظي -> الفعل".
ما هي مزايا هذه الخطوة الاستدلالية الواضحة الجديدة؟ يشرح جيم فان ما يلي ——
القابلية للتفسير: لم يعد نموذج القيادة عبارة عن صندوق أسود غامض.
السيناريوهات المغايرة للواقع: القدرة على تخيل سيناريوهات غير موجودة في بيانات التدريب والتفكير في كيفية التعامل معها بشكل صحيح.
البرمجة ذات الذيل الطويل: هناك عدد كبير من السيناريوهات المتطورة في القيادة، ومن المستحيل توفير تغطية جيدة للبيانات لجميع السيناريوهات. بدلاً من جمع آلاف الأمثلة لـ "برمجة الأعصاب" لحالة ما، يمكن للخبراء البشريين كتابة مطالبات () لشرح عدد صغير من الأمثلة، وبالتالي توجيه النظام حول كيفية التعامل مع سيناريوهات محددة أو معقدة.
ليس هذا فحسب، بل يرتبط LINGO-1 أيضًا ارتباطًا وثيقًا ببعض الأبحاث في مجال الذكاء الاصطناعي للألعاب، مثل MineDojo وThought Cloning، وكلاهما من عملاء الذكاء الاصطناعي.
يمكن للأول أن يتعلم نموذج مكافأة يربط نص المراجعة ببكسلات فيديو Minecraft. يمكن للأخير أن يحقق مجموعة كاملة من الروابط من "حلقة البكسل->اللغة->الإجراء".
LINGO-1——راوي قيادة الحلقة المفتوحة
شرحي الخاص
ما هو النموذج الذي ينتبه إليه؟ فعل ماذا؟ الآن، لم يعد هذا لغزا.
سوف يشرح لك LINGO-1 بوضوح ما يفعله في كل خطوة على الطريق.
على سبيل المثال، إذا أراد تجاوز مركبة متوقفة على جانب الطريق -
LINGO-1: أقوم بالتجاوز بسبب بطء حركة المرور.
LINGO-1: أنا أمر بسيارة متوقفة.
LINGO-1: أنا أزيد السرعة لأن الطريق أمامي خالي.
عند الاقتراب من معبر حمار وحشي ——
لغة-1: أنا أحافظ على سرعتي؛ الطريق لا يزال خاليًا. LINGO-1: الكبح والإبطاء الآن. LINGO-1: توقف عند معبر الحمار الوحشي. LINGO-1: أنا أتسارع من حيث توقفت. لغة-1: أنا مسرعة لأن الطريق واضح.
عند الانعطاف يسارًا عند تقاطع ——
لغة 1: بقيت ساكناً لأن السيارة التي أمامي توقفت أيضاً. LINGO-1: أنا أزيد من سرعتي لأن السيارة التي أمامي ابتعدت. LINGO-1: أقوم بالضغط على الفرامل للتوقف عند التقاطع. LINGO-1: أنا أتحرك للأمام لأن المسار واضح. LINGO-1: أكمل المنعطف الأيسر واتبع المسار.
### الإجابة على الأسئلة المرئية (VQA)
بالإضافة إلى شرح نفسه، يستطيع LINGO-1 أيضًا الإجابة على أسئلتك، مما يسمح لنا بتقييم قدراته على فهم المشهد والاستدلال.
على سبيل المثال، إذا سألت LINGO-1، ما الذي يجب عليك الانتباه إليه عند هذا التقاطع؟
تقول: "يجب أن أنتبه إلى الضوء الذي أمامي، وإلى راكب الدراجة الذي أمامي، والمشاة الذين يعبرون الطريق".
اسأل LINGO-1، ما هو الطقس الآن؟ ما هو تأثير ذلك على القيادة؟
سيقول: "إنه يوم ممطر وأحتاج إلى توخي الحذر الشديد عند القيادة لأن سطح الطريق زلق وتقل الرؤية في الأيام الممطرة."
LINGO-1، كيف يمكنك الركوب بأمان جنبًا إلى جنب مع الدراجة؟
وسيقول: "يجب أن أحافظ على مسافة من راكبي الدراجات وأتوقف عند الضرورة. إنه خطر محتمل. بالإضافة إلى ذلك، يجب أن أنتبه للسيارات المتوقفة على جانب الطريق".
### المفتاح: مجموعة بيانات التعليق القيادة
كان مفتاح تطوير LINGO-1 هو إنشاء مجموعة بيانات متنوعة وقابلة للتطوير. تحتوي مجموعة البيانات هذه على تعليقات من السائقين المحترفين أثناء القيادة في جميع أنحاء المملكة المتحدة، بما في ذلك الصور واللغة وبيانات الحركة.
هذا يذكرنا بالمشهد عندما كنا نتعلم القيادة من المدربين في مدرسة تعليم القيادة - من وقت لآخر كانوا يدلون بتعليقات وتفسيرات مثل ما يلي لشرح سبب تصرفهم بهذه الطريقة أثناء القيادة، حتى يتمكن الطلاب من استخلاص الاستنتاجات .
لقد تغيرت المركبة/إشارة المرور أمامك، يرجى إبطاء السرعة - حان الوقت لتغيير الممرات - يمكنك زيادة السرعة، احرص على عدم تجاوز الحد الأقصى للسرعة - انتبه! دخلت مركبات أخرى إلى الطريق/توقفت عند التقاطع - انتبه إلى الدوارات وأعطي إشارات المرور أمامك - هناك مركبات متوقفة/إشارات مرور/مدارس أمامك - المركبات التالية تغير مساراتها/تتجاوز المركبات المتوقفة - راكبو الدراجات/المشاة ينتظرون عند التقاطع تقاطعات كحمار الوحش
عندما تتم مزامنة الجمل المذكورة أعلاه والصور الحسية وإجراءات القيادة الأساسية في الوقت المناسب، سيحصل الباحثون على مجموعة غنية من بيانات الحركة واللغة المرئية التي يمكن استخدامها لتدريب النماذج على مهام مختلفة.
نموذج العمل باللغة المرئية (VLAM)
بعد ظهور LLM، تجمع العديد من نماذج اللغة المرئية (VLM) بين قدرات التفكير في LLM مع الصور ومقاطع الفيديو.
أطلقت Wayve أيضًا نموذج الرؤية واللغة والعمل (VLAM)، الذي يحتوي على ثلاثة أنواع من صور المعلومات وبيانات القيادة واللغة.
في الماضي، كانت اللغة الطبيعية نادراً ما تستخدم في تدريب الروبوتات (خاصة في مجال القيادة الذاتية).
إذا تمت إضافة اللغة الطبيعية، فسوف يسمح لنا بتفسير نماذج القيادة الأساسية وتدريبها بشكل أكثر قوة. وسيكون لهذا النموذج الجديد تأثير هائل.
باستخدام اللغة لشرح العوامل السببية المختلفة في سيناريوهات القيادة، يمكن تسريع سرعة تدريب النموذج وتوسيع نطاقها لتشمل سيناريوهات جديدة.
وبما أنه يمكننا طرح أسئلة النموذج، يمكننا معرفة ما يفهمه النموذج ومدى قدرته على التفكير واتخاذ القرارات.
لم يعد نظام القيادة الذاتية بمثابة صندوق أسود غامض، يمكننا أن نسأله بين الحين والآخر أثناء القيادة: بماذا تفكر؟
سيؤدي هذا بلا شك إلى زيادة ثقة الجمهور في القيادة الذاتية.
بالإضافة إلى ذلك، على الرغم من وجود عدد صغير فقط من عينات التدريب، فإن قدرة التعلم السريع للغة الطبيعية تسمح للنموذج بتعلم المهام الجديدة بسرعة وكفاءة والتكيف مع السيناريوهات الجديدة.
على سبيل المثال، طالما أننا نستخدم اللغة الطبيعية لنقول للنموذج "هذا السلوك خاطئ"، يمكننا تصحيح السلوك الخاطئ لنظام القيادة الذاتية.
من الآن فصاعدا، ربما تكون هناك حاجة إلى اللغة الطبيعية فقط لإنشاء نموذج أساسي للقيادة الذاتية الشاملة!
الدقة 60%
خلال هذا الوقت، قام الفريق بتحسين بنية النموذج ومجموعة بيانات التدريب.
ليس من الصعب أن نرى من الشكل أن أداء LINGO-1 قد تضاعف مقارنة بالبداية.
حاليًا، وصلت دقة LINGO-1 إلى 60% من المستوى البشري.
من الواضح أن إدخال اللغة الطبيعية يمكن أن يحدث ثورة في تكنولوجيا القيادة الذاتية في العديد من الجوانب.
تحسين إمكانية تفسير النماذج الشاملة
لقد كان الافتقار إلى إمكانية تفسير نماذج التعلم الآلي دائمًا هو محور البحث.
ومن خلال إنشاء واجهة تفاعلية تعتمد على اللغة الطبيعية، يمكن للمستخدمين طرح الأسئلة مباشرة والسماح للذكاء الاصطناعي بالإجابة عليها، وبالتالي الحصول على فهم متعمق لفهم النموذج للمشهد وكيفية اتخاذ القرارات.
يمكن لهذا الحوار الفريد بين الركاب والسيارات ذاتية القيادة أن يزيد من الشفافية ويجعل من السهل فهم هذه الأنظمة والثقة بها.
وفي الوقت نفسه، تعمل اللغة الطبيعية أيضًا على تعزيز قدرة النموذج على التكيف مع ردود الفعل البشرية والتعلم منها.
مثل المعلم الذي يرشد الطالب خلف عجلة القيادة، تعمل التعليمات التصحيحية وتعليقات المستخدم على تحسين فهم النموذج وعملية اتخاذ القرار بمرور الوقت.
تخطيط واستدلال أفضل وأداء قيادة محسّن
هناك عاملان رئيسيان يؤثران على أداء القيادة الذاتية:
قدرة النماذج اللغوية على تفسير سيناريوهات وضع الإدخال المختلفة بدقة
كفاءة النموذج في تحويل الاستدلال المتوسط المستوى إلى تخطيط فعال منخفض المستوى
وفي هذا الصدد، يحاول الفريق تعزيز نموذج القيادة ذات الحلقة المغلقة من خلال لغة LINGO الطبيعية وقدرات التفكير والتخطيط.
نموذج القيادة الذاتية Wayve LINGO-1 ذو الحلقة المغلقة
التعلم الفعال للسيناريوهات الجديدة أو السيناريوهات طويلة الأمد
عادة، الصورة تساوي ألف كلمة.
ولكن عند تدريب نموذج، جزء من النص يساوي ألف صورة.
الآن، بدلًا من وجود آلاف الأمثلة لسيارات تبطئ سرعتها للمشاة، نحتاج فقط إلى بضعة أمثلة، إلى جانب وصف نصي قصير، لتعليم النموذج كيفية إبطاء السرعة ومعرفة كيف يجب أن يتصرف في هذا الموقف.ما يجب مراعاته.
كما تعلمون، أحد أهم أجزاء القيادة الذاتية هو التفكير السببي، والذي يسمح للنظام بفهم العلاقة بين العناصر والسلوكيات في المشهد.
يسمح VLAM ذو الأداء الجيد للنظام بربط المشاة المنتظرين عند معابر الحمار الوحشي بإشارات المرور "لا تعبر". وهذا مفيد للغاية في السيناريوهات الصعبة ذات البيانات المحدودة.
بالإضافة إلى ذلك، تمتلك LLM بالفعل قدرًا كبيرًا من المعرفة حول السلوك البشري من مجموعات بيانات الإنترنت، حتى تتمكن من فهم مفاهيم مثل تحديد الأشياء، وأنظمة المرور، وعمليات القيادة، مثل بين الأشجار والمحلات التجارية والمنازل والكلاب التي تطارد الكرات، و حافلات متوقفة أمام المدارس.الفرق.
ومن خلال تشفير معلومات VLAM الأوسع لبيانات الرسومات، ستصبح القيادة الذاتية أكثر تقدمًا وأكثر أمانًا.
محددات
بالطبع، LINGO-1 لديها أيضًا بعض القيود.
التعميم
تم تدريب LINGO-1 على تجربة القيادة في وسط لندن والنصوص على نطاق الإنترنت.
على الرغم من أنني تعلمت ثقافات القيادة من جميع أنحاء العالم، إلا أن أفضل ما أجيده حاليًا هو تفسير قوانين المرور البريطانية.
ويتطلب أيضًا التعلم من تجربة القيادة في البلدان الأخرى.
الهلوسة
الهلوسة مشكلة معروفة في نماذج اللغات الكبيرة، وLINGO-1 ليس استثناءً.
ومع ذلك، بالمقارنة مع LLM العادي، يتمتع LINGO-1 بميزة: نظرًا لأنه يعتمد على الرؤية واللغة والعمل، فإنه يحتوي على المزيد من مصادر الإشراف ويمكنه فهم العالم بشكل أفضل.
سياق
يمثل التعلم العميق للفيديو تحديًا لأن بيانات الفيديو عادةً ما تكون أكبر من مجموعات بيانات الصور أو النصوص.
تتطلب نماذج اللغات متعددة الوسائط المستندة إلى الفيديو بشكل خاص أطوال سياق طويلة لتتمكن من تضمين العديد من إطارات الفيديو للتفكير في سيناريوهات القيادة الديناميكية المعقدة.
استدلال الحلقة المغلقة
تعمل Wayve حاليًا على إمكانية تفسير النماذج، ولكن في نهاية المطاف، ستكون قدراتها المنطقية في LLM قادرة على التأثير بشكل حقيقي على القيادة البشرية.
يقوم الباحثون بتطوير بنية حلقة مغلقة يمكنها تشغيل LINGO-1 على المركبات ذاتية القيادة في المستقبل.
مناقشة مستخدمي الإنترنت
كما وجد مستخدمو الإنترنت هذا مثيرًا للغاية.
"ومن المثير للاهتمام أنني أعتقد أن النموذج اللغوي يفسر توقعات التوجيه والكبح والخانق لنموذج التحكم في القيادة بالكلمات، بدلاً من التأثير على القيادة نفسها، لأن اللغة الطبيعية ستفقد الدقة المطلوبة."
"وبهذا النهج، نحن نقترب جدًا من الذكاء الاصطناعي العام."
"يمكنك التفكير في الأمر على أنه إضافة لغة إلى النموذج العالمي. لا أفهم أبدًا سبب عدم تجربته من قبل، لأن فكرة تدريب الوكيل على التواصل تبدو أمرًا يمكن للجميع التفكير فيه."
"هذا التحول من الفعل الإدراكي البحت إلى إضافة التفكير النصي هو تغيير لقواعد اللعبة! في رأيي، هذا هو الجزء المفقود من القيادة الذاتية لأنه يجعل قابلية التفسير ممكنة بطريقة غير تقنية."
في الوقت الحاضر، لا يزال دمج تدريب الروبوتات واللغة الطبيعية في مراحله الأولى.
اتخذت LINGO-1 رسميًا خطوة مهمة في استخدام اللغة الطبيعية لتعزيز التعلم وقابلية تفسير نماذج القيادة الأساسية.
فقط تخيل أننا في المستقبل نحتاج فقط إلى استخدام مطالبات نصية بسيطة للسماح للذكاء الاصطناعي بإخبار أحوال الطريق أمامنا، أو السماح للذكاء الاصطناعي بمعرفة قواعد المرور في المناطق المختلفة. هذا المشهد مثير للغاية!
ولذلك، فإن اللغة الطبيعية لديها إمكانات كبيرة في تطوير سيارات ذاتية القيادة أكثر أمانًا وموثوقية.
مراجع:
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
النموذج الكبير مجهز بالفعل بالقيادة الذاتية، وسيشرح الذكاء الاصطناعي كيفية قيادتها!
المصدر: شينزيوان
منذ اختراعها، فإن الأمر الأكثر إثارة للقلق بشأن القيادة الذاتية هو أن البشر لا يستطيعون معرفة ما يدور في ذهنها.
ابتداءً من اليوم، هل يمكنها فعلاً "التعبير" عن أفكارها؟
أطلقت Wayve مؤخرًا LINGO-1، وهو نموذج تفاعلي كبير للقيادة الذاتية يعتمد على نماذج كبيرة لحركة اللغة المرئية (VLAMs)، والتي تدمج بعمق نماذج اللغة الكبيرة والقيادة الذاتية.
وسوف يشرح لك كل شكوكك حول نظام القيادة الذكي بشكل واضح.
بعد تدريبه على مجموعة متنوعة من البيانات المرئية واللغوية، لا يستطيع LINGO-1 أداء مهام الإجابة على الأسئلة المرئية (VQA) مثل الإدراك والواقع المضاد والتخطيط والاستدلال والانتباه فحسب، بل يمكنه أيضًا وصف سلوك القيادة والاستدلال.
بمعنى آخر، يمكننا فهم العوامل التي تؤثر على قرارات القيادة من خلال طرح الأسئلة على LINGO-1.
ومن المتصور أنه بينما ندفع حدود الذكاء الاصطناعي المتجسد، فإن نموذج الرؤية والكلام والفعل سيكون له تأثير هائل، لأن اللغة توفر نموذجا جديدا لتعزيز الطريقة التي نفسر بها وندرب نماذج القيادة الذاتية.
**المجاملة تأتي في السيارة ذاتية القيادة؟ **
الميزة الفريدة لـ LINGO-1 هي تقديم خبير بشري للتدريب على بيانات التعليق اللفظي لمشاهد القيادة، مما يسمح للنموذج بالربط بين الإدراك البيئي وصنع القرار العملي وتفسير المشاهد الشبيهة بالإنسان.
علق جيم فان، أحد كبار علماء الذكاء الاصطناعي في NVIDIA، بحماس: هذا هو العمل الأكثر إثارة للاهتمام في مجال القيادة الذاتية الذي قرأته مؤخرًا!
ما هي مزايا هذه الخطوة الاستدلالية الواضحة الجديدة؟ يشرح جيم فان ما يلي ——
ليس هذا فحسب، بل يرتبط LINGO-1 أيضًا ارتباطًا وثيقًا ببعض الأبحاث في مجال الذكاء الاصطناعي للألعاب، مثل MineDojo وThought Cloning، وكلاهما من عملاء الذكاء الاصطناعي.
يمكن للأول أن يتعلم نموذج مكافأة يربط نص المراجعة ببكسلات فيديو Minecraft. يمكن للأخير أن يحقق مجموعة كاملة من الروابط من "حلقة البكسل->اللغة->الإجراء".
LINGO-1——راوي قيادة الحلقة المفتوحة
شرحي الخاص
ما هو النموذج الذي ينتبه إليه؟ فعل ماذا؟ الآن، لم يعد هذا لغزا.
سوف يشرح لك LINGO-1 بوضوح ما يفعله في كل خطوة على الطريق.
بالإضافة إلى شرح نفسه، يستطيع LINGO-1 أيضًا الإجابة على أسئلتك، مما يسمح لنا بتقييم قدراته على فهم المشهد والاستدلال.
تقول: "يجب أن أنتبه إلى الضوء الذي أمامي، وإلى راكب الدراجة الذي أمامي، والمشاة الذين يعبرون الطريق".
سيقول: "إنه يوم ممطر وأحتاج إلى توخي الحذر الشديد عند القيادة لأن سطح الطريق زلق وتقل الرؤية في الأيام الممطرة."
وسيقول: "يجب أن أحافظ على مسافة من راكبي الدراجات وأتوقف عند الضرورة. إنه خطر محتمل. بالإضافة إلى ذلك، يجب أن أنتبه للسيارات المتوقفة على جانب الطريق".
كان مفتاح تطوير LINGO-1 هو إنشاء مجموعة بيانات متنوعة وقابلة للتطوير. تحتوي مجموعة البيانات هذه على تعليقات من السائقين المحترفين أثناء القيادة في جميع أنحاء المملكة المتحدة، بما في ذلك الصور واللغة وبيانات الحركة.
هذا يذكرنا بالمشهد عندما كنا نتعلم القيادة من المدربين في مدرسة تعليم القيادة - من وقت لآخر كانوا يدلون بتعليقات وتفسيرات مثل ما يلي لشرح سبب تصرفهم بهذه الطريقة أثناء القيادة، حتى يتمكن الطلاب من استخلاص الاستنتاجات .
عندما تتم مزامنة الجمل المذكورة أعلاه والصور الحسية وإجراءات القيادة الأساسية في الوقت المناسب، سيحصل الباحثون على مجموعة غنية من بيانات الحركة واللغة المرئية التي يمكن استخدامها لتدريب النماذج على مهام مختلفة.
نموذج العمل باللغة المرئية (VLAM)
بعد ظهور LLM، تجمع العديد من نماذج اللغة المرئية (VLM) بين قدرات التفكير في LLM مع الصور ومقاطع الفيديو.
أطلقت Wayve أيضًا نموذج الرؤية واللغة والعمل (VLAM)، الذي يحتوي على ثلاثة أنواع من صور المعلومات وبيانات القيادة واللغة.
في الماضي، كانت اللغة الطبيعية نادراً ما تستخدم في تدريب الروبوتات (خاصة في مجال القيادة الذاتية).
إذا تمت إضافة اللغة الطبيعية، فسوف يسمح لنا بتفسير نماذج القيادة الأساسية وتدريبها بشكل أكثر قوة. وسيكون لهذا النموذج الجديد تأثير هائل.
باستخدام اللغة لشرح العوامل السببية المختلفة في سيناريوهات القيادة، يمكن تسريع سرعة تدريب النموذج وتوسيع نطاقها لتشمل سيناريوهات جديدة.
وبما أنه يمكننا طرح أسئلة النموذج، يمكننا معرفة ما يفهمه النموذج ومدى قدرته على التفكير واتخاذ القرارات.
لم يعد نظام القيادة الذاتية بمثابة صندوق أسود غامض، يمكننا أن نسأله بين الحين والآخر أثناء القيادة: بماذا تفكر؟
سيؤدي هذا بلا شك إلى زيادة ثقة الجمهور في القيادة الذاتية.
بالإضافة إلى ذلك، على الرغم من وجود عدد صغير فقط من عينات التدريب، فإن قدرة التعلم السريع للغة الطبيعية تسمح للنموذج بتعلم المهام الجديدة بسرعة وكفاءة والتكيف مع السيناريوهات الجديدة.
على سبيل المثال، طالما أننا نستخدم اللغة الطبيعية لنقول للنموذج "هذا السلوك خاطئ"، يمكننا تصحيح السلوك الخاطئ لنظام القيادة الذاتية.
من الآن فصاعدا، ربما تكون هناك حاجة إلى اللغة الطبيعية فقط لإنشاء نموذج أساسي للقيادة الذاتية الشاملة!
الدقة 60%
خلال هذا الوقت، قام الفريق بتحسين بنية النموذج ومجموعة بيانات التدريب.
ليس من الصعب أن نرى من الشكل أن أداء LINGO-1 قد تضاعف مقارنة بالبداية.
حاليًا، وصلت دقة LINGO-1 إلى 60% من المستوى البشري.
تحسين إمكانية تفسير النماذج الشاملة
لقد كان الافتقار إلى إمكانية تفسير نماذج التعلم الآلي دائمًا هو محور البحث.
ومن خلال إنشاء واجهة تفاعلية تعتمد على اللغة الطبيعية، يمكن للمستخدمين طرح الأسئلة مباشرة والسماح للذكاء الاصطناعي بالإجابة عليها، وبالتالي الحصول على فهم متعمق لفهم النموذج للمشهد وكيفية اتخاذ القرارات.
يمكن لهذا الحوار الفريد بين الركاب والسيارات ذاتية القيادة أن يزيد من الشفافية ويجعل من السهل فهم هذه الأنظمة والثقة بها.
وفي الوقت نفسه، تعمل اللغة الطبيعية أيضًا على تعزيز قدرة النموذج على التكيف مع ردود الفعل البشرية والتعلم منها.
مثل المعلم الذي يرشد الطالب خلف عجلة القيادة، تعمل التعليمات التصحيحية وتعليقات المستخدم على تحسين فهم النموذج وعملية اتخاذ القرار بمرور الوقت.
تخطيط واستدلال أفضل وأداء قيادة محسّن
هناك عاملان رئيسيان يؤثران على أداء القيادة الذاتية:
قدرة النماذج اللغوية على تفسير سيناريوهات وضع الإدخال المختلفة بدقة
كفاءة النموذج في تحويل الاستدلال المتوسط المستوى إلى تخطيط فعال منخفض المستوى
وفي هذا الصدد، يحاول الفريق تعزيز نموذج القيادة ذات الحلقة المغلقة من خلال لغة LINGO الطبيعية وقدرات التفكير والتخطيط.
التعلم الفعال للسيناريوهات الجديدة أو السيناريوهات طويلة الأمد
عادة، الصورة تساوي ألف كلمة.
ولكن عند تدريب نموذج، جزء من النص يساوي ألف صورة.
الآن، بدلًا من وجود آلاف الأمثلة لسيارات تبطئ سرعتها للمشاة، نحتاج فقط إلى بضعة أمثلة، إلى جانب وصف نصي قصير، لتعليم النموذج كيفية إبطاء السرعة ومعرفة كيف يجب أن يتصرف في هذا الموقف.ما يجب مراعاته.
كما تعلمون، أحد أهم أجزاء القيادة الذاتية هو التفكير السببي، والذي يسمح للنظام بفهم العلاقة بين العناصر والسلوكيات في المشهد.
يسمح VLAM ذو الأداء الجيد للنظام بربط المشاة المنتظرين عند معابر الحمار الوحشي بإشارات المرور "لا تعبر". وهذا مفيد للغاية في السيناريوهات الصعبة ذات البيانات المحدودة.
بالإضافة إلى ذلك، تمتلك LLM بالفعل قدرًا كبيرًا من المعرفة حول السلوك البشري من مجموعات بيانات الإنترنت، حتى تتمكن من فهم مفاهيم مثل تحديد الأشياء، وأنظمة المرور، وعمليات القيادة، مثل بين الأشجار والمحلات التجارية والمنازل والكلاب التي تطارد الكرات، و حافلات متوقفة أمام المدارس.الفرق.
ومن خلال تشفير معلومات VLAM الأوسع لبيانات الرسومات، ستصبح القيادة الذاتية أكثر تقدمًا وأكثر أمانًا.
محددات
بالطبع، LINGO-1 لديها أيضًا بعض القيود.
التعميم
تم تدريب LINGO-1 على تجربة القيادة في وسط لندن والنصوص على نطاق الإنترنت.
على الرغم من أنني تعلمت ثقافات القيادة من جميع أنحاء العالم، إلا أن أفضل ما أجيده حاليًا هو تفسير قوانين المرور البريطانية.
ويتطلب أيضًا التعلم من تجربة القيادة في البلدان الأخرى.
الهلوسة
الهلوسة مشكلة معروفة في نماذج اللغات الكبيرة، وLINGO-1 ليس استثناءً.
ومع ذلك، بالمقارنة مع LLM العادي، يتمتع LINGO-1 بميزة: نظرًا لأنه يعتمد على الرؤية واللغة والعمل، فإنه يحتوي على المزيد من مصادر الإشراف ويمكنه فهم العالم بشكل أفضل.
سياق
يمثل التعلم العميق للفيديو تحديًا لأن بيانات الفيديو عادةً ما تكون أكبر من مجموعات بيانات الصور أو النصوص.
تتطلب نماذج اللغات متعددة الوسائط المستندة إلى الفيديو بشكل خاص أطوال سياق طويلة لتتمكن من تضمين العديد من إطارات الفيديو للتفكير في سيناريوهات القيادة الديناميكية المعقدة.
استدلال الحلقة المغلقة
تعمل Wayve حاليًا على إمكانية تفسير النماذج، ولكن في نهاية المطاف، ستكون قدراتها المنطقية في LLM قادرة على التأثير بشكل حقيقي على القيادة البشرية.
يقوم الباحثون بتطوير بنية حلقة مغلقة يمكنها تشغيل LINGO-1 على المركبات ذاتية القيادة في المستقبل.
مناقشة مستخدمي الإنترنت
كما وجد مستخدمو الإنترنت هذا مثيرًا للغاية.
"ومن المثير للاهتمام أنني أعتقد أن النموذج اللغوي يفسر توقعات التوجيه والكبح والخانق لنموذج التحكم في القيادة بالكلمات، بدلاً من التأثير على القيادة نفسها، لأن اللغة الطبيعية ستفقد الدقة المطلوبة."
"يمكنك التفكير في الأمر على أنه إضافة لغة إلى النموذج العالمي. لا أفهم أبدًا سبب عدم تجربته من قبل، لأن فكرة تدريب الوكيل على التواصل تبدو أمرًا يمكن للجميع التفكير فيه."
اتخذت LINGO-1 رسميًا خطوة مهمة في استخدام اللغة الطبيعية لتعزيز التعلم وقابلية تفسير نماذج القيادة الأساسية.
فقط تخيل أننا في المستقبل نحتاج فقط إلى استخدام مطالبات نصية بسيطة للسماح للذكاء الاصطناعي بإخبار أحوال الطريق أمامنا، أو السماح للذكاء الاصطناعي بمعرفة قواعد المرور في المناطق المختلفة. هذا المشهد مثير للغاية!
ولذلك، فإن اللغة الطبيعية لديها إمكانات كبيرة في تطوير سيارات ذاتية القيادة أكثر أمانًا وموثوقية.
مراجع: