نماذج اللغة قادرة على توليد نص متماسك وسياقي، مما يحدث ثورة في طريقة تواصلنا مع أجهزة الكمبيوتر. كانت نماذج اللغة واسعة النطاق (LLMs) في طليعة هذا التقدم، حيث تعلمت أنماط اللغة البشرية والفروق الدقيقة فيها من خلال التدريب على كميات هائلة من البيانات النصية. باعتباره رائدًا في ثورة LLM، يتمتع ChatGPT بشعبية كبيرة بين الأشخاص في مختلف التخصصات.
تعمل القوة الفائقة لـ LLM على تسهيل التعامل مع المهام المختلفة. نستخدمها لتلخيص النص وإنشاء رسائل البريد الإلكتروني وأتمتة مهام البرمجة وتفسير المستندات والمزيد. كل هذه المهام، التي كانت تستغرق وقتًا طويلاً قبل عام، يمكن الآن إنجازها في دقائق معدودة.
ومع ذلك، مع تزايد الحاجة إلى فهم متعدد الوسائط، حيث تحتاج النماذج إلى معالجة وإنشاء المحتوى من طرائق مختلفة مثل النصوص والصور وحتى مقاطع الفيديو، هناك حاجة إلى نماذج اللغات الكبيرة متعددة الوسائط (MLLMs). تجمع MLLM بين قوة نماذج اللغة والفهم البصري، مما يمكّن الآلات من فهم المحتوى وإنشاءه بطريقة أكثر شمولاً وإدراكًا للسياق.
بعد أن هدأ جنون ChatGPT قليلاً، اجتاحت MLLMs مجال الذكاء الاصطناعي، مما مكن الآلات من فهم وإنشاء المحتوى في أوضاع مختلفة مثل النصوص والصور. تتفوق هذه النماذج في مهام مثل التعرف على الصور والفهم القائم على الرؤية والأوامر. ومع ذلك، فإن كيفية تدريب هذه النماذج بكفاءة لا تزال تمثل تحديًا. التحدي الأكبر هو أنه عندما تواجه MLLM مشهدًا غير مألوف تمامًا، تكون الصور والتسميات غير معروفة.
علاوة على ذلك، يميل أصحاب الامتيازات والرهونات البحرية إلى "الضياع" عند معالجة سياقات أطول. تعتمد هذه النماذج بشكل كبير على مواضع البداية والوسطى، ولهذا السبب مع زيادة عدد العينات، ستصل الدقة إلى مستوى ثابت (توقف مؤقت أو انخفاض في عملية التعلم أو تكوين المهارات). ولذلك، MLLM تكافح مع مدخلات أطول.
الآن، دعونا نقدم تعلم السياق المرتبط (LCL) لحل المشكلات الصعبة المختلفة في MLLM.
*الرابط المقترح - حوار العرض التوضيحي للتعلم السياقي؛ المصدر: *
في MLLM، هناك نوعان من استراتيجيات التدريب الرئيسية. الضبط الفوري متعدد الوسائط (M-PT) وضبط التعليمات متعدد الوسائط (M-IT). يقوم M-PT بضبط جزء صغير فقط من معلمات النموذج، ويترك الباقي دون تغيير. يساعد هذا النهج في تحقيق نتائج مماثلة للضبط الدقيق على نطاق واسع مع تقليل الموارد الحسابية. من ناحية أخرى، تعمل M-IT على تحسين القدرة الصفرية لـ MLLM من خلال ضبط MLLM على مجموعات البيانات التي تحتوي على أوصاف التعليمات. تعمل هذه الإستراتيجية على تحسين قدرة النموذج على فهم المهام الجديدة والاستجابة لها دون تدريب مسبق. هذه الأساليب كلها فعالة، ولكن هناك تضحيات.
الفرق بين التعلم السياقي والتعلم السياقي المرتبط. المصدر: https://arxiv.org/abs/2308.07891
يستكشف LCL استراتيجيات التدريب المختلفة: الإستراتيجية الهجينة، الإستراتيجية ثنائية الاتجاه، الإستراتيجية العشوائية ثنائية الاتجاه، والاستراتيجية المرجحة ثنائية الاتجاه. الميزة البارزة للاستراتيجية الهجينة هي أنها يمكن أن تحسن بشكل كبير دقة العينات الصفرية، وتحقق نتائج مبهرة عندما يصل عدد العينات إلى 6. ومع ذلك، عندما يكون عدد العينات 16، ينخفض أداءها قليلاً. في المقابل، تزداد دقة الإستراتيجية الثنائية تدريجياً من عينتين إلى 16 عينة، مما يشير إلى أنها أقرب إلى وضع التدريب.
على عكس التعلم السياقي التقليدي، يذهب LCL خطوة أبعد ويمنح النموذج القدرة على إنشاء خريطة بين المصادر والأهداف، وبالتالي تحسين أدائه العام. من خلال توفير عروض توضيحية للروابط السببية، يمكّن LCL MLLM من تحديد ليس فقط القياسات ولكن أيضًا الروابط السببية المحتملة بين نقاط البيانات، مما يجعلها أكثر فعالية في تحديد الصور غير المرئية وفهم المفاهيم الجديدة.
بالإضافة إلى ذلك، تقدم LCL أيضًا مجموعة بيانات ISEKAI، وهي مجموعة بيانات جديدة وشاملة مصممة خصيصًا لتقييم قدرات MLLM. تتكون مجموعة بيانات ISEKAI من صور تم إنشاؤها بالكامل ومفاهيم ملفقة. إنه يتحدى MLLM لاستيعاب المفاهيم الجديدة من المحادثات الجارية والاحتفاظ بهذه المعرفة للإجابة على الأسئلة بدقة.
باختصار، يوفر LCL رؤى قيمة حول استراتيجيات التدريب التي تستخدمها نماذج اللغة متعددة الوسائط. توفر الاستراتيجيات الهجينة والاستراتيجيات ثنائية الاتجاه أساليب مختلفة لتحسين أداء نماذج اللغة متعددة الوسائط، ولكل منها نقاط القوة والقيود الخاصة بها. يكشف التحليل السياقي عن التحديات التي تواجهها نماذج اللغة متعددة الوسائط عند معالجة المدخلات الأطول ويسلط الضوء على أهمية إجراء مزيد من البحث في هذا المجال.
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
فهم LCL في مقال واحد: يمكن تعزيز القدرة على التعلم للنماذج الكبيرة متعددة الوسائط من خلال "الاستدلال السببي"
الاسم: أكرم تشيتينكايا
المصدر: مارك تيك بوست
نماذج اللغة قادرة على توليد نص متماسك وسياقي، مما يحدث ثورة في طريقة تواصلنا مع أجهزة الكمبيوتر. كانت نماذج اللغة واسعة النطاق (LLMs) في طليعة هذا التقدم، حيث تعلمت أنماط اللغة البشرية والفروق الدقيقة فيها من خلال التدريب على كميات هائلة من البيانات النصية. باعتباره رائدًا في ثورة LLM، يتمتع ChatGPT بشعبية كبيرة بين الأشخاص في مختلف التخصصات.
تعمل القوة الفائقة لـ LLM على تسهيل التعامل مع المهام المختلفة. نستخدمها لتلخيص النص وإنشاء رسائل البريد الإلكتروني وأتمتة مهام البرمجة وتفسير المستندات والمزيد. كل هذه المهام، التي كانت تستغرق وقتًا طويلاً قبل عام، يمكن الآن إنجازها في دقائق معدودة.
ومع ذلك، مع تزايد الحاجة إلى فهم متعدد الوسائط، حيث تحتاج النماذج إلى معالجة وإنشاء المحتوى من طرائق مختلفة مثل النصوص والصور وحتى مقاطع الفيديو، هناك حاجة إلى نماذج اللغات الكبيرة متعددة الوسائط (MLLMs). تجمع MLLM بين قوة نماذج اللغة والفهم البصري، مما يمكّن الآلات من فهم المحتوى وإنشاءه بطريقة أكثر شمولاً وإدراكًا للسياق.
بعد أن هدأ جنون ChatGPT قليلاً، اجتاحت MLLMs مجال الذكاء الاصطناعي، مما مكن الآلات من فهم وإنشاء المحتوى في أوضاع مختلفة مثل النصوص والصور. تتفوق هذه النماذج في مهام مثل التعرف على الصور والفهم القائم على الرؤية والأوامر. ومع ذلك، فإن كيفية تدريب هذه النماذج بكفاءة لا تزال تمثل تحديًا. التحدي الأكبر هو أنه عندما تواجه MLLM مشهدًا غير مألوف تمامًا، تكون الصور والتسميات غير معروفة.
علاوة على ذلك، يميل أصحاب الامتيازات والرهونات البحرية إلى "الضياع" عند معالجة سياقات أطول. تعتمد هذه النماذج بشكل كبير على مواضع البداية والوسطى، ولهذا السبب مع زيادة عدد العينات، ستصل الدقة إلى مستوى ثابت (توقف مؤقت أو انخفاض في عملية التعلم أو تكوين المهارات). ولذلك، MLLM تكافح مع مدخلات أطول.
الآن، دعونا نقدم تعلم السياق المرتبط (LCL) لحل المشكلات الصعبة المختلفة في MLLM.
في MLLM، هناك نوعان من استراتيجيات التدريب الرئيسية. الضبط الفوري متعدد الوسائط (M-PT) وضبط التعليمات متعدد الوسائط (M-IT). يقوم M-PT بضبط جزء صغير فقط من معلمات النموذج، ويترك الباقي دون تغيير. يساعد هذا النهج في تحقيق نتائج مماثلة للضبط الدقيق على نطاق واسع مع تقليل الموارد الحسابية. من ناحية أخرى، تعمل M-IT على تحسين القدرة الصفرية لـ MLLM من خلال ضبط MLLM على مجموعات البيانات التي تحتوي على أوصاف التعليمات. تعمل هذه الإستراتيجية على تحسين قدرة النموذج على فهم المهام الجديدة والاستجابة لها دون تدريب مسبق. هذه الأساليب كلها فعالة، ولكن هناك تضحيات.
يستكشف LCL استراتيجيات التدريب المختلفة: الإستراتيجية الهجينة، الإستراتيجية ثنائية الاتجاه، الإستراتيجية العشوائية ثنائية الاتجاه، والاستراتيجية المرجحة ثنائية الاتجاه. الميزة البارزة للاستراتيجية الهجينة هي أنها يمكن أن تحسن بشكل كبير دقة العينات الصفرية، وتحقق نتائج مبهرة عندما يصل عدد العينات إلى 6. ومع ذلك، عندما يكون عدد العينات 16، ينخفض أداءها قليلاً. في المقابل، تزداد دقة الإستراتيجية الثنائية تدريجياً من عينتين إلى 16 عينة، مما يشير إلى أنها أقرب إلى وضع التدريب.
على عكس التعلم السياقي التقليدي، يذهب LCL خطوة أبعد ويمنح النموذج القدرة على إنشاء خريطة بين المصادر والأهداف، وبالتالي تحسين أدائه العام. من خلال توفير عروض توضيحية للروابط السببية، يمكّن LCL MLLM من تحديد ليس فقط القياسات ولكن أيضًا الروابط السببية المحتملة بين نقاط البيانات، مما يجعلها أكثر فعالية في تحديد الصور غير المرئية وفهم المفاهيم الجديدة.
بالإضافة إلى ذلك، تقدم LCL أيضًا مجموعة بيانات ISEKAI، وهي مجموعة بيانات جديدة وشاملة مصممة خصيصًا لتقييم قدرات MLLM. تتكون مجموعة بيانات ISEKAI من صور تم إنشاؤها بالكامل ومفاهيم ملفقة. إنه يتحدى MLLM لاستيعاب المفاهيم الجديدة من المحادثات الجارية والاحتفاظ بهذه المعرفة للإجابة على الأسئلة بدقة.
باختصار، يوفر LCL رؤى قيمة حول استراتيجيات التدريب التي تستخدمها نماذج اللغة متعددة الوسائط. توفر الاستراتيجيات الهجينة والاستراتيجيات ثنائية الاتجاه أساليب مختلفة لتحسين أداء نماذج اللغة متعددة الوسائط، ولكل منها نقاط القوة والقيود الخاصة بها. يكشف التحليل السياقي عن التحديات التي تواجهها نماذج اللغة متعددة الوسائط عند معالجة المدخلات الأطول ويسلط الضوء على أهمية إجراء مزيد من البحث في هذا المجال.