إن الهدف المتمثل في جعل نموذج اللغة الكبيرة أكثر كمالا هو المرة الأولى في حياتي التي أرى فيها الكثير من الأشخاص الأذكياء يعملون بجد لتحقيق هدف مشترك في نفس الوقت. وبعد التواصل مع العديد من الأشخاص في الصناعة والأوساط الأكاديمية، لاحظت ظهور عشرة اتجاهات بحثية رئيسية. الاتجاهان اللذان يحظيان بأكبر قدر من الاهتمام حاليًا هما الهلوسة (وهم الإخراج) وتعلم السياق.
بالنسبة لي، أنا مهتم جدًا بالاتجاه الثالث المدرج أدناه (وضع البيانات متعدد الوسائط)، والاتجاه الخامس (الهندسة المعمارية الجديدة للهندسة المعمارية الجديدة) والاتجاه السادس (حل بديل لبدائل GPU لتطوير GPU)
أهم 10 تحديات مفتوحة في أبحاث LLM
تقليل وتقييم المخرجات (معلومات وهمية)
تحسين طول السياق وبناء السياق
دمج نماذج البيانات الأخرى
زيادة سرعة النماذج اللغوية وفعاليتها من حيث التكلفة
تصميم نموذج معماري جديد
تطوير حلول GPU بديلة
تحسين سهولة استخدام الوكلاء (الذكاء الاصطناعي)
تحسين القدرة على التعلم من التفضيلات البشرية
تحسين كفاءة واجهة الدردشة
بناء نماذج لغوية للغات غير الإنجليزية
1. تقليل وتقييم الهلوسة
بيئة الإخراج هي موضوع تمت مناقشته كثيرًا، لذا سأختصر القصة الطويلة هنا. تحدث الهلوسة عندما تقوم نماذج الذكاء الاصطناعي باختلاق الأشياء. بالنسبة للعديد من حالات الاستخدام الإبداعي، يعد الوهم وظيفة. ومع ذلك، تعتبر الهلوسة خطأً في معظم حالات الاستخدام. لقد شاركت مؤخرا في حلقة نقاش حول ماجستير إدارة الأعمال مع خبراء من Dropbox، وLangchain، وElastics، وAnthropic. ووفقا لهم، فإن العقبة الأولى التي تحتاج الشركات إلى التغلب عليها لتطبيق ماجستير إدارة الأعمال في الإنتاج الفعلي هي مخرجات الهلوسة.
يعد الحد من المخرجات الوهمية للنماذج وتطوير المقاييس لتقييم المخرجات الوهمية موضوع بحث مزدهر، وتركز العديد من الشركات الناشئة حاليًا على هذه القضية. هناك أيضًا تقنيات لتقليل احتمالية المخرجات الوهمية، مثل إضافة المزيد من السياق إلى الكلمات الإرشادية، أو CoT، أو الاتساق الذاتي، أو المطالبة على وجه التحديد بأن تكون استجابات النموذج موجزة وواضحة.
فيما يلي سلسلة من الأوراق والمراجع حول مخرجات الهلوسة:
مسح الهلوسة في توليد اللغة الطبيعية (جي وآخرون، 2022)
كيف يمكن للهلوسة النموذجية اللغوية أن تسبب كرة الثلج (Zhang et al.، 2023)
استخدام متعدد المهام ومتعدد اللغات ومتعدد الوسائط لـ ChatGPT حول التفكير والهلوسة والتفاعل (Bang et al., 2023)
التعلم المقارن يقلل من الهلوسة في المحادثات (صن وآخرون، 2022)
الاتساق الذاتي يحسن سلسلة التفكير في نماذج اللغة (وانغ وآخرون، 2022)
SelfCheckGPT: اكتشاف هلوسة الصندوق الأسود بدون موارد لنماذج اللغات الكبيرة التوليدية (Manakul et al., 2023)
مثال بسيط على التحقق من الحقائق والهلوسة بواسطة NeMo-Guardrails من NVIDIA
2. تحسين طول السياق وبناء السياق
تتطلب معظم الأسئلة السياق. على سبيل المثال، إذا سألنا ChatGPT: "أي مطعم فيتنامي هو الأفضل؟" سيكون السياق المطلوب هو "أين نطاق هذا المطعم؟"، لأن أفضل مطعم في فيتنام هو نفس أفضل مطعم فيتنامي في الولايات المتحدة. أما بالنسبة للمطاعم، فإن نطاق المشكلة مختلف.
وفقًا للمقالة الرائعة أدناه، SITUATEDQA: دمج السياقات غير اللغوية في ضمان الجودة (Zhang & Choi, 2021)، فإن جزءًا كبيرًا من إجابات أسئلة البحث عن المعلومات يكون سياقيًا، على سبيل المثال، ما يقرب من 10% من الإجابات في الأسئلة الطبيعية مجموعة بيانات NQ-Open 16.5%.
(NQ-مفتوح:
شخصياً أعتقد أن النسبة ستكون أعلى في الحالات التي تواجهها الشركات فعلياً. على سبيل المثال، لنفترض أن إحدى الشركات قامت ببناء روبوت محادثة لدعم العملاء، لكي يجيب برنامج الدردشة الآلي هذا على أي سؤال لدى العميل حول أي منتج، فمن المرجح أن يكون السياق المطلوب هو تاريخ ذلك العميل أو معلومات حول هذا المنتج. وبما أن نموذج اللغة "يتعلم" من السياق المقدم له، فإن هذه العملية تُعرف أيضًا باسم التعلم السياقي.
قم بتصوير السياق المطلوب لاستفسارات دعم العملاء
يعد طول السياق مهمًا جدًا بالنسبة لـ RAG (الجيل المعزز للاسترجاع)، وقد أصبح RAG هو الوضع الرئيسي لسيناريوهات تطبيق صناعة نماذج اللغة الكبيرة. على وجه التحديد، ينقسم إنشاء تعزيز الاسترجاع بشكل أساسي إلى مرحلتين:
**المرحلة الأولى: التجزئة (المعروفة أيضًا بالفهرسة)**التقطيع (المعروفة أيضًا بالفهرسة)
اجمع كل المستندات التي يستخدمها LLM، وقم بتقسيم هذه المستندات إلى أجزاء يمكن تغذيتها إلى نموذج أكبر لإنشاء عمليات التضمين، وتخزين هذه التضمينات في قاعدة بيانات متجهة.
المرحلة الثانية: الاستعلام
عندما يرسل مستخدم استعلامًا، مثل "هل تغطي بوليصة التأمين الخاصة بي الدواء X؟"، يقوم نموذج اللغة الكبير بتحويل هذا الاستعلام إلى تضمين، وهو ما نسميه QUERY_EMBEDDING. ستحصل قاعدة بيانات المتجهات على الكتلة التي يكون تضمينها مشابهًا إلى حد كبير لـ QUERY_EMBEDDING.
كلما زاد طول السياق، زاد عدد الأجزاء التي يمكننا ضغطها في السياق. كلما زادت المعلومات التي يحصل عليها النموذج، زادت جودة مخرجاته واستجاباته، أليس كذلك؟
ليس دائما. إن مقدار السياق الذي يمكن أن يستخدمه النموذج ومدى كفاءة النموذج في استخدام السياق هما مسألتان مختلفتان. أثناء العمل على زيادة طول سياق النموذج، نعمل أيضًا على تحسين كفاءة السياق. يسميها البعض "الهندسة السريعة" أو "البناء". على سبيل المثال، تتحدث ورقة بحثية حديثة عن كيف يمكن للنماذج أن تفهم بشكل أفضل بداية ونهاية الفهارس، بدلاً من مجرد المعلومات الموجودة في المنتصف - Lost in the Middle: How Language Models Use Long contexts (Liu et al., 2023).
3. دمج أوضاع البيانات الأخرى (متعددة الوسائط)
في رأيي، تعدد الوسائط قوي جدًا، ولكن يتم الاستهانة به أيضًا. وفيما يلي توضيح لأسباب تطبيق تعدد الوسائط:
أولاً، تتطلب العديد من سيناريوهات التطبيقات المحددة بيانات متعددة الوسائط، خاصة في الصناعات التي تحتوي على نماذج بيانات مختلطة مثل الرعاية الصحية والروبوتات والتجارة الإلكترونية وتجارة التجزئة والألعاب والترفيه. على سبيل المثال:
غالبًا ما يتطلب الاختبار الطبي نصًا (مثل ملاحظات الطبيب واستبيانات المريض) وصورًا (مثل الأشعة المقطعية والأشعة السينية والتصوير بالرنين المغناطيسي).
تتضمن البيانات التعريفية للمنتج عادةً الصور ومقاطع الفيديو والأوصاف وحتى البيانات الجدولية (مثل تاريخ الإنتاج والوزن واللون)، لأنه من منظور الطلب، قد تحتاج إلى ملء معلومات المنتج المفقودة تلقائيًا بناءً على مراجعات المستخدمين أو صور المنتج، أو تريد تمكين المستخدمين من إجراء عمليات بحث عن المنتج باستخدام المعلومات المرئية مثل الشكل أو اللون.
ثانيًا، يعد تعدد الوسائط بتعزيز أداء النموذج بشكل كبير. ألا يجب أن يكون أداء النموذج الذي يفهم النص والصور أفضل من النموذج الوحيد الذي يفهم النص؟ تتطلب النماذج المستندة إلى النصوص قدرًا كبيرًا من النصوص لدرجة أننا نخشى أن تنفد بيانات الإنترنت اللازمة لتدريب النماذج النصية قريبًا. بمجرد استنفاد النص، نحتاج إلى الاستفادة من مخططات البيانات الأخرى.
إحدى حالات الاستخدام التي أنا متحمس لها بشكل خاص هي حيث تسمح تقنية الوسائط المتعددة للأشخاص ضعاف البصر بالتنقل عبر الإنترنت والعالم الحقيقي.
فيما يلي سلسلة من الأوراق والمواد المرجعية المتعلقة بتعدد الوسائط:
[CLIP] تعلم النماذج المرئية القابلة للتحويل من خلال الإشراف على اللغة الطبيعية (OpenAI، 2021)
فلامنغو: نموذج لغة مرئية للتعلم القليل (DeepMind، 2022)
BLIP-2: التدريب المسبق على تمهيد اللغة والصور باستخدام برامج تشفير الصور المجمدة ونماذج اللغات الكبيرة (Salesforce، 2023)
KOSMOS-1: اللغة ليست كل ما تحتاجه: مواءمة الإدراك مع نماذج اللغة (Microsoft، 2023)
PaLM-E: نموذج لغة متعدد الوسائط متجسد (جوجل، 2023)
LLaVA: ضبط التعليمات المرئية (ليو وآخرون، 2023)
NeVA: مساعد الرؤية واللغة NeMo (NVIDIA، 2023)
4. اجعل LLM أسرع وأرخص
عندما تم إصدار GPT-3.5 لأول مرة في نهاية نوفمبر 2022، أعرب العديد من الأشخاص عن مخاوفهم بشأن التأخير وتكاليف استخدامه في الإنتاج. ومع ذلك، تغير تحليل زمن الوصول/التكلفة بسرعة منذ ذلك الحين. وفي أقل من نصف عام، وجد المجتمع طريقة لإنشاء نموذج يؤدي أداءً قريبًا جدًا من GPT-3.5، ولكنه يتطلب حوالي 2% فقط من مساحة ذاكرة GPT-3.5.
الفكرة هنا هي: إذا قمت بإنشاء شيء جيد بما فيه الكفاية، سيجد الناس طريقة لجعله سريعًا وفعالاً من حيث التكلفة.
وفيما يلي بيانات أداء "Guanaco 7B"، مقارنة بأداء ChatGPT GPT-3.5 وGPT-4، وفقًا للتقرير الوارد في ورقة "Guanco". يرجى ملاحظة: بشكل عام، مقارنات الأداء التالية بعيدة عن الكمال، وتقييم LLM صعب للغاية.
مقارنة أداء Guanaco 7B مع ChatGPT GPT-3.5 وGPT-4:
قبل أربع سنوات، عندما بدأت كتابة الملاحظات لما سيصبح قسم "ضغط النموذج" في كتاب تصميم أنظمة التعلم الآلي، كتبت عن أربع تقنيات رئيسية لتحسين/ضغط النموذج:
التكميم: الطريقة الأكثر عمومية لتحسين النموذج حتى الآن. يقلل التكميم حجم النموذج باستخدام عدد أقل من البتات لتمثيل معلماته، على سبيل المثال، بدلاً من استخدام 32 بت، يمكن استخدام 16 أو حتى 4 بت لتمثيل أرقام الفاصلة العائمة.
تقطير المعرفة: طريقة لتدريب النماذج الصغيرة على تقليد نموذج كبير أو مجموعة من النماذج.
التحليل ذو الرتبة المنخفضة: الفكرة الأساسية هنا هي استبدال الموترات عالية الأبعاد بموترات منخفضة الأبعاد لتقليل عدد المعلمات. على سبيل المثال، يمكنك تحليل موتر 3x3 إلى منتج موتر 3x1 و1x3، بحيث بدلاً من 9 معلمات، تحتاج إلى 6 معلمات فقط.
التقليم
جميع التقنيات الأربعة المذكورة أعلاه لا تزال ذات صلة وشائعة اليوم. تستخدم الألبكة تقطير المعرفة للتدريب. يستخدم QLoRA مزيجًا من التحليل والتكميم منخفض الرتبة.
5. تصميم بنية نموذجية جديدة
منذ AlexNet في عام 2012، شهدنا صعود وهبوط العديد من البنيات، بما في ذلك LSTM وseq2seq وما إلى ذلك. بالمقارنة مع هؤلاء، تأثير المحولات لا يصدق. لقد كانت المحولات موجودة منذ عام 2017، وإلى متى ستظل هذه البنية شائعة، فهو سؤال مفتوح.
ليس من السهل تطوير بنية جديدة لتجاوز Transformer. لقد خضع Transformer للكثير من التحسينات في السنوات الست الماضية، ويجب أن تعمل هذه البنية الجديدة على الأجهزة التي يهتم بها الأشخاص حاليًا وعلى النطاق الذي يهتمون به حاليًا.
ملاحظة: صممت Google في الأصل برنامج Transformer ليعمل بسرعة على مادة TPU، ثم قامت بتحسينه لاحقًا على وحدة معالجة الرسومات.
في عام 2021، اجتذب S4 الخاص بمختبر كريس ري اهتمامًا واسع النطاق، راجع "نمذجة التسلسلات الطويلة بكفاءة باستخدام مساحات الحالة المنظمة" (Gu et al., 2021) للحصول على التفاصيل). لا يزال مختبر كريس ري يعمل بقوة على تطوير بنيات جديدة، وآخرها Monarch Mixer (Fu, 2023)، الذي تم تطويره بالتعاون مع شركة Startup Together، وهو أحد هذه البنى.
فكرتهم الرئيسية هي أنه بالنسبة لبنية المحولات الحالية، فإن تعقيد الاهتمام هو التربيعي لطول التسلسل، في حين أن تعقيد MLP هو التربيعي لبعد النموذج. ستكون البنى ذات التعقيد شبه التربيعي أكثر كفاءة.
خلاط العاهل
6. تطوير بدائل GPU
لقد كانت وحدات معالجة الرسومات هي الأجهزة المهيمنة للتعلم العميق منذ AlexNet في عام 2012. في الواقع، أحد الأسباب المعترف بها عمومًا لشعبية AlexNet هو أنها كانت أول ورقة بحثية تستخدم بنجاح وحدات معالجة الرسومات لتدريب الشبكة العصبية. قبل ظهور وحدات معالجة الرسومات، إذا كنت ترغب في تدريب نموذج على نطاق AlexNet، كنت بحاجة إلى استخدام الآلاف من وحدات المعالجة المركزية، مثل تلك التي أطلقتها Google قبل أشهر قليلة من AlexNet. أصبح عدد قليل من وحدات معالجة الرسومات في متناول طلاب الدكتوراه والباحثين أكثر من آلاف وحدات المعالجة المركزية، مما أدى إلى طفرة في أبحاث التعلم العميق.
على مدى العقد الماضي، حاولت العديد من الشركات، سواء كانت شركات كبيرة أو شركات ناشئة، إنشاء أجهزة جديدة للذكاء الاصطناعي. ومن أبرز المحاولات ما يلي: TPU من Google، وGraphcore's IPU (كيف تسير الأمور مع IPU؟)، وCerebras. جمعت SambaNova أكثر من مليار دولار لتطوير شرائح جديدة للذكاء الاصطناعي، ولكن يبدو أنها تحولت إلى منصة ذكاء اصطناعي منتجة.
لفترة من الوقت، كانت هناك توقعات كبيرة للحوسبة الكمومية، مع اللاعبين الرئيسيين بما في ذلك:
وحدة المعالجة المركزية (QPU) الخاصة بشركة IBM
*أعلن الكمبيوتر الكمي من Google عن إنجاز كبير في تقليل الأخطاء الكمومية في وقت سابق من هذا العام في مجلة Nature. يمكن الوصول إلى آلتها الافتراضية الكمومية بشكل عام من خلال Google Colab. *
*مختبرات الأبحاث مثل مركز MIT لهندسة الكم، ومعهد ماكس بلانك للبصريات الكمومية، ومركز تبادل الكم في شيكاغو، ومختبر أوكريدج الوطني، وما إلى ذلك. *
هناك اتجاه آخر مثير بنفس القدر وهو الرقائق الضوئية. معرفتي قليلة جدًا في هذا المجال، لذا يرجى تصحيحي إذا كنت مخطئًا. تستخدم الرقائق الحالية الكهرباء لنقل البيانات، مما يستهلك كميات كبيرة من الطاقة ويخلق زمن الوصول. ومن ناحية أخرى، تستخدم الرقائق الضوئية الفوتونات لنقل البيانات، والاستفادة من سرعة الضوء لإجراء حسابات أسرع وأكثر كفاءة. جمعت العديد من الشركات الناشئة في هذا المجال مئات الملايين من الدولارات، بما في ذلك Lightmatter (270 مليون دولار)، وAyar Labs (220 مليون دولار)، وLightelligence (أكثر من 200 مليون دولار)، وLuminous Computing (115 مليون دولار).
فيما يلي الجدول الزمني للتقدم للطرق الثلاثة الرئيسية لحساب مصفوفة الفوتون، مقتبس من الورقة البحثية "تضاعف المصفوفة الضوئية يضيء المسرع الضوئي وما بعده" (Zhou, Nature 2022). الطرق الثلاث المختلفة هي تحويل الضوء المستوي (PLC)، ومقياس تداخل ماخ زيندر (MZI)، وتعدد الإرسال بتقسيم الطول الموجي (WDM).
7. تحسين توافر الوكلاء
يشير الوكيل إلى نموذج لغة كبير يمكنه تنفيذ الإجراءات (يمكن فهمه على أنه وكلاء يمكنهم إكمال المهام المختلفة نيابةً عنك، لذلك يطلق عليه اسم الوكيل)، مثل تصفح الإنترنت، وإرسال رسائل البريد الإلكتروني، والحجز، وما إلى ذلك. ربما يكون هذا أحد أحدث الاتجاهات مقارنة باتجاهات البحث الأخرى في هذه الورقة. الناس متحمسون للوكلاء بسبب حداثتهم وإمكاناتهم الهائلة. أصبح Auto-GPT الآن في المرتبة 25 من أكثر اتفاقيات الريبو شعبية من حيث عدد النجوم على GitHub. GPT-Engineering هو أحد مستودعات الريبو الشائعة الأخرى.
وعلى الرغم من الإثارة في هذا الاتجاه، لا تزال هناك شكوك حول ما إذا كانت النماذج اللغوية الكبيرة موثوقة وذات أداء كافٍ لتمكينها من العمل. ومع ذلك، فقد ظهر سيناريو تطبيقي حيث يتم استخدام الوكلاء للبحث الاجتماعي، مثل تجربة ستانفورد الشهيرة، والتي أظهرت أن مجموعة صغيرة من الوكلاء المولدين أنتجت سلوكيات اجتماعية ناشئة: على سبيل المثال، البدء من فكرة يحددها المستخدم، أو وكيل يريده لعقد حفلة عيد الحب، يقوم الوكيل تلقائيًا بنشر دعوات الحفلة في اليومين التاليين، وتكوين صداقات جديدة، ودعوة بعضهم البعض إلى الحفلة... (الوكلاء المولدون: محاكاة تفاعلية للسلوك البشري، بارك وآخرون، 2023) ,
ربما تكون الشركة الناشئة الأكثر شهرة في هذا المجال هي Adept، التي أسسها اثنان من المؤلفين المشاركين السابقين في Transformer ونائب الرئيس السابق لـ OpenAI، وقد جمعت ما يقرب من 500 مليون دولار حتى الآن. في العام الماضي، أظهروا كيف يمكن لوكيلهم تصفح الإنترنت وكيفية إضافة حساب جديد إلى Salesforce.
8. كرر RLHF
يعد RLHF (التعلم المعزز من ردود الفعل البشرية) أمرًا رائعًا، ولكنه صعب بعض الشيء. لن يكون مفاجئًا أن يجد الناس طرقًا أفضل لتدريب LLM. ومع ذلك، لا تزال هناك العديد من المشكلات التي لم يتم حلها في RLHF، مثل:
①كيفية التعبير عن التفضيلات البشرية رياضيا؟
في الوقت الحالي، يتم تحديد التفضيل البشري عن طريق المقارنة: يحدد المعلق البشري ما إذا كانت الاستجابة أ أفضل من الاستجابة ب. ومع ذلك، فإنه لا يأخذ في الاعتبار مدى جودة الاستجابة "أ" مقارنة بالاستجابة "ب".
②ما هو التفضيل البشري؟
قامت شركة Anthropic بقياس جودة نماذجها في ثلاثة مجالات: مفيدة، وصادقة، وغير ضارة، بناءً على المخرجات. انظر الذكاء الاصطناعي الدستوري: عدم الضرر الناتج عن تعليقات الذكاء الاصطناعي (باي وآخرون، 2022).
يحاول DeepMind توليد استجابات ترضي معظم الناس. راجع نماذج الضبط اللغوي لإيجاد اتفاق بين البشر ذوي التفضيلات المتنوعة (Bakker et al., 2022).
أيضًا، هل نريد الذكاء الاصطناعي الذي يمكنه اتخاذ موقف، أم الذكاء الاصطناعي التقليدي الذي يبتعد عن أي موضوع يحتمل أن يكون مثيرًا للجدل؟
③لمن هي التفضيلات "البشرية"؟ هل ينبغي أن تؤخذ الاختلافات في الثقافة والدين والميول السياسية، وما إلى ذلك في الاعتبار؟ هناك العديد من التحديات في الحصول على بيانات التدريب التي تمثل بشكل كاف جميع المستخدمين المحتملين.
على سبيل المثال، بالنسبة لبيانات InstructGPT الخاصة بـ OpenAI، لا يوجد معلقون يزيد عمرهم عن 65 عامًا. المفسرون هم بشكل رئيسي من الفلبينيين والبنغلاديشيين. راجع InstructGPT: نماذج لغة التدريب على اتباع التعليمات مع التعليقات البشرية (Ouyang et al., 2022).
* إحصائيات الجنسية لمعلقي InstructGPT *
في حين أن الجهود التي يقودها المجتمع تستحق الثناء في نواياها، إلا أنها قد تؤدي إلى بيانات متحيزة. على سبيل المثال، بالنسبة لمجموعة بيانات OpenAssistant، عرّف 201 من أصل 222 (90.5%) من المشاركين أنفسهم على أنهم ذكور. لدى جيريمي هوارد موضوع رائع على تويتر:
9. تحسين كفاءة واجهة الدردشة
منذ ChatGPT، كان الناس يناقشون ما إذا كانت الدردشة واجهة مناسبة لمختلف المهام.
لمزيد من التفاصيل، راجع:
اللغة الطبيعية هي واجهة المستخدم البطيئة (Austin Z. Henley, 2023)
لماذا لا تمثل Chatbots المستقبل (أميليا واتنبيرجر، 2023)
ما أنواع الأسئلة التي تتطلب المحادثة للإجابة عليها؟ دراسة حالة لأسئلة AskReddit (هوانغ وآخرون، 2023)
يمكن أن تصبح واجهات دردشة الذكاء الاصطناعي واجهة المستخدم الأساسية لقراءة الوثائق (توم جونسون، 2023)
التفاعل مع ماجستير إدارة الأعمال من خلال الحد الأدنى من الدردشة (يوجين يان، 2023)
ومع ذلك، هذا ليس موضوعا جديدا. وفي العديد من البلدان، وخاصة في آسيا، تم استخدام الدردشة كواجهة للتطبيقات الفائقة لمدة عشر سنوات تقريبًا، كما كتب دان جروفر عنها في عام 2014.
في عام 2016، عندما اعتقد الكثيرون أن التطبيقات قد ماتت وأن برامج الدردشة الآلية هي المستقبل، احتدم النقاش مرة أخرى:
في الدردشة كواجهة (اليستير كرول، 2016)
هل يعد اتجاه Chatbot بمثابة سوء فهم كبير؟ (ويل نايت، 2016)
لن تحل الروبوتات محل التطبيقات. ستحل التطبيقات الأفضل محل التطبيقات (Dan Grover, 2016)
أنا شخصياً أحب واجهة الدردشة للأسباب التالية:
①واجهة الدردشة هي واجهة يمكن لأي شخص، حتى أولئك الذين لم يكن لديهم اتصال سابق بأجهزة الكمبيوتر أو الإنترنت، تعلم كيفية استخدامها بسرعة (العالمية). في أوائل عام 2010، عندما كنت متطوعًا في أحد الأحياء ذات الدخل المنخفض في كينيا، أذهلني مدى إلمام الجميع هناك بإجراء المعاملات المصرفية على هواتفهم، عبر الرسائل النصية. لم يكن لدى أحد في هذا المجتمع جهاز كمبيوتر.
② يسهل الوصول إلى واجهة الدردشة. استخدم الصوت بدلاً من النص إذا كانت يديك مشغولة بأشياء أخرى.
③ تعد الدردشة أيضًا واجهة قوية جدًا - يمكنك تقديم أي طلب إليها، وسوف يتم الرد عليها، حتى لو لم يكن الرد مثاليًا بالضرورة
ومع ذلك، يعتقد المؤلف أنه يمكن الاستمرار في تحسين واجهة الدردشة في بعض الجوانب:
① يمكن تبادل رسائل متعددة في وقت واحد
حاليًا، نفترض بشكل أساسي أنه لا يوجد سوى جولة واحدة من الرسائل لكل اتصال. ولكن هذه ليست الطريقة التي نكتب بها أنا وأصدقائي الرسائل النصية. في كثير من الأحيان، أحتاج إلى رسائل متعددة لإكمال أفكاري لأنني بحاجة إلى إدراج بيانات مختلفة (مثل الصور والمواقع والروابط)، ربما فاتني شيء ما في الرسالة السابقة، أو لا أريد وضع كل شيء في ملف واحد كبير فقرة.
②إدخال متعدد الوسائط
في مجال التطبيقات متعددة الوسائط، يتم إنفاق معظم الجهود على بناء نماذج أفضل، بينما يتم إنفاق القليل على بناء واجهات أفضل. خذ على سبيل المثال برنامج الدردشة الآلي NeVA من Nvidia. أنا لست خبيرًا في تجربة المستخدم، ولكن أعتقد أنه قد يكون هناك مجال للتحسين هنا.
ملاحظة: نأسف لذكر فريق NeVA هنا، حتى مع هذا، لا يزال عملك رائعًا!
③دمج الذكاء الاصطناعي التوليدي في سير العمل
يغطي Linus Lee هذا جيدًا في حصته "واجهة الذكاء الاصطناعي التوليدية خارج الدردشات". على سبيل المثال، إذا كنت تريد طرح سؤال حول عمود معين في المخطط الذي تعمل عليه، فيجب أن تتمكن فقط من الإشارة إلى هذا العمود وطرح السؤال.
④ تحرير الرسائل وحذفها
كيف يمكن أن يؤدي تعديل أو حذف مدخلات المستخدم إلى تغيير تدفق المحادثة مع برنامج الدردشة الآلي؟
10. إنشاء ماجستير في القانون للغات غير الإنجليزية
نحن نعلم أن برامج LLM الحالية للغة الإنجليزية الأولى لا تتناسب بشكل جيد مع العديد من اللغات الأخرى من حيث الأداء وزمن الوصول والسرعة. يرى:
ChatGPT ما وراء اللغة الإنجليزية: نحو توحيد شامل لنماذج اللغات الكبيرة في التعلم متعدد اللغات (Lai et al., 2023)
لم يتم إنشاء (رمزية) جميع اللغات على قدم المساواة (Yennie يونيو، 2023)
أنا على علم فقط بمحاولات تدريب الفيتناميين (مثل محاولات مجتمع سيماتو)، ومع ذلك، أخبرني العديد من القراء الأوائل لهذا المقال أنهم لا يعتقدون أنني يجب أن أدرج هذا الاتجاه، للأسباب التالية:
هذا ليس سؤالًا بحثيًا بقدر ما هو سؤال لوجستي. نحن نعرف بالفعل كيفية القيام بذلك، الأمر يحتاج فقط إلى شخص ما ليضع المال والجهد. ومع ذلك، هذا ليس صحيحا تماما. تعتبر معظم اللغات لغات منخفضة الموارد، على سبيل المثال، تحتوي العديد من اللغات على بيانات عالية الجودة أقل بكثير من الإنجليزية أو الصينية، وبالتالي قد تتطلب تقنيات مختلفة لتدريب نماذج لغوية كبيرة. أنظر أيضا:
اللغات منخفضة الموارد: مراجعة للعمل السابق وتحديات المستقبل (ماغيريس وآخرون، 2020)
JW300: مجموعة موازية واسعة النطاق للغات منخفضة الموارد (Agic et al., 2019)
ويعتقد أولئك الأكثر تشاؤمًا أنه في المستقبل ستختفي العديد من اللغات وسيتكون الإنترنت من عالمين من لغتين: الإنجليزية والصينية. هذا الاتجاه ليس جديدا - هل يتذكر أحد الاسبرانتو؟
لا يزال تأثير أدوات الذكاء الاصطناعي، مثل الترجمة الآلية وروبوتات الدردشة، على تعلم اللغة غير واضح. هل ستساعد الأشخاص على تعلم لغة جديدة بشكل أسرع، أم أنها ستلغي الحاجة إلى تعلم لغة جديدة تمامًا.
ختاماً
يرجى إعلامي إذا فاتني أي شيء في هذه المقالة، وللحصول على وجهات نظر إضافية، راجع الورقة الشاملة تحديات وتطبيقات نماذج اللغة الكبيرة (قدور وآخرون، 2023).
المشاكل المذكورة أعلاه هي أكثر صعوبة من غيرها. على سبيل المثال، أعتقد أن السؤال رقم 10 أعلاه، وهو إعداد ماجستير في القانون بلغة غير الإنجليزية، سيكون بسيطًا نسبيًا مع توفر الوقت والموارد الكافية.
المشكلة الأولى المذكورة أعلاه هي تقليل مخرجات الهلوسة، والتي ستكون أصعب بكثير لأن الهلوسة هي مجرد ماجستير في القانون يقوم بأشياء احتمالية.
رقم 4، لن يتم حل مسألة جعل LLM أسرع وأرخص بشكل كامل أبدًا. لقد تم إحراز الكثير من التقدم في هذا المجال، وسيكون هناك المزيد من التقدم في المستقبل، ولكن التحسينات في هذا الاتجاه سوف تستمر.
يمثل العنصران 5 و6، البنية الجديدة والأجهزة الجديدة، تحديًا كبيرًا، لكن لا مفر منهما بمرور الوقت. نظرًا للعلاقة التكافلية بين البنية والأجهزة - يجب تحسين البنية الجديدة لتتوافق مع الأجهزة المشتركة، وتحتاج الأجهزة إلى دعم البنية المشتركة، فمن المحتمل أن يتم تنفيذها بواسطة نفس الشركة.
بعض المشاكل لا يمكن حلها بالمعرفة التقنية وحدها. على سبيل المثال، السؤال 8، تحسين أساليب التعلم من التفضيلات البشرية، قد يكون قضية سياسية أكثر من كونها قضية فنية. المشكلة رقم 9 هي تحسين كفاءة واجهة الدردشة، وهي مشكلة تتعلق بتجربة المستخدم. نحن بحاجة إلى المزيد من الأشخاص ذوي الخلفيات غير التقنية للعمل معنا في هذه القضايا.
ما هو الاتجاه البحثي الذي تهتم به أكثر؟ ما هو برأيك الحل الواعد لهذه المشاكل؟ أحب أن أسمع رأيك.
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
ترجمة 6000 كلمة: 10 تحديات رئيسية في أبحاث LLM الحالية لنموذج اللغة الكبيرة
المؤلف: تشيب هوين
** ترجمة: ** ألفا أرنب
رابط المصدر:
إن الهدف المتمثل في جعل نموذج اللغة الكبيرة أكثر كمالا هو المرة الأولى في حياتي التي أرى فيها الكثير من الأشخاص الأذكياء يعملون بجد لتحقيق هدف مشترك في نفس الوقت. وبعد التواصل مع العديد من الأشخاص في الصناعة والأوساط الأكاديمية، لاحظت ظهور عشرة اتجاهات بحثية رئيسية. الاتجاهان اللذان يحظيان بأكبر قدر من الاهتمام حاليًا هما الهلوسة (وهم الإخراج) وتعلم السياق.
بالنسبة لي، أنا مهتم جدًا بالاتجاه الثالث المدرج أدناه (وضع البيانات متعدد الوسائط)، والاتجاه الخامس (الهندسة المعمارية الجديدة للهندسة المعمارية الجديدة) والاتجاه السادس (حل بديل لبدائل GPU لتطوير GPU)
1. تقليل وتقييم الهلوسة
بيئة الإخراج هي موضوع تمت مناقشته كثيرًا، لذا سأختصر القصة الطويلة هنا. تحدث الهلوسة عندما تقوم نماذج الذكاء الاصطناعي باختلاق الأشياء. بالنسبة للعديد من حالات الاستخدام الإبداعي، يعد الوهم وظيفة. ومع ذلك، تعتبر الهلوسة خطأً في معظم حالات الاستخدام. لقد شاركت مؤخرا في حلقة نقاش حول ماجستير إدارة الأعمال مع خبراء من Dropbox، وLangchain، وElastics، وAnthropic. ووفقا لهم، فإن العقبة الأولى التي تحتاج الشركات إلى التغلب عليها لتطبيق ماجستير إدارة الأعمال في الإنتاج الفعلي هي مخرجات الهلوسة.
يعد الحد من المخرجات الوهمية للنماذج وتطوير المقاييس لتقييم المخرجات الوهمية موضوع بحث مزدهر، وتركز العديد من الشركات الناشئة حاليًا على هذه القضية. هناك أيضًا تقنيات لتقليل احتمالية المخرجات الوهمية، مثل إضافة المزيد من السياق إلى الكلمات الإرشادية، أو CoT، أو الاتساق الذاتي، أو المطالبة على وجه التحديد بأن تكون استجابات النموذج موجزة وواضحة.
فيما يلي سلسلة من الأوراق والمراجع حول مخرجات الهلوسة:
مسح الهلوسة في توليد اللغة الطبيعية (جي وآخرون، 2022)
كيف يمكن للهلوسة النموذجية اللغوية أن تسبب كرة الثلج (Zhang et al.، 2023)
استخدام متعدد المهام ومتعدد اللغات ومتعدد الوسائط لـ ChatGPT حول التفكير والهلوسة والتفاعل (Bang et al., 2023)
التعلم المقارن يقلل من الهلوسة في المحادثات (صن وآخرون، 2022)
الاتساق الذاتي يحسن سلسلة التفكير في نماذج اللغة (وانغ وآخرون، 2022)
SelfCheckGPT: اكتشاف هلوسة الصندوق الأسود بدون موارد لنماذج اللغات الكبيرة التوليدية (Manakul et al., 2023)
مثال بسيط على التحقق من الحقائق والهلوسة بواسطة NeMo-Guardrails من NVIDIA
2. تحسين طول السياق وبناء السياق
تتطلب معظم الأسئلة السياق. على سبيل المثال، إذا سألنا ChatGPT: "أي مطعم فيتنامي هو الأفضل؟" سيكون السياق المطلوب هو "أين نطاق هذا المطعم؟"، لأن أفضل مطعم في فيتنام هو نفس أفضل مطعم فيتنامي في الولايات المتحدة. أما بالنسبة للمطاعم، فإن نطاق المشكلة مختلف.
وفقًا للمقالة الرائعة أدناه، SITUATEDQA: دمج السياقات غير اللغوية في ضمان الجودة (Zhang & Choi, 2021)، فإن جزءًا كبيرًا من إجابات أسئلة البحث عن المعلومات يكون سياقيًا، على سبيل المثال، ما يقرب من 10% من الإجابات في الأسئلة الطبيعية مجموعة بيانات NQ-Open 16.5%.
(NQ-مفتوح:
شخصياً أعتقد أن النسبة ستكون أعلى في الحالات التي تواجهها الشركات فعلياً. على سبيل المثال، لنفترض أن إحدى الشركات قامت ببناء روبوت محادثة لدعم العملاء، لكي يجيب برنامج الدردشة الآلي هذا على أي سؤال لدى العميل حول أي منتج، فمن المرجح أن يكون السياق المطلوب هو تاريخ ذلك العميل أو معلومات حول هذا المنتج. وبما أن نموذج اللغة "يتعلم" من السياق المقدم له، فإن هذه العملية تُعرف أيضًا باسم التعلم السياقي.
قم بتصوير السياق المطلوب لاستفسارات دعم العملاء
يعد طول السياق مهمًا جدًا بالنسبة لـ RAG (الجيل المعزز للاسترجاع)، وقد أصبح RAG هو الوضع الرئيسي لسيناريوهات تطبيق صناعة نماذج اللغة الكبيرة. على وجه التحديد، ينقسم إنشاء تعزيز الاسترجاع بشكل أساسي إلى مرحلتين:
**المرحلة الأولى: التجزئة (المعروفة أيضًا بالفهرسة)**التقطيع (المعروفة أيضًا بالفهرسة)
اجمع كل المستندات التي يستخدمها LLM، وقم بتقسيم هذه المستندات إلى أجزاء يمكن تغذيتها إلى نموذج أكبر لإنشاء عمليات التضمين، وتخزين هذه التضمينات في قاعدة بيانات متجهة.
المرحلة الثانية: الاستعلام
عندما يرسل مستخدم استعلامًا، مثل "هل تغطي بوليصة التأمين الخاصة بي الدواء X؟"، يقوم نموذج اللغة الكبير بتحويل هذا الاستعلام إلى تضمين، وهو ما نسميه QUERY_EMBEDDING. ستحصل قاعدة بيانات المتجهات على الكتلة التي يكون تضمينها مشابهًا إلى حد كبير لـ QUERY_EMBEDDING.
ليس دائما. إن مقدار السياق الذي يمكن أن يستخدمه النموذج ومدى كفاءة النموذج في استخدام السياق هما مسألتان مختلفتان. أثناء العمل على زيادة طول سياق النموذج، نعمل أيضًا على تحسين كفاءة السياق. يسميها البعض "الهندسة السريعة" أو "البناء". على سبيل المثال، تتحدث ورقة بحثية حديثة عن كيف يمكن للنماذج أن تفهم بشكل أفضل بداية ونهاية الفهارس، بدلاً من مجرد المعلومات الموجودة في المنتصف - Lost in the Middle: How Language Models Use Long contexts (Liu et al., 2023).
3. دمج أوضاع البيانات الأخرى (متعددة الوسائط)
في رأيي، تعدد الوسائط قوي جدًا، ولكن يتم الاستهانة به أيضًا. وفيما يلي توضيح لأسباب تطبيق تعدد الوسائط:
أولاً، تتطلب العديد من سيناريوهات التطبيقات المحددة بيانات متعددة الوسائط، خاصة في الصناعات التي تحتوي على نماذج بيانات مختلطة مثل الرعاية الصحية والروبوتات والتجارة الإلكترونية وتجارة التجزئة والألعاب والترفيه. على سبيل المثال:
غالبًا ما يتطلب الاختبار الطبي نصًا (مثل ملاحظات الطبيب واستبيانات المريض) وصورًا (مثل الأشعة المقطعية والأشعة السينية والتصوير بالرنين المغناطيسي).
تتضمن البيانات التعريفية للمنتج عادةً الصور ومقاطع الفيديو والأوصاف وحتى البيانات الجدولية (مثل تاريخ الإنتاج والوزن واللون)، لأنه من منظور الطلب، قد تحتاج إلى ملء معلومات المنتج المفقودة تلقائيًا بناءً على مراجعات المستخدمين أو صور المنتج، أو تريد تمكين المستخدمين من إجراء عمليات بحث عن المنتج باستخدام المعلومات المرئية مثل الشكل أو اللون.
ثانيًا، يعد تعدد الوسائط بتعزيز أداء النموذج بشكل كبير. ألا يجب أن يكون أداء النموذج الذي يفهم النص والصور أفضل من النموذج الوحيد الذي يفهم النص؟ تتطلب النماذج المستندة إلى النصوص قدرًا كبيرًا من النصوص لدرجة أننا نخشى أن تنفد بيانات الإنترنت اللازمة لتدريب النماذج النصية قريبًا. بمجرد استنفاد النص، نحتاج إلى الاستفادة من مخططات البيانات الأخرى.
فيما يلي سلسلة من الأوراق والمواد المرجعية المتعلقة بتعدد الوسائط:
[CLIP] تعلم النماذج المرئية القابلة للتحويل من خلال الإشراف على اللغة الطبيعية (OpenAI، 2021)
فلامنغو: نموذج لغة مرئية للتعلم القليل (DeepMind، 2022)
BLIP-2: التدريب المسبق على تمهيد اللغة والصور باستخدام برامج تشفير الصور المجمدة ونماذج اللغات الكبيرة (Salesforce، 2023)
KOSMOS-1: اللغة ليست كل ما تحتاجه: مواءمة الإدراك مع نماذج اللغة (Microsoft، 2023)
PaLM-E: نموذج لغة متعدد الوسائط متجسد (جوجل، 2023)
LLaVA: ضبط التعليمات المرئية (ليو وآخرون، 2023)
NeVA: مساعد الرؤية واللغة NeMo (NVIDIA، 2023)
4. اجعل LLM أسرع وأرخص
عندما تم إصدار GPT-3.5 لأول مرة في نهاية نوفمبر 2022، أعرب العديد من الأشخاص عن مخاوفهم بشأن التأخير وتكاليف استخدامه في الإنتاج. ومع ذلك، تغير تحليل زمن الوصول/التكلفة بسرعة منذ ذلك الحين. وفي أقل من نصف عام، وجد المجتمع طريقة لإنشاء نموذج يؤدي أداءً قريبًا جدًا من GPT-3.5، ولكنه يتطلب حوالي 2% فقط من مساحة ذاكرة GPT-3.5.
الفكرة هنا هي: إذا قمت بإنشاء شيء جيد بما فيه الكفاية، سيجد الناس طريقة لجعله سريعًا وفعالاً من حيث التكلفة.
مقارنة أداء Guanaco 7B مع ChatGPT GPT-3.5 وGPT-4:
5. تصميم بنية نموذجية جديدة
منذ AlexNet في عام 2012، شهدنا صعود وهبوط العديد من البنيات، بما في ذلك LSTM وseq2seq وما إلى ذلك. بالمقارنة مع هؤلاء، تأثير المحولات لا يصدق. لقد كانت المحولات موجودة منذ عام 2017، وإلى متى ستظل هذه البنية شائعة، فهو سؤال مفتوح.
ليس من السهل تطوير بنية جديدة لتجاوز Transformer. لقد خضع Transformer للكثير من التحسينات في السنوات الست الماضية، ويجب أن تعمل هذه البنية الجديدة على الأجهزة التي يهتم بها الأشخاص حاليًا وعلى النطاق الذي يهتمون به حاليًا.
ملاحظة: صممت Google في الأصل برنامج Transformer ليعمل بسرعة على مادة TPU، ثم قامت بتحسينه لاحقًا على وحدة معالجة الرسومات.
في عام 2021، اجتذب S4 الخاص بمختبر كريس ري اهتمامًا واسع النطاق، راجع "نمذجة التسلسلات الطويلة بكفاءة باستخدام مساحات الحالة المنظمة" (Gu et al., 2021) للحصول على التفاصيل). لا يزال مختبر كريس ري يعمل بقوة على تطوير بنيات جديدة، وآخرها Monarch Mixer (Fu, 2023)، الذي تم تطويره بالتعاون مع شركة Startup Together، وهو أحد هذه البنى.
فكرتهم الرئيسية هي أنه بالنسبة لبنية المحولات الحالية، فإن تعقيد الاهتمام هو التربيعي لطول التسلسل، في حين أن تعقيد MLP هو التربيعي لبعد النموذج. ستكون البنى ذات التعقيد شبه التربيعي أكثر كفاءة.
6. تطوير بدائل GPU
لقد كانت وحدات معالجة الرسومات هي الأجهزة المهيمنة للتعلم العميق منذ AlexNet في عام 2012. في الواقع، أحد الأسباب المعترف بها عمومًا لشعبية AlexNet هو أنها كانت أول ورقة بحثية تستخدم بنجاح وحدات معالجة الرسومات لتدريب الشبكة العصبية. قبل ظهور وحدات معالجة الرسومات، إذا كنت ترغب في تدريب نموذج على نطاق AlexNet، كنت بحاجة إلى استخدام الآلاف من وحدات المعالجة المركزية، مثل تلك التي أطلقتها Google قبل أشهر قليلة من AlexNet. أصبح عدد قليل من وحدات معالجة الرسومات في متناول طلاب الدكتوراه والباحثين أكثر من آلاف وحدات المعالجة المركزية، مما أدى إلى طفرة في أبحاث التعلم العميق.
على مدى العقد الماضي، حاولت العديد من الشركات، سواء كانت شركات كبيرة أو شركات ناشئة، إنشاء أجهزة جديدة للذكاء الاصطناعي. ومن أبرز المحاولات ما يلي: TPU من Google، وGraphcore's IPU (كيف تسير الأمور مع IPU؟)، وCerebras. جمعت SambaNova أكثر من مليار دولار لتطوير شرائح جديدة للذكاء الاصطناعي، ولكن يبدو أنها تحولت إلى منصة ذكاء اصطناعي منتجة.
لفترة من الوقت، كانت هناك توقعات كبيرة للحوسبة الكمومية، مع اللاعبين الرئيسيين بما في ذلك:
هناك اتجاه آخر مثير بنفس القدر وهو الرقائق الضوئية. معرفتي قليلة جدًا في هذا المجال، لذا يرجى تصحيحي إذا كنت مخطئًا. تستخدم الرقائق الحالية الكهرباء لنقل البيانات، مما يستهلك كميات كبيرة من الطاقة ويخلق زمن الوصول. ومن ناحية أخرى، تستخدم الرقائق الضوئية الفوتونات لنقل البيانات، والاستفادة من سرعة الضوء لإجراء حسابات أسرع وأكثر كفاءة. جمعت العديد من الشركات الناشئة في هذا المجال مئات الملايين من الدولارات، بما في ذلك Lightmatter (270 مليون دولار)، وAyar Labs (220 مليون دولار)، وLightelligence (أكثر من 200 مليون دولار)، وLuminous Computing (115 مليون دولار).
فيما يلي الجدول الزمني للتقدم للطرق الثلاثة الرئيسية لحساب مصفوفة الفوتون، مقتبس من الورقة البحثية "تضاعف المصفوفة الضوئية يضيء المسرع الضوئي وما بعده" (Zhou, Nature 2022). الطرق الثلاث المختلفة هي تحويل الضوء المستوي (PLC)، ومقياس تداخل ماخ زيندر (MZI)، وتعدد الإرسال بتقسيم الطول الموجي (WDM).
7. تحسين توافر الوكلاء
يشير الوكيل إلى نموذج لغة كبير يمكنه تنفيذ الإجراءات (يمكن فهمه على أنه وكلاء يمكنهم إكمال المهام المختلفة نيابةً عنك، لذلك يطلق عليه اسم الوكيل)، مثل تصفح الإنترنت، وإرسال رسائل البريد الإلكتروني، والحجز، وما إلى ذلك. ربما يكون هذا أحد أحدث الاتجاهات مقارنة باتجاهات البحث الأخرى في هذه الورقة. الناس متحمسون للوكلاء بسبب حداثتهم وإمكاناتهم الهائلة. أصبح Auto-GPT الآن في المرتبة 25 من أكثر اتفاقيات الريبو شعبية من حيث عدد النجوم على GitHub. GPT-Engineering هو أحد مستودعات الريبو الشائعة الأخرى.
وعلى الرغم من الإثارة في هذا الاتجاه، لا تزال هناك شكوك حول ما إذا كانت النماذج اللغوية الكبيرة موثوقة وذات أداء كافٍ لتمكينها من العمل. ومع ذلك، فقد ظهر سيناريو تطبيقي حيث يتم استخدام الوكلاء للبحث الاجتماعي، مثل تجربة ستانفورد الشهيرة، والتي أظهرت أن مجموعة صغيرة من الوكلاء المولدين أنتجت سلوكيات اجتماعية ناشئة: على سبيل المثال، البدء من فكرة يحددها المستخدم، أو وكيل يريده لعقد حفلة عيد الحب، يقوم الوكيل تلقائيًا بنشر دعوات الحفلة في اليومين التاليين، وتكوين صداقات جديدة، ودعوة بعضهم البعض إلى الحفلة... (الوكلاء المولدون: محاكاة تفاعلية للسلوك البشري، بارك وآخرون، 2023) ,
ربما تكون الشركة الناشئة الأكثر شهرة في هذا المجال هي Adept، التي أسسها اثنان من المؤلفين المشاركين السابقين في Transformer ونائب الرئيس السابق لـ OpenAI، وقد جمعت ما يقرب من 500 مليون دولار حتى الآن. في العام الماضي، أظهروا كيف يمكن لوكيلهم تصفح الإنترنت وكيفية إضافة حساب جديد إلى Salesforce.
8. كرر RLHF
يعد RLHF (التعلم المعزز من ردود الفعل البشرية) أمرًا رائعًا، ولكنه صعب بعض الشيء. لن يكون مفاجئًا أن يجد الناس طرقًا أفضل لتدريب LLM. ومع ذلك، لا تزال هناك العديد من المشكلات التي لم يتم حلها في RLHF، مثل:
①كيفية التعبير عن التفضيلات البشرية رياضيا؟
في الوقت الحالي، يتم تحديد التفضيل البشري عن طريق المقارنة: يحدد المعلق البشري ما إذا كانت الاستجابة أ أفضل من الاستجابة ب. ومع ذلك، فإنه لا يأخذ في الاعتبار مدى جودة الاستجابة "أ" مقارنة بالاستجابة "ب".
②ما هو التفضيل البشري؟
قامت شركة Anthropic بقياس جودة نماذجها في ثلاثة مجالات: مفيدة، وصادقة، وغير ضارة، بناءً على المخرجات. انظر الذكاء الاصطناعي الدستوري: عدم الضرر الناتج عن تعليقات الذكاء الاصطناعي (باي وآخرون، 2022).
يحاول DeepMind توليد استجابات ترضي معظم الناس. راجع نماذج الضبط اللغوي لإيجاد اتفاق بين البشر ذوي التفضيلات المتنوعة (Bakker et al., 2022).
أيضًا، هل نريد الذكاء الاصطناعي الذي يمكنه اتخاذ موقف، أم الذكاء الاصطناعي التقليدي الذي يبتعد عن أي موضوع يحتمل أن يكون مثيرًا للجدل؟
③لمن هي التفضيلات "البشرية"؟ هل ينبغي أن تؤخذ الاختلافات في الثقافة والدين والميول السياسية، وما إلى ذلك في الاعتبار؟ هناك العديد من التحديات في الحصول على بيانات التدريب التي تمثل بشكل كاف جميع المستخدمين المحتملين.
على سبيل المثال، بالنسبة لبيانات InstructGPT الخاصة بـ OpenAI، لا يوجد معلقون يزيد عمرهم عن 65 عامًا. المفسرون هم بشكل رئيسي من الفلبينيين والبنغلاديشيين. راجع InstructGPT: نماذج لغة التدريب على اتباع التعليمات مع التعليقات البشرية (Ouyang et al., 2022).
في حين أن الجهود التي يقودها المجتمع تستحق الثناء في نواياها، إلا أنها قد تؤدي إلى بيانات متحيزة. على سبيل المثال، بالنسبة لمجموعة بيانات OpenAssistant، عرّف 201 من أصل 222 (90.5%) من المشاركين أنفسهم على أنهم ذكور. لدى جيريمي هوارد موضوع رائع على تويتر:
9. تحسين كفاءة واجهة الدردشة
منذ ChatGPT، كان الناس يناقشون ما إذا كانت الدردشة واجهة مناسبة لمختلف المهام.
لمزيد من التفاصيل، راجع:
اللغة الطبيعية هي واجهة المستخدم البطيئة (Austin Z. Henley, 2023)
لماذا لا تمثل Chatbots المستقبل (أميليا واتنبيرجر، 2023)
ما أنواع الأسئلة التي تتطلب المحادثة للإجابة عليها؟ دراسة حالة لأسئلة AskReddit (هوانغ وآخرون، 2023)
يمكن أن تصبح واجهات دردشة الذكاء الاصطناعي واجهة المستخدم الأساسية لقراءة الوثائق (توم جونسون، 2023)
التفاعل مع ماجستير إدارة الأعمال من خلال الحد الأدنى من الدردشة (يوجين يان، 2023)
ومع ذلك، هذا ليس موضوعا جديدا. وفي العديد من البلدان، وخاصة في آسيا، تم استخدام الدردشة كواجهة للتطبيقات الفائقة لمدة عشر سنوات تقريبًا، كما كتب دان جروفر عنها في عام 2014.
في الدردشة كواجهة (اليستير كرول، 2016)
هل يعد اتجاه Chatbot بمثابة سوء فهم كبير؟ (ويل نايت، 2016)
لن تحل الروبوتات محل التطبيقات. ستحل التطبيقات الأفضل محل التطبيقات (Dan Grover, 2016)
أنا شخصياً أحب واجهة الدردشة للأسباب التالية:
①واجهة الدردشة هي واجهة يمكن لأي شخص، حتى أولئك الذين لم يكن لديهم اتصال سابق بأجهزة الكمبيوتر أو الإنترنت، تعلم كيفية استخدامها بسرعة (العالمية). في أوائل عام 2010، عندما كنت متطوعًا في أحد الأحياء ذات الدخل المنخفض في كينيا، أذهلني مدى إلمام الجميع هناك بإجراء المعاملات المصرفية على هواتفهم، عبر الرسائل النصية. لم يكن لدى أحد في هذا المجتمع جهاز كمبيوتر.
② يسهل الوصول إلى واجهة الدردشة. استخدم الصوت بدلاً من النص إذا كانت يديك مشغولة بأشياء أخرى.
③ تعد الدردشة أيضًا واجهة قوية جدًا - يمكنك تقديم أي طلب إليها، وسوف يتم الرد عليها، حتى لو لم يكن الرد مثاليًا بالضرورة
ومع ذلك، يعتقد المؤلف أنه يمكن الاستمرار في تحسين واجهة الدردشة في بعض الجوانب:
① يمكن تبادل رسائل متعددة في وقت واحد
حاليًا، نفترض بشكل أساسي أنه لا يوجد سوى جولة واحدة من الرسائل لكل اتصال. ولكن هذه ليست الطريقة التي نكتب بها أنا وأصدقائي الرسائل النصية. في كثير من الأحيان، أحتاج إلى رسائل متعددة لإكمال أفكاري لأنني بحاجة إلى إدراج بيانات مختلفة (مثل الصور والمواقع والروابط)، ربما فاتني شيء ما في الرسالة السابقة، أو لا أريد وضع كل شيء في ملف واحد كبير فقرة.
②إدخال متعدد الوسائط
في مجال التطبيقات متعددة الوسائط، يتم إنفاق معظم الجهود على بناء نماذج أفضل، بينما يتم إنفاق القليل على بناء واجهات أفضل. خذ على سبيل المثال برنامج الدردشة الآلي NeVA من Nvidia. أنا لست خبيرًا في تجربة المستخدم، ولكن أعتقد أنه قد يكون هناك مجال للتحسين هنا.
ملاحظة: نأسف لذكر فريق NeVA هنا، حتى مع هذا، لا يزال عملك رائعًا!
يغطي Linus Lee هذا جيدًا في حصته "واجهة الذكاء الاصطناعي التوليدية خارج الدردشات". على سبيل المثال، إذا كنت تريد طرح سؤال حول عمود معين في المخطط الذي تعمل عليه، فيجب أن تتمكن فقط من الإشارة إلى هذا العمود وطرح السؤال.
④ تحرير الرسائل وحذفها
كيف يمكن أن يؤدي تعديل أو حذف مدخلات المستخدم إلى تغيير تدفق المحادثة مع برنامج الدردشة الآلي؟
10. إنشاء ماجستير في القانون للغات غير الإنجليزية
نحن نعلم أن برامج LLM الحالية للغة الإنجليزية الأولى لا تتناسب بشكل جيد مع العديد من اللغات الأخرى من حيث الأداء وزمن الوصول والسرعة. يرى:
ChatGPT ما وراء اللغة الإنجليزية: نحو توحيد شامل لنماذج اللغات الكبيرة في التعلم متعدد اللغات (Lai et al., 2023)
لم يتم إنشاء (رمزية) جميع اللغات على قدم المساواة (Yennie يونيو، 2023)
هذا ليس سؤالًا بحثيًا بقدر ما هو سؤال لوجستي. نحن نعرف بالفعل كيفية القيام بذلك، الأمر يحتاج فقط إلى شخص ما ليضع المال والجهد. ومع ذلك، هذا ليس صحيحا تماما. تعتبر معظم اللغات لغات منخفضة الموارد، على سبيل المثال، تحتوي العديد من اللغات على بيانات عالية الجودة أقل بكثير من الإنجليزية أو الصينية، وبالتالي قد تتطلب تقنيات مختلفة لتدريب نماذج لغوية كبيرة. أنظر أيضا:
اللغات منخفضة الموارد: مراجعة للعمل السابق وتحديات المستقبل (ماغيريس وآخرون، 2020)
JW300: مجموعة موازية واسعة النطاق للغات منخفضة الموارد (Agic et al., 2019)
ويعتقد أولئك الأكثر تشاؤمًا أنه في المستقبل ستختفي العديد من اللغات وسيتكون الإنترنت من عالمين من لغتين: الإنجليزية والصينية. هذا الاتجاه ليس جديدا - هل يتذكر أحد الاسبرانتو؟
لا يزال تأثير أدوات الذكاء الاصطناعي، مثل الترجمة الآلية وروبوتات الدردشة، على تعلم اللغة غير واضح. هل ستساعد الأشخاص على تعلم لغة جديدة بشكل أسرع، أم أنها ستلغي الحاجة إلى تعلم لغة جديدة تمامًا.
ختاماً
يرجى إعلامي إذا فاتني أي شيء في هذه المقالة، وللحصول على وجهات نظر إضافية، راجع الورقة الشاملة تحديات وتطبيقات نماذج اللغة الكبيرة (قدور وآخرون، 2023).
المشاكل المذكورة أعلاه هي أكثر صعوبة من غيرها. على سبيل المثال، أعتقد أن السؤال رقم 10 أعلاه، وهو إعداد ماجستير في القانون بلغة غير الإنجليزية، سيكون بسيطًا نسبيًا مع توفر الوقت والموارد الكافية.
المشكلة الأولى المذكورة أعلاه هي تقليل مخرجات الهلوسة، والتي ستكون أصعب بكثير لأن الهلوسة هي مجرد ماجستير في القانون يقوم بأشياء احتمالية.
رقم 4، لن يتم حل مسألة جعل LLM أسرع وأرخص بشكل كامل أبدًا. لقد تم إحراز الكثير من التقدم في هذا المجال، وسيكون هناك المزيد من التقدم في المستقبل، ولكن التحسينات في هذا الاتجاه سوف تستمر.
يمثل العنصران 5 و6، البنية الجديدة والأجهزة الجديدة، تحديًا كبيرًا، لكن لا مفر منهما بمرور الوقت. نظرًا للعلاقة التكافلية بين البنية والأجهزة - يجب تحسين البنية الجديدة لتتوافق مع الأجهزة المشتركة، وتحتاج الأجهزة إلى دعم البنية المشتركة، فمن المحتمل أن يتم تنفيذها بواسطة نفس الشركة.
بعض المشاكل لا يمكن حلها بالمعرفة التقنية وحدها. على سبيل المثال، السؤال 8، تحسين أساليب التعلم من التفضيلات البشرية، قد يكون قضية سياسية أكثر من كونها قضية فنية. المشكلة رقم 9 هي تحسين كفاءة واجهة الدردشة، وهي مشكلة تتعلق بتجربة المستخدم. نحن بحاجة إلى المزيد من الأشخاص ذوي الخلفيات غير التقنية للعمل معنا في هذه القضايا.
ما هو الاتجاه البحثي الذي تهتم به أكثر؟ ما هو برأيك الحل الواعد لهذه المشاكل؟ أحب أن أسمع رأيك.