كيف بالضبط يعمل نموذج اللغة الكبير داخليًا؟ تشرح هذه المقالة مع الحد الأدنى من الرياضيات والمصطلحات.
اعتاد مؤلف هذا المقال ، تيم لي ، العمل في وسائل الإعلام التقنية Ars Technica ، وقد أطلق مؤخرًا رسالة إخبارية بعنوان "Understanding AI" ، والتي تناقش أساسًا مبدأ عمل الذكاء الاصطناعي. شون تروت أستاذ مساعد في جامعة كاليفورنيا ، سان دييغو ، حيث يدرس فهم اللغة البشرية ونماذج اللغة. (يتم تجميع المحتوى التالي ونشره بواسطة OneFlow بعد الحصول على إذن ، يرجى الاتصال بـ OneFlow للحصول على إذن لإعادة الطباعة. النص الأصلي:
عندما تم إطلاق ChatGPT في الخريف الماضي ، أحدث ذلك ضجة في صناعة التكنولوجيا وحول العالم. في ذلك الوقت ، كان باحثو التعلم الآلي يحاولون تطوير نماذج لغوية كبيرة (LLMs) لسنوات ، لكن عامة الناس لم ينتبهوا كثيرًا أو يدركوا مدى قوتهم.
اليوم ، سمع الجميع تقريبًا عن LLM واستخدمها عشرات الملايين من الأشخاص ، لكن لا يفهم الكثيرون كيفية عملها. ربما سمعت أن LLM مدربين على "التنبؤ بالكلمة التالية" ، وهم يحتاجون إلى الكثير من النصوص للقيام بذلك. ومع ذلك ، فإن التفسيرات عادة ما تتوقف عند هذا الحد. غالبًا ما يتم التعامل مع تفاصيل كيفية توقعهم للكلمة التالية على أنها لغز مقصور على فئة معينة.
أحد أسباب ذلك هو أن هذه الأنظمة تم تطويرها بطريقة مختلفة. يتم كتابة البرامج النموذجية بواسطة مهندسين بشريين يزودون الكمبيوتر بتعليمات واضحة خطوة بخطوة. في المقابل ، فإن ChatGPT مبني على شبكة عصبية مدربة على استخدام مليارات الكلمات اللغوية.
لذلك ، لا أحد على وجه الأرض يفهم تمامًا الأعمال الداخلية لـ LLM. يعمل الباحثون بجد في محاولة فهم هذه النماذج ، لكنها عملية بطيئة تستغرق سنوات ، إن لم يكن عقودًا ، حتى تكتمل.
ومع ذلك ، فإن الخبراء يعرفون الكثير عن كيفية عمل هذه الأنظمة. الهدف من هذه المقالة هو فتح هذه المعرفة لجمهور واسع. سنسعى لشرح ما هو معروف عن الأعمال الداخلية لهذه النماذج دون الخوض في المصطلحات التقنية أو الرياضيات المتقدمة.
سنبدأ بشرح متجهات الكلمات ، وهي طريقة مدهشة لنماذج اللغة لتمثيل اللغة والاستدلال عليها. بعد ذلك ، سنتعمق في Transformers ، حجر الزاوية في بناء نماذج مثل ChatGPT. أخيرًا ، نشرح كيف يتم تدريب هذه النماذج ونستكشف لماذا يمكن تحقيق الأداء الجيد بكميات هائلة من البيانات.
كلمة متجه
لفهم كيفية عمل النماذج اللغوية ، عليك أولاً أن تفهم كيف تمثل الكلمات. يستخدم البشر تسلسل الحروف لتمثيل الكلمات الإنجليزية ، مثل CAT للقطط. تستخدم نماذج اللغة قائمة طويلة من الأرقام تسمى متجهات الكلمات. على سبيل المثال ، إليك طريقة واحدة لتمثيل قطة كمتجه:
لماذا نستخدم مثل هذا الترميز المعقد؟ فيما يلي تشبيه ، تقع واشنطن العاصمة عند خط عرض 38.9 درجة شمالًا وخط طول 77 درجة غربًا ، وهو ما يمكننا تمثيله في تدوين المتجه:
• إحداثيات واشنطن العاصمة هي [38.9 ، 77]
• إحداثيات نيويورك هي [40.7 ، 74]
• إحداثيات لندن هي [51.5 ، 0.1]
• إحداثيات باريس هي [48.9 ، -2.4]
هذا مفيد في التفكير في العلاقات المكانية. يمكنك أن ترى أن نيويورك قريبة جدًا من واشنطن العاصمة لأن 38.9 أقرب إلى 40.7 و 77 أقرب إلى 74 في الإحداثيات. وبالمثل ، فإن باريس قريبة جدًا من لندن. لكن باريس بعيدة كل البعد عن واشنطن العاصمة.
تأخذ النماذج اللغوية نهجًا مشابهًا: يمثل كل متجه للكلمة نقطة في "مساحة الكلمات" حيث توجد الكلمات ذات المعنى المتشابه بالقرب من بعضها البعض. على سبيل المثال ، الكلمات الأقرب للقطط في الفضاء المتجه تشمل كلب ، قطة ، وحيوان أليف. الميزة الرئيسية لتمثيل الكلمات كمتجهات للأرقام الحقيقية (على عكس سلاسل الحروف مثل "CAT") هي أن الأرقام يمكن أن تقوم بعمليات لا تستطيع الحروف القيام بها.
الكلمات معقدة للغاية بحيث لا يمكن تمثيلها في بعدين فقط ، لذلك تستخدم نماذج اللغة مسافات متجهة بمئات أو حتى آلاف الأبعاد. لا يمكن للبشر تخيل المساحات ذات الأبعاد العالية ، ولكن يمكن لأجهزة الكمبيوتر أن تفكر فيها وتنتج نتائج مفيدة.
عكف الباحثون على دراسة متجهات الكلمات لعقود من الزمان ، ولكن هذا المفهوم اكتسب قوة جذب بالفعل في عام 2013 ، عندما أعلنت Google عن مشروع word2vec. قامت Google بتحليل ملايين المستندات التي تم جمعها من أخبار Google لمعرفة الكلمات التي تميل إلى الظهور في جمل مماثلة. بمرور الوقت ، تتعلم الشبكة العصبية المدربة وضع كلمات من فئات متشابهة (مثل الكلب والقط) بجوار مساحة المتجه.
تحتوي متجهات الكلمات في Google أيضًا على ميزة أخرى مثيرة للاهتمام: يمكنك استخدام عمليات المتجه "لاستنتاج" الكلمات. على سبيل المثال ، يأخذ باحثو Google المتجه الأكبر (الأكبر) ، ويطرحون المتجه الكبير (الكبير) ، ويضيفون المتجه الصغير (الصغير). الكلمة الأقرب إلى المتجه الناتج هي أصغر (أصغر) متجه.
يمكنك استخدام عمليات المتجه للتشابه! في هذا المثال ، العلاقة بين الكبير والأكبر مشابهة للعلاقة بين الأصغر والأصغر. تلتقط متجهات الكلمات في Google العديد من العلاقات الأخرى:
• سويسرا لسويسرا مثل كمبوديا كمبوديا. (بلد المواطنة)
• باريس وفرنسا تشبه برلين وألمانيا. (عاصمة)
• اللاأخلاقية والخطيرة تشبه ما هو ممكن ومستحيل. (الكلمة المضادة)
نظرًا لأن هذه النواقل يتم إنشاؤها من طريقة استخدام الأشخاص للغة ، فإنها تعكس العديد من التحيزات الموجودة في اللغة البشرية. على سبيل المثال ، (طبيب) ناقص (رجل) زائد (امرأة) يساوي (ممرضة) في بعض نماذج تضمين الكلمات. الحد من هذا التحيز هو مجال جديد للبحث.
ومع ذلك ، فإن تضمين الكلمات يعد أساسًا مفيدًا لنماذج اللغة ، حيث يقومون بترميز معلومات علائقية دقيقة ولكنها مهمة بين الكلمات. إذا تعلم نموذج اللغة شيئًا عن القطط (على سبيل المثال ، يذهب أحيانًا إلى الطبيب البيطري) ، فمن المحتمل أن ينطبق الشيء نفسه على القطط أو الكلاب. إذا تعلم النموذج عن العلاقة بين باريس وفرنسا (على سبيل المثال ، أنهما يشتركان في لغة) ، فمن المحتمل أن تكون العلاقة بين برلين وألمانيا وروما وإيطاليا هي نفسها.
معنى الكلمة يعتمد على السياق
تفشل مخططات تضمين الكلمات البسيطة مثل هذه في التقاط حقيقة مهمة للغة الطبيعية: غالبًا ما يكون للكلمات معانٍ متعددة.
على سبيل المثال ، يمكن أن تشير كلمة "بنك" إلى مؤسسة مالية أو ضفة نهر. أو تأمل الجمل التالية:
• يختار جون مجلة (يختار جون مجلة).
• تعمل سوزان في مجلة (سوزان تعمل لمجلة).
في هذه الجمل ، يرتبط معنى "المجلة" ولكنه مختلف. اختار جون مجلة مادية ، وعملت سوزان في وكالة تنشر المجلات المادية.
عندما تحتوي كلمة ما على معنيين غير مرتبطين ، يسميهم اللغويون مرادفات متجانسة. عندما يكون لكلمة معنيان وثيقان الصلة ، مثل "مجلة" ، يسميها اللغويون تعدد المعاني.
نماذج اللغة مثل ChatGPT قادرة على تمثيل نفس الكلمة مع متجهات مختلفة اعتمادًا على السياق الذي تحدث فيه الكلمة. يوجد متجه لـ "مصرف (مؤسسة مالية)" ومتجه لـ "الضفة (ضفة النهر)". يوجد متجه لـ "مجلة (منشورات الكيان)" وناقل لـ "المجلة (مؤسسة النشر)". كما قد تتوقع ، يستخدم نموذج اللغة نواقل أكثر تشابهًا لمعاني الكلمات متعددة المعاني وأقل تشابهًا مع معاني الهوموفونات.
حتى الآن لم نوضح كيف تفعل النماذج اللغوية ذلك - سندخل في ذلك قريبًا. ومع ذلك ، فإننا نقوم بتفصيل تمثيلات المتجهات هذه ، والتي تعتبر مهمة لفهم كيفية عمل النماذج اللغوية.
تم تصميم البرامج التقليدية للعمل مع البيانات الصريحة. إذا طلبت من جهاز كمبيوتر حساب "2 + 3" ، فلا يوجد غموض حول ما تعنيه 2 أو + أو 3. لكن الغموض في اللغة الطبيعية يتجاوز إلى حد بعيد المرادفات وتعدد المعاني:
• في "طلب العميل من الميكانيكي تصليح سيارته" ، هل تشير كلمة "خاصته" إلى العميل أو الميكانيكي؟
• في عبارة "حث الأستاذة الطالبة على أداء واجبها" ، هل تشير كلمة "هي" إلى الأستاذ أو الطالبة؟
• في "ذباب الفاكهة مثل الموز" ، هل "الذباب" فعل (يشير إلى فاكهة تطير في السماء مثل الموز) أم اسم (يشير إلى ذباب الفاكهة الذي يشبه الموز)؟
يحل الناس هذا النوع من الغموض اعتمادًا على السياق ، لكن لا توجد قواعد بسيطة أو واضحة. بدلاً من ذلك ، يتطلب فهمًا لما يحدث بالفعل في العالم. تحتاج إلى معرفة أن الميكانيكيين عادة ما يصلحون سيارات العملاء ، وعادة ما يقوم الطلاب بواجبهم المنزلي ، والفاكهة لا تطير عادة.
توفر متجهات الكلمات طريقة مرنة لنماذج اللغة لتمثيل المعنى الدقيق لكل كلمة في سياق فقرة معينة. الآن دعونا نرى كيف يفعلون ذلك.
تحويل ناقلات الكلمات إلى تنبؤات بالكلمات
يتكون نموذج GPT-3 وراء الإصدار الأصلي من ChatGPT من عشرات طبقات الشبكة العصبية. تأخذ كل طبقة كمدخلات سلسلة من المتجهات - واحدة لكل كلمة في نص الإدخال - وتضيف معلومات للمساعدة في توضيح معنى تلك الكلمة والتنبؤ بشكل أفضل بالكلمات التي قد تأتي بعد ذلك.
لنبدأ بمثال بسيط.
كل طبقة من LLM عبارة عن محول. في عام 2017 ، قدمت Google بنية الشبكة العصبية هذه لأول مرة في ورقة مهمة.
في الجزء السفلي من الرسم البياني ، نص الإدخال في النموذج هو "يريد جون من مصرفه صرف النقود" ويتم تمثيل هذه الكلمات كمتجهات نمط word2vec وتمريرها إلى المحول الأول. يحدد هذا المحول أن كلاً من الرغبات والنقد أفعال (يمكن أن تكون هاتان الكلمتان أيضًا أسماء). نشير إلى هذا السياق الإضافي بنص أحمر بين قوسين ، لكن النموذج يخزن هذه المعلومات بالفعل عن طريق تعديل متجهات الكلمات بطريقة يصعب على البشر تفسيرها. تسمى هذه النواقل الجديدة حالات مخفية ويتم تمريرها إلى المحول التالي.
يضيف المحول الثاني معلومات سياقية أخرى: يوضح أن البنك يشير إلى مؤسسة مالية (مؤسسة مالية) وليس إلى ضفة نهر ، وأن يشير إلى ضمير جون. ينتج المحول الثاني مجموعة أخرى من متجهات الحالة المخفية التي تعكس جميع المعلومات التي تعلمها النموذج مسبقًا.
الرسم البياني أعلاه يصور LLM افتراضية بحتة ، لذلك لا تلتصق كثيرًا بالتفاصيل. تميل LLMs الحقيقية إلى امتلاك المزيد من الطبقات. على سبيل المثال ، يحتوي أقوى إصدار من GPT-3 على 96 طبقة.
تظهر الأبحاث أن (الطبقات القليلة الأولى تركز على فهم قواعد الجملة وحل الغموض المبين أعلاه. الطبقات اللاحقة (غير الموضحة أعلاه لإبقاء حجم الرسم البياني قابل للإدارة) مخصصة لفهم عالي المستوى للفقرة بأكملها.
على سبيل المثال ، عندما "تقرأ" LLM قصة قصيرة ، يبدو أنها تتذكر جميع أنواع المعلومات حول شخصيات القصة: الجنس والعمر ، والعلاقات مع الشخصيات الأخرى ، والمواقع السابقة والحالية ، والشخصيات والأهداف ، والمزيد.
لا يفهم الباحثون تمامًا كيف تتبع LLM هذه المعلومات ، ولكن منطقياً ، يجب تمرير المعلومات بين الطبقات عن طريق تعديل متجهات الحالة المخفية. البعد المتجه في LLM الحديث كبير للغاية ، مما يساعد على التعبير عن معلومات دلالية أكثر ثراءً.
على سبيل المثال ، يستخدم أقوى إصدار من GPT-3 متجهات كلمات ذات أبعاد 12288 ، أي أن كل كلمة يتم تمثيلها بقائمة من 12288 رقمًا. هذا أكبر 20 مرة من مخطط word2vec الذي اقترحته Google في عام 2013. يمكنك التفكير في كل هذه الأبعاد الإضافية كنوع من "مساحة التخزين" التي يمكن لـ GPT-3 استخدامها لتسجيل سياق كل كلمة. يمكن قراءة الملاحظات الإعلامية التي تم إعدادها بواسطة الطبقات السابقة وتعديلها بواسطة الطبقات اللاحقة ، مما يسمح للنموذج بتعميق فهمه للنص بأكمله تدريجيًا.
لذا ، لنفترض أننا قمنا بتغيير الرسم البياني أعلاه لوصف نموذج لغة مكون من 96 طبقة لتفسير قصة من 1000 كلمة. قد يتضمن المستوى 60 متجهًا لجون ، مع رمز المتجه "(بطل الرواية ، ذكر ، متزوج من شيريل ، ابن عم دونالد ، من مينيسوتا ، حاليًا في بويز ، يحاول العثور عليه في محفظته المفقودة)" بين قوسين. مرة أخرى ، سيتم ترميز كل هذه الحقائق (وربما أكثر) في قائمة من 12288 رقمًا تقابل كلمة جون. أو ، قد يتم ترميز بعض المعلومات في هذه القصة في متجه 12288 الأبعاد لشيريل ، دونالد ، بويز ، المحفظة ، أو كلمات أخرى.
الهدف من ذلك هو جعل الطبقة 96 والأخيرة من الشبكة تنتج حالة مخفية تحتوي على جميع المعلومات الضرورية للتنبؤ بالكلمة التالية.
آلية الانتباه
الآن دعنا نتحدث عما يحدث داخل كل محول. يحتوي Transformer على عمليتين عند تحديث الحالة المخفية لكل كلمة من فقرة الإدخال:
أثناء خطوة الانتباه ، فإن المفردات "تنظر حولها" للكلمات الأخرى ذات السياق ذي الصلة وتتشارك المعلومات مع بعضها البعض.
في خطوة التغذية إلى الأمام ، كل كلمة "تفكر" في المعلومات التي تم جمعها في خطوة الانتباه السابقة وتحاول التنبؤ بالكلمة التالية.
بالطبع ، الشبكة هي التي تقوم بهذه الخطوات ، وليس الكلمات الفردية. لكننا نذكرها بهذه الطريقة للتأكيد على أن Transformer يستخدم الكلمات كوحدة أساسية لهذا التحليل ، وليس جمل أو فقرات كاملة. يمكّن هذا النهج LLM من الاستفادة الكاملة من إمكانات المعالجة المتوازية الهائلة لرقائق GPU الحديثة. كما أنه يساعد LLM في القياس إلى فقرات طويلة تحتوي على آلاف الكلمات. هذان الجانبان هما التحديات التي واجهتها نماذج اللغة المبكرة.
يمكنك التفكير في آلية الانتباه كخدمة مطابقة بين الكلمات. تنشئ كل كلمة قائمة تحقق (تسمى متجه الاستعلام) تصف خصائص الكلمات التي تبحث عنها. تقوم كل كلمة أيضًا بعمل قائمة تحقق (تسمى متجه المفاتيح) تصف خصائصها الخاصة. تجد الشبكة العصبية أفضل كلمة مطابقة من خلال مقارنة كل متجه رئيسي مع كل متجه استعلام (عن طريق حساب المنتج النقطي). بمجرد العثور على تطابق ، فإنه يمرر المعلومات ذات الصلة من الكلمة التي أنتجت متجه المفتاح إلى الكلمة التي أنتجت متجه الاستعلام.
على سبيل المثال ، في القسم السابق ، أظهرنا نموذجًا افتراضيًا للمحول الذي وجد أن كلمة "his" تشير إلى "John" في جزء من الجملة "John يريد من مصرفه صرف الأموال". داخليًا ، قد تسير العملية على النحو التالي: يمكن تمثيل متجه الاستعلام عن "الخاص به" بشكل فعال على أنه "أنا أبحث عن: الأسماء التي تصف الرجال". يمكن التعبير عن المتجه الرئيسي لكلمة "جون" بشكل فعال على أنه "أنا اسم يصف ذكرًا". ستكتشف الشبكة أن هذين الموجهين يتطابقان ، وتنقل المعلومات حول ناقل "جون" إلى المتجه "الخاص به".
تحتوي كل طبقة انتباه على العديد من "رؤوس الانتباه" ، مما يعني أن عملية تبادل المعلومات هذه تحدث عدة مرات (بالتوازي) على كل طبقة. يركز كل رأس انتباه على مهمة مختلفة:
• قد يطابق رأس الانتباه الضمائر بالأسماء ، كما ناقشنا سابقًا.
• رأس اهتمام آخر قد يتعامل مع تحليل معنى الكلمات متعددة المعاني مثل "بنك".
• قد يربط رأس الانتباه الثالث عبارات من كلمتين مثل "جو بايدن".
غالبًا ما تعمل رؤوس الانتباه مثل هذه بشكل متتابع ، حيث تصبح نتيجة عملية الانتباه في طبقة انتباه واحدة هي المدخلات لرأس الانتباه في الطبقة التالية. في الواقع ، قد تتطلب كل مهمة قمنا بتعدادها للتو رؤوس انتباه متعددة ، وليس واحدة فقط.
يحتوي الإصدار الأكبر من GPT-3 على 96 طبقة ، ولكل طبقة 96 رأس انتباه ، لذلك في كل مرة يتم فيها توقع كلمة جديدة ، ستقوم GPT-3 بتنفيذ 9216 عملية انتباه.
مثال من العالم الحقيقي
في القسمين أعلاه ، أظهرنا نسخًا مثالية لكيفية عمل رؤوس الانتباه. الآن دعونا نلقي نظرة على البحث حول الأعمال الداخلية لنماذج اللغة الحقيقية.
في العام الماضي ، درس الباحثون في Redwood Research GPT-2 ، سلف ChatGPT ، من أجل المقطع "عندما ذهبت ماري وجون إلى المتجر ، تناول جون مشروبًا (عندما ذهبت ماري وجون إلى المتجر ، تناول جون مشروبًا إلى ) "عملية التنبؤ بالكلمة التالية.
تتنبأ GPT-2 بأن الكلمة التالية هي Mary. وجد الباحثون أن ثلاثة أنواع من رؤوس الانتباه ساهمت في هذا التوقع:
• ثلاثة رؤوس انتباه ، يسمونها Name Mover Head ، تنسخ المعلومات من متجه Mary إلى متجه الإدخال النهائي (ناقل الكلمة إلى). يستخدم GPT-2 المعلومات الموجودة في هذا المتجه الموجود في أقصى اليمين للتنبؤ بالكلمة التالية.
• كيف تقرر الشبكة العصبية أن ماري هي الكلمة الصحيحة لنسخها؟ عكس عملية حساب GPT-2 ، اكتشف العلماء مجموعة من أربعة رؤوس انتباه أطلقوا عليها اسم رأس تثبيط الموضوع (رأس تثبيط الموضوع) ، والتي ميزت ناقل جون الثاني ، مما منع الاسم الذي يحرك الرأس من نسخ اسم جون.
• كيف يعرف رئيس إلغاء الموضوع أنه لا ينبغي نسخ جون؟ قام الفريق باستقراء أكثر واكتشف رأسي اهتمام أطلقوا عليه اسم Duplicate Token Heads. لقد وضعوا علامة على متجه جون الثاني كنسخة مكررة من ناقل جون الأول ، مما يساعد الشخص على قمع الرأس ليقرر أنه لا ينبغي نسخ جون.
باختصار ، تسمح رؤوس الانتباه التسعة هذه لـ GPT-2 بفهم أن "جون أعطى الشراب لجون" لا معنى له ، وبدلاً من ذلك يختار "جون أعطى الشراب لمريم (أعطى جون لمريم الشراب)".
يوضح هذا المثال مدى صعوبة فهم LLM بشكل كامل. نشر فريق Redwood المكون من خمسة باحثين ورقة من 25 صفحة يشرحون فيها كيفية تحديدهم والتحقق من صحة رؤوس الانتباه هذه. حتى مع كل هذا العمل ، ما زلنا بعيدين عن التفسير الكامل للسبب في أن GPT-2 قررت توقع كلمة "ماري" على أنها الكلمة التالية.
على سبيل المثال ، كيف يعرف النموذج أن الكلمة التالية يجب أن تكون اسم شخص ما وليس نوعًا آخر من الكلمات؟ من السهل أن نتخيل أنه في جمل مماثلة ، لن تكون ماري متنبئًا جيدًا بعد ذلك. على سبيل المثال ، في الجملة "عندما ذهبت ماري وجون إلى المطعم ، أعطى جون مفاتيحه لـ (عندما ذهبت ماري وجون إلى المطعم ، أعطى جون المفاتيح لـ)" ، منطقيًا ، يجب أن تكون الكلمة التالية هي "الخادم ( يمثل مرافق وقوف السيارات) ".
بافتراض إجراء أبحاث كافية من قبل علماء الكمبيوتر ، يمكنهم الكشف عن خطوات أخرى في عملية استدلال GPT-2 وشرحها. في النهاية ، قد يكونون قادرين على فهم كيف قررت GPT-2 أن كلمة "Mary" هي الكلمة التالية الأكثر احتمالية في الجملة. ولكن قد يستغرق الأمر شهورًا أو حتى سنوات من الجهد الإضافي لفهم كيفية توقع كلمة ما.
تعد نماذج اللغة الكامنة وراء ChatGPT - GPT-3 و GPT-4 - أكبر وأكثر تعقيدًا من GPT-2 ، وهي قادرة على القيام بمهام تفكير أكثر تعقيدًا من الجمل البسيطة التي درسها فريق Redwood. لذلك فإن عمل شرح هذه الأنظمة بشكل كامل سيكون مشروعًا ضخمًا ، ومن غير المرجح أن يكمله البشر في وقت قصير.
Feedforward الخطوات
بعد أن ينقل رأس الانتباه المعلومات بين متجهات الكلمات ، "تفكر" الشبكة المغذية حول كل متجه للكلمة وتحاول التنبؤ بالكلمة التالية. في هذه المرحلة ، لا يتم تبادل أي معلومات بين الكلمات ، وتقوم طبقة التغذية الأمامية بتحليل كل كلمة بشكل مستقل. ومع ذلك ، تتمتع طبقات التغذية الأمامية بإمكانية الوصول إلى أي معلومات تم نسخها مسبقًا بواسطة رؤوس الانتباه. ما يلي هو بنية الطبقة الأمامية لأكبر إصدار من GPT-3.
تمثل الدوائر الخضراء والبنفسجية الخلايا العصبية: إنها وظائف رياضية تحسب مجموعًا مرجحًا لمدخلاتها.
تعتبر طبقة التغذية الأمامية قوية بسبب عددها الكبير من التوصيلات. نرسم هذه الشبكة باستخدام ثلاث خلايا عصبية كطبقة إخراج وستة خلايا عصبية كطبقة مخفية ، لكن طبقة التغذية الأمامية لـ GPT-3 أكبر بكثير: 12288 خلية عصبية في طبقة الإخراج (المقابلة لمتجه الكلمات ذي الأبعاد 12288 للنموذج) ، تحتوي الطبقة المخفية على 49152 خلية عصبية.
لذلك في أكبر إصدار من GPT-3 ، تحتوي الطبقة المخفية على 49152 خلية عصبية ، ولكل خلية عصبية 12288 قيمة إدخال (بحيث تحتوي كل خلية عصبية على 12288 معلمة وزن) ، وهناك أيضًا 12288 خلية عصبية ناتجة ، ولكل خلية عصبية 49152 قيمة إدخال (وبالتالي 49152 معلمات الوزن لكل خلية عصبية). هذا يعني أن كل طبقة تلقائية لها 49152 \ * 12288 + 12288 \ * 49152 = 1.2 مليار معامل وزن. وهناك 96 طبقة تغذية ، بإجمالي 1.2 مليار \ * 96 = 116 مليار معلمة! هذا يعادل ما يقرب من ثلثي حجم معلمة GPT-3 مع 175 مليار معلمة.
في ورقة بحثية نُشرت عام 2020 (في ، وجد باحثون من جامعة تل أبيب أن طبقات التغذية الأمامية تعمل عن طريق مطابقة النمط: كل خلية عصبية في الطبقة المخفية تطابق نمطًا معينًا في نص الإدخال. يوجد أدناه إصدار من 16 طبقة بعض الخلايا العصبية في GPT- 2 تطابق النمط:
• الخلايا العصبية في تسلسل الكلمات من الطبقة 1 التي تنتهي بـ "البدائل".
• الخلايا العصبية في الطبقة 6 تطابق تسلسلات الكلمات ذات الصلة بالجيش وتنتهي بـ "القاعدة" أو "القواعد".
• الخلايا العصبية في الطبقة 13 تطابق التسلسلات التي تنتهي بنطاق زمني ، مثل "بين 3 مساءً و 7 مساءً" أو "من 7 مساءً يوم الجمعة حتى".
• الخلايا العصبية في تسلسل المطابقة من الطبقة 16 المرتبطة بالبرنامج التلفزيوني ، مثل "إصدار NBC النهاري الأصلي ، المؤرشف" أو "زاد التأخير الزمني من نسبة المشاهدة لهذه الحلقة بنسبة 57 بالمائة".
كما ترى ، في الطبقات اللاحقة يصبح المخطط أكثر تجريدًا. تميل الطبقات المبكرة إلى مطابقة كلمات معينة ، بينما تتطابق الطبقات اللاحقة مع العبارات التي تقع في فئات دلالية أوسع ، مثل البرامج التلفزيونية أو الفواصل الزمنية.
هذا مثير للاهتمام لأنه ، كما ذكرنا سابقًا ، يمكن لطبقة التغذية الأمامية التحقق من كلمة واحدة فقط في كل مرة. لذلك عند تصنيف التسلسل "الإصدار النهاري الأصلي لشبكة NBC ، المؤرشف" على أنه "متعلق بالتلفزيون" ، يكون لديه فقط إمكانية الوصول إلى المتجهات لكلمة "مؤرشف" ، وليس كلمات مثل NBC أو النهار. يمكن الاستدلال على أن السبب الذي يجعل طبقة التغذية الأمامية يمكن أن تحكم على أن "المؤرشف" جزء من التسلسل المرتبط بالتلفزيون هو أن رأس الانتباه قد نقل المعلومات السياقية سابقًا إلى المتجه "المؤرشف".
عندما تتطابق خلية عصبية مع أحد الأنماط ، فإنها تضيف معلومات إلى متجه الكلمات. في حين أنه ليس من السهل دائمًا تفسير هذه المعلومات ، يمكنك في كثير من الحالات التفكير فيها كتنبؤ مؤقت للكلمة التالية.
استدلال شبكات Feedforward باستخدام عمليات المتجهات
بحث حديث من جامعة براون (يُظهر مثالًا رائعًا لكيفية مساعدة طبقات التغذية الأمامية في التنبؤ بالكلمة التالية. لقد ناقشنا سابقًا بحث Google word2vec الذي يُظهر أن الاستدلال القياسي يمكن إجراؤه باستخدام عمليات المتجهات. على سبيل المثال ، برلين - ألمانيا + فرنسا = باريس .
وجد باحثو جامعة براون أن طبقات التغذية الأمامية تستخدم أحيانًا هذه الطريقة الدقيقة للتنبؤ بالكلمة التالية. على سبيل المثال ، درسوا استجابات GPT-2 للمحفزات التالية: "سؤال: ما هي عاصمة فرنسا؟ الإجابة: باريس. سؤال: ما هي عاصمة بولندا؟ الإجابة:"
درس الفريق نسخة من GPT-2 مع 24 طبقة. بعد كل طبقة ، قام علماء جامعة براون بالتحقيق في النموذج ، والبحث في أفضل تخمين للرمز التالي. في الطبقات الخمس عشرة الأولى ، كانت أعلى احتمالية للتخمين هي كلمة عشوائية على ما يبدو. بين الطبقات 16 و 19 ، يبدأ النموذج في التنبؤ بأن الكلمة التالية هي البولندية - بشكل غير صحيح ، لكنها تقترب. ثم في المستوى 20 ، تصبح وارسو أعلى احتمالية للتخمين - الإجابة الصحيحة ، وتظل كما هي في المستويات الأربعة الأخيرة.
وجد الباحثون في جامعة براون أن طبقة التغذية العشرون للأمام تحول بولندا إلى وارسو عن طريق إضافة متجه يقوم بتعيين متجهات الدولة إلى العواصم المقابلة لها. عند إضافة نفس المتجه إلى الصين ، فإن الإجابة هي بكين.
تستخدم طبقة التغذية الأمامية في نفس النموذج عمليات المتجه لتحويل الكلمات الصغيرة إلى كلمات كبيرة ، والكلمات في المضارع إلى معادلاتها في زمن الماضي.
طبقة الانتباه وطبقة التغذية لها وظائف مختلفة
حتى الآن ، رأينا مثالين عمليين للتنبؤ بكلمة GPT-2: يساعد رأس الانتباه على التنبؤ بأن جون سوف يعطي ماري شرابًا ؛ تساعد طبقة التغذية الأمامية على التنبؤ بأن وارسو هي عاصمة بولندا.
في الحالة الأولى ، تأتي ماري من مطالبة مقدمة من المستخدم. لكن في الحالة الثانية ، لم تظهر وارسو في الموجه. بدلاً من ذلك ، كان على GPT-2 أن "تتذكر" أن وارسو كانت عاصمة بولندا ، وقد تم تعلم هذه المعلومات من بيانات التدريب.
عندما قام باحثو جامعة براون بتعطيل طبقة التغذية الأمامية التي تحول بولندا إلى وارسو ، لم يعد النموذج يتوقع أن الكلمة التالية هي وارسو. لكن المثير للاهتمام ، إذا أضافوا بعد ذلك الجملة "عاصمة بولندا هي وارسو" في بداية الموجه ، فإن GPT-2 كانت قادرة على الإجابة على السؤال مرة أخرى. قد يكون هذا بسبب استخدام GPT-2 آلية انتباه لاستخراج اسم وارسو من الإشارة.
يتجلى هذا التقسيم للعمل على نطاق أوسع: آلية الانتباه تسترد المعلومات من الأجزاء السابقة للإشارة ، في حين أن طبقة التغذية الأمامية تمكن نموذج اللغة من "تذكر" المعلومات التي لم تظهر في الإشارات.
في الواقع ، يمكن اعتبار طبقة التغذية الأمامية بمثابة قاعدة بيانات للمعلومات التي تعلمها النموذج من بيانات التدريب. من المرجح أن تقوم طبقات التغذية الأمامية المبكرة بترميز حقائق بسيطة تتعلق بكلمات معينة ، مثل "غالبًا ما يأتي ترامب بعد دونالد". تقوم الطبقات اللاحقة بترميز علاقات أكثر تعقيدًا مثل "أضف هذا المتجه لتحويل بلد إلى عاصمته.
طريقة تدريب النموذج اللغوي
تطلبت العديد من خوارزميات التعلم الآلي المبكرة أمثلة تدريب ذات تسمية بشرية. على سبيل المثال ، قد تكون بيانات التدريب عبارة عن صور لكلاب أو قطط تحمل ملصقات صناعية ("كلب" أو "قطة"). تجعل الحاجة إلى البيانات المصنفة من الصعب والمكلف إنشاء مجموعات بيانات كبيرة بما يكفي لتدريب النماذج القوية.
يتمثل أحد الابتكارات الرئيسية في LLM في أنها لا تتطلب بيانات مصنفة بشكل صريح. بدلاً من ذلك ، يتعلمون من خلال محاولة التنبؤ بالكلمة التالية في مقطع نصي. تقريبا أي مادة مكتوبة مناسبة لتدريب هذه النماذج - من صفحات ويكيبيديا إلى المقالات الإخبارية إلى كود الكمبيوتر.
على سبيل المثال ، قد تأخذ LLM الإدخال "أحب قهوتي مع الكريمة و (أحب قهوتي مع الكريمة و)" وتحاول التنبؤ بـ "السكر (السكر)" ككلمة تالية. يعد نموذج اللغة الذي تمت تهيئته حديثًا أمرًا فظيعًا في هذا الأمر ، لأن كل من معلمات الوزن - أقوى إصدار من GPT-3 يصل إلى 175 مليار معلمة - يبدأ برقم عشوائي في البداية.
ولكن بينما يرى النموذج المزيد من الأمثلة - مئات المليارات من الكلمات - تتكيف هذه الأوزان تدريجيًا لعمل تنبؤات أفضل.
دعنا نستخدم القياس لتوضيح كيفية عمل هذه العملية. لنفترض أنك تستحم ، وتريد أن يكون الماء بدرجة الحرارة المناسبة: ليس ساخنًا جدًا ، أو باردًا جدًا. لم تستخدم هذا الصنبور من قبل ، لذا يمكنك ضبط اتجاه مقبض الصنبور حسب الرغبة ، وتشعر بدرجة حرارة الماء. إذا كان الجو حارًا جدًا أو شديد البرودة ، فستدير المقبض في الاتجاه المعاكس ، وستقل التعديلات التي ستجريها على المقبض كلما اقتربت من درجة حرارة الماء المناسبة.
الآن ، دعونا نجري بعض التغييرات على هذا القياس. أولاً ، تخيل أن هناك 50257 نقرة ، كل منها يتوافق مع كلمة مختلفة ، مثل "the" أو "cat" أو "bank". هدفك هو ترك الماء يتدفق فقط من الصنبور الذي يتوافق مع الكلمة التالية في التسلسل.
ثانيًا ، هناك مجموعة من الأنابيب المترابطة خلف الصنبور ، ومجموعة من الصمامات على تلك الأنابيب. لذلك إذا كان الماء يخرج من الصنبور الخطأ ، فلا يمكنك فقط ضبط مقبض الصنبور. أنت ترسل جيشًا من السناجب الذكية لتعقب كل أنبوب ، وضبط كل صمام يجدونه على طول الطريق.
يصبح هذا الأمر معقدًا ، وبما أن نفس الأنبوب غالبًا ما يوفر صنابير متعددة ، فإن الأمر يتطلب تفكيرًا دقيقًا حول كيفية تحديد الصمامات التي يجب إحكام ربطها وفكها ومقدارها.
من الواضح أن هذا المثال يصبح سخيفًا عندما يتم أخذه حرفيًا. إن بناء شبكة خطوط أنابيب تحتوي على 175 مليار صمام هو أمر غير واقعي ولا مفيد. ولكن بفضل قانون مور ، يمكن لأجهزة الكمبيوتر أن تعمل على هذا النطاق.
حتى الآن ، يتم تنفيذ جميع أجزاء LLM التي تمت مناقشتها في هذه المقالة - الخلايا العصبية في طبقة التغذية الأمامية ورؤوس الانتباه التي تمرر معلومات السياق بين الكلمات - كسلسلة من الوظائف الرياضية البسيطة (بشكل أساسي مضاعفة المصفوفة) ، والتي يكون سلوكها هو تحددها معلمة وزن قابلة للتعديل. تمامًا مثلما يتحكم السنجاب في قصتي في تدفق المياه عن طريق فك الصمام ، تتحكم خوارزمية التدريب في تدفق المعلومات عبر الشبكة العصبية عن طريق زيادة أو تقليل معلمات الوزن لنموذج اللغة.
تنقسم عملية التدريب إلى خطوتين. قم بعمل "ممر للأمام" أولاً ، قم بتشغيل الماء وتأكد من أن الماء يأتي من الصنبور الصحيح. ثم يتم إغلاق المياه من أجل "ممر للخلف" ، حيث تتسابق السناجب أسفل كل أنبوب ، وتشد الصمامات أو تفكها. في الشبكات العصبية الرقمية ، يتم لعب دور السنجاب بواسطة خوارزمية تسمى backpropagation ، والتي "تسير للخلف" عبر الشبكة ، باستخدام حساب التفاضل والتكامل لتقدير مقدار كل معلمة وزن يجب تغييرها.
القيام بذلك - إعادة نشر مثال ، ثم نشر عكسي لتحسين أداء الشبكة في هذا المثال - يتطلب عشرات المليارات من العمليات الحسابية. وتدريب نموذج كبير مثل GPT-3 يحتاج إلى تكرار هذه العملية مليارات المرات لكل كلمة من كل بيانات التدريب. تقدر شركة OpenAI أن تدريب GPT-3 يتطلب أكثر من 300 مليار تيرافلوب من الحسابات - وهو أمر سيستغرق تشغيل عشرات من رقائق الكمبيوتر المتطورة لأشهر.
أداء مذهل لـ GPT-3
قد تتفاجأ بمدى نجاح عملية التدريب. يمكن لـ ChatGPT أداء مجموعة متنوعة من المهام المعقدة - كتابة المقالات وإجراء المقارنات وحتى كتابة التعليمات البرمجية للكمبيوتر. إذن ، كيف تنتج آلية التعلم البسيطة مثل هذا النموذج القوي؟
أحد الأسباب هو الحجم. من الصعب المبالغة في التأكيد على العدد الهائل من الأمثلة التي يراها نموذج مثل GPT-3. تم تدريب GPT-3 على مجموعة تتكون من حوالي 500 مليار كلمة. وبالمقارنة ، يبلغ متوسط عدد الكلمات التي يواجهها الطفل البشري حوالي 100 مليون كلمة قبل سن العاشرة.
على مدى السنوات الخمس الماضية ، عملت OpenAI باستمرار على زيادة حجم نماذجها اللغوية. في ورقة بحثية تم تداولها على نطاق واسع عام 2020 (تشير إلى أن دقة نماذج لغتهم لها علاقة بقانون القوة مع حجم النموذج ، وحجم مجموعة البيانات ، ومقدار الحساب المستخدم للتدريب ، حتى أن بعض الاتجاهات تمتد لأكثر من سبعة أوامر من حيث الحجم ".
كلما كان حجم النموذج أكبر ، كان أداؤه أفضل في المهام التي تتضمن اللغة. ولكن فقط إذا قاموا بزيادة كمية بيانات التدريب بعامل مماثل. ولتدريب نماذج أكبر على المزيد من البيانات ، هناك حاجة إلى مزيد من قوة الحوسبة.
في عام 2018 ، أصدرت شركة OpenAI أول نموذج كبير GPT-1. يستخدم ناقل كلمات 768 بعدًا ، بإجمالي 12 طبقة ، وما مجموعه 117 مليون معلمة. بعد بضعة أشهر ، أصدرت OpenAI GPT-2 ، وأكبر إصدار منها يحتوي على 1600 بعدًا متجهًا للكلمات ، و 48 طبقة ، وما مجموعه 1.5 مليار معلمة. في عام 2020 ، أصدرت OpenAI GPT-3 ، الذي يحتوي على متجه كلمات 12288 بعدًا ، و 96 طبقة ، وما مجموعه 175 مليار معلمة.
هذا العام ، أصدرت OpenAI GPT-4. لم تُصدر الشركة أي تفاصيل معمارية ، لكن يُعتقد على نطاق واسع في الصناعة أن GPT-4 أكبر بكثير من GPT-3.
لم يتعلم كل نموذج حقائق أكثر من سابقه الأصغر فحسب ، بل أظهر أيضًا أداءً أفضل في المهام التي تتطلب شكلاً من أشكال التفكير المجرد.
على سبيل المثال ، تأمل القصة التالية: حقيبة مليئة بالفشار. لا يوجد شوكولاتة في الحقيبة. ومع ذلك ، فإن الملصق الموجود على الكيس يقول "شوكولاتة" بدلاً من "فشار". وجد سام الحقيبة. لم تر الحقيبة من قبل. لم تستطع رؤية ما كان في الحقيبة. قرأت الملصق.
كما يمكنك التخمين على الأرجح ، يعتقد سام أن الحقيبة تحتوي على شوكولاتة ويفاجأ أنها تحتوي على الفشار.
يسمي علماء النفس هذه الدراسة للقدرة على التفكير في الحالات العقلية للآخرين "نظرية العقل". معظم الناس لديهم هذه القدرة منذ بداية المدرسة الابتدائية. ينقسم الخبراء حول ما إذا كانت نظرية العقل تنطبق على أي حيوان غير بشري ، مثل الشمبانزي ، لكن الإجماع العام هو أنها أساسية للإدراك الاجتماعي البشري.
في وقت سابق من هذا العام ، نشر عالم النفس بجامعة ستانفورد ، ميشال كوسينسكي ، دراسة (لفحص قدرة LLMs على حل نظرية مهام العقل). قرأ نماذج لغوية مختلفة مثل القصة التي تم الاستشهاد بها للتو ، ثم طلب منهم إكمال جملة ، مثل " إنها تعتقد أن الحقيبة ممتلئة "، الإجابة الصحيحة هي" شوكولاتة "، ولكن قد يقول نموذج لغة غير ناضج" فشار "أو شيء من هذا القبيل.
فشل GPT-1 و GPT-2 في هذا الاختبار. لكن الإصدار الأول من GPT-3 ، الذي تم إصداره في عام 2020 ، كان صحيحًا بنسبة 40 بالمائة تقريبًا ، وهو مستوى أداء كوسينسكي مقارنة بطفل يبلغ من العمر ثلاث سنوات. أحدث إصدار ، GPT-3 ، الذي تم إصداره في نوفمبر من العام الماضي ، حسّن دقة الأسئلة أعلاه إلى حوالي 90٪ ، وهو ما يمكن مقارنته بطفل يبلغ من العمر سبع سنوات. أجاب GPT-4 بشكل صحيح على حوالي 95 بالمائة من أسئلة نظرية العقل.
"نظرًا لعدم وجود دليل في هذه النماذج على أن نظرية العقل (ToM) قد تم هندستها عن قصد ولا دراسات تثبت أن العلماء يعرفون كيفية تحقيقها ، فمن المحتمل أن هذه القدرة نشأت تلقائيًا وبشكل مستقل. هذه هي القدرة اللغوية للنماذج A بواسطة - نتاج التحسين المستمر "، كتب كوسينسكي.
تجدر الإشارة إلى أن الباحثين لا يتفقون جميعًا على أن هذه النتائج تثبت نظرية العقل: على سبيل المثال ، أدت التغييرات الصغيرة في مهمة الاعتقاد الخاطئ إلى انخفاض كبير في أداء GPT-3 (بينما أداء GPT-3 في المهام الأخرى التي تقيس نظرية العقل أكثر انحرافًا (كما كتب شون فيه ، يمكن أن يُعزى الأداء الناجح إلى عامل مربك في المهمة - "هانز ذكي" ، في إشارة إلى حصان اسمه هانز الذي بدا أنه قادر على إكمال بعض المهام الفكرية البسيطة ، ولكن في الواقع فقط تعتمد على الإشارات اللاواعية التي يقدمها الناس) "، لكنها تظهر في نموذج اللغة بدلاً من الحصان.
ومع ذلك ، فإن GPT-3 يقترب من الأداء البشري في العديد من المهام المصممة لقياس نظرية العقل ، والتي لم يكن من الممكن تصورها قبل بضع سنوات فقط ، وهذا يتوافق مع حقيقة أن النماذج الأكبر عمومًا تؤدي أداءً أفضل في المهام التي تتطلب وجهة نظر منطقية متسقة. .
هذا مجرد مثال واحد من العديد من الأمثلة حيث أظهرت النماذج اللغوية تطويرها تلقائيًا لقدرات التفكير المتقدمة. في أبريل ، نشر باحثون في Microsoft ورقة بحثية (قالوا إن GPT-4 أظهر علامات مبكرة ومثيرة للذكاء الاصطناعي العام - القدرة على التفكير بطريقة معقدة تشبه الإنسان.
على سبيل المثال ، طلب أحد الباحثين من GPT-4 رسم وحيد القرن باستخدام لغة برمجة رسومات غامضة تسمى TiKZ. استجاب GPT-4 ببضعة أسطر من التعليمات البرمجية ، والتي أدخلها الباحثون بعد ذلك في برنامج TiKZ. الصور الناتجة ، رغم أنها بدائية ، تُظهر بوضوح أن GPT-4 لديها بعض الفهم لشكل وحيد القرن.
اعتقد الباحثون أن GPT-4 ربما يحفظ بطريقة ما رمز رسم وحيد القرن من بيانات التدريب ، لذلك أعطوه تحديًا للمتابعة: قاموا بتعديل رمز وحيد القرن لإزالة الأبواق ، ونقلوا بعض أجزاء الجسم الأخرى. ثم طلبوا من GPT-4 إعادة قرن وحيد القرن مرة أخرى. استجاب GPT-4 بوضع زوايا الرأس في الموضع الصحيح:
على الرغم من أن النسخة التجريبية للمؤلفين قد تم تدريبها بالكامل على النص ولم تحتوي على أي صور ، إلا أن GPT-4 لا يزال يبدو قادرًا على إنجاز هذه المهمة. ومع ذلك ، يبدو أن GPT-4 تعلمت التفكير في شكل جسم وحيد القرن بعد تدريبه على كميات كبيرة من النصوص المكتوبة.
حاليًا ، ليس لدينا فهم حقيقي لكيفية تحقيق LLMs لمثل هذه الأعمال المفاخرة. يعتقد بعض الناس أن أمثلة مثل هذه تظهر أن النموذج بدأ في فهم معنى الكلمات في مجموعة التدريب الخاصة به. يصر آخرون على أن النماذج اللغوية هي مجرد "ببغاوات عشوائية" (مجرد تكرار متواليات معقدة متزايدة من الكلمات دون فهمها فعليًا.
يشير هذا الجدل إلى نقاش فلسفي عميق قد لا يتم حله. ومع ذلك ، نعتقد أنه من المهم التركيز على الأداء التجريبي لنماذج مثل GPT-3. إذا كان بإمكان نموذج اللغة الحصول باستمرار على الإجابات الصحيحة على نوع معين من الأسئلة ، وكان الباحث واثقًا من إمكانية استبعاد العوامل المربكة (على سبيل المثال ، من خلال التأكد من أن النموذج اللغوي لم يتعرض لهذه الأسئلة أثناء التدريب) ، إذن لا يهم كيف يفهم اللغة ، تمامًا كما هو الحال عند البشر ، هذه نتيجة مثيرة للاهتمام ومهمة.
سبب آخر محتمل وراء نجاح تدريب توقع اللمة التالية بشكل جيد هو أن اللغة نفسها يمكن التنبؤ بها. غالبًا ما ترتبط انتظامات اللغة (وإن لم يكن دائمًا) بانتظام العالم المادي. لذلك ، عندما يتعلم نموذج اللغة العلاقة بين الكلمات ، فإنه عادةً ما يتعلم ضمنيًا أيضًا العلاقة الموجودة في العالم.
علاوة على ذلك ، قد يكون التنبؤ أساس الذكاء البيولوجي وكذلك الذكاء الاصطناعي. وفقًا لفلاسفة مثل آندي كلارك ، يمكن اعتبار الدماغ البشري "آلة تنبؤ" تتمثل مهمتها الرئيسية في عمل تنبؤات حول بيئتنا ثم استخدام تلك التنبؤات للتنقل بنجاح في البيئة. التنبؤ أمر بالغ الأهمية لكل من الذكاء البيولوجي والذكاء الاصطناعي. بشكل حدسي ، تسير التنبؤات الجيدة جنبًا إلى جنب مع التمثيلات الجيدة - فالخرائط الدقيقة من المرجح أن تساعد الأشخاص على التنقل بشكل أفضل من الخرائط غير الصحيحة. العالم شاسع ومعقد ، والتنبؤات تساعد الكائنات الحية على التنقل بكفاءة والتكيف مع هذا التعقيد.
كان التحدي الرئيسي في بناء النماذج اللغوية تقليديًا هو اكتشاف أكثر الطرق فائدة لتمثيل الكلمات المختلفة ، خاصة وأن معنى العديد من الكلمات يعتمد بشكل كبير على السياق. سمحت طريقة التنبؤ بالكلمة التالية للباحثين بتجنب هذه المعضلة النظرية الشائكة عن طريق تحويلها إلى مشكلة تجريبية.
اتضح أن النماذج اللغوية قادرة على تعلم كيفية عمل اللغة البشرية من خلال اكتشاف أفضل تنبؤات الكلمة التالية إذا قدمنا بيانات وقوة حاسوبية كافية. الجانب السلبي هو أن الأعمال الداخلية الناتجة عن النظام لم يتم فهمها بالكامل بعد من قبل البشر.
ملحوظة:
من الناحية الفنية ، تصبح أجزاء الكلمات من LLM lemmas ، لكننا سوف نتجاهل تفاصيل التنفيذ هذه لإبقاء هذه المقالة ضمن طول يمكن التحكم فيه (راجع مقالة "الكشف عن مبدأ عمل رمز GPT المميز").
تُعرف شبكات التغذية الأمامية أيضًا باسم الإدراك متعدد الطبقات. كان علماء الكمبيوتر يدرسون هذا النوع من الشبكات العصبية منذ الستينيات.
من الناحية الفنية ، بعد أن قامت العصبون بحساب المجموع المرجح للمدخلات ، فإنه يمرر النتيجة إلى وظيفة التنشيط. ستتجاهل هذه المقالة تفاصيل التنفيذ هذه ، للحصول على شرح كامل لكيفية عمل الخلايا العصبية ، تحقق من:
إذا كنت ترغب في معرفة المزيد حول backpropagation ، تحقق من شرح Tim لعام 2018 لكيفية عمل الشبكات العصبية.
من الناحية العملية ، عادة ما يتم التدريب على دفعات لتحقيق الكفاءة الحسابية. لذلك قد يقوم البرنامج بتمرير إلى الأمام على 32000 رمز قبل النسخ العكسي.
شاهد النسخة الأصلية
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
كيف تعمل النماذج الكبيرة للغة المفككة الشائعة
** تجميع: OneFlow **
** 作 宇 | تيم لي 、 شون تروت **
كيف بالضبط يعمل نموذج اللغة الكبير داخليًا؟ تشرح هذه المقالة مع الحد الأدنى من الرياضيات والمصطلحات.
اعتاد مؤلف هذا المقال ، تيم لي ، العمل في وسائل الإعلام التقنية Ars Technica ، وقد أطلق مؤخرًا رسالة إخبارية بعنوان "Understanding AI" ، والتي تناقش أساسًا مبدأ عمل الذكاء الاصطناعي. شون تروت أستاذ مساعد في جامعة كاليفورنيا ، سان دييغو ، حيث يدرس فهم اللغة البشرية ونماذج اللغة. (يتم تجميع المحتوى التالي ونشره بواسطة OneFlow بعد الحصول على إذن ، يرجى الاتصال بـ OneFlow للحصول على إذن لإعادة الطباعة. النص الأصلي:
عندما تم إطلاق ChatGPT في الخريف الماضي ، أحدث ذلك ضجة في صناعة التكنولوجيا وحول العالم. في ذلك الوقت ، كان باحثو التعلم الآلي يحاولون تطوير نماذج لغوية كبيرة (LLMs) لسنوات ، لكن عامة الناس لم ينتبهوا كثيرًا أو يدركوا مدى قوتهم.
اليوم ، سمع الجميع تقريبًا عن LLM واستخدمها عشرات الملايين من الأشخاص ، لكن لا يفهم الكثيرون كيفية عملها. ربما سمعت أن LLM مدربين على "التنبؤ بالكلمة التالية" ، وهم يحتاجون إلى الكثير من النصوص للقيام بذلك. ومع ذلك ، فإن التفسيرات عادة ما تتوقف عند هذا الحد. غالبًا ما يتم التعامل مع تفاصيل كيفية توقعهم للكلمة التالية على أنها لغز مقصور على فئة معينة.
أحد أسباب ذلك هو أن هذه الأنظمة تم تطويرها بطريقة مختلفة. يتم كتابة البرامج النموذجية بواسطة مهندسين بشريين يزودون الكمبيوتر بتعليمات واضحة خطوة بخطوة. في المقابل ، فإن ChatGPT مبني على شبكة عصبية مدربة على استخدام مليارات الكلمات اللغوية.
لذلك ، لا أحد على وجه الأرض يفهم تمامًا الأعمال الداخلية لـ LLM. يعمل الباحثون بجد في محاولة فهم هذه النماذج ، لكنها عملية بطيئة تستغرق سنوات ، إن لم يكن عقودًا ، حتى تكتمل.
ومع ذلك ، فإن الخبراء يعرفون الكثير عن كيفية عمل هذه الأنظمة. الهدف من هذه المقالة هو فتح هذه المعرفة لجمهور واسع. سنسعى لشرح ما هو معروف عن الأعمال الداخلية لهذه النماذج دون الخوض في المصطلحات التقنية أو الرياضيات المتقدمة.
سنبدأ بشرح متجهات الكلمات ، وهي طريقة مدهشة لنماذج اللغة لتمثيل اللغة والاستدلال عليها. بعد ذلك ، سنتعمق في Transformers ، حجر الزاوية في بناء نماذج مثل ChatGPT. أخيرًا ، نشرح كيف يتم تدريب هذه النماذج ونستكشف لماذا يمكن تحقيق الأداء الجيد بكميات هائلة من البيانات.
كلمة متجه
لفهم كيفية عمل النماذج اللغوية ، عليك أولاً أن تفهم كيف تمثل الكلمات. يستخدم البشر تسلسل الحروف لتمثيل الكلمات الإنجليزية ، مثل CAT للقطط. تستخدم نماذج اللغة قائمة طويلة من الأرقام تسمى متجهات الكلمات. على سبيل المثال ، إليك طريقة واحدة لتمثيل قطة كمتجه:
[0.0074 ، 0.0030 ، -0.0105 ، 0.0742 ، 0.0765 ، -0.0011 ، 0.0265 ، 0.0106 ، 0.0191 ، 0.0038 ، -0.0468 ، -0.0212 ، 0.0091 ، 0.0030 ، -0.0563 ، -0.0396 ، -0.0998 ، -0.0796 ، ... ، 0.0002]
(ملاحظة: طول المتجه الكامل هو في الواقع 300 رقم)
لماذا نستخدم مثل هذا الترميز المعقد؟ فيما يلي تشبيه ، تقع واشنطن العاصمة عند خط عرض 38.9 درجة شمالًا وخط طول 77 درجة غربًا ، وهو ما يمكننا تمثيله في تدوين المتجه:
• إحداثيات واشنطن العاصمة هي [38.9 ، 77]
• إحداثيات نيويورك هي [40.7 ، 74]
• إحداثيات لندن هي [51.5 ، 0.1]
• إحداثيات باريس هي [48.9 ، -2.4]
هذا مفيد في التفكير في العلاقات المكانية. يمكنك أن ترى أن نيويورك قريبة جدًا من واشنطن العاصمة لأن 38.9 أقرب إلى 40.7 و 77 أقرب إلى 74 في الإحداثيات. وبالمثل ، فإن باريس قريبة جدًا من لندن. لكن باريس بعيدة كل البعد عن واشنطن العاصمة.
تأخذ النماذج اللغوية نهجًا مشابهًا: يمثل كل متجه للكلمة نقطة في "مساحة الكلمات" حيث توجد الكلمات ذات المعنى المتشابه بالقرب من بعضها البعض. على سبيل المثال ، الكلمات الأقرب للقطط في الفضاء المتجه تشمل كلب ، قطة ، وحيوان أليف. الميزة الرئيسية لتمثيل الكلمات كمتجهات للأرقام الحقيقية (على عكس سلاسل الحروف مثل "CAT") هي أن الأرقام يمكن أن تقوم بعمليات لا تستطيع الحروف القيام بها.
الكلمات معقدة للغاية بحيث لا يمكن تمثيلها في بعدين فقط ، لذلك تستخدم نماذج اللغة مسافات متجهة بمئات أو حتى آلاف الأبعاد. لا يمكن للبشر تخيل المساحات ذات الأبعاد العالية ، ولكن يمكن لأجهزة الكمبيوتر أن تفكر فيها وتنتج نتائج مفيدة.
عكف الباحثون على دراسة متجهات الكلمات لعقود من الزمان ، ولكن هذا المفهوم اكتسب قوة جذب بالفعل في عام 2013 ، عندما أعلنت Google عن مشروع word2vec. قامت Google بتحليل ملايين المستندات التي تم جمعها من أخبار Google لمعرفة الكلمات التي تميل إلى الظهور في جمل مماثلة. بمرور الوقت ، تتعلم الشبكة العصبية المدربة وضع كلمات من فئات متشابهة (مثل الكلب والقط) بجوار مساحة المتجه.
تحتوي متجهات الكلمات في Google أيضًا على ميزة أخرى مثيرة للاهتمام: يمكنك استخدام عمليات المتجه "لاستنتاج" الكلمات. على سبيل المثال ، يأخذ باحثو Google المتجه الأكبر (الأكبر) ، ويطرحون المتجه الكبير (الكبير) ، ويضيفون المتجه الصغير (الصغير). الكلمة الأقرب إلى المتجه الناتج هي أصغر (أصغر) متجه.
• سويسرا لسويسرا مثل كمبوديا كمبوديا. (بلد المواطنة)
• باريس وفرنسا تشبه برلين وألمانيا. (عاصمة)
• اللاأخلاقية والخطيرة تشبه ما هو ممكن ومستحيل. (الكلمة المضادة)
• تشبه الفئران (الجرذان) والفئران (جمع الفئران) الدولار (بالدولار) والدولار (جمع الدولارات). (صيغة الجمع)
• الرجال والنساء مثل الملوك والملكات. (دور الجنس)
نظرًا لأن هذه النواقل يتم إنشاؤها من طريقة استخدام الأشخاص للغة ، فإنها تعكس العديد من التحيزات الموجودة في اللغة البشرية. على سبيل المثال ، (طبيب) ناقص (رجل) زائد (امرأة) يساوي (ممرضة) في بعض نماذج تضمين الكلمات. الحد من هذا التحيز هو مجال جديد للبحث.
ومع ذلك ، فإن تضمين الكلمات يعد أساسًا مفيدًا لنماذج اللغة ، حيث يقومون بترميز معلومات علائقية دقيقة ولكنها مهمة بين الكلمات. إذا تعلم نموذج اللغة شيئًا عن القطط (على سبيل المثال ، يذهب أحيانًا إلى الطبيب البيطري) ، فمن المحتمل أن ينطبق الشيء نفسه على القطط أو الكلاب. إذا تعلم النموذج عن العلاقة بين باريس وفرنسا (على سبيل المثال ، أنهما يشتركان في لغة) ، فمن المحتمل أن تكون العلاقة بين برلين وألمانيا وروما وإيطاليا هي نفسها.
معنى الكلمة يعتمد على السياق
تفشل مخططات تضمين الكلمات البسيطة مثل هذه في التقاط حقيقة مهمة للغة الطبيعية: غالبًا ما يكون للكلمات معانٍ متعددة.
على سبيل المثال ، يمكن أن تشير كلمة "بنك" إلى مؤسسة مالية أو ضفة نهر. أو تأمل الجمل التالية:
• يختار جون مجلة (يختار جون مجلة).
• تعمل سوزان في مجلة (سوزان تعمل لمجلة).
في هذه الجمل ، يرتبط معنى "المجلة" ولكنه مختلف. اختار جون مجلة مادية ، وعملت سوزان في وكالة تنشر المجلات المادية.
عندما تحتوي كلمة ما على معنيين غير مرتبطين ، يسميهم اللغويون مرادفات متجانسة. عندما يكون لكلمة معنيان وثيقان الصلة ، مثل "مجلة" ، يسميها اللغويون تعدد المعاني.
نماذج اللغة مثل ChatGPT قادرة على تمثيل نفس الكلمة مع متجهات مختلفة اعتمادًا على السياق الذي تحدث فيه الكلمة. يوجد متجه لـ "مصرف (مؤسسة مالية)" ومتجه لـ "الضفة (ضفة النهر)". يوجد متجه لـ "مجلة (منشورات الكيان)" وناقل لـ "المجلة (مؤسسة النشر)". كما قد تتوقع ، يستخدم نموذج اللغة نواقل أكثر تشابهًا لمعاني الكلمات متعددة المعاني وأقل تشابهًا مع معاني الهوموفونات.
حتى الآن لم نوضح كيف تفعل النماذج اللغوية ذلك - سندخل في ذلك قريبًا. ومع ذلك ، فإننا نقوم بتفصيل تمثيلات المتجهات هذه ، والتي تعتبر مهمة لفهم كيفية عمل النماذج اللغوية.
تم تصميم البرامج التقليدية للعمل مع البيانات الصريحة. إذا طلبت من جهاز كمبيوتر حساب "2 + 3" ، فلا يوجد غموض حول ما تعنيه 2 أو + أو 3. لكن الغموض في اللغة الطبيعية يتجاوز إلى حد بعيد المرادفات وتعدد المعاني:
• في "طلب العميل من الميكانيكي تصليح سيارته" ، هل تشير كلمة "خاصته" إلى العميل أو الميكانيكي؟
• في عبارة "حث الأستاذة الطالبة على أداء واجبها" ، هل تشير كلمة "هي" إلى الأستاذ أو الطالبة؟
• في "ذباب الفاكهة مثل الموز" ، هل "الذباب" فعل (يشير إلى فاكهة تطير في السماء مثل الموز) أم اسم (يشير إلى ذباب الفاكهة الذي يشبه الموز)؟
يحل الناس هذا النوع من الغموض اعتمادًا على السياق ، لكن لا توجد قواعد بسيطة أو واضحة. بدلاً من ذلك ، يتطلب فهمًا لما يحدث بالفعل في العالم. تحتاج إلى معرفة أن الميكانيكيين عادة ما يصلحون سيارات العملاء ، وعادة ما يقوم الطلاب بواجبهم المنزلي ، والفاكهة لا تطير عادة.
توفر متجهات الكلمات طريقة مرنة لنماذج اللغة لتمثيل المعنى الدقيق لكل كلمة في سياق فقرة معينة. الآن دعونا نرى كيف يفعلون ذلك.
تحويل ناقلات الكلمات إلى تنبؤات بالكلمات
يتكون نموذج GPT-3 وراء الإصدار الأصلي من ChatGPT من عشرات طبقات الشبكة العصبية. تأخذ كل طبقة كمدخلات سلسلة من المتجهات - واحدة لكل كلمة في نص الإدخال - وتضيف معلومات للمساعدة في توضيح معنى تلك الكلمة والتنبؤ بشكل أفضل بالكلمات التي قد تأتي بعد ذلك.
لنبدأ بمثال بسيط.
في الجزء السفلي من الرسم البياني ، نص الإدخال في النموذج هو "يريد جون من مصرفه صرف النقود" ويتم تمثيل هذه الكلمات كمتجهات نمط word2vec وتمريرها إلى المحول الأول. يحدد هذا المحول أن كلاً من الرغبات والنقد أفعال (يمكن أن تكون هاتان الكلمتان أيضًا أسماء). نشير إلى هذا السياق الإضافي بنص أحمر بين قوسين ، لكن النموذج يخزن هذه المعلومات بالفعل عن طريق تعديل متجهات الكلمات بطريقة يصعب على البشر تفسيرها. تسمى هذه النواقل الجديدة حالات مخفية ويتم تمريرها إلى المحول التالي.
يضيف المحول الثاني معلومات سياقية أخرى: يوضح أن البنك يشير إلى مؤسسة مالية (مؤسسة مالية) وليس إلى ضفة نهر ، وأن يشير إلى ضمير جون. ينتج المحول الثاني مجموعة أخرى من متجهات الحالة المخفية التي تعكس جميع المعلومات التي تعلمها النموذج مسبقًا.
الرسم البياني أعلاه يصور LLM افتراضية بحتة ، لذلك لا تلتصق كثيرًا بالتفاصيل. تميل LLMs الحقيقية إلى امتلاك المزيد من الطبقات. على سبيل المثال ، يحتوي أقوى إصدار من GPT-3 على 96 طبقة.
تظهر الأبحاث أن (الطبقات القليلة الأولى تركز على فهم قواعد الجملة وحل الغموض المبين أعلاه. الطبقات اللاحقة (غير الموضحة أعلاه لإبقاء حجم الرسم البياني قابل للإدارة) مخصصة لفهم عالي المستوى للفقرة بأكملها.
على سبيل المثال ، عندما "تقرأ" LLM قصة قصيرة ، يبدو أنها تتذكر جميع أنواع المعلومات حول شخصيات القصة: الجنس والعمر ، والعلاقات مع الشخصيات الأخرى ، والمواقع السابقة والحالية ، والشخصيات والأهداف ، والمزيد.
لا يفهم الباحثون تمامًا كيف تتبع LLM هذه المعلومات ، ولكن منطقياً ، يجب تمرير المعلومات بين الطبقات عن طريق تعديل متجهات الحالة المخفية. البعد المتجه في LLM الحديث كبير للغاية ، مما يساعد على التعبير عن معلومات دلالية أكثر ثراءً.
على سبيل المثال ، يستخدم أقوى إصدار من GPT-3 متجهات كلمات ذات أبعاد 12288 ، أي أن كل كلمة يتم تمثيلها بقائمة من 12288 رقمًا. هذا أكبر 20 مرة من مخطط word2vec الذي اقترحته Google في عام 2013. يمكنك التفكير في كل هذه الأبعاد الإضافية كنوع من "مساحة التخزين" التي يمكن لـ GPT-3 استخدامها لتسجيل سياق كل كلمة. يمكن قراءة الملاحظات الإعلامية التي تم إعدادها بواسطة الطبقات السابقة وتعديلها بواسطة الطبقات اللاحقة ، مما يسمح للنموذج بتعميق فهمه للنص بأكمله تدريجيًا.
لذا ، لنفترض أننا قمنا بتغيير الرسم البياني أعلاه لوصف نموذج لغة مكون من 96 طبقة لتفسير قصة من 1000 كلمة. قد يتضمن المستوى 60 متجهًا لجون ، مع رمز المتجه "(بطل الرواية ، ذكر ، متزوج من شيريل ، ابن عم دونالد ، من مينيسوتا ، حاليًا في بويز ، يحاول العثور عليه في محفظته المفقودة)" بين قوسين. مرة أخرى ، سيتم ترميز كل هذه الحقائق (وربما أكثر) في قائمة من 12288 رقمًا تقابل كلمة جون. أو ، قد يتم ترميز بعض المعلومات في هذه القصة في متجه 12288 الأبعاد لشيريل ، دونالد ، بويز ، المحفظة ، أو كلمات أخرى.
الهدف من ذلك هو جعل الطبقة 96 والأخيرة من الشبكة تنتج حالة مخفية تحتوي على جميع المعلومات الضرورية للتنبؤ بالكلمة التالية.
آلية الانتباه
الآن دعنا نتحدث عما يحدث داخل كل محول. يحتوي Transformer على عمليتين عند تحديث الحالة المخفية لكل كلمة من فقرة الإدخال:
أثناء خطوة الانتباه ، فإن المفردات "تنظر حولها" للكلمات الأخرى ذات السياق ذي الصلة وتتشارك المعلومات مع بعضها البعض.
في خطوة التغذية إلى الأمام ، كل كلمة "تفكر" في المعلومات التي تم جمعها في خطوة الانتباه السابقة وتحاول التنبؤ بالكلمة التالية.
بالطبع ، الشبكة هي التي تقوم بهذه الخطوات ، وليس الكلمات الفردية. لكننا نذكرها بهذه الطريقة للتأكيد على أن Transformer يستخدم الكلمات كوحدة أساسية لهذا التحليل ، وليس جمل أو فقرات كاملة. يمكّن هذا النهج LLM من الاستفادة الكاملة من إمكانات المعالجة المتوازية الهائلة لرقائق GPU الحديثة. كما أنه يساعد LLM في القياس إلى فقرات طويلة تحتوي على آلاف الكلمات. هذان الجانبان هما التحديات التي واجهتها نماذج اللغة المبكرة.
يمكنك التفكير في آلية الانتباه كخدمة مطابقة بين الكلمات. تنشئ كل كلمة قائمة تحقق (تسمى متجه الاستعلام) تصف خصائص الكلمات التي تبحث عنها. تقوم كل كلمة أيضًا بعمل قائمة تحقق (تسمى متجه المفاتيح) تصف خصائصها الخاصة. تجد الشبكة العصبية أفضل كلمة مطابقة من خلال مقارنة كل متجه رئيسي مع كل متجه استعلام (عن طريق حساب المنتج النقطي). بمجرد العثور على تطابق ، فإنه يمرر المعلومات ذات الصلة من الكلمة التي أنتجت متجه المفتاح إلى الكلمة التي أنتجت متجه الاستعلام.
على سبيل المثال ، في القسم السابق ، أظهرنا نموذجًا افتراضيًا للمحول الذي وجد أن كلمة "his" تشير إلى "John" في جزء من الجملة "John يريد من مصرفه صرف الأموال". داخليًا ، قد تسير العملية على النحو التالي: يمكن تمثيل متجه الاستعلام عن "الخاص به" بشكل فعال على أنه "أنا أبحث عن: الأسماء التي تصف الرجال". يمكن التعبير عن المتجه الرئيسي لكلمة "جون" بشكل فعال على أنه "أنا اسم يصف ذكرًا". ستكتشف الشبكة أن هذين الموجهين يتطابقان ، وتنقل المعلومات حول ناقل "جون" إلى المتجه "الخاص به".
تحتوي كل طبقة انتباه على العديد من "رؤوس الانتباه" ، مما يعني أن عملية تبادل المعلومات هذه تحدث عدة مرات (بالتوازي) على كل طبقة. يركز كل رأس انتباه على مهمة مختلفة:
• قد يطابق رأس الانتباه الضمائر بالأسماء ، كما ناقشنا سابقًا.
• رأس اهتمام آخر قد يتعامل مع تحليل معنى الكلمات متعددة المعاني مثل "بنك".
• قد يربط رأس الانتباه الثالث عبارات من كلمتين مثل "جو بايدن".
غالبًا ما تعمل رؤوس الانتباه مثل هذه بشكل متتابع ، حيث تصبح نتيجة عملية الانتباه في طبقة انتباه واحدة هي المدخلات لرأس الانتباه في الطبقة التالية. في الواقع ، قد تتطلب كل مهمة قمنا بتعدادها للتو رؤوس انتباه متعددة ، وليس واحدة فقط.
يحتوي الإصدار الأكبر من GPT-3 على 96 طبقة ، ولكل طبقة 96 رأس انتباه ، لذلك في كل مرة يتم فيها توقع كلمة جديدة ، ستقوم GPT-3 بتنفيذ 9216 عملية انتباه.
مثال من العالم الحقيقي
في القسمين أعلاه ، أظهرنا نسخًا مثالية لكيفية عمل رؤوس الانتباه. الآن دعونا نلقي نظرة على البحث حول الأعمال الداخلية لنماذج اللغة الحقيقية.
في العام الماضي ، درس الباحثون في Redwood Research GPT-2 ، سلف ChatGPT ، من أجل المقطع "عندما ذهبت ماري وجون إلى المتجر ، تناول جون مشروبًا (عندما ذهبت ماري وجون إلى المتجر ، تناول جون مشروبًا إلى ) "عملية التنبؤ بالكلمة التالية.
تتنبأ GPT-2 بأن الكلمة التالية هي Mary. وجد الباحثون أن ثلاثة أنواع من رؤوس الانتباه ساهمت في هذا التوقع:
• ثلاثة رؤوس انتباه ، يسمونها Name Mover Head ، تنسخ المعلومات من متجه Mary إلى متجه الإدخال النهائي (ناقل الكلمة إلى). يستخدم GPT-2 المعلومات الموجودة في هذا المتجه الموجود في أقصى اليمين للتنبؤ بالكلمة التالية.
• كيف تقرر الشبكة العصبية أن ماري هي الكلمة الصحيحة لنسخها؟ عكس عملية حساب GPT-2 ، اكتشف العلماء مجموعة من أربعة رؤوس انتباه أطلقوا عليها اسم رأس تثبيط الموضوع (رأس تثبيط الموضوع) ، والتي ميزت ناقل جون الثاني ، مما منع الاسم الذي يحرك الرأس من نسخ اسم جون.
• كيف يعرف رئيس إلغاء الموضوع أنه لا ينبغي نسخ جون؟ قام الفريق باستقراء أكثر واكتشف رأسي اهتمام أطلقوا عليه اسم Duplicate Token Heads. لقد وضعوا علامة على متجه جون الثاني كنسخة مكررة من ناقل جون الأول ، مما يساعد الشخص على قمع الرأس ليقرر أنه لا ينبغي نسخ جون.
باختصار ، تسمح رؤوس الانتباه التسعة هذه لـ GPT-2 بفهم أن "جون أعطى الشراب لجون" لا معنى له ، وبدلاً من ذلك يختار "جون أعطى الشراب لمريم (أعطى جون لمريم الشراب)".
يوضح هذا المثال مدى صعوبة فهم LLM بشكل كامل. نشر فريق Redwood المكون من خمسة باحثين ورقة من 25 صفحة يشرحون فيها كيفية تحديدهم والتحقق من صحة رؤوس الانتباه هذه. حتى مع كل هذا العمل ، ما زلنا بعيدين عن التفسير الكامل للسبب في أن GPT-2 قررت توقع كلمة "ماري" على أنها الكلمة التالية.
على سبيل المثال ، كيف يعرف النموذج أن الكلمة التالية يجب أن تكون اسم شخص ما وليس نوعًا آخر من الكلمات؟ من السهل أن نتخيل أنه في جمل مماثلة ، لن تكون ماري متنبئًا جيدًا بعد ذلك. على سبيل المثال ، في الجملة "عندما ذهبت ماري وجون إلى المطعم ، أعطى جون مفاتيحه لـ (عندما ذهبت ماري وجون إلى المطعم ، أعطى جون المفاتيح لـ)" ، منطقيًا ، يجب أن تكون الكلمة التالية هي "الخادم ( يمثل مرافق وقوف السيارات) ".
بافتراض إجراء أبحاث كافية من قبل علماء الكمبيوتر ، يمكنهم الكشف عن خطوات أخرى في عملية استدلال GPT-2 وشرحها. في النهاية ، قد يكونون قادرين على فهم كيف قررت GPT-2 أن كلمة "Mary" هي الكلمة التالية الأكثر احتمالية في الجملة. ولكن قد يستغرق الأمر شهورًا أو حتى سنوات من الجهد الإضافي لفهم كيفية توقع كلمة ما.
تعد نماذج اللغة الكامنة وراء ChatGPT - GPT-3 و GPT-4 - أكبر وأكثر تعقيدًا من GPT-2 ، وهي قادرة على القيام بمهام تفكير أكثر تعقيدًا من الجمل البسيطة التي درسها فريق Redwood. لذلك فإن عمل شرح هذه الأنظمة بشكل كامل سيكون مشروعًا ضخمًا ، ومن غير المرجح أن يكمله البشر في وقت قصير.
Feedforward الخطوات
بعد أن ينقل رأس الانتباه المعلومات بين متجهات الكلمات ، "تفكر" الشبكة المغذية حول كل متجه للكلمة وتحاول التنبؤ بالكلمة التالية. في هذه المرحلة ، لا يتم تبادل أي معلومات بين الكلمات ، وتقوم طبقة التغذية الأمامية بتحليل كل كلمة بشكل مستقل. ومع ذلك ، تتمتع طبقات التغذية الأمامية بإمكانية الوصول إلى أي معلومات تم نسخها مسبقًا بواسطة رؤوس الانتباه. ما يلي هو بنية الطبقة الأمامية لأكبر إصدار من GPT-3.
تعتبر طبقة التغذية الأمامية قوية بسبب عددها الكبير من التوصيلات. نرسم هذه الشبكة باستخدام ثلاث خلايا عصبية كطبقة إخراج وستة خلايا عصبية كطبقة مخفية ، لكن طبقة التغذية الأمامية لـ GPT-3 أكبر بكثير: 12288 خلية عصبية في طبقة الإخراج (المقابلة لمتجه الكلمات ذي الأبعاد 12288 للنموذج) ، تحتوي الطبقة المخفية على 49152 خلية عصبية.
لذلك في أكبر إصدار من GPT-3 ، تحتوي الطبقة المخفية على 49152 خلية عصبية ، ولكل خلية عصبية 12288 قيمة إدخال (بحيث تحتوي كل خلية عصبية على 12288 معلمة وزن) ، وهناك أيضًا 12288 خلية عصبية ناتجة ، ولكل خلية عصبية 49152 قيمة إدخال (وبالتالي 49152 معلمات الوزن لكل خلية عصبية). هذا يعني أن كل طبقة تلقائية لها 49152 \ * 12288 + 12288 \ * 49152 = 1.2 مليار معامل وزن. وهناك 96 طبقة تغذية ، بإجمالي 1.2 مليار \ * 96 = 116 مليار معلمة! هذا يعادل ما يقرب من ثلثي حجم معلمة GPT-3 مع 175 مليار معلمة.
في ورقة بحثية نُشرت عام 2020 (في ، وجد باحثون من جامعة تل أبيب أن طبقات التغذية الأمامية تعمل عن طريق مطابقة النمط: كل خلية عصبية في الطبقة المخفية تطابق نمطًا معينًا في نص الإدخال. يوجد أدناه إصدار من 16 طبقة بعض الخلايا العصبية في GPT- 2 تطابق النمط:
• الخلايا العصبية في تسلسل الكلمات من الطبقة 1 التي تنتهي بـ "البدائل".
• الخلايا العصبية في الطبقة 6 تطابق تسلسلات الكلمات ذات الصلة بالجيش وتنتهي بـ "القاعدة" أو "القواعد".
• الخلايا العصبية في الطبقة 13 تطابق التسلسلات التي تنتهي بنطاق زمني ، مثل "بين 3 مساءً و 7 مساءً" أو "من 7 مساءً يوم الجمعة حتى".
• الخلايا العصبية في تسلسل المطابقة من الطبقة 16 المرتبطة بالبرنامج التلفزيوني ، مثل "إصدار NBC النهاري الأصلي ، المؤرشف" أو "زاد التأخير الزمني من نسبة المشاهدة لهذه الحلقة بنسبة 57 بالمائة".
كما ترى ، في الطبقات اللاحقة يصبح المخطط أكثر تجريدًا. تميل الطبقات المبكرة إلى مطابقة كلمات معينة ، بينما تتطابق الطبقات اللاحقة مع العبارات التي تقع في فئات دلالية أوسع ، مثل البرامج التلفزيونية أو الفواصل الزمنية.
هذا مثير للاهتمام لأنه ، كما ذكرنا سابقًا ، يمكن لطبقة التغذية الأمامية التحقق من كلمة واحدة فقط في كل مرة. لذلك عند تصنيف التسلسل "الإصدار النهاري الأصلي لشبكة NBC ، المؤرشف" على أنه "متعلق بالتلفزيون" ، يكون لديه فقط إمكانية الوصول إلى المتجهات لكلمة "مؤرشف" ، وليس كلمات مثل NBC أو النهار. يمكن الاستدلال على أن السبب الذي يجعل طبقة التغذية الأمامية يمكن أن تحكم على أن "المؤرشف" جزء من التسلسل المرتبط بالتلفزيون هو أن رأس الانتباه قد نقل المعلومات السياقية سابقًا إلى المتجه "المؤرشف".
عندما تتطابق خلية عصبية مع أحد الأنماط ، فإنها تضيف معلومات إلى متجه الكلمات. في حين أنه ليس من السهل دائمًا تفسير هذه المعلومات ، يمكنك في كثير من الحالات التفكير فيها كتنبؤ مؤقت للكلمة التالية.
استدلال شبكات Feedforward باستخدام عمليات المتجهات
بحث حديث من جامعة براون (يُظهر مثالًا رائعًا لكيفية مساعدة طبقات التغذية الأمامية في التنبؤ بالكلمة التالية. لقد ناقشنا سابقًا بحث Google word2vec الذي يُظهر أن الاستدلال القياسي يمكن إجراؤه باستخدام عمليات المتجهات. على سبيل المثال ، برلين - ألمانيا + فرنسا = باريس .
وجد باحثو جامعة براون أن طبقات التغذية الأمامية تستخدم أحيانًا هذه الطريقة الدقيقة للتنبؤ بالكلمة التالية. على سبيل المثال ، درسوا استجابات GPT-2 للمحفزات التالية: "سؤال: ما هي عاصمة فرنسا؟ الإجابة: باريس. سؤال: ما هي عاصمة بولندا؟ الإجابة:"
درس الفريق نسخة من GPT-2 مع 24 طبقة. بعد كل طبقة ، قام علماء جامعة براون بالتحقيق في النموذج ، والبحث في أفضل تخمين للرمز التالي. في الطبقات الخمس عشرة الأولى ، كانت أعلى احتمالية للتخمين هي كلمة عشوائية على ما يبدو. بين الطبقات 16 و 19 ، يبدأ النموذج في التنبؤ بأن الكلمة التالية هي البولندية - بشكل غير صحيح ، لكنها تقترب. ثم في المستوى 20 ، تصبح وارسو أعلى احتمالية للتخمين - الإجابة الصحيحة ، وتظل كما هي في المستويات الأربعة الأخيرة.
وجد الباحثون في جامعة براون أن طبقة التغذية العشرون للأمام تحول بولندا إلى وارسو عن طريق إضافة متجه يقوم بتعيين متجهات الدولة إلى العواصم المقابلة لها. عند إضافة نفس المتجه إلى الصين ، فإن الإجابة هي بكين.
تستخدم طبقة التغذية الأمامية في نفس النموذج عمليات المتجه لتحويل الكلمات الصغيرة إلى كلمات كبيرة ، والكلمات في المضارع إلى معادلاتها في زمن الماضي.
طبقة الانتباه وطبقة التغذية لها وظائف مختلفة
حتى الآن ، رأينا مثالين عمليين للتنبؤ بكلمة GPT-2: يساعد رأس الانتباه على التنبؤ بأن جون سوف يعطي ماري شرابًا ؛ تساعد طبقة التغذية الأمامية على التنبؤ بأن وارسو هي عاصمة بولندا.
في الحالة الأولى ، تأتي ماري من مطالبة مقدمة من المستخدم. لكن في الحالة الثانية ، لم تظهر وارسو في الموجه. بدلاً من ذلك ، كان على GPT-2 أن "تتذكر" أن وارسو كانت عاصمة بولندا ، وقد تم تعلم هذه المعلومات من بيانات التدريب.
عندما قام باحثو جامعة براون بتعطيل طبقة التغذية الأمامية التي تحول بولندا إلى وارسو ، لم يعد النموذج يتوقع أن الكلمة التالية هي وارسو. لكن المثير للاهتمام ، إذا أضافوا بعد ذلك الجملة "عاصمة بولندا هي وارسو" في بداية الموجه ، فإن GPT-2 كانت قادرة على الإجابة على السؤال مرة أخرى. قد يكون هذا بسبب استخدام GPT-2 آلية انتباه لاستخراج اسم وارسو من الإشارة.
يتجلى هذا التقسيم للعمل على نطاق أوسع: آلية الانتباه تسترد المعلومات من الأجزاء السابقة للإشارة ، في حين أن طبقة التغذية الأمامية تمكن نموذج اللغة من "تذكر" المعلومات التي لم تظهر في الإشارات.
في الواقع ، يمكن اعتبار طبقة التغذية الأمامية بمثابة قاعدة بيانات للمعلومات التي تعلمها النموذج من بيانات التدريب. من المرجح أن تقوم طبقات التغذية الأمامية المبكرة بترميز حقائق بسيطة تتعلق بكلمات معينة ، مثل "غالبًا ما يأتي ترامب بعد دونالد". تقوم الطبقات اللاحقة بترميز علاقات أكثر تعقيدًا مثل "أضف هذا المتجه لتحويل بلد إلى عاصمته.
طريقة تدريب النموذج اللغوي
تطلبت العديد من خوارزميات التعلم الآلي المبكرة أمثلة تدريب ذات تسمية بشرية. على سبيل المثال ، قد تكون بيانات التدريب عبارة عن صور لكلاب أو قطط تحمل ملصقات صناعية ("كلب" أو "قطة"). تجعل الحاجة إلى البيانات المصنفة من الصعب والمكلف إنشاء مجموعات بيانات كبيرة بما يكفي لتدريب النماذج القوية.
يتمثل أحد الابتكارات الرئيسية في LLM في أنها لا تتطلب بيانات مصنفة بشكل صريح. بدلاً من ذلك ، يتعلمون من خلال محاولة التنبؤ بالكلمة التالية في مقطع نصي. تقريبا أي مادة مكتوبة مناسبة لتدريب هذه النماذج - من صفحات ويكيبيديا إلى المقالات الإخبارية إلى كود الكمبيوتر.
على سبيل المثال ، قد تأخذ LLM الإدخال "أحب قهوتي مع الكريمة و (أحب قهوتي مع الكريمة و)" وتحاول التنبؤ بـ "السكر (السكر)" ككلمة تالية. يعد نموذج اللغة الذي تمت تهيئته حديثًا أمرًا فظيعًا في هذا الأمر ، لأن كل من معلمات الوزن - أقوى إصدار من GPT-3 يصل إلى 175 مليار معلمة - يبدأ برقم عشوائي في البداية.
ولكن بينما يرى النموذج المزيد من الأمثلة - مئات المليارات من الكلمات - تتكيف هذه الأوزان تدريجيًا لعمل تنبؤات أفضل.
دعنا نستخدم القياس لتوضيح كيفية عمل هذه العملية. لنفترض أنك تستحم ، وتريد أن يكون الماء بدرجة الحرارة المناسبة: ليس ساخنًا جدًا ، أو باردًا جدًا. لم تستخدم هذا الصنبور من قبل ، لذا يمكنك ضبط اتجاه مقبض الصنبور حسب الرغبة ، وتشعر بدرجة حرارة الماء. إذا كان الجو حارًا جدًا أو شديد البرودة ، فستدير المقبض في الاتجاه المعاكس ، وستقل التعديلات التي ستجريها على المقبض كلما اقتربت من درجة حرارة الماء المناسبة.
الآن ، دعونا نجري بعض التغييرات على هذا القياس. أولاً ، تخيل أن هناك 50257 نقرة ، كل منها يتوافق مع كلمة مختلفة ، مثل "the" أو "cat" أو "bank". هدفك هو ترك الماء يتدفق فقط من الصنبور الذي يتوافق مع الكلمة التالية في التسلسل.
ثانيًا ، هناك مجموعة من الأنابيب المترابطة خلف الصنبور ، ومجموعة من الصمامات على تلك الأنابيب. لذلك إذا كان الماء يخرج من الصنبور الخطأ ، فلا يمكنك فقط ضبط مقبض الصنبور. أنت ترسل جيشًا من السناجب الذكية لتعقب كل أنبوب ، وضبط كل صمام يجدونه على طول الطريق.
يصبح هذا الأمر معقدًا ، وبما أن نفس الأنبوب غالبًا ما يوفر صنابير متعددة ، فإن الأمر يتطلب تفكيرًا دقيقًا حول كيفية تحديد الصمامات التي يجب إحكام ربطها وفكها ومقدارها.
من الواضح أن هذا المثال يصبح سخيفًا عندما يتم أخذه حرفيًا. إن بناء شبكة خطوط أنابيب تحتوي على 175 مليار صمام هو أمر غير واقعي ولا مفيد. ولكن بفضل قانون مور ، يمكن لأجهزة الكمبيوتر أن تعمل على هذا النطاق.
حتى الآن ، يتم تنفيذ جميع أجزاء LLM التي تمت مناقشتها في هذه المقالة - الخلايا العصبية في طبقة التغذية الأمامية ورؤوس الانتباه التي تمرر معلومات السياق بين الكلمات - كسلسلة من الوظائف الرياضية البسيطة (بشكل أساسي مضاعفة المصفوفة) ، والتي يكون سلوكها هو تحددها معلمة وزن قابلة للتعديل. تمامًا مثلما يتحكم السنجاب في قصتي في تدفق المياه عن طريق فك الصمام ، تتحكم خوارزمية التدريب في تدفق المعلومات عبر الشبكة العصبية عن طريق زيادة أو تقليل معلمات الوزن لنموذج اللغة.
تنقسم عملية التدريب إلى خطوتين. قم بعمل "ممر للأمام" أولاً ، قم بتشغيل الماء وتأكد من أن الماء يأتي من الصنبور الصحيح. ثم يتم إغلاق المياه من أجل "ممر للخلف" ، حيث تتسابق السناجب أسفل كل أنبوب ، وتشد الصمامات أو تفكها. في الشبكات العصبية الرقمية ، يتم لعب دور السنجاب بواسطة خوارزمية تسمى backpropagation ، والتي "تسير للخلف" عبر الشبكة ، باستخدام حساب التفاضل والتكامل لتقدير مقدار كل معلمة وزن يجب تغييرها.
القيام بذلك - إعادة نشر مثال ، ثم نشر عكسي لتحسين أداء الشبكة في هذا المثال - يتطلب عشرات المليارات من العمليات الحسابية. وتدريب نموذج كبير مثل GPT-3 يحتاج إلى تكرار هذه العملية مليارات المرات لكل كلمة من كل بيانات التدريب. تقدر شركة OpenAI أن تدريب GPT-3 يتطلب أكثر من 300 مليار تيرافلوب من الحسابات - وهو أمر سيستغرق تشغيل عشرات من رقائق الكمبيوتر المتطورة لأشهر.
أداء مذهل لـ GPT-3
قد تتفاجأ بمدى نجاح عملية التدريب. يمكن لـ ChatGPT أداء مجموعة متنوعة من المهام المعقدة - كتابة المقالات وإجراء المقارنات وحتى كتابة التعليمات البرمجية للكمبيوتر. إذن ، كيف تنتج آلية التعلم البسيطة مثل هذا النموذج القوي؟
أحد الأسباب هو الحجم. من الصعب المبالغة في التأكيد على العدد الهائل من الأمثلة التي يراها نموذج مثل GPT-3. تم تدريب GPT-3 على مجموعة تتكون من حوالي 500 مليار كلمة. وبالمقارنة ، يبلغ متوسط عدد الكلمات التي يواجهها الطفل البشري حوالي 100 مليون كلمة قبل سن العاشرة.
على مدى السنوات الخمس الماضية ، عملت OpenAI باستمرار على زيادة حجم نماذجها اللغوية. في ورقة بحثية تم تداولها على نطاق واسع عام 2020 (تشير إلى أن دقة نماذج لغتهم لها علاقة بقانون القوة مع حجم النموذج ، وحجم مجموعة البيانات ، ومقدار الحساب المستخدم للتدريب ، حتى أن بعض الاتجاهات تمتد لأكثر من سبعة أوامر من حيث الحجم ".
كلما كان حجم النموذج أكبر ، كان أداؤه أفضل في المهام التي تتضمن اللغة. ولكن فقط إذا قاموا بزيادة كمية بيانات التدريب بعامل مماثل. ولتدريب نماذج أكبر على المزيد من البيانات ، هناك حاجة إلى مزيد من قوة الحوسبة.
في عام 2018 ، أصدرت شركة OpenAI أول نموذج كبير GPT-1. يستخدم ناقل كلمات 768 بعدًا ، بإجمالي 12 طبقة ، وما مجموعه 117 مليون معلمة. بعد بضعة أشهر ، أصدرت OpenAI GPT-2 ، وأكبر إصدار منها يحتوي على 1600 بعدًا متجهًا للكلمات ، و 48 طبقة ، وما مجموعه 1.5 مليار معلمة. في عام 2020 ، أصدرت OpenAI GPT-3 ، الذي يحتوي على متجه كلمات 12288 بعدًا ، و 96 طبقة ، وما مجموعه 175 مليار معلمة.
هذا العام ، أصدرت OpenAI GPT-4. لم تُصدر الشركة أي تفاصيل معمارية ، لكن يُعتقد على نطاق واسع في الصناعة أن GPT-4 أكبر بكثير من GPT-3.
لم يتعلم كل نموذج حقائق أكثر من سابقه الأصغر فحسب ، بل أظهر أيضًا أداءً أفضل في المهام التي تتطلب شكلاً من أشكال التفكير المجرد.
على سبيل المثال ، تأمل القصة التالية: حقيبة مليئة بالفشار. لا يوجد شوكولاتة في الحقيبة. ومع ذلك ، فإن الملصق الموجود على الكيس يقول "شوكولاتة" بدلاً من "فشار". وجد سام الحقيبة. لم تر الحقيبة من قبل. لم تستطع رؤية ما كان في الحقيبة. قرأت الملصق.
كما يمكنك التخمين على الأرجح ، يعتقد سام أن الحقيبة تحتوي على شوكولاتة ويفاجأ أنها تحتوي على الفشار.
يسمي علماء النفس هذه الدراسة للقدرة على التفكير في الحالات العقلية للآخرين "نظرية العقل". معظم الناس لديهم هذه القدرة منذ بداية المدرسة الابتدائية. ينقسم الخبراء حول ما إذا كانت نظرية العقل تنطبق على أي حيوان غير بشري ، مثل الشمبانزي ، لكن الإجماع العام هو أنها أساسية للإدراك الاجتماعي البشري.
في وقت سابق من هذا العام ، نشر عالم النفس بجامعة ستانفورد ، ميشال كوسينسكي ، دراسة (لفحص قدرة LLMs على حل نظرية مهام العقل). قرأ نماذج لغوية مختلفة مثل القصة التي تم الاستشهاد بها للتو ، ثم طلب منهم إكمال جملة ، مثل " إنها تعتقد أن الحقيبة ممتلئة "، الإجابة الصحيحة هي" شوكولاتة "، ولكن قد يقول نموذج لغة غير ناضج" فشار "أو شيء من هذا القبيل.
فشل GPT-1 و GPT-2 في هذا الاختبار. لكن الإصدار الأول من GPT-3 ، الذي تم إصداره في عام 2020 ، كان صحيحًا بنسبة 40 بالمائة تقريبًا ، وهو مستوى أداء كوسينسكي مقارنة بطفل يبلغ من العمر ثلاث سنوات. أحدث إصدار ، GPT-3 ، الذي تم إصداره في نوفمبر من العام الماضي ، حسّن دقة الأسئلة أعلاه إلى حوالي 90٪ ، وهو ما يمكن مقارنته بطفل يبلغ من العمر سبع سنوات. أجاب GPT-4 بشكل صحيح على حوالي 95 بالمائة من أسئلة نظرية العقل.
تجدر الإشارة إلى أن الباحثين لا يتفقون جميعًا على أن هذه النتائج تثبت نظرية العقل: على سبيل المثال ، أدت التغييرات الصغيرة في مهمة الاعتقاد الخاطئ إلى انخفاض كبير في أداء GPT-3 (بينما أداء GPT-3 في المهام الأخرى التي تقيس نظرية العقل أكثر انحرافًا (كما كتب شون فيه ، يمكن أن يُعزى الأداء الناجح إلى عامل مربك في المهمة - "هانز ذكي" ، في إشارة إلى حصان اسمه هانز الذي بدا أنه قادر على إكمال بعض المهام الفكرية البسيطة ، ولكن في الواقع فقط تعتمد على الإشارات اللاواعية التي يقدمها الناس) "، لكنها تظهر في نموذج اللغة بدلاً من الحصان.
ومع ذلك ، فإن GPT-3 يقترب من الأداء البشري في العديد من المهام المصممة لقياس نظرية العقل ، والتي لم يكن من الممكن تصورها قبل بضع سنوات فقط ، وهذا يتوافق مع حقيقة أن النماذج الأكبر عمومًا تؤدي أداءً أفضل في المهام التي تتطلب وجهة نظر منطقية متسقة. .
هذا مجرد مثال واحد من العديد من الأمثلة حيث أظهرت النماذج اللغوية تطويرها تلقائيًا لقدرات التفكير المتقدمة. في أبريل ، نشر باحثون في Microsoft ورقة بحثية (قالوا إن GPT-4 أظهر علامات مبكرة ومثيرة للذكاء الاصطناعي العام - القدرة على التفكير بطريقة معقدة تشبه الإنسان.
على سبيل المثال ، طلب أحد الباحثين من GPT-4 رسم وحيد القرن باستخدام لغة برمجة رسومات غامضة تسمى TiKZ. استجاب GPT-4 ببضعة أسطر من التعليمات البرمجية ، والتي أدخلها الباحثون بعد ذلك في برنامج TiKZ. الصور الناتجة ، رغم أنها بدائية ، تُظهر بوضوح أن GPT-4 لديها بعض الفهم لشكل وحيد القرن.
حاليًا ، ليس لدينا فهم حقيقي لكيفية تحقيق LLMs لمثل هذه الأعمال المفاخرة. يعتقد بعض الناس أن أمثلة مثل هذه تظهر أن النموذج بدأ في فهم معنى الكلمات في مجموعة التدريب الخاصة به. يصر آخرون على أن النماذج اللغوية هي مجرد "ببغاوات عشوائية" (مجرد تكرار متواليات معقدة متزايدة من الكلمات دون فهمها فعليًا.
يشير هذا الجدل إلى نقاش فلسفي عميق قد لا يتم حله. ومع ذلك ، نعتقد أنه من المهم التركيز على الأداء التجريبي لنماذج مثل GPT-3. إذا كان بإمكان نموذج اللغة الحصول باستمرار على الإجابات الصحيحة على نوع معين من الأسئلة ، وكان الباحث واثقًا من إمكانية استبعاد العوامل المربكة (على سبيل المثال ، من خلال التأكد من أن النموذج اللغوي لم يتعرض لهذه الأسئلة أثناء التدريب) ، إذن لا يهم كيف يفهم اللغة ، تمامًا كما هو الحال عند البشر ، هذه نتيجة مثيرة للاهتمام ومهمة.
سبب آخر محتمل وراء نجاح تدريب توقع اللمة التالية بشكل جيد هو أن اللغة نفسها يمكن التنبؤ بها. غالبًا ما ترتبط انتظامات اللغة (وإن لم يكن دائمًا) بانتظام العالم المادي. لذلك ، عندما يتعلم نموذج اللغة العلاقة بين الكلمات ، فإنه عادةً ما يتعلم ضمنيًا أيضًا العلاقة الموجودة في العالم.
علاوة على ذلك ، قد يكون التنبؤ أساس الذكاء البيولوجي وكذلك الذكاء الاصطناعي. وفقًا لفلاسفة مثل آندي كلارك ، يمكن اعتبار الدماغ البشري "آلة تنبؤ" تتمثل مهمتها الرئيسية في عمل تنبؤات حول بيئتنا ثم استخدام تلك التنبؤات للتنقل بنجاح في البيئة. التنبؤ أمر بالغ الأهمية لكل من الذكاء البيولوجي والذكاء الاصطناعي. بشكل حدسي ، تسير التنبؤات الجيدة جنبًا إلى جنب مع التمثيلات الجيدة - فالخرائط الدقيقة من المرجح أن تساعد الأشخاص على التنقل بشكل أفضل من الخرائط غير الصحيحة. العالم شاسع ومعقد ، والتنبؤات تساعد الكائنات الحية على التنقل بكفاءة والتكيف مع هذا التعقيد.
كان التحدي الرئيسي في بناء النماذج اللغوية تقليديًا هو اكتشاف أكثر الطرق فائدة لتمثيل الكلمات المختلفة ، خاصة وأن معنى العديد من الكلمات يعتمد بشكل كبير على السياق. سمحت طريقة التنبؤ بالكلمة التالية للباحثين بتجنب هذه المعضلة النظرية الشائكة عن طريق تحويلها إلى مشكلة تجريبية.
اتضح أن النماذج اللغوية قادرة على تعلم كيفية عمل اللغة البشرية من خلال اكتشاف أفضل تنبؤات الكلمة التالية إذا قدمنا بيانات وقوة حاسوبية كافية. الجانب السلبي هو أن الأعمال الداخلية الناتجة عن النظام لم يتم فهمها بالكامل بعد من قبل البشر.
ملحوظة:
من الناحية الفنية ، تصبح أجزاء الكلمات من LLM lemmas ، لكننا سوف نتجاهل تفاصيل التنفيذ هذه لإبقاء هذه المقالة ضمن طول يمكن التحكم فيه (راجع مقالة "الكشف عن مبدأ عمل رمز GPT المميز").
تُعرف شبكات التغذية الأمامية أيضًا باسم الإدراك متعدد الطبقات. كان علماء الكمبيوتر يدرسون هذا النوع من الشبكات العصبية منذ الستينيات.
من الناحية الفنية ، بعد أن قامت العصبون بحساب المجموع المرجح للمدخلات ، فإنه يمرر النتيجة إلى وظيفة التنشيط. ستتجاهل هذه المقالة تفاصيل التنفيذ هذه ، للحصول على شرح كامل لكيفية عمل الخلايا العصبية ، تحقق من:
إذا كنت ترغب في معرفة المزيد حول backpropagation ، تحقق من شرح Tim لعام 2018 لكيفية عمل الشبكات العصبية.
من الناحية العملية ، عادة ما يتم التدريب على دفعات لتحقيق الكفاءة الحسابية. لذلك قد يقوم البرنامج بتمرير إلى الأمام على 32000 رمز قبل النسخ العكسي.