حركة "التخسيس التكلفة" للنماذج الكبيرة

المصدر الأصلي: الجسم القطبي الدماغ

مصدر الصورة: تم إنشاؤه بواسطة الذكاء الاصطناعي غير محدود

مع البيانات الكبيرة والمعلمات الكبيرة وقوة الحوسبة الكبيرة ، ستظهر قدرات معينة للنماذج الكبيرة ، والتي تنتشر على نطاق واسع في دائرة التكنولوجيا.

الفكرة الرئيسية لصنع نموذج كبير هي: لا تقل بسهولة أن النموذج "لا يعمل" ، إذا كان "لا يعمل بعد" ، فاجعله أكبر.

لذلك ، في أقل من عام ، زاد مقياس المعلمات للنموذج الكبير بمقدار 100 مرة ، والآن تجاوز مستوى التريليون ، واستهلاك الموارد ضخم ، كما أنه جلب تكاليف تخزين أعلى وأعلى ، وتكاليف الاستدلال ، وتكاليف التشغيل والصيانة ، وتكاليف الهبوط. والتكاليف الاجتماعية.

في الوقت الحالي ، لا يزال النموذج الكبير في فجر التسويق ، ولا يزال هناك العديد من المجهول والشكوك حول كيفية استرداد الاستثمار في النموذج الكبير ، وقد أصبح النموذج الكبير أكبر وأصبح عملا يحرق الأموال للغاية ، مدعوما ب Open الذكاء الاصطناعي من Microsoft ، والتي ستخسر حوالي 540 مليون دولار في عام 2022.

التكلفة المتزايدة باستمرار هي فاتورة المال الحقيقي ، و "القش" الذي يثقل كاهل الشركات النموذجية الكبيرة. توقع الرئيس التنفيذي لشركة أنثروبيك ، داريو أمودي ، مؤخرا أن نموذجهم سيكلف 10 مليارات دولار على مدى العامين المقبلين.

بالإضافة إلى الشركات نفسها ، يتحمل المجتمع أيضا التكاليف الخفية للنماذج الكبيرة. ذكرت Google أن تدريب PaLM يستهلك حوالي 3.4 كيلو واط ساعة من الكهرباء في حوالي شهرين ، وهو ما يعادل إجمالي استهلاك الطاقة السنوي ل 300 أسرة. إن عبء وتكلفة الاستهلاك العالي للطاقة على البيئة التي يجلبها النموذج الكبير يدفعها المجتمع بأسره في نهاية المطاف.

من الواضح ، تجاريا وبيئيا ، أن حجم نموذج المنافسة غير مستدام.

لقد ولى عصر البحث الأعمى عن العظمة.

السؤال هو ، كيف "تخفيف عبء" النموذج الكبير؟

في الواقع ، يقوم المصنعون الرئيسيون للنماذج الكبيرة العامة بتنفيذ حملة "تخسيس التكلفة" بنشاط.

على سبيل المثال ، أعلنت Microsoft في Microsoft Build 2020 أن الكمبيوتر العملاق الذكاء الاصطناعي للحوسبة الفائقة الذي يشغل GPT-3 يمكن أن يجعل نماذج الذكاء الاصطناعي أكثر كفاءة 16 مرة من الأنظمة الأساسية الأخرى ، ويمكن أن يقلل التدريب الأسرع من تكاليف الوقت والمخاطر.

النماذج الكبيرة المحلية ليست استثناء.

في وقت مبكر من الإصدار 2.0 ، حاول نموذج Pangu الكبير اعتماد بنية متفرقة + كثيفة لتقليل تكلفة التدريب. بعد شهر واحد من إطلاقه ، قام Wenxin Yiyan أيضا بتحسين أداء الاستدلال للنموذج الكبير بنحو 10 مرات من خلال الوسائل التقنية ، وتم تخفيض تكلفة الاستدلال إلى عشر التكلفة الأصلية.

لتجنب الانتفاخ والثقيل ، من الضروري أن تصبح أداة يمكن للجميع استخدامها ، و "حركة التخسيس التكلفة" للنماذج الكبيرة. كيف؟ هذه المادة سوف نتحدث عن هذه المسألة.

** لدغة واحدة لا يمكن أن تجعل الرجل السمين **

ما هي تكاليف النماذج الكبيرة التي يمكن تحسينها ، وما هي التكاليف التي لا يمكن تخفيضها ، وما هي التكاليف التي تحتاج إلى مزيد من الاستثمار؟ قبل معرفة ذلك ، عليك أولا معرفة كيفية الحصول على الدهون. من أجل ضمان الأداء وتجربة المستخدم (الصحة) للنموذج الكبير ، يمكن تنفيذ "خفض التكلفة" بشكل معقول ودقيق.

ببساطة ، لا تزال العناصر الثلاثة الذكاء الاصطناعي - البيانات وقوة الحوسبة والخوارزميات - هي العوامل الأكثر أهمية في تحديد تكلفة النماذج الكبيرة.

لنبدأ بالبيانات. ** القمامة في ، القمامة خارج ، لا تزال قابلة للتطبيق في عصر النماذج الكبيرة.

تحدد جودة البيانات مباشرة قدرات النموذج الكبير. قامت OpenAI بتوظيف عدد من حملة الدكتوراه لمعالجة البيانات المهنية في مختلف الصناعات ، واستأجرت عددا من شركات التعليقات التوضيحية للبيانات مثل شركة Scale الذكاء الاصطناعي يونيكورن لتغذية GPT-3 بمجموعات بيانات واسعة النطاق. في الوقت نفسه ، سيستمر ترقية نموذج الخوارزمية بشكل متكرر ، وسيستمر الطلب على حجم البيانات لفترة قصيرة مع زيادة الاستخدام وتحسين الأداء.

أحد الأسباب الرئيسية لارتفاع تكلفة النماذج الصينية الكبيرة هو أنه لا تزال هناك فجوة بين كمية ونوعية البيانات الصينية واللغة الإنجليزية ، ويجب جمع المزيد من بيانات اللغة الصينية ومعالجتها لتدريب النماذج الصينية الكبيرة. من ناحية أخرى ، فإن البنية النحوية الإنجليزية أبسط من الصينية ، وتعقيد وتنوع النصوص الصينية ، ويمكن لبعض الكلمات الصينية التعبير عن مجموعة متنوعة من المعاني ، والسياق الغني ، والعديد من الغموض والصعوبات في فهم السياق ، مما يزيد أيضا من صعوبة تدريب النماذج الصينية ، ويتطلب موارد إضافية لدعم تدريب النماذج الصينية الكبيرة.

دعونا نتحدث عن قوة الحوسبة. **

يجب حساب الموارد وتخزينها طوال فترة التدريب والتشغيل والخدمة وتكرار النماذج الكبيرة.

يركز تدريب النماذج الكبيرة على "الجماليات العنيفة" ، وكلما كانت المعلمات أكبر ، يتم استخدام المزيد من موارد الحوسبة للتدريب. يستخدم GPT-3 حاسوبا عملاقا يحتوي على 10000 وحدة معالجة رسومات و 285000 نواة معالج. يتم تدريب Wenxin 4.0 المحلي أيضا في مجموعة Vanka بناء على منصة التجديف.

وهذا ليس كل شيء. تتعرض النماذج الكبيرة للخدمات بعد النشر، ومع زيادة الاستخدام، يجب إكمال المزيد والمزيد من مهام الاستدلال. كما ستستمر عملية التفكير في "التفكير" و "المخرجات" في 24 ساعة في استهلاك موارد الحوسبة ، تماما كما يحتاج الدماغ البشري إلى استهلاك الجليكوجين عند التعامل مع عدد كبير من المهام المعقدة ، ومن السهل الشعور بالجوع والاضطرار إلى تناول وجبة كبيرة لتجديد الطاقة. لذلك ، فإن تكلفة الاستدلال للنماذج الكبيرة مرتفعة جدا أيضا.

يتطلب الاستدلال على GPT-3 بعد نشر 175B ما لا يقل عن خمس وحدات معالجة رسومات A100 ، ويقال إن النماذج الكبيرة المفتوحة للمجتمع بأسره في الصين ، مثل Wenxin Yiyan ، لديها 8-10 أضعاف تكلفة الاستدلال مثل الجيل السابق.

أخيرا ، دعنا نتحدث عن الخوارزمية. **

لتقليل الاعتماد الهائل للنماذج الكبيرة على موارد الحوسبة ، يتمثل الحل السائد في تحسين النموذج ، على أساس الأداء غير المتغير ، مع سرعة استدلال أسرع ، وزمن انتقال أصغر ، ومتطلبات موارد أقل ، وهو ما يعادل نسبة مدخلات ومخرجات أعلى لعائد الاستثمار ، وتكلفة الوحدة لموارد الحوسبة المطلوبة للتدريب والاستدلال أقل.

هناك الكثير من العمل بقدر ما يوجد ذكاء ، ومن المستحيل صنع نموذج كبير يمكن لعبه حقا بدون مواهب. يتطلب تطوير الخوارزمية والاختبار والتكرار والإنتاج وما إلى ذلك عددا كبيرا من المواهب التقنية. يعتمد ما إذا كانت تكلفة العمالة مرتفعة أم لا على ما إذا كان نموذج العمل للنموذج الكبير قويا.

فريق المواهب الحاصل على مؤهلات أكاديمية كاملة تنافسي للغاية في مرحلة البحث والتطوير. السؤال هو ، كيف تكسب المال؟ مكالمات API أو رسوم الاستخدام ، الرمز المميز أقل من سنت واحد ، وقد يكون عائد الاستثمار بعيدا ؛ الاشتراك المدفوع (الإصدار الاحترافي) ، النموذج الكبير للرأس له تأثير سيفون ، سيختار الجميع OpenAI أو BATH والشركات المصنعة الكبيرة الأخرى ، سواء كان يمكن قبول نموذجهم الكبير من قبل المستخدمين وعلى استعداد للدفع ، غير معروف ؛ لتخصيص التطوير لعملاء الصناعة ، يجب أن يكون لدى ToB فهم متعمق للصناعة والبحث والتطوير والاختبار والتكرار ، بحيث يمكن لمهندسي الخوارزميات الذين يتقاضون راتبا سنويا يبلغ عشرات الملايين البقاء في موقع البناء لبضعة أشهر ، ويقدر هامش الربح الإجمالي للمشروع ليس جيدا جدا.

لذلك ، فإن ما إذا كان النموذج الكبير يمكن أن ينجح لا يعتمد فقط على قدرة الخوارزمية نفسها ، ولكن أيضا على ما إذا كانت دورة الأعمال من التطوير إلى التنفيذ مستدامة.

أغلق فمك وافتح ساقيك

إذا قارنا تكلفة النموذج الكبير بالشخص الذي يريد أن يفقد الدهون الزائدة ، فيمكن تقسيم هذا الهدف إلى طريقتين أساسيتين:

الأول هو خلق "فرق حراري". هو إبقاء فمك مغلقا وفتح ساقيك ، والتحكم في الاستثمار ، وطرح التكاليف الزائدة ، وتسريع التسويق وزيادة الدخل ، وفقدان الوزن بشكل طبيعي.

والثاني هو أن تصبح "من السهل إنقاص الوزن". فهم كامل لآلية النماذج الكبيرة ، واستخدام بنية جديدة لحل مشكلة آلية انتباه المحولات ، والحصول على اللياقة البدنية "بغض النظر عن كيفية تناول الطعام ، لا يمكنك الحصول على الدهون".

ألا يبدو هذا أن الثانية مغرية للغاية؟

لا يتعين عليك التحكم في التكاليف ، وجذب المستخدمين ، وتخصيص الخدمات ، والاستلقاء بسهولة لكسب المال ، وهذا النوع من الأشياء الجيدة؟ حقا.

في الوقت الحاضر ، تستخدم جميع نماذج اللغات الكبيرة بنية المحولات ، والتي يصعب معالجتها النصوص الطويلة والصور عالية الدقة ، ويعتمد التفكير المنطقي والاستقراء المعرفي على "إنتاج المعجزات بقوة" ، وهو أمر مكلف. لا تزال العديد من المبادئ الأساسية غير واضحة ، مما يؤدي إلى العديد من المشاكل القائمة ، مثل توليد "الهلوسة" والقدرة المحدودة على التفكير.

انتقد يان ليكون الحائز على جائزة تورينج النموذج التقني لنماذج اللغات الكبيرة أكثر من مرة ، قائلا إن "LLMs لديها فهم سطحي للغاية للعالم" ، ويريد بناء "نموذج عالمي" لمعرفة كيفية عمل العالم ، ثم تشكيل نموذج داخلي ، ثم استخدام هذا النموذج الداخلي لإنجاز مهام مختلفة. بالإضافة إلى ذلك ، هناك العديد من العلماء الذين يناقشون الذكاء العام ل AGI من مجالات أبحاثهم.

باختصار ، العديد من مبادئ نماذج اللغة الكبيرة الحالية غير واضحة ، ولا تزال التكنولوجيا تتغير. في المستقبل ، قد تظهر نماذج تكنولوجية أخرى لتخريب النموذج الحالي للسعي الأعمى إلى أن يكون أكبر ، ومن ثم قد لا تكون هناك حاجة للتكاليف الباهظة و "التخسيس" المؤلم.

ربما تكون قد اكتشفت أن البحث في المبادئ الأساسية وإيجاد تقنية AGI أكثر قوة يبدو رائعا ، لكنه في الحقيقة ليس خط نتيجة ، ولا يوجد جدول زمني واضح حتى الآن. النموذج التقني لهذه الجولة من نماذج اللغات الكبيرة ممكن في الممارسة الهندسية ، ويمكن أن يعمل في الصناعة ، وله تأثير واضح في تحسين الجودة والكفاءة. استخدامه أولا واستيعاب الحاضر هو الأولوية القصوى لشركات التكنولوجيا.

لذلك ، لا يمكن للمؤسسات النموذجية واسعة النطاق إلا أن تبقي أفواهها مغلقة ، وتفتح أرجلها ، وتتحكم في التكاليف في أسرع وقت ممكن ، وتسريع التسويق ، وتخلق "فرقا في السعرات الحرارية" من أجل التنمية الحميدة والمستدامة.

** أربع حركات تحديث لخلق "فرق السعرات الحرارية" **

إذن ، كيف يمكنك بالضبط إنشاء "فرق حراري"؟ ** استنادا إلى الأساليب السائدة حاليا في السوق ، فإننا نلخصها على أنها "حركة التحديث الأربعة": مقياس البيانات ، وضغط النموذج ، وكفاءة الحوسبة ، والتقسيم الطبقي للأعمال. **

مقياس البيانات هو تحسين الفائدة الحدية للبيانات والحصول على أفضل أداء من حيث التكلفة من خلال تأثير المقياس. يتم تحقيق تأثير النطاق بشكل أساسي من خلال ثلاث طرق ، إحداها هي مقياس التركيز الصناعي ، وقد اقترح المستوى الوطني بوضوح "تسريع زراعة سوق عناصر البيانات" ، بما في ذلك إنتاج البيانات وجمعها وتخزينها ومعالجتها وتحليلها وخدمتها وغيرها من الروابط ، سيساعد التصنيع على تقليل تكلفة البيانات للمؤسسات النموذجية الكبيرة. والثاني هو تطبيق أدوات الذكاء الاصطناعي ، مما يقلل من المشاركة اليدوية في جميع جوانب هندسة البيانات ، ويسرع معالجة البيانات المدربة مسبقا ، ويقلل التكاليف ويحسن كفاءة التدريب النموذجي. والثالث هو مقياس بيانات التغذية الراجعة. من المتوقع أن تصل بعض النماذج الكبيرة التي فتحت خدماتها للمجتمع بأسره في وقت سابق ، مثل Baidu Wenxin Yiyan ، و "SenseChat" من SenseTime ، و "Baichuan Model" من Baichuan Intelligence ، و "Spark Model" من iFLYTEK ، وما إلى ذلك ، إلى مقياس البيانات الأمثل مع الفوائد الهامشية بشكل أسرع.

هناك فائدة هامشية للبيانات. يسمح OpenAl بالفعل للمستخدمين بتحديد ما إذا كانوا سيسمحون لهم باستخدام بيانات الدردشة للتدريب ، مما يعني أنه لم يعد بإمكانهم الاعتماد على بيانات تعليقات المستخدمين ، وبالتالي يمكن التحكم في تكلفة تخزين البيانات وحسابها.

ضغط النموذج هو تحسين أداء النموذج ، وتحقيق أداء أعلى بموارد أقل ، وتحويل النموذج الكبير كثيف الاستخدام للموارد إلى إصدار أكثر إحكاما وكفاءة من خلال تقنية الضغط. على غرار تحويل الدهون إلى عضلات ، تكون العضلات أكثر كثافة ويظل الوزن (الأداء) كما هو ، بينما يصبح الشخص أرق (أصغر).

في الوقت الحاضر ، هناك ثلاث طرق شائعة لضغط النموذج الكبير: القياس الكمي والتقليم وتقطير المعرفة. **

القياس الكمي ، أي ما يعادل شفط الدهون ، بسيط وخام ولكنه فعال. كلما زادت دقة النموذج ، زادت مساحة التخزين المطلوبة. ومع ذلك ، في الاستدلال ، ليس من الضروري التقاط تغييرات تدرج صغيرة جدا في النماذج المعقدة ، لذلك يمكن أن يقلل التكميم بشكل مباشر من دقة المعلمات للنموذج و "استخراج" بعض المعلومات التفصيلية ، وبالتالي تقليل المساحة المشغولة وعدم تقليل القدرة على الاستدلال. على سبيل المثال ، تستخدم Qualcomm الذكاء الاصطناعي Research تقنية التكميم للحفاظ على دقة النموذج عند مستوى أقل من الدقة ، وقد نشرت الانتشار المستقر على الهواتف الذكية التي تعمل بنظام Android لأول مرة. كما تم تطبيق التكنولوجيا الكمية في النماذج المحلية الكبيرة مثل Wenxin و Pangu.

التقليم ، على غرار "الاستئصال" ، يطرح مباشرة بعض الفروع الجانبية التي لها تأثير ضئيل على التأثير ، مثل عدد كبير من الهياكل والخلايا العصبية الزائدة عن الحاجة ، ويتم إزالة هذه الأوزان الأصغر ، والتي لها تأثير ضئيل على تأثير النموذج ويقلل من حجم النموذج. بالطبع ، التقليم هو "وظيفة حرفية" ، وكلما كان التقليم أكثر دقة ، قل فقدان الدقة للنموذج ، وكان تأثير الضغط أفضل.

تقطير المعرفة هو السماح للنموذج الكبير "ساونا" ، ويتم تقطير نموذج 100 مليار في مسار واحد لإنتاج عدة نماذج صغيرة ذات أداء مماثل وهيكل أبسط ، وتكلفة الهبوط أقل. يكمن التحدي في أن التقطير النموذجي بمقياس 100 مليار يستهلك أيضا موارد حوسبة عالية للغاية ، وفجوة حجم البيانات من 100 مليار إلى عشرات الملايين كبيرة جدا ، مما يسهل التأثير على تأثير التقطير. التقطير غير المدمر هو أحد نقاط المنافسة الفنية لكبرى الشركات المصنعة.

نظرا لأن تقنية ضغط النموذج تستهلك أيضا موارد الحوسبة ، فمن المهم بشكل خاص تحسين كفاءة الحوسبة للبنية التحتية للحوسبة.

كفاءة الحوسبة هي فرضية الشركات المصنعة للنماذج الكبيرة لتقديم خدمات نموذجية بكفاءة أعلى.

أداء الرقائق ومجموعات الحوسبة هو محور البحث والتحسين. قامت Microsoft Cloud Azure ببناء كمبيوتر عملاق للحوسبة الذكاء الاصطناعي خصيصا ل OpenAI. تمتلك الشركات المصنعة المحلية ، مثل Baidu و Huawei ، رقائق مطورة ذاتيا وأطر عمل للتعلم العميق ، والتي يمكن أن تحسن كفاءة الحوسبة من خلال التحسين الشامل ، وتحسين سرعة التدريب وسرعة الاستدلال للنماذج الكبيرة ، وتقليل وقت التدريب وتكاليفه.

ومع ذلك ، بالنسبة للنماذج الكبيرة غير العامة مثل نماذج الصناعة ونماذج الصناعة ، فإن تأثير النطاق وتقنية تحسين الأجهزة محدودة ، وتكلفة بناء البنية التحتية وصيانتها بنفسك مرتفعة للغاية ، لذا فإن استخدام الخدمات السحابية لتدريب الخدمات ونشرها هو خيار أكثر فعالية من حيث التكلفة.

في التحليل النهائي ، تحتاج النماذج الكبيرة إلى زيادة الإيرادات التجارية لتحقيق الغرض من تحسين عائد الاستثمار واسترداد التكاليف. في الوقت الحاضر ، يعكس تسويق النماذج الكبيرة المختلفة خصائص هرمية واضحة.

ببساطة ، إنه نموذج كبير بأحجام مختلفة ووظائف مختلفة واتجاهات مختلفة ، وقد بدأ مسار التسويق واضحا.

يعتمد النموذج العام على وفورات الحجم والأسواق عالية القيمة. لدى OpenAI عدد كبير من المستخدمين ، وتطوير اقتصاد API له تأثير واسع النطاق ، ويمكن مشاركة الاستثمار المسبق بالتساوي مع نمو حجم الأعمال. تمتلك BATH (Baidu و Alibaba و Tencent و Huawei) وغيرها أعمالها السحابية الخاصة بها وتراكمت لديها خبرة غنية في خدمات الصناعة ، وخاصة قدرات وصول العملاء للحكومات والمؤسسات الكبيرة مثل التمويل والتعدين والشؤون الحكومية ، ولديها إمكانات كبيرة للتحول التجاري. تعزز المتطلبات العالية لعملاء ToB تحسين تجربة النموذج وتأثيره ، ويمكن أيضا أن تخدم سوق ToC وتستهلك التكاليف بشكل أكبر من خلال الحجم.

يقيد نموذج الصناعة الكبيرة بنشاط حدود المنتج والأعمال ، ويركز على الأعمال والوظائف الأساسية ، ويطور نماذج صغيرة متخصصة بموارد أقل ، وذلك لتحقيق توازن جيد في عائد الاستثمار بين الاستثمار والتسويق. على سبيل المثال ، في المجال المالي ، أدرجت "Xuanyuan 70B" من Du Xiaoman عددا كبيرا من الأدوات المالية المهنية لتحسين فهم المعرفة المالية ، وتلبية المتطلبات الخاصة للعملاء الماليين من حيث القدرة على التحكم والأمن ، وتم تقديمها للتجربة من قبل مئات المؤسسات المالية.

بشكل عام ، النموذج الكبير ليس فقط طريقا عالميا ومعمما ، ولكن أيضا الخصخصة والنشر الشخصي لآلاف الصناعات ستنتج عوامل صنع القرار مثل السعر والخصوصية والأمن ، كما أنها تجلب عددا كبيرا من فرص عمل التجزئة. النموذج الكبير العام ، والنموذج الكبير للصناعة ، والنموذج الصغير الخاص ، والجهود الهرمية + المشتركة تفتح الطريق أمام التسويق. يختبر الانسجام والاختلاف حكمة كل دور في السلسلة الصناعية.

للحصول على خدمات طويلة الأجل ومستدامة ، من الضروري إبقاء فمك مغلقا وفتح ساقيك ، و "خفض التكلفة" للنموذج الكبير هو الطريقة الوحيدة.

قد تكون هذه العملية مؤلمة ، لكنها ستكثف خندقا لحماية التطور الصحي للصناعة بأكملها.

في 40 من القرن 20 ، عندما ولدت أجهزة الكمبيوتر للتو ، اندهش الناس من الجسم الضخم لهذا "الوحش الآلي" ، ولكن بعد ذلك بدأت قفزة عصر المعلومات. عندما ولدت الهواتف الذكية لأول مرة ، كان مصنعو الهواتف المميزة ساخرين للغاية حيال ذلك ، لكنهم لم يتوقعوا أن هذا النوع من الاتصال الشامل ، حيث يمكن للجميع الوصول إلى الإنترنت ، قد عزز ازدهار الإنترنت عبر الهاتف المحمول.

مع تحسن النماذج الكبيرة وانخفاضها ، لن يكون "الذكاء الاصطناعي للجميع" حلما بعيد المنال.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • مشاركة
تعليق
0/400
لا توجد تعليقات
  • تثبيت