كم عدد الخطوات التي يستغرقها تحميل الطراز الكبير في الهاتف المحمول؟

المصدر الأصلي: Light Cone Intelligence

مصدر الصورة: تم إنشاؤه بواسطة Unbounded AI‌

النموذج الكبير "يعمل" في الهاتف المحمول ، وتم حرق معركة الذكاء الاصطناعي من "السحابة" إلى "المحطة المتنقلة".

"في عصر الذكاء الاصطناعي ، سيساعد نموذج Pangu من Huawei بيئة Hongmeng." في 4 أغسطس ، قدم Yu Chengdong ، المدير التنفيذي لشركة Huawei ، والرئيس التنفيذي لشركة Terminal BG ، والرئيس التنفيذي لشركة حلول السيارات الذكية BU ، ذلك من خلال التكنولوجيا الأساسية لشركة Pangu الطراز ، Harmony OS يأتي هنا الجيل التالي من أنظمة تشغيل المحطة الطرفية الذكية.

استخدام الموديلات الكبيرة على الهواتف المحمولة ليس بالأمر الجديد ، ففي السابق ، كانت التطبيقات والتطبيقات الصغيرة مثل ChatGPT و Wenxin Yiyan و Miaoya تستخدم جميعها قوة الحوسبة السحابية لتلبية احتياجات تطبيقات الذكاء الاصطناعي على محطات الهاتف المحمول.

** الخطوة التالية هي السماح للنموذج الكبير بالعمل مباشرة على الهاتف المحمول. **

منذ أبريل ومايو من هذا العام ، قام عمالقة التكنولوجيا الأمريكية الثلاثة - Qualcomm و Microsoft و Nvidia ، نجم الذكاء الاصطناعي الأكثر لفتًا للنظر OpenAI ، والفريق الرئيسي للذكاء الاصطناعي المحلي Tencent و Baidu وما إلى ذلك ، بتسريع عملهم الجهود المبذولة في المحطات المتنقلة نشر خفيف الوزن لنماذج الذكاء الاصطناعي الكبيرة. أعلنت شركة Qualcomm أنها تتحول تدريجياً إلى شركة حوسبة ذكية (تقدم خدمات الحوسبة في مصادر البيانات مثل المحطات الطرفية المتنقلة).

في ظل الدفع القوي للعمالقة ، أصبح اتجاه الصناعة للنماذج واسعة النطاق التي تنتقل من السحابة إلى النهاية واضحًا جدًا.

لماذا يجب أن "يعمل" الطراز الكبير على الهاتف المحمول؟

أكبر ميزة للنموذج الكبير هي "كبير" ، مع عشرات المليارات من المليارات أو حتى تريليونات من المعلمات ، ومن أجل تشغيل النموذج الكبير بشكل أفضل ، تمت ترقية مجموعة طاقة الحوسبة إلى مستوى "عشرة آلاف بطاقة". الآن ، لماذا يتعين عليك "حشو" نموذج كبير في هاتف محمول صغير بحجم راحة اليد؟

يجلب النموذج الكبير بعض التحسينات التجريبية لمستخدمي الهاتف المحمول. على سبيل المثال ، لا يمكن لـ Xiaoyi ، المساعد الذكي لمحطة Huawei ، أن يوصي بالمطاعم بناءً على المطالبات الصوتية فحسب ، بل يمكنه أيضًا إجراء معالجة المعلومات مثل التلخيص واسترجاع المعلومات والترجمة متعددة اللغات.يمكن معالجة نص إنجليزي طويل يحتوي على آلاف الكلمات بواسطة الهاتف المحمول مساعد ذكي بقدرات نموذج واسع النطاق. يتم إنشاء ملخص يمكن ترجمته أيضًا إلى اللغة الصينية. خاصة أن النقطة الأخيرة ، في عصر انفجار المعلومات ، لا تزال ذات قيمة كبيرة لتحسين كفاءة التعلم والعمل.

** أوضح جيا يونغلي ، رئيس إدارة الأعمال الطرفية BG AI و Intelligent All-Scenario Business في Huawei ، أن نموذج اللغة الكبير لديه القدرة على التعميم ، مما يساعد المساعدين الأذكياء للهواتف المحمولة على تحسين فهمهم. من ناحية أخرى ، يمكن لإمكانية المكون الإضافي للنموذج الإضافي الكبير اختراق الحواجز بين التطبيقات في الهاتف المحمول وتوسيع الإمكانات بمساعدة الأدوات. **

بالإضافة إلى ذلك ، كانت تطبيقات AIGC مثل ChatGPT مصحوبة دائمًا بنزاعات قوية تتعلق بالخصوصية والأمن ، ولكن إذا تم تشغيلها بالكامل من الجانب النهائي ، فيمكن تجنب هذه المشكلة تمامًا. نظرًا لأن النموذج الكبير يعمل على الجانب النهائي ، فلن تترك البيانات الجانب النهائي. علاوة على ذلك ، ستكون سرعة الاستجابة أسرع.

** من ناحية أخرى ، فإن الطلب على الطرز الكبيرة للمحطات الطرفية المتنقلة مثل الهواتف المحمولة أمر ملح للغاية بالفعل. **

الاتجاه المضطرب للنماذج الكبيرة يجعل السحابة أكثر فأكثر غير قادرة على تحمل الطلب على قوة الحوسبة وحدها. قال أليكس كاتوزيان ، نائب رئيس شركة كوالكوم ، مؤخرًا بصراحة: "مع تسارع نمو الأجهزة المتصلة وحركة البيانات ، وارتفاع تكلفة مراكز البيانات المتراكبة ، من المستحيل (بالنسبة لنا) إرسال كل المحتوى إلى السحابة".

بدون احتساب الكمية الكبيرة من الموارد مثل النطاق الترددي للشبكة والتخزين والأجهزة التي يستهلكها نقل البيانات ، فإن قوة الحوسبة في السحابة وحدها قد جعلت الشركات المصنعة ذات الصلة غارقة. ChatGPT في مرحلة الاستدلال فقط ، ويقدر بشكل متحفظ أن تكلفة طاقة الحوسبة الشهرية تبلغ حوالي 10 ملايين دولار أمريكي.

المشكلة الأكبر ليست "باهظة الثمن" بل "نقص".

في السابق ، حتى Sam Altaman ، مؤسس OpenAI ، كشف عن وجود نقص في وحدات معالجة الرسومات ، بل إنه قال بصراحة إنه لا يريد الكثير من الأشخاص لاستخدام ChatGPT. في الآونة الأخيرة ، يتوقع بعض المطلعين أن سعة مجموعات H100 واسعة النطاق لموفري السحابة الصغيرة والكبيرة على وشك النفاد ، وسيستمر اتجاه الطلب على H100 حتى نهاية عام 2024 على الأقل. لا تزال الطاقة الإنتاجية الحالية لـ Nvidia H100 مقيدة بشدة بسلسلة التوريد.

لذلك ، فإن السحابة والمحطة يشكلان تعاونًا ، ويتم استخدام موارد طاقة الحوسبة الخاملة للهواتف المحمولة والمحطات الطرفية الأخرى لحل عدم التوافق بين قوة الحوسبة "المركزية" والطلب "الموزع".. والأهم من ذلك ، بالمقارنة مع عدد محدود من العقد المركزية ، أن العديد من المحطات الطرفية المتنقلة يمكن أن تسمى "الشعيرات الدموية" التي تمس آلاف السيناريوهات ، والتي تحدد أن هذا الإدخال سيكون مفتاحًا لتسريع اختراق التطبيقات للنماذج الكبيرة.

كيف "جيب" النموذج الكبير؟

"مقارنة بأجهزة الكمبيوتر أو الخوادم التقليدية ، فإن التحدي الأكبر للأجهزة المحمولة هو كيفية تحقيق التوازن بين الخبرة واستهلاك الطاقة. هذه واحدة من أهم النقاط الأساسية لتصميم Hongmeng الأساسي." Gong Ti ، رئيس قسم برامج الأعمال الطرفية في Huawei ، أكد.

يتطلب النموذج الكبير الكثير من موارد الحوسبة وموارد التخزين ، لا سيما استنادًا إلى تكوين أجهزة الهاتف المحمول الحالي ، الأمر الذي يتطلب تنسيق نظام البرنامج لتحسين الكفاءة وتقليل استهلاك الطاقة.

في الوقت الحالي ، من أجل تحسين أداء الهواتف المحمولة ، يجب تنسيق 8 نوى على الأقل من خلال نظام الهاتف المحمول ، وستستهلك هذه العملية قدرًا كبيرًا من طاقة الحوسبة. إذا تم اعتماد جدولة موارد غير متجانسة ، فيمكن تنسيق CPU و GPU و NPU بكفاءة. وفقًا لـ Gong Ti ، يمكن زيادة كفاءة الجدولة بأكثر من 60٪.

يمكن لنظام الهاتف المحمول إجراء العمليات الحسابية ، وتسمى أصغر وحدة جدولة مؤشر ترابط. في نظام التشغيل التقليدي ، يتم تشغيل عشرات الآلاف من سلاسل الرسائل في نفس الوقت ، وسيكون هناك عدد كبير من سلاسل الرسائل غير الصالحة. في ضوء ذلك ، يمكن استخدام نموذج التزامن أخف للتعامل مع العمليات المتزامنة وتقليل استهلاك طاقة الحوسبة عن طريق تبديل مؤشر الترابط غير الصحيح. وفقًا لـ Gong Ti ، يمكن لنموذج التزامن توفير 50٪ من نفقات تبديل المهام.

بالإضافة إلى ذلك ، فيما يتعلق بجدولة المهام في نظام التشغيل ، يعد هذا أيضًا العنصر الأساسي الذي يؤثر على التجربة السلسة. مقارنةً بالجدولة العادلة ، ستؤدي جدولة الأولوية الديناميكية إلى تقليل استهلاك الطاقة بشكل كبير. يشبه جدولة الأولوية الديناميكية نظام النقل الذكي ، والذي يمكنه تعديل حالة الإضاءة لإشارات المرور بشكل ديناميكي وفقًا لظروف الطريق وتدفق حركة المرور والازدحام والتأخير.

ومع ذلك ، لكي يتم نشر النموذج الكبير على الهاتف المحمول ولا يزال يعمل ، لا يكفي ترقية نظام تشغيل الهاتف المحمول وتحسينه.

نظرًا لأن تنبؤات النماذج الكبيرة أصبحت أكثر دقة وأصبحت الشبكات أعمق ، أصبحت سعة الذاكرة التي تستهلكها الشبكات العصبية مشكلة أساسية. في الوقت نفسه ، يتضمن أيضًا مشكلة عرض النطاق الترددي للذاكرة ، فعند تشغيل الشبكة ، سيتم استهلاك الذاكرة ووحدة المعالجة المركزية والبطارية بسرعة ، وهذا بالتأكيد عبء لا يطاق على الهواتف المحمولة الحالية.

** لذلك ، قبل الانتشار في الهاتف المحمول ، يجب ضغط النموذج الكبير لتقليل الطلب على قوة الحوسبة الاستدلالية. ومع ذلك ، من المهم التأكد من عدم تغيير الأداء الأصلي والدقة بشكل أساسي. **

التكميم هو عملية ضغط شائعة ومهمة ، والتي يمكن أن تقلل من مساحة الذاكرة التي يشغلها النموذج وتحسن أداء الاستدلال. في جوهرها ، هو تحويل نموذج تشغيل الفاصلة العائمة إلى نموذج تشغيل عدد صحيح ، لأن العملية الصحيحة لها دقة أعلى وسرعة تشغيل أسرع من عملية الفاصلة العائمة.

في الوقت الحاضر ، تعمل التكنولوجيا الكمية أيضًا على تسريع الاختراقات. يستخدم النموذج الذي تم تدريبه على الخادم بشكل عام حساب الفاصلة العائمة 32 بت (FP32). على جانب الهاتف المحمول ، قامت Qualcomm بقياس وضغط نموذج FP32 إلى نموذج INT4 ، وتحقيق 64 ذاكرة وتحسين كفاءة الطاقة الحاسوبية. تُظهر بيانات تنفيذ Qualcomm أنه بعد استخدام تدريب Qualcomm على الإدراك الكمي ، يمكن تقسيم العديد من نماذج AIGC إلى نماذج INT4. وبالمقارنة مع INT8 ، تم تحسين الأداء بنحو 90٪ ، وتحسين كفاءة الطاقة بنحو 60٪.

تعد تقنية ضغط النماذج الكبيرة بلا شك العامل الرئيسي لعمالقة الذكاء الاصطناعي للفوز في ساحة المعركة الطرفية المتنقلة. وهذا يفسر أيضًا إلى حد ما لماذا استحوذت Nvidia "بهدوء" على OmniML ، وهي شركة ذكاء اصطناعي ناشئة تتقن تقنية ضغط النماذج الكبيرة ، في فبراير من هذا العام.

يجبر النموذج الكبير على ترقية الأجهزة الطرفية

"هذا العام سنكون قادرين على دعم نموذج ذكاء اصطناعي توليدي مع 10 مليار معلمة تعمل على الهاتف المحمول." قال زياد أصغر ، نائب الرئيس الأول لإدارة المنتجات ورئيس الذكاء الاصطناعي في كوالكوم ، مؤخرًا أن نموذجًا يتراوح بين 10 مليارات إلى 15 مليار معلمة يمكن أن تغطي معظم البيانات معظم حالات استخدام AIGC. إذا كان بإمكان الجهاز الطرفي دعم مستوى المعلمة هذا بالفعل ، يمكن إجراء جميع العمليات الحسابية على الجهاز ، وسيصبح الهاتف المحمول مساعدًا شخصيًا حقيقيًا.

ومع ذلك ، يمكن للجيل الحالي من رقائق الهاتف المحمول الرئيسية أن يحمل ويشغل نموذجًا كبيرًا بمستوى معلمة يبلغ مليار. نجحت شركة Qualcomm في عرض نموذج كبير يعمل على نظام Android في CVPR ، وهو المؤتمر الأكاديمي الأعلى لرؤية الكمبيوتر في شهر يونيو من هذا العام عام ، ولكن فقط 1.5 مليار. المعلمة.

لقد قفزت المعلمات ما يقرب من عشر مرات ، والنموذج الكبير المتجه إلى محطة الهاتف المحمول قد صعد بالفعل على "المسرع" ، لذلك يجب ترقية الهاتف المحمول للتعامل معه.

** تحتاج أجهزة الهاتف المحمول بشكل عاجل إلى ابتكارات في مسرعات الذكاء الاصطناعي والذاكرة. **

أولاً ، تتطلب النماذج الكبيرة ذات المعلمات الأكبر ذاكرة ومساحة تخزين أكبر لتخزين معلمات النموذج والنتائج الوسيطة. يتطلب ذلك ترقية سعة شريحة ذاكرة المحطة الطرفية وعرض النطاق الترددي لواجهة الذاكرة.

ثانيًا ، تتطلب المعلمات الأكبر حتمًا قدرات حوسبة وتفكير أكثر قوة لمعالجة بيانات الإدخال ونتائج المخرجات.

على الرغم من أن مسرعات الذكاء الاصطناعي (مثل NPU IPs المختلفة) على شرائح الهاتف المحمول تكاد تكون قياسية ، إلا أن التصميم أساسًا للجيل السابق من تصميم الشبكة العصبية التلافيفية ، وليس تمامًا للنماذج الكبيرة.

من أجل التكيف مع النماذج الكبيرة ، يجب أن تتمتع مسرعات الذكاء الاصطناعي بنطاق ترددي أكبر للوصول إلى الذاكرة وتقليل زمن الوصول إلى الذاكرة. يتطلب هذا بعض التغييرات في واجهة مسرع الذكاء الاصطناعي (مثل تخصيص المزيد من المسامير لواجهة الذاكرة) ، ويتطلب أيضًا تغييرات مقابلة في ربط البيانات على الشريحة لتلبية متطلبات الوصول إلى الذاكرة لمسرع الذكاء الاصطناعي.

أحد الأسباب المهمة التي تجعل شركة Qualcomm تستدعي "تشغيل الهواتف المحمولة مع 10 مليار معلمة خلال العام" هو أنها تحتوي على معالج Snapdragon 8 من الجيل الثاني والمجهز بأسرع محرك ذكاء اصطناعي وأكثر تقدمًا في تاريخ Qualcomm. مع المعالج الجديد ، تم زيادة أداء الذكاء الاصطناعي بمقدار 4.35 مرة ، وزادت كفاءة الطاقة بنسبة 60٪.

** بالطبع ، حتى في السحابة ، يحتاج تدريب نماذج المعلمات فائقة الحجم ومنطقها إلى اختراق خمسة جدران: جدار الذاكرة + جدار طاقة الحوسبة + جدار الاتصالات + جدار التوليف + جدار النشر ، ويجب أن تقوم الهواتف المحمولة بذلك اختراق طبقة تلو الأخرى. **

ومع ذلك ، من "الذكاء" إلى "الذكاء الاصطناعي" للهواتف المحمولة ، فإن الفرص تفوق التحديات.

"إن تأثير دورة الابتكار على الإلكترونيات الاستهلاكية أكثر أهمية ، ويمكنها أيضًا أن تقود الصناعة إلى الخروج من تأثير الدورة الاقتصادية." وقد رأى الرئيس التنفيذي لشركة Glory Terminal ، تشاو مينغ ، أن صناعة الهواتف الذكية الحالية في جولة جديدة من دورة الابتكار بدأ بواسطة AI و 5G +.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • مشاركة
تعليق
0/400
لا توجد تعليقات
  • تثبيت