في 7 أغسطس ، أصدرت شركة محلية أخرى ناشئة في مجال الذكاء الاصطناعي نموذجًا تجاريًا مفتوح المصدر ومجانيًا للذكاء الاصطناعي: XVERSE-13B. تأسست الشركة المسماة Yuanxiang XVERSE من قبل Yao Xing ، نائب الرئيس السابق لشركة Tencent ومؤسس Tencent AI lab.
منذ أن أصدرت Meta سلسلة نماذج LLaMA 2 الكبيرة مفتوحة المصدر للاستخدام التجاري المجاني في يوليو ، بدأت موجة جديدة من "المصدر المفتوح" تتخمر في سوق النماذج واسعة النطاق لمنظمة العفو الدولية.
في 2 أغسطس ، أعلنت Wenxin Qianfan ، وهي منصة نموذجية كبيرة الحجم تعمل بالذكاء الاصطناعي تحت Baidu ، عن الوصول إلى سلسلة كاملة من نماذج LLaMA2 مفتوحة المصدر. وقد زاد عدد النماذج الكبيرة التي يمكن استدعاؤها على المنصة إلى 33 .باستثناء 3 طرز Wenxin ، فإن الموديلات الثلاثين الأخرى كلها مفتوحة المصدر.الطرز ، بما في ذلك ChatGLM2 و RWKV و MPT و Dolly و OpenLLaMA و Falcon وما إلى ذلك.
في اليوم التالي ، أعلنت Alibaba Cloud أيضًا عن الانضمام إلى صفوف نموذج المصدر المفتوح. يشتمل نموذج المعلمة Tongyi Qianwen 7 مليار مفتوح المصدر على النموذج العام Qwen-7B ونموذج الحوار Qwen-7B-Chat. وقد تم إطلاق النموذجين في مجتمع Mota ، وهما مفتوحان المصدر ومجانيان ومتوفران تجاريًا.
ومن المثير للاهتمام ، أن هذا الموقف الإيجابي تجاه المصدر المفتوح والانفتاح بدأ مع Microsoft ، المالك الكبير لنموذج المصدر المغلق ChatGPT. ** في 18 يوليو ، أعلنت Microsoft أنها ستتعاون مع Meta لإطلاق النسخة التجارية مفتوحة المصدر من نموذج LLaMA 2 ، لتزويد المؤسسات ببدائل لنماذج OpenAI و Google. ** يبدو أن مركز احتكار شركة OpenAI في سوق النماذج واسعة النطاق للذكاء الاصطناعي "مستهدف" من قبل الصناعة بأكملها ، حتى أقرب شركائها.
نظرًا لكونه النموذج اللغوي الكبير الأول المعترف به عالميًا ، فإن GPT-4 من OpenAI هو حاليًا نموذج اللغة الكبير الوحيد مع عدد كبير من المستخدمين المستعدين لدفع ثمنه.
عادة ما يكون الطالب الأعلى في الفصل غير متحمس للانضمام إلى مجموعة الدراسة. وبالمثل ، ** ليس لدى OpenAI سبب أو دافع لفتح المصدر. **
ومع ذلك ، مع المصدر المفتوح الكامل لـ LLaMA 2 ، استثمر المزيد والمزيد من المطورين في Meta ونماذج مختلفة مفتوحة المصدر. تمامًا مثل استخدام Android مفتوح المصدر لمحاربة نظام التشغيل iOS ، فإن عددًا كبيرًا من نماذج الذكاء الاصطناعي مفتوحة المصدر تتخطى بنشاط الحواجز التقنية لـ GPT-4 وتحيط OpenAI بنظام بيئي مفتوح المصدر. **
لماذا المصدر المفتوح؟
عندما أطلقت OpenAI لأول مرة وظيفة المكون الإضافي ، قارن العديد من الأشخاص نموذج AI بنموذج Windows و iOS و Android في المستقبل. الآن ، مع إصدار LLaMA 2 ، فإن نموذج AI الكبير ليس مجرد وظيفة ، ولكن حتى هيكل السوق يتطور نحو اتجاه نظام التشغيل.
تم إطلاقها من قبل LMSYS Org ، وهي منظمة تقودها جامعة كاليفورنيا في بيركلي ، وهي مسابقة تصنيف لنماذج اللغات الكبيرة (LLMs) ؛ اعتبارًا من 20 يوليو ، احتسب أحدث إصدار من التصنيف 40 نموذجًا كبيرًا للذكاء الاصطناعي ، ولا يزال الخمسة الأوائل مغلقين نموذج المصادر (الملكية) ، وهي ثلاثة نماذج من GPT-4 و GPT-3.5-turbo و Claude. ومع ذلك ، فإن النماذج الـ 34 التالية ، باستثناء طراز PaLM-Chat-Bison-001 من Google ، كلها نماذج مفتوحة المصدر ، 15 منها غير تجارية.
* ليدربورد من LMSYS Org Large Language Models (LLMs) الذي صدر في 20 يوليو
Chatbot Arena: يحسب تقييمات Elo باستخدام أكثر من 50،000 تصويت مستخدم.
MT-Bench: مجموعة من المشاكل متعددة الجولات الصعبة.
MMLU (5 لقطات): اختبار يقيس دقة المهام المتعددة لنموذج في 57 مهمة. *
على الرغم من إمكانيات النموذج ، بالنظر إلى السوق بالكامل ، لا يمكن لأي نموذج بغض النظر عن المصدر المفتوح أو المصدر المغلق أن يجرؤ على المنافسة مباشرة مع GPT-4. لكن النمور لم تستطع تحمل الذئاب ، ولم يتمكنوا من التغلب على النماذج الكبيرة لـ GPT-4. اختاروا "تغيير الممرات والتجاوز" واستخدام المصدر المفتوح للاستيلاء على بيئة التطبيق. يبدو أن هذا يشبه إلى حد ما معركة Android ضد iOS.
** "في الوقت الحالي ، لكل النماذج الكبيرة مفتوحة المصدر هدف واحد ، وهو التسويق. **
اعترف مؤسس شركة بحث وتطوير نموذجية محلية مفتوحة المصدر على نطاق واسع لـ Tiger Sniff أن السبب الرئيسي للترويج لنماذج مفتوحة المصدر واسعة النطاق وأنظمة Android مفتوحة المصدر هو الاستيلاء على السوق مجانًا. "أصدرت العديد من الشركات الكبرى نماذج كبيرة للذكاء الاصطناعي ، أو حتى أنشأت تطبيقًا قائمًا على نموذج موجود ، ثم بدأت في الترويج له بضجة كبيرة. من أنها في الحقيقة ليست مفتوحة المصدر للنموذج. "وهذه أيضًا هي أفضل طريقة لشركات الذكاء الاصطناعي لإثبات قوتها.
أولاً ، النماذج مفتوحة المصدر أسهل في التقييم من النماذج المغلقة. نظرًا لأن التعليمات البرمجية ومجموعات البيانات الخاصة بالنماذج مفتوحة المصدر متاحة للجمهور ، يمكن للباحثين فحص بنية النموذج وبيانات التدريب وعملية التدريب مباشرةً لإجراء تحليل أعمق للنموذج لفهم نقاط القوة والضعف فيه.
** "بعض طرز الذكاء الاصطناعي الكبيرة تبدو قادرة جدًا ، لكنها ليست مفتوحة المصدر ، ولا يمكنك إلا رؤية نتائج إخراجها." **
بالمقارنة مع نموذج المصدر المفتوح ، يمكن لنموذج المصدر المغلق فهم مزايا وعيوب النموذج فقط من خلال تقييم أداء النموذج. يؤدي هذا إلى حقيقة أن أداء النماذج المغلقة المصدر قد يكون مبالغًا فيه بشكل مصطنع ، أو إخفاء عيوبها. يمكن أن تساعد شفافية نموذج المصدر المفتوح المطورين على اكتساب فهم أعمق للنموذج وتقييمه بشكل أكثر إنصافًا.
بالنسبة للوافدين المتأخرين ، هناك مشكلة أخرى في نموذج المصدر المغلق: من السهل التشكيك في أصالة التكنولوجيا. أخبر العديد من مطوري النماذج الكبار Huxiu ذات مرة ، "بالنسبة لتلك النماذج التي ليست مفتوحة المصدر ، بصراحة ، حتى لو كانت قذيفة LLaMA ، أو ببساطة تستدعي واجهة ChatGPT في الخلفية ، من يدري؟"
عندما ظهرت الموجة الأولى من النماذج الكبيرة المحلية للذكاء الاصطناعي ، انتشرت أصوات الشك هذه على نطاق واسع على الإنترنت. بالنسبة لنماذج الذكاء الاصطناعي الكبيرة التي ليست مفتوحة المصدر ، من الصعب إثبات براءتها.من أجل إثبات أنهم لا يتصلون بواجهة برمجة تطبيقات ChatGPT ، قامت بعض الشركات حتى بإخراج خادم الاستدلال وسحب كابل الشبكة للتوضيح على بقعة.
المصدر المفتوح هو بلا شك أحد أفضل الطرق للتصديق الذاتي على نماذج الذكاء الاصطناعي الكبيرة. لكن القيمة الحقيقية لـ ** المصدر المفتوح ليست القدرة على الاعتماد الذاتي ، ولكن للاستيلاء على البيئة. **
"بعد إصدار LLaMA 2 ، سوف تستولي بالتأكيد على نظام OpenAI البيئي بسرعة." أخبر مطور نماذج كبير Huxiu أنه على الرغم من أن GPT-4 تُعرف تقريبًا من قبل الصناعة على أنها تتمتع بأقوى قدرة ، إلا أن النماذج بعد GPT-3 ليست مفتوحة المصدر علاوة على ذلك ، فإن انفتاح واجهة API لـ GPT-4 منخفض جدًا أيضًا ، لذلك هناك العديد من القيود على تطوير نموذج GPT. نتيجة لذلك ، يختار العديد من المطورين نماذج مفتوحة المصدر مثل LLaMA. لا تستطيع هذه النماذج مفتوحة المصدر ضبط التعليمات فحسب ، بل يمكنها أيضًا إجراء الأبحاث على النموذج الأساسي.
** "LLaMA بالتأكيد أكثر شعبية بين المطورين من OpenAI." **
عندما تم إصدار LLaMA 2 لأول مرة في 19 يوليو ، كان هناك أكثر من 5600 مشروع على GitHub مع كلمات رئيسية بما في ذلك "LLaMA" ، وأكثر من 4100 مشروع بما في ذلك "GPT-4". بعد أسبوعين من إطلاقه ، أصبح معدل نمو LLaMA أسرع ، حتى وقت النشر ، يوجد أكثر من 6200 "LLaMA" وأكثر من 4400 "GPT-4".
من ناحية أخرى ، يمكن تنزيل النماذج مفتوحة المصدر محليًا لنشرها بشكل خاص ، مما يسهل تدريب الشركات التجارية على الذكاء الاصطناعي. تحتاج تطبيقات الذكاء الاصطناعي الخاصة بهذه الشركات إلى التدريب بناءً على بيانات الأعمال الخاصة بها ، ويمكن لنموذج الذكاء الاصطناعي واسع النطاق الذي يتم نشره بشكل خاص حماية أمن البيانات إلى أقصى حد. في الوقت نفسه ، هناك المزيد من الخيارات لقوة الحوسبة للنشر المخصخص ، سواء كانت خدمة سحابية ، أو نشر محلي ، أو حتى قوة حوسبة موزعة للعديد من IDCs ، مما يقلل بشكل كبير من تكلفة تدريب النموذج والاستدلال.
على الرغم من أن ChatGPT قد حصد 100 مليون مستخدم نشط شهريًا في شهرين فقط ، في النظام البيئي للمطورين ، فإن السرعة التي يسيطر بها نموذج المصدر المفتوح على أذهان المستخدمين تبدو أسرع.
في الوقت الحالي ، اختارت العديد من شركات الذكاء الاصطناعي المحلية إطلاق نماذج مفتوحة المصدر. وتشمل هذه النماذج مفتوحة المصدر ChatGLM-6B الصادرة عن Zhipu AI ، و MOSS الصادرة عن جامعة فودان ، و Wudao Tianying Aquila الصادر عن معهد Zhiyuan للأبحاث ، و Baichuan-7B (13B) الصادر عن Baichuan Intelligent. من بينها ، ChatGLM-6B ، وهو نموذج كبير مفتوح المصدر أصدرته ** Zhipu AI ، تم تنزيله أكثر من 4 ملايين مرة في جميع أنحاء العالم ، وحصل على 32000 نجمة على GitHub ، 3000 نجمة أكثر من LLaMA. **
"إذا لم نصنع نموذجًا مفتوح المصدر ، فسيكون السوق قريبًا ممتلئًا بـ LLaMA." قال أحد المديرين التنفيذيين لشركة AI التي أطلقت نموذجًا مفتوح المصدر لـ Huxiu أن المصدر المفتوح يعد خطوة مهمة في تطوير الذكاء الاصطناعي الصيني. نموذج كبير.
بعض النماذج الكبيرة المحلية مفتوحة المصدر لمنظمة العفو الدولية
في الواقع ، قبل أن يبدأ اتجاه LLMs ، خاض الذكاء الاصطناعي التوليدي بالفعل معركة مفتوحة المصدر ومغلقة المصدر.
** مع وجود عدد كبير من المطورين وتطبيقات المنتجات ، دفع نموذج الرسم البياني Wensheng مفتوح المصدر Stable Diffusion تقريبًا أول نموذج مغلق المصدر من OpenAI Dall-E 2 إلى الزاوية. ** على الرغم من أن المستخدمين يعتقدون عمومًا أن قدرات نموذج Stable Diffusion ليست جيدة مثل منتج آخر مغلق المصدر MidJourney ، ** انتشر Stable Diffusion قد استحوذ على عدد كبير من أسواق الرسوم البيانية في Vincent بحكم مصدره المفتوح وخصائصه المجانية ، وأصبح نموذج الرسم البياني الأكثر شيوعًا في فينسنت ، كما تلقت شركة التطوير RunwayML And Stability AI الخاصة بها الكثير من الاهتمام والتمويل. **
يبدو أن نموذج المصدر المفتوح لـ LLaMA 2 ينوي فرض OpenAI في مجال LLMs.
المصدر المفتوح مع البضائع
LLaMA 2 مفتوح المصدر حاليًا ، جميع الطرز الثلاثة في السلسلة: 7 مليارات و 13 مليار و 70 مليار نسخة من المعلمات. ومع ذلك ، هناك أيضًا شائعات في السوق مفادها أن "Meta لديها بالفعل إصدار به معلمات أكبر لم يتم إصداره. قد يحتوي الإصدار التالي على إصدار به معلمات أكبر ، ولكنه قد لا يكون مفتوح المصدر."
من الجدير بالذكر أن العديد من نماذج المصادر المفتوحة ليست كلها مفتوحة المصدر في الوقت الحالي. في نموذج Enlightenment 3.0 الصادر عن معهد Zhiyuan للأبحاث ، فإن نموذج اللغة الأساسي "Tianying" هو المصدر المفتوح فقط ؛ و ChatGLM الذي أصدرته Zhipu AI فتح جزءًا فقط من سلسلة النماذج ، ولا يزال نموذج المعلمة الأكبر البالغ 130 مليارًا مغلق المصدر. **
بغض النظر عما إذا كان LLaMA 2 "محجوزًا" للموديلات الأكبر ، فإن النموذج "المجاني" سيسرع بلا شك من تشكيل Meta في سوق النماذج الكبيرة ويدفعه إلى "الطريق القديم" لنظام Android.
من خلال النظام البيئي مفتوح المصدر ، جمع نظام Android عددًا كبيرًا من المطورين والمستخدمين حول العالم. فيما يتعلق ببيئة التكنولوجيا ، فقد قامت بفحص وتوازن نظام المصدر المغلق الرائد iOS ، بل إنها شكلت احتكارها الخاص في بعض الأسواق. منذ عام 2018 ، فرض الاتحاد الأوروبي غرامة تزيد عن 4 مليارات يورو على Google بسبب آلية احتكار نظام Android. من هذه الغرامة العالية ، يمكننا أيضًا أن نرى مدى ربحية نظام Android مفتوح المصدر.
وفقًا لتقرير صادر عن شركة الأبحاث Sensor Tower ، سيصل إنفاق المستخدمين على Google Play إلى حوالي 53 مليار دولار أمريكي في عام 2022 ، وسيزيد هذا الرقم إلى 60 مليار دولار أمريكي في عام 2023. وفقًا لتقرير صادر عن مؤسسة بحثية أخرى ، Statista ، اعتبارًا من يناير 2022 ، هناك حوالي 140000 تطبيق في متجر Google Play.
في هذه المرحلة ، من الواضح أن نموذج AI مفتوح المصدر لم يحظى بشعبية كبيرة مثل الهواتف المحمولة. ومع ذلك ، حتى لو كان الذكاء الاصطناعي مشهورًا حقًا مثل الهواتف المحمولة ، فلن تتخلى الشركات العملاقة مثل Meta بسهولة عن الشركات التي حققت الكثير من المال باستخدام LLaMA 2.
في اتفاقية المصدر المفتوح لـ LLaMA 2 ، يوجد مثل هذا الشرط: ** إذا تجاوز عدد المستخدمين النشطين شهريًا 700 مليون ، فيجب عليك التقدم للحصول على ترخيص من Meta. يجوز لشركة Meta ، وفقًا لتقديرها الخاص ، الترخيص لك ، ولن يكون لك الحق في ممارسة أي من هذه الحقوق. **
في الوقت نفسه ، بالإضافة إلى النسخة المغلقة المصدر من نموذج المصدر المفتوح وتطبيق نماذج الذكاء الاصطناعي الكبيرة ، يمكن أيضًا أن ** تساعد القدرة الحاسوبية على "جلب البضائع" **.
أول مصنعين في الصين للترويج لنماذج الذكاء الاصطناعي واسعة النطاق ، بايدو وعلي ، هما مصنعان سحابيان. البائعان السحابيان الآخران ، Tencent Cloud و Huawei Cloud ، على الرغم من أنهما لا يمتلكان منتجات LLM مثل Wenxin Yiyan و Tongyi Qianwen ، إلا أنهما يواصلان الصراخ حول نماذج الذكاء الاصطناعي. السبب الرئيسي وراء ذلك هو "تأثير الحمل" للنموذج الكبير على السحابة.
"الإعلان عن بعض الإجراءات على النماذج واسعة النطاق للذكاء الاصطناعي يتم الترويج له بشكل مشترك من قبل السوق والعملاء. في الأشهر القليلة الماضية ، كان هناك الكثير من العملاء الذين أتوا للسؤال عن النماذج واسعة النطاق." قال أحد قادة الأعمال السحابية في Tencent Huxiu أن قوة الحوسبة في قائمة الانتظار ، وهو أفضل دليل على قدرة النموذج الكبير للذكاء الاصطناعي على حمل البضائع.
** لا يحتاج النموذج إلى كسب المال ، ولكن يجب أن تكون القدرة الحاسوبية مربحة. ** فتحت Alibaba فتحت Tongyi Qianwen ، وقدمت Baidu 30 نموذجًا مفتوح المصدر على منصة Wenxin Qianfan للنماذج واسعة النطاق. وهذان الإجراءان يهدفان إلى توفير إمكانات الذكاء الاصطناعي "المجانية" للمستخدمين. لم يعد المستخدمون الذين يستخدمون نموذج المصدر المفتوح يدفعون مقابل الذكاء الاصطناعي ، ولكن طالما أن الذكاء الاصطناعي الخاص بهم يعمل على Alibaba Cloud و Baidu Smart Cloud ، فسيتعين عليهم الدفع مقابل قوة الحوسبة.
"** يجب أن تعود منظمة العفو الدولية أيضًا إلى فكرة السحابة وكسب المال من السحابة. ** قال شين تشو ، المدير العام لشركة Baidu Smart Cloud AI و Big Data Platform ، أن الهدف الأصلي من فتح النظام الأساسي للنموذج الكبير هو إنشاء قيمة لأعمال العملاء. وأثناء إنشاء القيمة ، يمكن أن يعزز من ثبات العملاء القدامى ويوسع المزيد من العملاء الجدد. هذا يساعد بشكل كبير في توسيع نطاق تأثير بائعي السحابة.
مجاني أكثر تكلفة
"** 10 ملايين ، هذا هو المبلغ نفسه تقريبًا مثل سعر البداية لتخصيص نموذج كبير. **"
قدم مؤسس شركة نموذجية واسعة النطاق مفتوحة المصدر عرض أسعار للوسيط الذي جاء للتشاور عبر الهاتف.
"بعد أن تم التعرف على نموذج المصدر المفتوح من قبل المستخدمين ، يمكنك التحدث إلى الآخرين حول رسوم الخدمة للتطوير المخصص." بعد أن أغلق المؤسس الهاتف ، أوضح لـ Huxiu أنه بالنسبة لنموذج مثل LLaMA 2 ، فإن تكلفة التطوير هي على الأقل ما يكلف عشرات الملايين من الدولارات. لذلك ، يجب أن تكون تكلفة السوق التي يستهدفها عشرات أو مئات أضعاف تكلفة التطوير.
من وجهة النظر الحالية ، فإن أفضل طريقة ** لشركات الذكاء الاصطناعي لجني الأموال من نماذج مفتوحة المصدر هي البدء بالخدمات. **
لحسن الحظ ، يحتاج معظم مستخدمي النماذج الكبيرة للذكاء الاصطناعي إلى هذه الخدمات كثيرًا.
"النموذج مفتوح المصدر ومجاني ومتاح تجاريًا. وهذا يعني أنه بدءًا من تنزيل النموذج ونشر النموذج والتدريب والضبط وتطوير التطبيق في التطبيقات الفعلية ، يجب أن تقوم بكافة الأعمال بنفسك." مطور تطبيق LLaMA قال Huxiu ، إن معظم موردي النماذج المغلقة سيقدمون خدمات التدريب والنشر ، ويمكنهم تخصيص وظائف التطوير وفقًا لاحتياجات المستخدم. ولكن إذا كنت تستخدم نموذجًا مفتوح المصدر ، فيجب عليك القيام بكل هذه المهام بنفسك ، ولن يساعدك أحد في التدريب ، ولن يجدك أحد قوة الحوسبة ، ولن يساعدك أحد في تخصيص التطوير.
"** في الواقع ، يقوم مصنعو النماذج المغلقة ببيع الخدمات. **" قال الشخص المسؤول عن مؤسسة تعليمية عبر الإنترنت الذي أجرى بحثًا عن تطبيقات الذكاء الاصطناعي استنادًا إلى نموذج LLaMA لـ Huxiu ، "يبدو أن نموذج المصدر المفتوح مجاني ، ولكن أثناء عملية النشر ، لا يزال يتعين إنفاق الكثير من الأموال. "بعد إضافة نموذج الذكاء الاصطناعي ، ارتفعت تكلفة القوى العاملة وقوة الحوسبة في قسم تكنولوجيا المعلومات بشكل كبير.
على الرغم من أن التدريب والضبط بناءً على نماذج مفتوحة المصدر ليس بالأمر الصعب بالنسبة لمعظم موظفي تكنولوجيا المعلومات. ومع ذلك ، لإجراء بحث متعمق وتطوير للنموذج ، لا تزال هناك حاجة إلى بعض الاحتياطيات التقنية من حيث الخوارزميات والذكاء الاصطناعي. نظرًا لأن مفهوم نماذج الذكاء الاصطناعي واسعة النطاق أصبح أكثر شيوعًا ، فإن سعر المواهب في هذا المجال آخذ في الارتفاع أيضًا.
"** الزيادة في تكاليف العمالة عائمة بالفعل ، لكن تكلفة الخوادم والأجهزة حقيقية. من الاستثمار في النماذج الكبيرة حتى الآن ، ارتفعت تكاليفنا بنحو 20٪ إلى 30٪. **" قال الشخص المسؤول في الوقت الحاضر ، لا تزال مؤسسته في مرحلة استكشاف مشهد الذكاء الاصطناعي ، والصعوبة الأكبر هي أنها تحتاج إلى تجربة كل مشهد. "إذا فشل أحدهم ، فاستبدله بأخرى. في هذه العملية ، كل خطوة تكلف مالًا."
في هذا الصدد ، سأل Huxiu أحد المطلعين في Baidu Smart Cloud عن خدمة وتكلفة Baidu Wenxin Qianfan من حيث النشر. سيوفر المال. ** "
في الواقع ، بغض النظر عما إذا كان نموذجًا مفتوح المصدر أو نموذجًا مغلق المصدر ، يتم حساب تكلفة نشر النموذج على أساس الفرد / اليوم ، ولن يكون هناك فرق جوهري في تكاليف طاقة الحوسبة للعمليات اللاحقة. التدريب والتفكير. "** ومع ذلك ، فإن استخدام نماذج مفتوحة المصدر للتدريب والنشر والتطوير بنفسك لن يؤدي إلا إلى جعل هذه العملية مزعجة للغاية." قال المطلع على بايدو إن تكلفة النشر المحددة تعتمد على المشروع المحدد ، والفرق كبير جدًا. ومع ذلك ، لا يوجد فرق جوهري بين المصدر المفتوح والمغلق المصدر من حيث تكاليف النشر والاستخدام. ** ومن منظور أمن البيانات ، يمكن أيضًا نشر معظم النماذج المغلقة المصدر بشكل خاص.
** في هذه المرحلة ، لا يزال من الصعب على الذكاء الاصطناعي تحقيق الشمولية. **
بالنسبة لمعظم الشركات العاملة في مجال الأعمال التجارية عبر الإنترنت ، فإن لديهم فرق البحث والتطوير الخاصة بتكنولوجيا المعلومات الخاصة بهم. وعندما يأتي النموذج الكبير ، سيتمكنون قريبًا من تشكيل فريق "مؤسس" لتطوير تطبيقات الذكاء الاصطناعي. ولكن بالنسبة للعديد من صناعات البيع بالتجزئة والتصنيع التقليدي والخدمات ، فإن التحول الرقمي يمثل مشكلة صعبة ، فمن الصعب حقًا عليهم دراسة تدريب النماذج الضخمة للذكاء الاصطناعي ونشرها واستدلالها.
بالنسبة لهذه الشركات ، فإن أفضل منتج للذكاء الاصطناعي هو مكون إضافي للذكاء الاصطناعي للأغراض العامة. "ما نحتاجه هو مجرد روبوت لخدمة العملاء لا تبدو محادثاته حمقاء للغاية. طلبت مني تعلم كيفية تدريب النموذج ، وهو أمر مثير بعض الشيء." قال مدير خط الأعمال لعلامة تجارية إلكترونية لشركة Huxiu أن في الأشهر الستة الماضية ، استمع لتوه ويقال إن قدرة حوار الذكاء الاصطناعي أصبحت أقوى من ذي قبل ، لكن لم يتم تجربة ChatGPT بعد. على الرغم من استعداده أيضًا لتبني التقنيات الجديدة ، إلا أنه لا يمثل دافعًا كافيًا لقضاء الوقت في التعلم واستثمار الأموال في الذكاء الاصطناعي الآن.
"ما لم يكن هناك مكون إضافي في النظام الأساسي أو البرنامج الذي أستخدمه الآن ، يمكنني استخدامه بمجرد التقاطه ، وإلا فلن أفكر كثيرًا في إنفاق الأموال لترقية مساعد الذكاء الاصطناعي على الفور . "منخفض.
"** يحتاج التجار إلى الذكاء الاصطناعي للقيام بذلك ، ويمكن تطبيقه وتمكينه دون الشعور. **" قامت الشركة المصنعة SaaS Weimob بإنشاء مثل هذا التطبيق WAI في التسويق الرقمي ، مما يساعد التجار على استدعاء قدرات الذكاء الاصطناعي في شكل تضمين التطبيقات الحالية. تزويد التجار بحوار AI وإمكانيات إنشاء النصوص والصور استنادًا إلى نماذج اللغات الكبيرة.
يشبه ربط النماذج الكبيرة بأدوات خدمة SaaS إلى حد ما استدعاء نموذج Baidu Wenxin Qianfan. على الرغم من إجراء مكالمات الواجهة و Finetune فقط ، إلا أنه يوفر للمستخدمين إمكانات هبوط AI أكثر وأسرع وأكثر استقرارًا.
"** يمكن للنماذج مفتوحة المصدر أن تسهل على المستخدمين البدء ، والآن يتم تحديث العديد من الطرز مفتوحة المصدر بشكل أسرع من الشركات المصنعة الكبرى. **" يعتقد Yin Shiming ، مدير العمليات في Weimob Group ، أن المصدر المفتوح والانفتاح يمكنهما بسرعة تقديم قدرات الذكاء الاصطناعي للمستخدمين بين يديك ، ما يحتاجه المستخدمون حقًا هو "التوصيل والتشغيل" AI. **
بالنسبة لمعظم المستخدمين الذين لا يزالون في مرحلة اختبار النماذج الكبيرة للذكاء الاصطناعي وتجربتها وتجربتها ، من الواضح أن عتبة النماذج مفتوحة المصدر أقل ، وتكلفة بدء التشغيل هي صفر تقريبًا.
استخدم العديد من المستخدمين نموذج المصدر المفتوح من البداية ، وسيستمرون في استخدامه في المستقبل. تولد مشاكل النشر والتدريب المذكورة أعلاه سلسلة صناعة خدمات لنماذج مفتوحة المصدر.
Chen Ran في هذه الموجة من الطفرة الكبيرة في النموذج ، يقوم OpenCSG الذي تم إنشاؤه حديثًا بأعمال الخدمة حول النموذج الكبير مفتوح المصدر.
تهدف خدمة النموذج الكبير التي تقدمها OpenCSG بشكل أساسي إلى تدريب وتنفيذ نماذج مفتوحة المصدر للمؤسسات. من اختيار نماذج مفتوحة المصدر ، إلى قوة الحوسبة الموزعة الهجينة ، جنبًا إلى جنب مع تدريب نموذج الأعمال ، وتطوير التطبيقات الخلفية ، وما إلى ذلك ، يمكن أن تقدم خدمات للمؤسسات.
"** النماذج الكبيرة تشبه جميع SaaS في رأيي. سيتم إثراء صناعات المنبع والمصب بشكل تدريجي ، ولن يركز العملاء فقط على قدرات النموذج." يعتقد Chen Ran أن الطلب النهائي للعملاء هو عدم العثور على أكثر نموذج قادر ، ولكن استخدام أفضل وأسهل وأبسط لنماذج الذكاء الاصطناعي الكبيرة لخدمة أعماله.
بيئة مفتوحة المصدر حول الذكاء الاصطناعي
في سلسلة صناعة الذكاء الاصطناعي بأكملها ، يذهب المصدر المفتوح إلى ما هو أبعد من النماذج. من البحث والتطوير إلى النشر إلى التطبيق ، كل رابط تقريبًا لا ينفصل عن موضوع المصدر المفتوح.
** تتطلب كل من الخوارزميات وقوة الحوسبة والبيانات وعناصر الذكاء الاصطناعي الثلاثة دعمًا مفتوح المصدر. **
على مستوى الخوارزمية ، أصبحت النماذج الكبيرة مفتوحة المصدر للذكاء الاصطناعي في مرحلة متأخرة نسبيًا. في البحث والتطوير المبكر للذكاء الاصطناعي ، استخدمت جميع نماذج الذكاء الاصطناعي تقريبًا أطر التعلم الآلي ، والتي تكافئ بناء صناديق أدوات الذكاء الاصطناعي. تعد أطر التعلم الآلي السائدة الحالية ، بما في ذلك TensorFlow و Pytorch و PaddlePaddle (مجداف الطيران) ، كلها أطر عمل مفتوحة المصدر.
على مستوى البيانات ، تعد مجموعة بيانات Commen Crowl مفتوحة المصدر مصدرًا مهمًا للبيانات في عملية تدريب نموذج GPT. في الوقت الحاضر ، أصدرت العديد من المؤسسات وشركات البيانات منتجات مفتوحة المصدر على مجموعات بيانات التدريب على الذكاء الاصطناعي ، بما في ذلك مجموعة بيانات COIG-PC لمعهد Zhiyuan للأبحاث ، ومجموعة بيانات DOTS-MM-0526 متعددة الوسائط من هايتي AAC.
بالنسبة لناشري مجموعات البيانات ، لا يمكن للمصدر المفتوح أن يعزز التأثير وقيمة العلامة التجارية فحسب ، بل يمكن لمجموعات البيانات مفتوحة المصدر أيضًا جمع تعليقات إيجابية من مجتمع المصدر المفتوح للعثور على الأخطاء أو التناقضات في البيانات وإصلاحها. تساعد هذه المراجعة الخارجية في تحسين جودة البيانات مع زيادة إثراء النظام البيئي للمنتج الخاص بالناشر.
"** غالبًا ما يواجه مهندسو الخوارزميات مشكلة نقص البيانات في البحث والتطوير. يمكن أن تؤدي البيانات عالية الجودة إلى تحسينات نوعية لتقييم النموذج. ** تواجه بلدي حاليًا ندرة مجموعات البيانات عالية الجودة ، مما يعيق أيضًا اللغة الصينية نماذج كبيرة. تطوير التكنولوجيا. "AAC الهايتي هو أحد مزودي بيانات التدريب لنموذج المصدر المفتوح LLaMA 2 ، كما قال لي كي ، مدير العمليات في AAC الهايتية.
** فيما يتعلق بقوة الحوسبة ، وهي أكبر عقبة في تطوير الذكاء الاصطناعي ، يعمل إطار الرقاقة مفتوحة المصدر أيضًا على تحفيز تطوير الصناعة. **
في 4 أغسطس ، أعلنت شركة Qualcomm عن تأسيس مشروع مشترك مع أربع شركات لأشباه الموصلات لتسريع تسويق الرقائق استنادًا إلى بنية RISC-V مفتوحة المصدر. يوجد حاليًا ثلاثة أطر رقاقات سائدة في السوق: x86 المستخدمة بواسطة وحدات المعالجة المركزية Intel ، و Arm المستخدمة من قبل Nvidia GPUs ، و RISC-V ، وهو إطار عمل شرائح مفتوح المصدر.
"يمكن أن يوفر RISC-V بيئة قابلة للبرمجة. ويمكن لفريق تطوير الرقاقة استخدام RISC-V للقيام بالكثير من أعمال ما قبل المعالجة وما بعد المعالجة ، ويمكنه أيضًا إضافة مسرعات خاصة أو وحدات وظيفية تلبي احتياجات المستخدم لتلبية احتياجات المستخدم قال جانج تشيجيان ، نائب الرئيس الأول للتسويق وتطوير الأعمال في SiFive ، إن النظام البيئي RISC-V يوفر ثروة من الخيارات لأبحاث وتطوير الرقائق ، وهو ما يساعد بشكل كبير في تلبية الطلب المتزايد بسرعة على رقائق الذكاء الاصطناعي اليوم.
تتمتع كل من Arm و x86 بأنظمة بيئية مغلقة نسبيًا مقارنةً بـ RISC-V. ** في النظام البيئي Arm ، يمكن للمستخدمين فقط اختيار الخيارات المحدودة التي يوفرها Arm ، في حين أن النظام البيئي RISC-V لديه العديد من الشركات المشاركة ، وسيكون هناك المزيد من أنواع المنتجات والخيارات. **
تعمل بنية المصدر المفتوح أيضًا على تحفيز صناعة الرقائق لتسريع المنافسة. قال جانج تشيجيان: "** بصفتنا مقدم خدمة لهندسة الرقائق مفتوحة المصدر ، فإننا سنتنافس أيضًا مع الشركات الأخرى. ولكن سواء فزنا أو فازت شركات أخرى ، فهذا نوع من المنافسة في النهاية ، سيعزز ازدهار وتقدم نظام RISC-V البيئي. ** "
على الرغم من أن بنية مجموعة تعليمات RISC-V مجانية ومفتوحة المصدر ، فإن عنوان IP الأساسي الذي شكله مصنعو تصميم الرقائق استنادًا إلى التطوير الثانوي لهندسة مجموعة تعليمات RISC-V له حقوق ملكية فكرية مستقلة ويمكن الترخيص به من خلال رسوم خارجية. وفقًا لبيانات من مؤسسة RISC-V الدولية ، سيزداد عدد الأعضاء بأكثر من 26٪ على أساس سنوي في عام 2022 ، وسيتجاوز العدد الإجمالي للوحدات الأعضاء 3180 ، تغطي 70 دولة / منطقة ، بما في ذلك Qualcomm ، Intel و Google و Alibaba و Huawei و UNISOC وشارب والعديد من الشركات الرائدة الأخرى في مجال الرقائق.
يعد المصدر المفتوح ميزة لـ RISC-V ، ولكنه يخلق أيضًا بعض المشكلات. يحتوي RISC-V على أكثر من 40 مجموعة تعليمات أساسية ، بالإضافة إلى العشرات من تعليمات تمديد الوحدة الأساسية.يمكن لأي مؤسسة ومطور استخدام RISC-V مجانًا لإنشاء شرائح ذات حقوق ملكية فكرية مستقلة.
ومع ذلك ، فإن الميزات المعيارية والمفتوحة المصدر والقابلة للتخصيص بدرجة كبيرة تجعل النظام البيئي RISC-V أكثر تجزئة وتعقيدًا.
"بعد أن تقوم كل شركة بحث وتطوير شرائح بترقية مجموعة تعليمات RISC-V ، فإنها ستنتج بالفعل بنية جديدة. تسمى RISC-V ، لكن الشركات المختلفة غير متوافقة مع RISC-V ، وبيئة المصدر المفتوح هي في الواقع مقسم. ** "لو تاو ، رئيس Weiwei Technology والمدير العام للصين الكبرى ، يعتقد أن المصدر المفتوح لهندسة الرقائق وبيئة البرمجيات مهمان للغاية ، ولكن من الصعب جدًا على الفرق المختلفة إيجاد توازن بين الانفتاح ، التخصيص والتجزئة: اختبر حكمة وقدرة فريق البحث والتطوير.
بالإضافة إلى ذلك ، أنتجت بنية Arm بالفعل وحدات معالجة الرسومات (GPU) ووحدات IPU والرقائق الأخرى المناسبة لتدريب الذكاء الاصطناعي والتفكير المنطقي ، كما أن البيئة التقنية أكثر اكتمالًا ونضجًا. الهدف الأصلي من RISC-V هو تصميم وحدات المعالجة المركزية ، وعلى الرغم من أنها مفتوحة للغاية ، إلا أن تصميم شرائح الذكاء الاصطناعي لا يزال في مرحلة الاستكشاف.
وفقًا لشركة الأبحاث Counterpoint Research ، بحلول عام 2025 ، ستتجاوز الشحنات التراكمية لمعالجات RISC-V 80 مليارًا ، بمعدل نمو سنوي مركب يبلغ 114.9٪. بحلول ذلك الوقت ، سيحتل RISC-V 14٪ من سوق وحدات المعالجة المركزية العالمية ، و 28٪ من سوق إنترنت الأشياء ، و 12٪ من السوق الصناعية ، و 10٪ من سوق السيارات.
طبقت Qualcomm بالفعل RISC-V في وحدات تحكم دقيقة في Snapdragon 865 SoC في عام 2019 ، وشحنت أكثر من 650 مليون شريحة RISC-V حتى الآن. في منتدى قمة الأجهزة AI في سبتمبر 2022 ، كشف البروفيسور Krste Asanovic ، مخترع RISC-V ، أن Google بدأت في استخدام SiFive Intelligence X280 المستندة إلى RISC-V لتطوير إطار عمل التعلم الآلي الخاص بها TensorFlow. رقائق TPU. ** قبل ذلك ، أجرت Google أعمال البحث الذاتي حول بنية شريحة TPU لأكثر من 10 سنوات.
على الرغم من صعوبة تطوير رقائق RISC-V من الصفر ، إلا أن طبيعة المصدر المفتوح لـ RISC-V أعطت الرقائق الصينية ، التي بدأت أيضًا من الصفر ، فرصة للبقاء على قيد الحياة في ظل الحصار والاحتكار. "من وجهة نظري ، رقاقة الصين الصينية الشركات هي الأسرع نموًا في العالم. وشركات الرقائق الصينية أكثر عدوانية ومستعدة لمواجهة التحديات. "قال جانج تشيجيان إن السوق الصينية هي المفتاح لتحفيز تطوير صناعة الرقائق. سوق الرقائق في الصين ضخم ، على سبيل المثال ، تجاوز الطلب على طاقة حوسبة رقائق السيارات في الصين بكثير الطلب في الأسواق الأوروبية والأمريكية. ** مع الطلب المتزايد من الشركات الصينية على قوة الحوسبة بالذكاء الاصطناعي ، فإن صناعة شرائح الذكاء الاصطناعي في الصين ستفتح بالتأكيد المزيد من الفرص في المستقبل.
خاتمة
بالإضافة إلى الاعتبارات التجارية ، يمكن أن يساعد ** المصدر المفتوح أيضًا الناشرين التقنيين على تحسين النماذج. **
"ChatGPT هو في الواقع انتصار للهندسة." إن نجاح نموذج اللغة الكبير اليوم يعتمد في الواقع على التدريب المتكرر وضبط النموذج. إذا تم ترقية النموذج إلى مجتمع المصادر المفتوحة بعد إنشاء النموذج الأساسي ، وشارك المزيد من المطورين في أعمال تحسين النموذج ، فسيكون بلا شك عونًا كبيرًا لتقدم نموذج الذكاء الاصطناعي الكبير.
بالإضافة إلى ذلك ، "يمكن للنماذج الكبيرة مفتوحة المصدر أن تتجنب إعادة اختراع العجلة." قال لين يونغهوا ، نائب الرئيس وكبير المهندسين في معهد تشيوان لأبحاث الذكاء الاصطناعي في بكين ، في مقابلة خلال مؤتمر Zhiyuan 2023 ، بافتراض أن كل شخص ** يأتي من The يتطلب البحث والتطوير للنماذج واسعة النطاق للأغراض العامة الكثير من قوة الحوسبة والبيانات والكهرباء.إنها إعادة ابتكار كاملة للعجلة ، والتي لا تفضي إلى الاستخدام الرشيد للموارد الاجتماعية. **
بالنسبة لمنظمة غير ربحية مثل Zhiyuan Research Institute ، بغض النظر عما إذا كان النموذج مفتوح المصدر أو مغلق المصدر ، فقد لا يكون هناك الكثير من الاعتبارات التجارية. ولكن بالنسبة لشركات الذكاء الاصطناعي التجارية ، سواء كانت Microsoft أو Google أو Meta أو OpenAI أو Zhipu AI و Baichuan Intelligent المحلي ، فإن أي نموذج كبير للذكاء الاصطناعي لن يكون بالتأكيد لغرض "البحث العلمي". **
على الرغم من أن منتجات OpenAI تتمتع بميزة مطلقة في التكنولوجيا ، إلا أن نظام ChatGPT البيئي المبني على شكل مكونات إضافية ضعيف من حيث البناء البيئي. في نزاعات مفتوحة المصدر ومغلقة المصدر للذكاء الاصطناعي ، قد نرى نمطًا مختلفًا عن نظام تشغيل الأجهزة المحمولة في المستقبل.
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
أوبن إيه آي في خطر
أنتجت | Tiger Sniff Technology Group المؤلف | Qi Jian المحرر | Liao Ying
في 7 أغسطس ، أصدرت شركة محلية أخرى ناشئة في مجال الذكاء الاصطناعي نموذجًا تجاريًا مفتوح المصدر ومجانيًا للذكاء الاصطناعي: XVERSE-13B. تأسست الشركة المسماة Yuanxiang XVERSE من قبل Yao Xing ، نائب الرئيس السابق لشركة Tencent ومؤسس Tencent AI lab.
منذ أن أصدرت Meta سلسلة نماذج LLaMA 2 الكبيرة مفتوحة المصدر للاستخدام التجاري المجاني في يوليو ، بدأت موجة جديدة من "المصدر المفتوح" تتخمر في سوق النماذج واسعة النطاق لمنظمة العفو الدولية.
في 2 أغسطس ، أعلنت Wenxin Qianfan ، وهي منصة نموذجية كبيرة الحجم تعمل بالذكاء الاصطناعي تحت Baidu ، عن الوصول إلى سلسلة كاملة من نماذج LLaMA2 مفتوحة المصدر. وقد زاد عدد النماذج الكبيرة التي يمكن استدعاؤها على المنصة إلى 33 .باستثناء 3 طرز Wenxin ، فإن الموديلات الثلاثين الأخرى كلها مفتوحة المصدر.الطرز ، بما في ذلك ChatGLM2 و RWKV و MPT و Dolly و OpenLLaMA و Falcon وما إلى ذلك.
في اليوم التالي ، أعلنت Alibaba Cloud أيضًا عن الانضمام إلى صفوف نموذج المصدر المفتوح. يشتمل نموذج المعلمة Tongyi Qianwen 7 مليار مفتوح المصدر على النموذج العام Qwen-7B ونموذج الحوار Qwen-7B-Chat. وقد تم إطلاق النموذجين في مجتمع Mota ، وهما مفتوحان المصدر ومجانيان ومتوفران تجاريًا.
ومن المثير للاهتمام ، أن هذا الموقف الإيجابي تجاه المصدر المفتوح والانفتاح بدأ مع Microsoft ، المالك الكبير لنموذج المصدر المغلق ChatGPT. ** في 18 يوليو ، أعلنت Microsoft أنها ستتعاون مع Meta لإطلاق النسخة التجارية مفتوحة المصدر من نموذج LLaMA 2 ، لتزويد المؤسسات ببدائل لنماذج OpenAI و Google. ** يبدو أن مركز احتكار شركة OpenAI في سوق النماذج واسعة النطاق للذكاء الاصطناعي "مستهدف" من قبل الصناعة بأكملها ، حتى أقرب شركائها.
نظرًا لكونه النموذج اللغوي الكبير الأول المعترف به عالميًا ، فإن GPT-4 من OpenAI هو حاليًا نموذج اللغة الكبير الوحيد مع عدد كبير من المستخدمين المستعدين لدفع ثمنه.
عادة ما يكون الطالب الأعلى في الفصل غير متحمس للانضمام إلى مجموعة الدراسة. وبالمثل ، ** ليس لدى OpenAI سبب أو دافع لفتح المصدر. **
ومع ذلك ، مع المصدر المفتوح الكامل لـ LLaMA 2 ، استثمر المزيد والمزيد من المطورين في Meta ونماذج مختلفة مفتوحة المصدر. تمامًا مثل استخدام Android مفتوح المصدر لمحاربة نظام التشغيل iOS ، فإن عددًا كبيرًا من نماذج الذكاء الاصطناعي مفتوحة المصدر تتخطى بنشاط الحواجز التقنية لـ GPT-4 وتحيط OpenAI بنظام بيئي مفتوح المصدر. **
لماذا المصدر المفتوح؟
عندما أطلقت OpenAI لأول مرة وظيفة المكون الإضافي ، قارن العديد من الأشخاص نموذج AI بنموذج Windows و iOS و Android في المستقبل. الآن ، مع إصدار LLaMA 2 ، فإن نموذج AI الكبير ليس مجرد وظيفة ، ولكن حتى هيكل السوق يتطور نحو اتجاه نظام التشغيل.
تم إطلاقها من قبل LMSYS Org ، وهي منظمة تقودها جامعة كاليفورنيا في بيركلي ، وهي مسابقة تصنيف لنماذج اللغات الكبيرة (LLMs) ؛ اعتبارًا من 20 يوليو ، احتسب أحدث إصدار من التصنيف 40 نموذجًا كبيرًا للذكاء الاصطناعي ، ولا يزال الخمسة الأوائل مغلقين نموذج المصادر (الملكية) ، وهي ثلاثة نماذج من GPT-4 و GPT-3.5-turbo و Claude. ومع ذلك ، فإن النماذج الـ 34 التالية ، باستثناء طراز PaLM-Chat-Bison-001 من Google ، كلها نماذج مفتوحة المصدر ، 15 منها غير تجارية.
على الرغم من إمكانيات النموذج ، بالنظر إلى السوق بالكامل ، لا يمكن لأي نموذج بغض النظر عن المصدر المفتوح أو المصدر المغلق أن يجرؤ على المنافسة مباشرة مع GPT-4. لكن النمور لم تستطع تحمل الذئاب ، ولم يتمكنوا من التغلب على النماذج الكبيرة لـ GPT-4. اختاروا "تغيير الممرات والتجاوز" واستخدام المصدر المفتوح للاستيلاء على بيئة التطبيق. يبدو أن هذا يشبه إلى حد ما معركة Android ضد iOS.
** "في الوقت الحالي ، لكل النماذج الكبيرة مفتوحة المصدر هدف واحد ، وهو التسويق. **
اعترف مؤسس شركة بحث وتطوير نموذجية محلية مفتوحة المصدر على نطاق واسع لـ Tiger Sniff أن السبب الرئيسي للترويج لنماذج مفتوحة المصدر واسعة النطاق وأنظمة Android مفتوحة المصدر هو الاستيلاء على السوق مجانًا. "أصدرت العديد من الشركات الكبرى نماذج كبيرة للذكاء الاصطناعي ، أو حتى أنشأت تطبيقًا قائمًا على نموذج موجود ، ثم بدأت في الترويج له بضجة كبيرة. من أنها في الحقيقة ليست مفتوحة المصدر للنموذج. "وهذه أيضًا هي أفضل طريقة لشركات الذكاء الاصطناعي لإثبات قوتها.
أولاً ، النماذج مفتوحة المصدر أسهل في التقييم من النماذج المغلقة. نظرًا لأن التعليمات البرمجية ومجموعات البيانات الخاصة بالنماذج مفتوحة المصدر متاحة للجمهور ، يمكن للباحثين فحص بنية النموذج وبيانات التدريب وعملية التدريب مباشرةً لإجراء تحليل أعمق للنموذج لفهم نقاط القوة والضعف فيه.
** "بعض طرز الذكاء الاصطناعي الكبيرة تبدو قادرة جدًا ، لكنها ليست مفتوحة المصدر ، ولا يمكنك إلا رؤية نتائج إخراجها." **
بالمقارنة مع نموذج المصدر المفتوح ، يمكن لنموذج المصدر المغلق فهم مزايا وعيوب النموذج فقط من خلال تقييم أداء النموذج. يؤدي هذا إلى حقيقة أن أداء النماذج المغلقة المصدر قد يكون مبالغًا فيه بشكل مصطنع ، أو إخفاء عيوبها. يمكن أن تساعد شفافية نموذج المصدر المفتوح المطورين على اكتساب فهم أعمق للنموذج وتقييمه بشكل أكثر إنصافًا.
بالنسبة للوافدين المتأخرين ، هناك مشكلة أخرى في نموذج المصدر المغلق: من السهل التشكيك في أصالة التكنولوجيا. أخبر العديد من مطوري النماذج الكبار Huxiu ذات مرة ، "بالنسبة لتلك النماذج التي ليست مفتوحة المصدر ، بصراحة ، حتى لو كانت قذيفة LLaMA ، أو ببساطة تستدعي واجهة ChatGPT في الخلفية ، من يدري؟"
عندما ظهرت الموجة الأولى من النماذج الكبيرة المحلية للذكاء الاصطناعي ، انتشرت أصوات الشك هذه على نطاق واسع على الإنترنت. بالنسبة لنماذج الذكاء الاصطناعي الكبيرة التي ليست مفتوحة المصدر ، من الصعب إثبات براءتها.من أجل إثبات أنهم لا يتصلون بواجهة برمجة تطبيقات ChatGPT ، قامت بعض الشركات حتى بإخراج خادم الاستدلال وسحب كابل الشبكة للتوضيح على بقعة.
المصدر المفتوح هو بلا شك أحد أفضل الطرق للتصديق الذاتي على نماذج الذكاء الاصطناعي الكبيرة. لكن القيمة الحقيقية لـ ** المصدر المفتوح ليست القدرة على الاعتماد الذاتي ، ولكن للاستيلاء على البيئة. **
"بعد إصدار LLaMA 2 ، سوف تستولي بالتأكيد على نظام OpenAI البيئي بسرعة." أخبر مطور نماذج كبير Huxiu أنه على الرغم من أن GPT-4 تُعرف تقريبًا من قبل الصناعة على أنها تتمتع بأقوى قدرة ، إلا أن النماذج بعد GPT-3 ليست مفتوحة المصدر علاوة على ذلك ، فإن انفتاح واجهة API لـ GPT-4 منخفض جدًا أيضًا ، لذلك هناك العديد من القيود على تطوير نموذج GPT. نتيجة لذلك ، يختار العديد من المطورين نماذج مفتوحة المصدر مثل LLaMA. لا تستطيع هذه النماذج مفتوحة المصدر ضبط التعليمات فحسب ، بل يمكنها أيضًا إجراء الأبحاث على النموذج الأساسي.
** "LLaMA بالتأكيد أكثر شعبية بين المطورين من OpenAI." **
عندما تم إصدار LLaMA 2 لأول مرة في 19 يوليو ، كان هناك أكثر من 5600 مشروع على GitHub مع كلمات رئيسية بما في ذلك "LLaMA" ، وأكثر من 4100 مشروع بما في ذلك "GPT-4". بعد أسبوعين من إطلاقه ، أصبح معدل نمو LLaMA أسرع ، حتى وقت النشر ، يوجد أكثر من 6200 "LLaMA" وأكثر من 4400 "GPT-4".
من ناحية أخرى ، يمكن تنزيل النماذج مفتوحة المصدر محليًا لنشرها بشكل خاص ، مما يسهل تدريب الشركات التجارية على الذكاء الاصطناعي. تحتاج تطبيقات الذكاء الاصطناعي الخاصة بهذه الشركات إلى التدريب بناءً على بيانات الأعمال الخاصة بها ، ويمكن لنموذج الذكاء الاصطناعي واسع النطاق الذي يتم نشره بشكل خاص حماية أمن البيانات إلى أقصى حد. في الوقت نفسه ، هناك المزيد من الخيارات لقوة الحوسبة للنشر المخصخص ، سواء كانت خدمة سحابية ، أو نشر محلي ، أو حتى قوة حوسبة موزعة للعديد من IDCs ، مما يقلل بشكل كبير من تكلفة تدريب النموذج والاستدلال.
على الرغم من أن ChatGPT قد حصد 100 مليون مستخدم نشط شهريًا في شهرين فقط ، في النظام البيئي للمطورين ، فإن السرعة التي يسيطر بها نموذج المصدر المفتوح على أذهان المستخدمين تبدو أسرع.
في الوقت الحالي ، اختارت العديد من شركات الذكاء الاصطناعي المحلية إطلاق نماذج مفتوحة المصدر. وتشمل هذه النماذج مفتوحة المصدر ChatGLM-6B الصادرة عن Zhipu AI ، و MOSS الصادرة عن جامعة فودان ، و Wudao Tianying Aquila الصادر عن معهد Zhiyuan للأبحاث ، و Baichuan-7B (13B) الصادر عن Baichuan Intelligent. من بينها ، ChatGLM-6B ، وهو نموذج كبير مفتوح المصدر أصدرته ** Zhipu AI ، تم تنزيله أكثر من 4 ملايين مرة في جميع أنحاء العالم ، وحصل على 32000 نجمة على GitHub ، 3000 نجمة أكثر من LLaMA. **
"إذا لم نصنع نموذجًا مفتوح المصدر ، فسيكون السوق قريبًا ممتلئًا بـ LLaMA." قال أحد المديرين التنفيذيين لشركة AI التي أطلقت نموذجًا مفتوح المصدر لـ Huxiu أن المصدر المفتوح يعد خطوة مهمة في تطوير الذكاء الاصطناعي الصيني. نموذج كبير.
في الواقع ، قبل أن يبدأ اتجاه LLMs ، خاض الذكاء الاصطناعي التوليدي بالفعل معركة مفتوحة المصدر ومغلقة المصدر.
** مع وجود عدد كبير من المطورين وتطبيقات المنتجات ، دفع نموذج الرسم البياني Wensheng مفتوح المصدر Stable Diffusion تقريبًا أول نموذج مغلق المصدر من OpenAI Dall-E 2 إلى الزاوية. ** على الرغم من أن المستخدمين يعتقدون عمومًا أن قدرات نموذج Stable Diffusion ليست جيدة مثل منتج آخر مغلق المصدر MidJourney ، ** انتشر Stable Diffusion قد استحوذ على عدد كبير من أسواق الرسوم البيانية في Vincent بحكم مصدره المفتوح وخصائصه المجانية ، وأصبح نموذج الرسم البياني الأكثر شيوعًا في فينسنت ، كما تلقت شركة التطوير RunwayML And Stability AI الخاصة بها الكثير من الاهتمام والتمويل. **
يبدو أن نموذج المصدر المفتوح لـ LLaMA 2 ينوي فرض OpenAI في مجال LLMs.
المصدر المفتوح مع البضائع
LLaMA 2 مفتوح المصدر حاليًا ، جميع الطرز الثلاثة في السلسلة: 7 مليارات و 13 مليار و 70 مليار نسخة من المعلمات. ومع ذلك ، هناك أيضًا شائعات في السوق مفادها أن "Meta لديها بالفعل إصدار به معلمات أكبر لم يتم إصداره. قد يحتوي الإصدار التالي على إصدار به معلمات أكبر ، ولكنه قد لا يكون مفتوح المصدر."
من الجدير بالذكر أن العديد من نماذج المصادر المفتوحة ليست كلها مفتوحة المصدر في الوقت الحالي. في نموذج Enlightenment 3.0 الصادر عن معهد Zhiyuan للأبحاث ، فإن نموذج اللغة الأساسي "Tianying" هو المصدر المفتوح فقط ؛ و ChatGLM الذي أصدرته Zhipu AI فتح جزءًا فقط من سلسلة النماذج ، ولا يزال نموذج المعلمة الأكبر البالغ 130 مليارًا مغلق المصدر. **
بغض النظر عما إذا كان LLaMA 2 "محجوزًا" للموديلات الأكبر ، فإن النموذج "المجاني" سيسرع بلا شك من تشكيل Meta في سوق النماذج الكبيرة ويدفعه إلى "الطريق القديم" لنظام Android.
من خلال النظام البيئي مفتوح المصدر ، جمع نظام Android عددًا كبيرًا من المطورين والمستخدمين حول العالم. فيما يتعلق ببيئة التكنولوجيا ، فقد قامت بفحص وتوازن نظام المصدر المغلق الرائد iOS ، بل إنها شكلت احتكارها الخاص في بعض الأسواق. منذ عام 2018 ، فرض الاتحاد الأوروبي غرامة تزيد عن 4 مليارات يورو على Google بسبب آلية احتكار نظام Android. من هذه الغرامة العالية ، يمكننا أيضًا أن نرى مدى ربحية نظام Android مفتوح المصدر.
وفقًا لتقرير صادر عن شركة الأبحاث Sensor Tower ، سيصل إنفاق المستخدمين على Google Play إلى حوالي 53 مليار دولار أمريكي في عام 2022 ، وسيزيد هذا الرقم إلى 60 مليار دولار أمريكي في عام 2023. وفقًا لتقرير صادر عن مؤسسة بحثية أخرى ، Statista ، اعتبارًا من يناير 2022 ، هناك حوالي 140000 تطبيق في متجر Google Play.
في هذه المرحلة ، من الواضح أن نموذج AI مفتوح المصدر لم يحظى بشعبية كبيرة مثل الهواتف المحمولة. ومع ذلك ، حتى لو كان الذكاء الاصطناعي مشهورًا حقًا مثل الهواتف المحمولة ، فلن تتخلى الشركات العملاقة مثل Meta بسهولة عن الشركات التي حققت الكثير من المال باستخدام LLaMA 2.
في اتفاقية المصدر المفتوح لـ LLaMA 2 ، يوجد مثل هذا الشرط: ** إذا تجاوز عدد المستخدمين النشطين شهريًا 700 مليون ، فيجب عليك التقدم للحصول على ترخيص من Meta. يجوز لشركة Meta ، وفقًا لتقديرها الخاص ، الترخيص لك ، ولن يكون لك الحق في ممارسة أي من هذه الحقوق. **
في الوقت نفسه ، بالإضافة إلى النسخة المغلقة المصدر من نموذج المصدر المفتوح وتطبيق نماذج الذكاء الاصطناعي الكبيرة ، يمكن أيضًا أن ** تساعد القدرة الحاسوبية على "جلب البضائع" **.
أول مصنعين في الصين للترويج لنماذج الذكاء الاصطناعي واسعة النطاق ، بايدو وعلي ، هما مصنعان سحابيان. البائعان السحابيان الآخران ، Tencent Cloud و Huawei Cloud ، على الرغم من أنهما لا يمتلكان منتجات LLM مثل Wenxin Yiyan و Tongyi Qianwen ، إلا أنهما يواصلان الصراخ حول نماذج الذكاء الاصطناعي. السبب الرئيسي وراء ذلك هو "تأثير الحمل" للنموذج الكبير على السحابة.
"الإعلان عن بعض الإجراءات على النماذج واسعة النطاق للذكاء الاصطناعي يتم الترويج له بشكل مشترك من قبل السوق والعملاء. في الأشهر القليلة الماضية ، كان هناك الكثير من العملاء الذين أتوا للسؤال عن النماذج واسعة النطاق." قال أحد قادة الأعمال السحابية في Tencent Huxiu أن قوة الحوسبة في قائمة الانتظار ، وهو أفضل دليل على قدرة النموذج الكبير للذكاء الاصطناعي على حمل البضائع.
** لا يحتاج النموذج إلى كسب المال ، ولكن يجب أن تكون القدرة الحاسوبية مربحة. ** فتحت Alibaba فتحت Tongyi Qianwen ، وقدمت Baidu 30 نموذجًا مفتوح المصدر على منصة Wenxin Qianfan للنماذج واسعة النطاق. وهذان الإجراءان يهدفان إلى توفير إمكانات الذكاء الاصطناعي "المجانية" للمستخدمين. لم يعد المستخدمون الذين يستخدمون نموذج المصدر المفتوح يدفعون مقابل الذكاء الاصطناعي ، ولكن طالما أن الذكاء الاصطناعي الخاص بهم يعمل على Alibaba Cloud و Baidu Smart Cloud ، فسيتعين عليهم الدفع مقابل قوة الحوسبة.
"** يجب أن تعود منظمة العفو الدولية أيضًا إلى فكرة السحابة وكسب المال من السحابة. ** قال شين تشو ، المدير العام لشركة Baidu Smart Cloud AI و Big Data Platform ، أن الهدف الأصلي من فتح النظام الأساسي للنموذج الكبير هو إنشاء قيمة لأعمال العملاء. وأثناء إنشاء القيمة ، يمكن أن يعزز من ثبات العملاء القدامى ويوسع المزيد من العملاء الجدد. هذا يساعد بشكل كبير في توسيع نطاق تأثير بائعي السحابة.
مجاني أكثر تكلفة
"** 10 ملايين ، هذا هو المبلغ نفسه تقريبًا مثل سعر البداية لتخصيص نموذج كبير. **"
قدم مؤسس شركة نموذجية واسعة النطاق مفتوحة المصدر عرض أسعار للوسيط الذي جاء للتشاور عبر الهاتف.
"بعد أن تم التعرف على نموذج المصدر المفتوح من قبل المستخدمين ، يمكنك التحدث إلى الآخرين حول رسوم الخدمة للتطوير المخصص." بعد أن أغلق المؤسس الهاتف ، أوضح لـ Huxiu أنه بالنسبة لنموذج مثل LLaMA 2 ، فإن تكلفة التطوير هي على الأقل ما يكلف عشرات الملايين من الدولارات. لذلك ، يجب أن تكون تكلفة السوق التي يستهدفها عشرات أو مئات أضعاف تكلفة التطوير.
من وجهة النظر الحالية ، فإن أفضل طريقة ** لشركات الذكاء الاصطناعي لجني الأموال من نماذج مفتوحة المصدر هي البدء بالخدمات. **
لحسن الحظ ، يحتاج معظم مستخدمي النماذج الكبيرة للذكاء الاصطناعي إلى هذه الخدمات كثيرًا.
"النموذج مفتوح المصدر ومجاني ومتاح تجاريًا. وهذا يعني أنه بدءًا من تنزيل النموذج ونشر النموذج والتدريب والضبط وتطوير التطبيق في التطبيقات الفعلية ، يجب أن تقوم بكافة الأعمال بنفسك." مطور تطبيق LLaMA قال Huxiu ، إن معظم موردي النماذج المغلقة سيقدمون خدمات التدريب والنشر ، ويمكنهم تخصيص وظائف التطوير وفقًا لاحتياجات المستخدم. ولكن إذا كنت تستخدم نموذجًا مفتوح المصدر ، فيجب عليك القيام بكل هذه المهام بنفسك ، ولن يساعدك أحد في التدريب ، ولن يجدك أحد قوة الحوسبة ، ولن يساعدك أحد في تخصيص التطوير.
"** في الواقع ، يقوم مصنعو النماذج المغلقة ببيع الخدمات. **" قال الشخص المسؤول عن مؤسسة تعليمية عبر الإنترنت الذي أجرى بحثًا عن تطبيقات الذكاء الاصطناعي استنادًا إلى نموذج LLaMA لـ Huxiu ، "يبدو أن نموذج المصدر المفتوح مجاني ، ولكن أثناء عملية النشر ، لا يزال يتعين إنفاق الكثير من الأموال. "بعد إضافة نموذج الذكاء الاصطناعي ، ارتفعت تكلفة القوى العاملة وقوة الحوسبة في قسم تكنولوجيا المعلومات بشكل كبير.
على الرغم من أن التدريب والضبط بناءً على نماذج مفتوحة المصدر ليس بالأمر الصعب بالنسبة لمعظم موظفي تكنولوجيا المعلومات. ومع ذلك ، لإجراء بحث متعمق وتطوير للنموذج ، لا تزال هناك حاجة إلى بعض الاحتياطيات التقنية من حيث الخوارزميات والذكاء الاصطناعي. نظرًا لأن مفهوم نماذج الذكاء الاصطناعي واسعة النطاق أصبح أكثر شيوعًا ، فإن سعر المواهب في هذا المجال آخذ في الارتفاع أيضًا.
"** الزيادة في تكاليف العمالة عائمة بالفعل ، لكن تكلفة الخوادم والأجهزة حقيقية. من الاستثمار في النماذج الكبيرة حتى الآن ، ارتفعت تكاليفنا بنحو 20٪ إلى 30٪. **" قال الشخص المسؤول في الوقت الحاضر ، لا تزال مؤسسته في مرحلة استكشاف مشهد الذكاء الاصطناعي ، والصعوبة الأكبر هي أنها تحتاج إلى تجربة كل مشهد. "إذا فشل أحدهم ، فاستبدله بأخرى. في هذه العملية ، كل خطوة تكلف مالًا."
في هذا الصدد ، سأل Huxiu أحد المطلعين في Baidu Smart Cloud عن خدمة وتكلفة Baidu Wenxin Qianfan من حيث النشر. سيوفر المال. ** "
في الواقع ، بغض النظر عما إذا كان نموذجًا مفتوح المصدر أو نموذجًا مغلق المصدر ، يتم حساب تكلفة نشر النموذج على أساس الفرد / اليوم ، ولن يكون هناك فرق جوهري في تكاليف طاقة الحوسبة للعمليات اللاحقة. التدريب والتفكير. "** ومع ذلك ، فإن استخدام نماذج مفتوحة المصدر للتدريب والنشر والتطوير بنفسك لن يؤدي إلا إلى جعل هذه العملية مزعجة للغاية." قال المطلع على بايدو إن تكلفة النشر المحددة تعتمد على المشروع المحدد ، والفرق كبير جدًا. ومع ذلك ، لا يوجد فرق جوهري بين المصدر المفتوح والمغلق المصدر من حيث تكاليف النشر والاستخدام. ** ومن منظور أمن البيانات ، يمكن أيضًا نشر معظم النماذج المغلقة المصدر بشكل خاص.
** في هذه المرحلة ، لا يزال من الصعب على الذكاء الاصطناعي تحقيق الشمولية. **
بالنسبة لمعظم الشركات العاملة في مجال الأعمال التجارية عبر الإنترنت ، فإن لديهم فرق البحث والتطوير الخاصة بتكنولوجيا المعلومات الخاصة بهم. وعندما يأتي النموذج الكبير ، سيتمكنون قريبًا من تشكيل فريق "مؤسس" لتطوير تطبيقات الذكاء الاصطناعي. ولكن بالنسبة للعديد من صناعات البيع بالتجزئة والتصنيع التقليدي والخدمات ، فإن التحول الرقمي يمثل مشكلة صعبة ، فمن الصعب حقًا عليهم دراسة تدريب النماذج الضخمة للذكاء الاصطناعي ونشرها واستدلالها.
بالنسبة لهذه الشركات ، فإن أفضل منتج للذكاء الاصطناعي هو مكون إضافي للذكاء الاصطناعي للأغراض العامة. "ما نحتاجه هو مجرد روبوت لخدمة العملاء لا تبدو محادثاته حمقاء للغاية. طلبت مني تعلم كيفية تدريب النموذج ، وهو أمر مثير بعض الشيء." قال مدير خط الأعمال لعلامة تجارية إلكترونية لشركة Huxiu أن في الأشهر الستة الماضية ، استمع لتوه ويقال إن قدرة حوار الذكاء الاصطناعي أصبحت أقوى من ذي قبل ، لكن لم يتم تجربة ChatGPT بعد. على الرغم من استعداده أيضًا لتبني التقنيات الجديدة ، إلا أنه لا يمثل دافعًا كافيًا لقضاء الوقت في التعلم واستثمار الأموال في الذكاء الاصطناعي الآن.
"ما لم يكن هناك مكون إضافي في النظام الأساسي أو البرنامج الذي أستخدمه الآن ، يمكنني استخدامه بمجرد التقاطه ، وإلا فلن أفكر كثيرًا في إنفاق الأموال لترقية مساعد الذكاء الاصطناعي على الفور . "منخفض.
"** يحتاج التجار إلى الذكاء الاصطناعي للقيام بذلك ، ويمكن تطبيقه وتمكينه دون الشعور. **" قامت الشركة المصنعة SaaS Weimob بإنشاء مثل هذا التطبيق WAI في التسويق الرقمي ، مما يساعد التجار على استدعاء قدرات الذكاء الاصطناعي في شكل تضمين التطبيقات الحالية. تزويد التجار بحوار AI وإمكانيات إنشاء النصوص والصور استنادًا إلى نماذج اللغات الكبيرة.
يشبه ربط النماذج الكبيرة بأدوات خدمة SaaS إلى حد ما استدعاء نموذج Baidu Wenxin Qianfan. على الرغم من إجراء مكالمات الواجهة و Finetune فقط ، إلا أنه يوفر للمستخدمين إمكانات هبوط AI أكثر وأسرع وأكثر استقرارًا.
"** يمكن للنماذج مفتوحة المصدر أن تسهل على المستخدمين البدء ، والآن يتم تحديث العديد من الطرز مفتوحة المصدر بشكل أسرع من الشركات المصنعة الكبرى. **" يعتقد Yin Shiming ، مدير العمليات في Weimob Group ، أن المصدر المفتوح والانفتاح يمكنهما بسرعة تقديم قدرات الذكاء الاصطناعي للمستخدمين بين يديك ، ما يحتاجه المستخدمون حقًا هو "التوصيل والتشغيل" AI. **
بالنسبة لمعظم المستخدمين الذين لا يزالون في مرحلة اختبار النماذج الكبيرة للذكاء الاصطناعي وتجربتها وتجربتها ، من الواضح أن عتبة النماذج مفتوحة المصدر أقل ، وتكلفة بدء التشغيل هي صفر تقريبًا.
استخدم العديد من المستخدمين نموذج المصدر المفتوح من البداية ، وسيستمرون في استخدامه في المستقبل. تولد مشاكل النشر والتدريب المذكورة أعلاه سلسلة صناعة خدمات لنماذج مفتوحة المصدر.
Chen Ran في هذه الموجة من الطفرة الكبيرة في النموذج ، يقوم OpenCSG الذي تم إنشاؤه حديثًا بأعمال الخدمة حول النموذج الكبير مفتوح المصدر.
تهدف خدمة النموذج الكبير التي تقدمها OpenCSG بشكل أساسي إلى تدريب وتنفيذ نماذج مفتوحة المصدر للمؤسسات. من اختيار نماذج مفتوحة المصدر ، إلى قوة الحوسبة الموزعة الهجينة ، جنبًا إلى جنب مع تدريب نموذج الأعمال ، وتطوير التطبيقات الخلفية ، وما إلى ذلك ، يمكن أن تقدم خدمات للمؤسسات.
"** النماذج الكبيرة تشبه جميع SaaS في رأيي. سيتم إثراء صناعات المنبع والمصب بشكل تدريجي ، ولن يركز العملاء فقط على قدرات النموذج." يعتقد Chen Ran أن الطلب النهائي للعملاء هو عدم العثور على أكثر نموذج قادر ، ولكن استخدام أفضل وأسهل وأبسط لنماذج الذكاء الاصطناعي الكبيرة لخدمة أعماله.
بيئة مفتوحة المصدر حول الذكاء الاصطناعي
في سلسلة صناعة الذكاء الاصطناعي بأكملها ، يذهب المصدر المفتوح إلى ما هو أبعد من النماذج. من البحث والتطوير إلى النشر إلى التطبيق ، كل رابط تقريبًا لا ينفصل عن موضوع المصدر المفتوح.
** تتطلب كل من الخوارزميات وقوة الحوسبة والبيانات وعناصر الذكاء الاصطناعي الثلاثة دعمًا مفتوح المصدر. **
على مستوى الخوارزمية ، أصبحت النماذج الكبيرة مفتوحة المصدر للذكاء الاصطناعي في مرحلة متأخرة نسبيًا. في البحث والتطوير المبكر للذكاء الاصطناعي ، استخدمت جميع نماذج الذكاء الاصطناعي تقريبًا أطر التعلم الآلي ، والتي تكافئ بناء صناديق أدوات الذكاء الاصطناعي. تعد أطر التعلم الآلي السائدة الحالية ، بما في ذلك TensorFlow و Pytorch و PaddlePaddle (مجداف الطيران) ، كلها أطر عمل مفتوحة المصدر.
على مستوى البيانات ، تعد مجموعة بيانات Commen Crowl مفتوحة المصدر مصدرًا مهمًا للبيانات في عملية تدريب نموذج GPT. في الوقت الحاضر ، أصدرت العديد من المؤسسات وشركات البيانات منتجات مفتوحة المصدر على مجموعات بيانات التدريب على الذكاء الاصطناعي ، بما في ذلك مجموعة بيانات COIG-PC لمعهد Zhiyuan للأبحاث ، ومجموعة بيانات DOTS-MM-0526 متعددة الوسائط من هايتي AAC.
بالنسبة لناشري مجموعات البيانات ، لا يمكن للمصدر المفتوح أن يعزز التأثير وقيمة العلامة التجارية فحسب ، بل يمكن لمجموعات البيانات مفتوحة المصدر أيضًا جمع تعليقات إيجابية من مجتمع المصدر المفتوح للعثور على الأخطاء أو التناقضات في البيانات وإصلاحها. تساعد هذه المراجعة الخارجية في تحسين جودة البيانات مع زيادة إثراء النظام البيئي للمنتج الخاص بالناشر.
"** غالبًا ما يواجه مهندسو الخوارزميات مشكلة نقص البيانات في البحث والتطوير. يمكن أن تؤدي البيانات عالية الجودة إلى تحسينات نوعية لتقييم النموذج. ** تواجه بلدي حاليًا ندرة مجموعات البيانات عالية الجودة ، مما يعيق أيضًا اللغة الصينية نماذج كبيرة. تطوير التكنولوجيا. "AAC الهايتي هو أحد مزودي بيانات التدريب لنموذج المصدر المفتوح LLaMA 2 ، كما قال لي كي ، مدير العمليات في AAC الهايتية.
** فيما يتعلق بقوة الحوسبة ، وهي أكبر عقبة في تطوير الذكاء الاصطناعي ، يعمل إطار الرقاقة مفتوحة المصدر أيضًا على تحفيز تطوير الصناعة. **
في 4 أغسطس ، أعلنت شركة Qualcomm عن تأسيس مشروع مشترك مع أربع شركات لأشباه الموصلات لتسريع تسويق الرقائق استنادًا إلى بنية RISC-V مفتوحة المصدر. يوجد حاليًا ثلاثة أطر رقاقات سائدة في السوق: x86 المستخدمة بواسطة وحدات المعالجة المركزية Intel ، و Arm المستخدمة من قبل Nvidia GPUs ، و RISC-V ، وهو إطار عمل شرائح مفتوح المصدر.
"يمكن أن يوفر RISC-V بيئة قابلة للبرمجة. ويمكن لفريق تطوير الرقاقة استخدام RISC-V للقيام بالكثير من أعمال ما قبل المعالجة وما بعد المعالجة ، ويمكنه أيضًا إضافة مسرعات خاصة أو وحدات وظيفية تلبي احتياجات المستخدم لتلبية احتياجات المستخدم قال جانج تشيجيان ، نائب الرئيس الأول للتسويق وتطوير الأعمال في SiFive ، إن النظام البيئي RISC-V يوفر ثروة من الخيارات لأبحاث وتطوير الرقائق ، وهو ما يساعد بشكل كبير في تلبية الطلب المتزايد بسرعة على رقائق الذكاء الاصطناعي اليوم.
تتمتع كل من Arm و x86 بأنظمة بيئية مغلقة نسبيًا مقارنةً بـ RISC-V. ** في النظام البيئي Arm ، يمكن للمستخدمين فقط اختيار الخيارات المحدودة التي يوفرها Arm ، في حين أن النظام البيئي RISC-V لديه العديد من الشركات المشاركة ، وسيكون هناك المزيد من أنواع المنتجات والخيارات. **
تعمل بنية المصدر المفتوح أيضًا على تحفيز صناعة الرقائق لتسريع المنافسة. قال جانج تشيجيان: "** بصفتنا مقدم خدمة لهندسة الرقائق مفتوحة المصدر ، فإننا سنتنافس أيضًا مع الشركات الأخرى. ولكن سواء فزنا أو فازت شركات أخرى ، فهذا نوع من المنافسة في النهاية ، سيعزز ازدهار وتقدم نظام RISC-V البيئي. ** "
على الرغم من أن بنية مجموعة تعليمات RISC-V مجانية ومفتوحة المصدر ، فإن عنوان IP الأساسي الذي شكله مصنعو تصميم الرقائق استنادًا إلى التطوير الثانوي لهندسة مجموعة تعليمات RISC-V له حقوق ملكية فكرية مستقلة ويمكن الترخيص به من خلال رسوم خارجية. وفقًا لبيانات من مؤسسة RISC-V الدولية ، سيزداد عدد الأعضاء بأكثر من 26٪ على أساس سنوي في عام 2022 ، وسيتجاوز العدد الإجمالي للوحدات الأعضاء 3180 ، تغطي 70 دولة / منطقة ، بما في ذلك Qualcomm ، Intel و Google و Alibaba و Huawei و UNISOC وشارب والعديد من الشركات الرائدة الأخرى في مجال الرقائق.
يعد المصدر المفتوح ميزة لـ RISC-V ، ولكنه يخلق أيضًا بعض المشكلات. يحتوي RISC-V على أكثر من 40 مجموعة تعليمات أساسية ، بالإضافة إلى العشرات من تعليمات تمديد الوحدة الأساسية.يمكن لأي مؤسسة ومطور استخدام RISC-V مجانًا لإنشاء شرائح ذات حقوق ملكية فكرية مستقلة.
ومع ذلك ، فإن الميزات المعيارية والمفتوحة المصدر والقابلة للتخصيص بدرجة كبيرة تجعل النظام البيئي RISC-V أكثر تجزئة وتعقيدًا.
"بعد أن تقوم كل شركة بحث وتطوير شرائح بترقية مجموعة تعليمات RISC-V ، فإنها ستنتج بالفعل بنية جديدة. تسمى RISC-V ، لكن الشركات المختلفة غير متوافقة مع RISC-V ، وبيئة المصدر المفتوح هي في الواقع مقسم. ** "لو تاو ، رئيس Weiwei Technology والمدير العام للصين الكبرى ، يعتقد أن المصدر المفتوح لهندسة الرقائق وبيئة البرمجيات مهمان للغاية ، ولكن من الصعب جدًا على الفرق المختلفة إيجاد توازن بين الانفتاح ، التخصيص والتجزئة: اختبر حكمة وقدرة فريق البحث والتطوير.
بالإضافة إلى ذلك ، أنتجت بنية Arm بالفعل وحدات معالجة الرسومات (GPU) ووحدات IPU والرقائق الأخرى المناسبة لتدريب الذكاء الاصطناعي والتفكير المنطقي ، كما أن البيئة التقنية أكثر اكتمالًا ونضجًا. الهدف الأصلي من RISC-V هو تصميم وحدات المعالجة المركزية ، وعلى الرغم من أنها مفتوحة للغاية ، إلا أن تصميم شرائح الذكاء الاصطناعي لا يزال في مرحلة الاستكشاف.
وفقًا لشركة الأبحاث Counterpoint Research ، بحلول عام 2025 ، ستتجاوز الشحنات التراكمية لمعالجات RISC-V 80 مليارًا ، بمعدل نمو سنوي مركب يبلغ 114.9٪. بحلول ذلك الوقت ، سيحتل RISC-V 14٪ من سوق وحدات المعالجة المركزية العالمية ، و 28٪ من سوق إنترنت الأشياء ، و 12٪ من السوق الصناعية ، و 10٪ من سوق السيارات.
طبقت Qualcomm بالفعل RISC-V في وحدات تحكم دقيقة في Snapdragon 865 SoC في عام 2019 ، وشحنت أكثر من 650 مليون شريحة RISC-V حتى الآن. في منتدى قمة الأجهزة AI في سبتمبر 2022 ، كشف البروفيسور Krste Asanovic ، مخترع RISC-V ، أن Google بدأت في استخدام SiFive Intelligence X280 المستندة إلى RISC-V لتطوير إطار عمل التعلم الآلي الخاص بها TensorFlow. رقائق TPU. ** قبل ذلك ، أجرت Google أعمال البحث الذاتي حول بنية شريحة TPU لأكثر من 10 سنوات.
على الرغم من صعوبة تطوير رقائق RISC-V من الصفر ، إلا أن طبيعة المصدر المفتوح لـ RISC-V أعطت الرقائق الصينية ، التي بدأت أيضًا من الصفر ، فرصة للبقاء على قيد الحياة في ظل الحصار والاحتكار. "من وجهة نظري ، رقاقة الصين الصينية الشركات هي الأسرع نموًا في العالم. وشركات الرقائق الصينية أكثر عدوانية ومستعدة لمواجهة التحديات. "قال جانج تشيجيان إن السوق الصينية هي المفتاح لتحفيز تطوير صناعة الرقائق. سوق الرقائق في الصين ضخم ، على سبيل المثال ، تجاوز الطلب على طاقة حوسبة رقائق السيارات في الصين بكثير الطلب في الأسواق الأوروبية والأمريكية. ** مع الطلب المتزايد من الشركات الصينية على قوة الحوسبة بالذكاء الاصطناعي ، فإن صناعة شرائح الذكاء الاصطناعي في الصين ستفتح بالتأكيد المزيد من الفرص في المستقبل.
خاتمة
بالإضافة إلى الاعتبارات التجارية ، يمكن أن يساعد ** المصدر المفتوح أيضًا الناشرين التقنيين على تحسين النماذج. **
"ChatGPT هو في الواقع انتصار للهندسة." إن نجاح نموذج اللغة الكبير اليوم يعتمد في الواقع على التدريب المتكرر وضبط النموذج. إذا تم ترقية النموذج إلى مجتمع المصادر المفتوحة بعد إنشاء النموذج الأساسي ، وشارك المزيد من المطورين في أعمال تحسين النموذج ، فسيكون بلا شك عونًا كبيرًا لتقدم نموذج الذكاء الاصطناعي الكبير.
بالإضافة إلى ذلك ، "يمكن للنماذج الكبيرة مفتوحة المصدر أن تتجنب إعادة اختراع العجلة." قال لين يونغهوا ، نائب الرئيس وكبير المهندسين في معهد تشيوان لأبحاث الذكاء الاصطناعي في بكين ، في مقابلة خلال مؤتمر Zhiyuan 2023 ، بافتراض أن كل شخص ** يأتي من The يتطلب البحث والتطوير للنماذج واسعة النطاق للأغراض العامة الكثير من قوة الحوسبة والبيانات والكهرباء.إنها إعادة ابتكار كاملة للعجلة ، والتي لا تفضي إلى الاستخدام الرشيد للموارد الاجتماعية. **
بالنسبة لمنظمة غير ربحية مثل Zhiyuan Research Institute ، بغض النظر عما إذا كان النموذج مفتوح المصدر أو مغلق المصدر ، فقد لا يكون هناك الكثير من الاعتبارات التجارية. ولكن بالنسبة لشركات الذكاء الاصطناعي التجارية ، سواء كانت Microsoft أو Google أو Meta أو OpenAI أو Zhipu AI و Baichuan Intelligent المحلي ، فإن أي نموذج كبير للذكاء الاصطناعي لن يكون بالتأكيد لغرض "البحث العلمي". **
على الرغم من أن منتجات OpenAI تتمتع بميزة مطلقة في التكنولوجيا ، إلا أن نظام ChatGPT البيئي المبني على شكل مكونات إضافية ضعيف من حيث البناء البيئي. في نزاعات مفتوحة المصدر ومغلقة المصدر للذكاء الاصطناعي ، قد نرى نمطًا مختلفًا عن نظام تشغيل الأجهزة المحمولة في المستقبل.