Lightspeed America: أين مستقبل طبقة البنية التحتية للذكاء الاصطناعي؟

ترجمة: SenseAI

"منذ أن أطلقت OpenAI GPT-4 في أبريل من هذا العام، أصبح المزيد والمزيد من النماذج مفتوحة المصدر، وتحول تركيز المؤمنين بالذكاء الاصطناعي من النماذج إلى التطبيقات. يستنتج مقال Lightspeed الأخير اتجاه تطوير نماذج الذكاء الاصطناعي ويقترح المستقبل. سيتم تقسيم النماذج الكبيرة إلى ثلاثة أنواع من النماذج، وسيتم تنظيم الفرص المحتملة على مستوى النموذج بطريقة منظمة. وسيدفعك محتوى هذا العدد إلى التفكير في اتجاهات التطوير والفرص الخاصة بطبقة البنية التحتية للنموذج، بما في ذلك الطبقة الوسطى لـ AI Ops."

التفكير الحسي

نحاول طرح المزيد من الاستنتاجات والتأملات المتباينة بناءً على محتوى المقالة، ونرحب بالتبادلات.

بناءً على قدرات النموذج وتكلفته، سيتم تقسيم نماذج الذكاء الاصطناعي إلى "نماذج الدماغ" و"نماذج المتحدي" و"نماذج الذيل الطويل". النماذج طويلة الذيل صغيرة ومرنة، وهي أكثر ملاءمة لتدريب النماذج المتخصصة التي تستهدف المجالات المقسمة. تم فرض دورية قانون مور، ولن يكون هناك أي عائق أمام قوة الحوسبة في المستقبل، ومن الصعب قتل سيناريوهات تطبيق نموذج الدماغ، ومن المرجح أن يختار السوق نموذجًا مناسبًا وفقًا لحجم مساحة الدماغ. سيناريو التطبيق وقواعد التوزيع لسلسلة القيمة.

فرص النظام الناشئة على جانب النموذج: 1) إطار تقييم النموذج؛ 2) تشغيل النموذج وصيانته؛ 3) تعزيز النظام. وما يجب أن نأخذه في الاعتبار هو الاختلافات بين الأسواق المختلفة في الصين والولايات المتحدة، وبيئة الخدمة الأصلية للشركات، وتفضيلات رأس المال.

فرص منصة RAG (تعزيز الاسترجاع) على مستوى المؤسسة: الفرص التي يوفرها تعقيد النماذج وتنوعها، 1) الأدوات التشغيلية: إمكانية المراقبة والأمن والامتثال؛ 2) البيانات: في التمييز بين قيمة الأعمال وتوفير المجتمع ككل من حيث القيمة، ستجلب التكنولوجيا فرص تحقيق الدخل من البيانات.

تحتوي هذه المقالة على إجمالي 2426 كلمة وتستغرق قراءتها بعناية حوالي 7 دقائق.

على مدار العقد الماضي، عمل Lightspeed، وهو صندوق أمريكي راسخ، مع شركات متميزة في مجال الذكاء الاصطناعي/تعلم الآلة، والمنصات التي تبنيها، والعملاء الذين تخدمهم من أجل فهم أفضل لكيفية تفكير الشركات في Gen-AI. على وجه التحديد، يفحص Lightspeed النظام البيئي الأساسي للنموذج ويطرح أسئلة مثل "هل يتمتع النموذج الأفضل بديناميكية الفائز يأخذ كل شيء؟" و"هل تستدعي جميع حالات الاستخدام المؤسسية واجهة برمجة تطبيقات OpenAI بشكل افتراضي، أم أنه من الأفضل استخدامها بالفعل؟ "التنوع؟" وأسئلة أخرى. ستحدد هذه الإجابات اتجاه النمو المستقبلي لهذا النظام البيئي، بالإضافة إلى اتجاه تدفق الطاقة والمواهب ورأس المال.

01. تصنيف النظام البيئي النموذجي

بناءً على ما تعلمناه، نعتقد أن الانفجار الكمبري لنماذج الذكاء الاصطناعي يلوح في الأفق. سيختار المطورون والشركات النموذج الذي يناسب "المهمة التي يتعين القيام بها"، على الرغم من أن الاستخدام أثناء مرحلة الاستكشاف قد يبدو أكثر تركيزًا. المسار المحتمل الذي يجب أن تتبناه المؤسسات هو استخدام نماذج كبيرة للاستكشاف، والانتقال تدريجياً إلى نماذج أصغر متخصصة (مضبوطة + منقحة) للإنتاج مع زيادة فهمهم لحالة الاستخدام. يوضح الرسم البياني أدناه كيف نرى تطور النظام البيئي النموذجي الأساسي.

يمكن تقسيم مشهد نموذج الذكاء الاصطناعي إلى 3 فئات رئيسية، وربما متداخلة:

الفئة 1: نموذج "الدماغ"

هذه هي أفضل النماذج وتمثل أحدث النماذج. هذا هو المكان الذي تأتي منه تلك العروض التوضيحية المثيرة والساحرة. غالبًا ما تكون هذه النماذج هي أول الأشياء التي يأخذها المطورون في الاعتبار عند محاولة استكشاف حدود ما يمكن أن يفعله الذكاء الاصطناعي لتطبيقاتهم. إن تدريب هذه النماذج مكلف ومعقد في صيانتها وتوسيعها. لكن النموذج نفسه يمكنه إجراء اختبار LSAT، وMCAT، وكتابة مقالة مدرستك الثانوية، والتفاعل معك كروبوت دردشة. يجري المطورون حاليًا تجارب على هذه النماذج ويقيمون استخدام الذكاء الاصطناعي في تطبيقات المؤسسات.

ومع ذلك، فإن استخدام النماذج العامة باهظ الثمن، ولها زمن استجابة مرتفع للاستدلال، وقد تكون مبالغة في حالات الاستخدام المقيدة المحددة جيدًا. المشكلة الثانية هي أن هذه النماذج عامة وقد تكون أقل دقة في المهام المتخصصة. (راجع ورقة كورنيل هذه) وأخيرًا، فهي أيضًا بمثابة صناديق سوداء في جميع الحالات تقريبًا، مما قد يخلق تحديات تتعلق بالخصوصية والأمن للمؤسسات التي تحاول الاستفادة من هذه النماذج دون التخلي عن أصول البيانات الخاصة بها. OpenAI، Anthropic، Cohere هي بعض الأمثلة على الشركات.

الفئة الثانية: نموذج “تشالنجر”

وهي أيضًا نماذج عالية القدرة، تتمتع بمهارات وقدرات تأتي في المرتبة الثانية بعد النماذج الكبيرة ذات الأغراض العامة التي تسبقها. Llama 2 وFalcon هما أفضل ممثلي هذه الفئة. عادة ما تكون جيدة مثل طراز Gen "N-1" أو "N-2" من الشركة التي قامت بتدريب النموذج العام. على سبيل المثال، وفقًا لبعض المعايير، فإن Llama2 جيد مثل GPT-3.5-turbo. يمكن أن يؤدي ضبط هذه النماذج على بيانات المؤسسة إلى جعلها جيدة مثل النماذج الكبيرة ذات الأغراض العامة من الدرجة الأولى في مهام محددة.

العديد من هذه النماذج مفتوحة المصدر (أو قريبة منها)، وبمجرد إصدارها، جلبت على الفور تحسينات وتحسينات من مجتمع المصادر المفتوحة.

الفئة 3: الموديل "ذيل طويل"

هذه نماذج "خبراء". لقد تم تصميمها لخدمة غرض محدد، مثل تصنيف المستندات، وتحديد سمات محددة في الصور أو مقاطع الفيديو، وتحديد الأنماط في بيانات الأعمال، وما إلى ذلك. تتميز هذه النماذج بالمرونة، ورخيصة الثمن للتدريب والاستخدام، ويمكن تشغيلها في مركز البيانات أو على الحافة.

نظرة سريعة على Hugging Face تكفي لفهم الحجم الهائل لهذا النظام البيئي الآن وفي المستقبل، حيث أن نطاق حالات الاستخدام التي يخدمها واسع جدًا.

02. التكيف الأساسي والحالات العملية

على الرغم من أن الوقت لا يزال مبكرًا، إلا أننا نشهد بالفعل بعض فرق التطوير والمؤسسات الرائدة تفكر في الأنظمة البيئية بهذه الطريقة الدقيقة. يريد المرء مطابقة الاستخدام مع أفضل نموذج ممكن. حتى أنه يمكنك استخدام نماذج متعددة لخدمة حالة استخدام أكثر تعقيدًا.

تتضمن عوامل تقييم النموذج/النموذج الذي سيتم استخدامه عادةً ما يلي:

  1. متطلبات خصوصية البيانات والامتثال: يؤثر هذا على ما إذا كان النموذج يحتاج إلى التشغيل على البنية التحتية للمؤسسة، أو ما إذا كان يمكن إرسال البيانات إلى نقطة نهاية استدلال مستضافة خارجيًا

  2. ما إذا كان النموذج يسمح بالضبط الدقيق

  3. المستوى المطلوب من الاستدلال "الأداء" (زمن الوصول، والدقة، والتكلفة، وما إلى ذلك)

ومع ذلك، في الواقع، غالبًا ما تكون العوامل التي يجب مراعاتها أطول بكثير من تلك المذكورة أعلاه، مما يعكس التنوع الهائل لحالات الاستخدام التي يأمل المطورون تنفيذها باستخدام الذكاء الاصطناعي.

03. أين الفرص؟

  1. إطار تقييم النموذج: ستحتاج المؤسسات إلى الوصول إلى الأدوات والخبرة للمساعدة في تقييم النموذج الذي سيتم استخدامه لكل حالة استخدام. يحتاج المطور إلى تحديد أفضل السبل لتقييم مدى ملاءمة نموذج معين لـ "العمل الذي يتعين إنجازه". يحتاج التقييم إلى النظر في عوامل متعددة، بما في ذلك ليس فقط أداء النموذج، ولكن أيضًا التكلفة، ومستوى التحكم الذي يمكن تنفيذه، وما إلى ذلك.

  2. تشغيل النماذج وصيانتها: ستظهر منصات لمساعدة الشركات على تدريب النماذج وضبطها وتشغيلها (خاصة الفئة الثالثة من النماذج طويلة الذيل). تقليديًا، تمت الإشارة إلى هذه المنصات على نطاق واسع باسم منصات ML Ops، ونتوقع أن يتوسع هذا التعريف ليشمل الذكاء الاصطناعي التوليدي أيضًا. منصات مثل Databricks وWeights and Biases وTecton وغيرها تتحرك بسرعة في هذا الاتجاه.

  3. الأنظمة المحسنة: تحتاج النماذج، وخاصة LLMs المستضافة، إلى استرداد الإصدارات المحسنة لتوفير نتائج مثالية. وهذا يتطلب سلسلة من القرارات الداعمة، بما في ذلك

استخراج البيانات والبيانات التعريفية: كيفية الاتصال بمصادر بيانات المؤسسة المنظمة وغير المنظمة ثم استخراج البيانات والبيانات التعريفية مثل سياسات الوصول.

إنشاء البيانات وتضمينات التخزين: النموذج الذي يتم استخدامه لإنشاء تضمينات للبيانات. ومن ثم كيفية تخزينها: ما هي قاعدة بيانات المتجهات التي يجب استخدامها، خاصة بناءً على الأداء المطلوب والحجم والوظيفة؟

الآن هي الفرصة لبناء منصة RAG على مستوى المؤسسات والتي تزيل تعقيد الاختيار والدمج معًا:

  1. الأدوات التشغيلية: ستحتاج تكنولوجيا المعلومات في المؤسسات إلى بناء حواجز حماية للفرق الهندسية، وإدارة التكاليف، وما إلى ذلك؛ ستحتاج الآن جميع مهام تطوير البرمجيات التي يتعاملون معها الآن إلى توسيع نطاق استخدام الذكاء الاصطناعي. تشمل المجالات التي تهم أقسام تكنولوجيا المعلومات

إمكانية الملاحظة: كيف سيكون أداء النموذج في الإنتاج؟ هل يتحسن/يتدهور أدائهم بمرور الوقت؟ هل هناك أنماط استخدام قد تؤثر على اختيار نموذج التطبيق للإصدارات المستقبلية؟

الأمان: كيفية الحفاظ على أمان تطبيقات الذكاء الاصطناعي الأصلية. هل هذه التطبيقات عرضة لناقلات الهجوم الجديدة التي تتطلب منصات جديدة؟

الامتثال: نتوقع أن تتوافق تطبيقات الذكاء الاصطناعي الأصلية واستخدام LLM مع الأطر التي بدأت الهيئات الإدارية ذات الصلة في تطويرها بالفعل. هذا بالإضافة إلى أنظمة الامتثال الحالية للخصوصية والأمن وحماية المستهلك والعدالة وما إلى ذلك. ستحتاج الشركات إلى منصات يمكنها مساعدتها في الحفاظ على الامتثال وإجراء عمليات التدقيق وإنشاء أدلة على الامتثال والمهام ذات الصلة.

  1. البيانات: المنصات التي تساعد على فهم أصول البيانات التي تمتلكها المؤسسة وكيفية الاستفادة منها لاستخلاص أقصى قيمة من نماذج الذكاء الاصطناعي الجديدة ستشهد اعتماداً سريعاً. قالت لنا إحدى أكبر شركات البرمجيات في العالم ذات مرة: "بياناتنا هي خندقنا، وملكيتنا الفكرية الأساسية، وميزتنا التنافسية. استخدم الذكاء الاصطناعي لتحقيق الدخل من هذه البيانات واستخدامها في" "تسهيل التمايز دون إضعاف إمكانية الدفاع" تلعب منصات مثل Snorkel دورًا حيويًا في هذا الصدد.

الآن هو الوقت المناسب لبناء منصة البنية التحتية للذكاء الاصطناعي. سوف يستمر تطبيق الذكاء الاصطناعي في تحويل صناعات بأكملها، ولكنه سيتطلب البنية التحتية الداعمة، والبرمجيات الوسيطة، والأمن، وقابلية المراقبة، ومنصات العمليات حتى تتمكن كل مؤسسة على هذا الكوكب من اعتماد هذه التكنولوجيا القوية.

مراجع

المؤلف: فيلا، ييهاو، ليو

التحرير والتنضيد: زوي، فيلا

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • مشاركة
تعليق
0/400
لا توجد تعليقات
  • تثبيت