Patronus AI: تقود Lightspeed America استثمارًا بقيمة 3 ملايين دولار أمريكي، يستهدف سوق المؤسسات لحل المشكلات الأمنية للنماذج الكبيرة

** المصدر: ** دائرة الفكر العميق SenseAI

"تحتاج الشركات الكبيرة إلى استثمار الكثير من الأموال في اكتشاف أخطاء الذكاء الاصطناعي لمنعها. وفي الوقت نفسه، هناك نقص في إطار اختبار LLM القياسي في هذه المرحلة. لذلك، فإن تقييم LLM غير قابل للتطوير والتأثير ضعيف ليست جيدة، وهذا يؤدي أيضًا إلى أداء المؤسسات عند نشر منتجات الذكاء الاصطناعي من باب الحذر. تأمل شركة Patronus AI في تمكين المؤسسات من نشر منتجات الذكاء الاصطناعي بأمان من خلال بناء منصة التقييم والأمن الآلية الخاصة بـ LLM، وبالتالي تعزيز اعتماد Gen-AI على نطاق واسع. "

التفكير الحسي

نحاول طرح المزيد من الاستنتاجات والتأملات المتباينة بناءً على محتوى المقالة، ونرحب بالتبادلات.

 نقاط الضعف في تطبيق النماذج الكبيرة على مستوى المؤسسة: إن التنبؤ بما يلي باستخدام صيغة الانحدار الذاتي للمحولات هو في الأساس نموذج احتمالي، ويعتبر تقييم عدم اليقين بشأن المحتوى الناتج هو المفتاح للتحقق من قدرة النموذج. وفي الوقت نفسه، لا يمكن تكييف تقييم الفهرس الأكاديمي مع التطبيقات الميدانية على مستوى المؤسسة، وهناك حاجة إلى منصة تقييم تلقائية متعددة النماذج أكثر توجهاً نحو المنتج.

 إن كيفية الموازنة بين الدقة وعدم اليقين في محتوى الإنتاج وتضخيم قدرات LLM لسيناريوهات طلب الأعمال هو فن منصات تقييم النماذج وتطبيقات Gen-AI على مستوى المؤسسة.

تحتوي هذه المقالة على إجمالي 2115 كلمة، وتستغرق قراءتها بعناية حوالي 5 دقائق.

يتبنى المستخدمون الذكاء الاصطناعي التوليدي بمعدل غير مسبوق. ChatGPT هو المنتج الاستهلاكي الأسرع نموًا على الإطلاق: حيث يجذب أكثر من 100 مليون مستخدم خلال أول شهرين من إطلاقه. لقد كان الذكاء الاصطناعي في دائرة الضوء هذا العام. ولكن في الوقت نفسه، أظهرت الشركات موقفًا حذرًا عندما واجهت الانتشار السريع لمنتجات الذكاء الاصطناعي. إنهم قلقون بشأن الأخطاء التي يمكن أن تسببها النماذج اللغوية الكبيرة. ولسوء الحظ، فإن الجهود الحالية لتقييم وفحص النماذج اللغوية يصعب قياسها وغير فعالة. تلتزم شركة Patronus بتغيير ذلك، وتتمثل مهمتها في زيادة ثقة المؤسسة في الذكاء الاصطناعي التوليدي.

الخلفية التأسيسية لـ Patronus AI

يعرف مؤسسا Patronus، ريبيكا وأناند، بعضهما البعض منذ ما يقرب من 10 سنوات. بعد دراسة علوم الكمبيوتر معًا في جامعة شيكاغو، انضمت ريبيكا إلى Meta AI (FAIR) لقيادة الأبحاث المتعلقة بالبرمجة اللغوية العصبية وALGN، بينما طور أناند الاستدلال السببي المبكر والأسس التجريبية في Meta Reality Labs. في ميتا، واجه الاثنان بشكل مباشر صعوبة تقييم وتفسير مخرجات التعلم الآلي - ريبيكا من منظور بحثي وأناند من منظور تطبيقي.

عندما أعلنت مديرة التكنولوجيا في OpenAI Meera Murati عن إطلاق ChatGPT على Twitter في نوفمبر الماضي، أرسل Anand الأخبار إلى Rebecca في غضون 5 دقائق. إنهم يدركون أن هذه لحظة تحول، ومن المؤكد أن الشركات ستطبق بسرعة نماذج اللغة على سيناريوهات مختلفة. لذا، تفاجأ أناند عندما سمع أن بايبر ساندلر، البنك الاستثماري الذي كان يعمل فيه شقيقه، قد حظر الوصول الداخلي إلى OpenAI. خلال الأشهر القليلة التالية، سمعوا عدة مرات أن الشركات التقليدية كانت تمضي قدمًا في استخدام هذه التكنولوجيا بحذر شديد.

لقد أدركوا أنه على الرغم من أن تكنولوجيا البرمجة اللغوية العصبية قد حققت تقدما كبيرا، إلا أنها لا تزال بعيدة عن التطبيقات المؤسسية الحقيقية. يتفق الجميع على أن الذكاء الاصطناعي التوليدي مفيد للغاية، لكن لا أحد يعرف كيفية استخدامه بالطريقة الصحيحة. إنهم يدركون أن تقييم الذكاء الاصطناعي وسلامته سيكونان من أهم القضايا في السنوات القادمة.

وضع الفريق والتمويل

أعلنت شركة Patronus في 14 و23 سبتمبر أنها تلقت 3 ملايين دولار أمريكي في شكل جولة تمويل أولية من شركة Lightspeed Venture Partners. كما شاركت فاكتوريال كابيتال، والرئيس التنفيذي لشركة Replit، أمجد مسعد، وجوكول راجارام، ومايكل كالاهان، وبراسانا جوبالاكريشنان، وسوجا شاندراسيكاران، وغيرهم في المشروع. استثمار. يتمتع هؤلاء المستثمرون بخبرة واسعة في الاستثمار في الشركات المعيارية وتشغيلها في مجال أمن المؤسسات والذكاء الاصطناعي.

يأتي الفريق المؤسس لـ Patronus من أفضل الخلفيات البحثية وتطبيقات ML (التعلم الآلي)، بما في ذلك Facebook AI Research (FAIR)، وAirbnb، وMeta Reality Labs والمؤسسات الكمية. لقد نشروا أوراق بحثية في البرمجة اللغوية العصبية في أهم مؤتمرات الذكاء الاصطناعي (NeurIPS، وEMNLP، وACL)، وصمموا وأطلقوا أول مساعد محادثة للذكاء الاصطناعي من Airbnb، وكانوا رائدين في الاستدلال السببي في Meta Reality Labs، وخرجوا من صندوق التحوط الكمي المدعوم من مارك كوبان من 0 → 1 المنتجات. في الشركات الناشئة سريعة النمو.

يتم تقديم المشورة إلى باترونوس من قبل دووي كييلا، الرئيس التنفيذي لشركة contextual AI والأستاذ المساعد في جامعة ستانفورد، وهو أيضًا المدير السابق للأبحاث في HuggingFace. قام دوي بأبحاث رائدة في مجال البرمجة اللغوية العصبية (NLP)، وخاصة في التقييم والمقارنات المعيارية وRAG.

المشاكل التي يحلها الذكاء الاصطناعي Patronus

تقييم نموذج اللغة الكبير الحالي غير قابل للتطوير وأداءه ضعيف للأسباب التالية:

التقييم اليدوي بطيء ومكلف. تنفق المؤسسات الكبيرة ملايين الدولارات في توظيف الآلاف من المختبرين الداخليين والاستشاريين الخارجيين للتحقق يدويًا من الأخطاء في الذكاء الاصطناعي. يقضي المهندسون الذين يرغبون في نشر منتجات الذكاء الاصطناعي أسابيع في إنشاء مجموعات الاختبار يدويًا والتحقق من مخرجات الذكاء الاصطناعي.

إن الطبيعة غير الحتمية لنماذج اللغة الكبيرة تجعل التنبؤ بالفشل أمرًا صعبًا. نماذج اللغة الكبيرة هي أنظمة احتمالية. نظرًا لأن نطاق الإدخال الخاص به ليس محدودًا (ضمن حد طول السياق)، فإنه يوفر سطحًا واسعًا للهجوم. ولذلك، فإن سبب الفشل سيكون معقدا للغاية.

لا يوجد حاليًا إطار اختبار قياسي لنماذج اللغات الكبيرة. لقد تم دمج اختبار البرمجيات بشكل عميق في سير العمل الهندسي التقليدي، بما في ذلك أطر اختبار الوحدات، وفرق فحص الجودة الكبيرة، ودورات الإصدار، لكن الشركات لم تقم بعد بتطوير عمليات مماثلة لنماذج اللغات الكبيرة. يعد التقييم المستمر والقابل للتطوير وتحديد وتوثيق الأخطاء الكبيرة في نماذج اللغة وقياس الأداء أمرًا بالغ الأهمية لاستخدام نماذج اللغات الكبيرة في الإنتاج.

لا تعكس المعايير الأكاديمية مواقف العالم الحقيقي. تختبر المؤسسات حاليًا نماذج لغوية كبيرة وفقًا للمعايير الأكاديمية (مثل HELM، وGLUE، وSuperGLUE، وما إلى ذلك)، ولكن لا يمكن لهذه المعايير أن تعكس سيناريوهات الاستخدام الحقيقية. تميل المعايير الأكاديمية إلى التشبع وتعاني من مشكلات تسرب بيانات التدريب.

إن الذيل الطويل لفشل الذكاء الاصطناعي خطير للغاية، وآخر 20% يمثل تحديًا كبيرًا. لقد أظهرت الهجمات العدائية أن المشكلة الأمنية لنماذج اللغات الكبيرة لا تزال بعيدة عن الحل. حتى لو أظهرت النماذج اللغوية ذات الأغراض العامة المدربة مسبقًا قدرات أساسية قوية، فلا يزال هناك عدد كبير من حالات الفشل غير المعروفة. لقد أجرى Patronus الكثير من الأبحاث الرائدة حول تقييم النماذج التنافسية ومتانتها، ولكن هذه مجرد البداية.

مهمة Patronus AI

تتمثل مهمة Patronus AI في زيادة ثقة المؤسسة في الذكاء الاصطناعي التوليدي.

يعد Patronus AI أول منصة تقييم وأمان آلية في الصناعة لنماذج اللغات الكبيرة. يستخدم العملاء Patronus AI لاكتشاف الأخطاء الكبيرة في نماذج اللغة على نطاق واسع لنشر منتجات الذكاء الاصطناعي بأمان.

تقوم المنصة تلقائيًا بما يلي:

التسجيل: تقييم أداء النموذج والمقاييس الرئيسية مثل الهلوسة والسلامة في سيناريوهات العالم الحقيقي.

إنشاء الاختبارات: إنشاء مجموعات اختبار الخصومة واسعة النطاق تلقائيًا.

قياس الأداء: مقارنة النماذج لمساعدة العملاء على تحديد أفضل نموذج لحالة استخدام محددة.

يتوقع Patronus أن تتكيف التقييمات المتكررة مع النماذج والبيانات واحتياجات المستخدمين التي يتم تحديثها باستمرار. الهدف النهائي هو الحصول على علامة المصداقية. لا ترغب أي شركة في رؤية مستخدميها غير راضين عن الإخفاقات غير المتوقعة، أو حتى المشكلات الصحفية والتنظيمية السلبية.

بالإضافة إلى ذلك، يبحث Patronus عن مقيّمين خارجيين موثوقين حيث يحتاج المستخدمون إلى منظور مستقل وغير متحيز. يريد Patronus من الجميع أن يفكروا في الأمر باعتباره Moody's للذكاء الاصطناعي.

يشمل شركاء Patronus الحاليين شركات رائدة في مجال الذكاء الاصطناعي Cohere وNomic وNaologic. بالإضافة إلى ذلك، تجري أيضًا شركات الصناعة التقليدية المعروفة مثل العديد من شركات الخدمات المالية محادثات مع Patronus AI لإجراء مشاريع تجريبية.

لا تكن لطيفًا في تلك الليلة الجيدة،

غضب،

الغضب ضد الموت من الضوء.

—— ديلان توماس (1954)

مراجع

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • مشاركة
تعليق
0/400
لا توجد تعليقات
  • تثبيت