Patronus AI : Lightspeed America mène un investissement de 3 millions de dollars, ciblant le marché des entreprises pour résoudre les problèmes de sécurité des grands modèles
« Les grandes entreprises doivent investir beaucoup d'argent dans la détection des erreurs d'IA pour les éviter. Dans le même temps, il manque à ce stade un cadre de test LLM standard. Par conséquent, l'évaluation du LLM n'est pas évolutive et l'effet est pas bon. Cela conduit également à la performance des entreprises lors du déploiement de produits d'IA. Par prudence.
Patronus AI espère permettre aux entreprises de déployer en toute sécurité des produits d'IA en créant la plateforme d'évaluation et de sécurité automatisée de LLM, favorisant ainsi l'adoption généralisée de Gen-AI. "
Pensée sensorielle
Nous essayons de proposer des déductions et des réflexions plus divergentes en fonction du contenu de l'article, et de saluer les échanges.
▪ Points problématiques dans l'application de grands modèles au niveau de l'entreprise : la prédiction des éléments suivants à l'aide de la formule autorégressive du transformateur est essentiellement un modèle probabiliste, et l'évaluation de l'incertitude du contenu généré est la clé de la vérification de la capacité du modèle. Dans le même temps, l’évaluation des indices académiques ne peut pas être adaptée aux applications de terrain au niveau de l’entreprise, et une plate-forme d’évaluation automatique multimodèle plus orientée produit est nécessaire.
▪ Comment équilibrer précision et incertitude dans le contenu de production et amplifier les capacités LLM en fonction des scénarios de demande commerciale est l'art des plates-formes d'évaluation de modèles et des applications Gen-AI au niveau de l'entreprise.
Cet article compte au total 2 115 mots. Il faut environ 5 minutes pour le lire attentivement.
Les utilisateurs adoptent l’IA générative à un rythme sans précédent. ChatGPT est le produit de consommation qui connaît la croissance la plus rapide jamais vue : attirant plus de 100 millions d'utilisateurs au cours des deux premiers mois suivant son lancement. L’IA a été à l’honneur cette année. Mais dans le même temps, les entreprises ont fait preuve d’une attitude prudente face au déploiement rapide des produits d’IA. Ils s’inquiètent des erreurs que peuvent provoquer les grands modèles de langage. Malheureusement, les efforts actuels pour évaluer et inspecter les modèles de langage sont difficiles à mettre à l’échelle et inefficaces. Patronus s'engage à changer cela et sa mission est d'accroître la confiance des entreprises dans l'IA générative.
Contexte fondateur de Patronus AI
Les deux fondateurs de Patronus, Rebecca et Anand, se connaissent depuis près de 10 ans. Après avoir étudié ensemble l'informatique à l'Université de Chicago, Rebecca a rejoint Meta AI (FAIR) pour diriger des recherches liées à la PNL et à l'ALGN, tandis qu'Anand a développé les premières bases d'inférence causale et expérimentales au Meta Reality Labs. Chez Meta, les deux ont fait l'expérience directe de la difficulté d'évaluer et d'interpréter les résultats de l'apprentissage automatique : Rebecca du point de vue de la recherche et Anand du point de vue des applications.
Lorsque Meera Murati, CTO d'OpenAI, a annoncé la sortie de ChatGPT sur Twitter en novembre dernier, Anand a transmis la nouvelle à Rebecca dans les 5 minutes. Ils se rendent compte qu’il s’agit d’un moment de transformation et que les entreprises appliqueront certainement rapidement des modèles linguistiques à divers scénarios. Anand a donc été surpris lorsqu'il a appris que Piper Sandler, la banque d'investissement où travaillait son frère, avait interdit l'accès interne à OpenAI. Au cours des mois suivants, ils ont entendu à plusieurs reprises que les entreprises traditionnelles avançaient avec beaucoup de prudence dans cette technologie.
Ils se rendent compte que même si la technologie NLP a fait des progrès significatifs, il reste encore un long chemin à parcourir avant de véritables applications d'entreprise. Tout le monde s’accorde à dire que l’IA générative est très utile, mais personne ne sait comment l’utiliser correctement. Ils reconnaissent que l’évaluation et la sécurité de l’IA seront les principales questions des années à venir.
Situation de l'équipe et du financement
Patronus a annoncé le 14 septembre 23 avoir reçu un financement d'amorçage de 3 millions de dollars de Lightspeed Venture Partners. Factorial Capital, le PDG de Replit Amjad Masad, Gokul Rajaram, Michael Callahan, Prasanna Gopalakrishnan, Suja Chandrasekaran, etc. investissement. Ces investisseurs possèdent une vaste expérience en matière d’investissement et d’exploitation d’entreprises de référence dans les domaines de la sécurité d’entreprise et de l’IA.
L'équipe fondatrice de Patronus est issue des meilleurs milieux d'applications et de recherche en ML (apprentissage automatique), notamment Facebook AI Research (FAIR), Airbnb, Meta Reality Labs et des institutions quantitatives. Ils ont publié des articles de recherche en PNL lors des principales conférences sur l'IA (NeurIPS, EMNLP, ACL), ont conçu et lancé le premier assistant d'IA conversationnel d'Airbnb, ont été les pionniers de l'inférence causale chez Meta Reality Labs et ont quitté les produits Quantitative hedge funds soutenus par Mark Cuban, qui quitte 0 → 1. dans des startups à croissance rapide.
Patronus est conseillé par Douwe Kiela, PDG de Contextual AI et professeur adjoint à l'Université de Stanford, qui est également l'ancien directeur de recherche chez HuggingFace. Douwe a mené des recherches pionnières dans le domaine de la PNL, notamment en matière d'évaluation, d'analyse comparative et de RAG.
Problèmes que Patronus AI résout
L'évaluation actuelle des grands modèles de langage n'est pas évolutive et fonctionne mal pour les raisons suivantes :
L’évaluation manuelle est lente et coûteuse. Les grandes entreprises dépensent des millions de dollars pour embaucher des milliers de testeurs internes et de consultants externes pour vérifier manuellement les bugs de l'IA. Les ingénieurs qui souhaitent déployer des produits d’IA passent des semaines à créer manuellement des ensembles de tests et à vérifier les résultats de l’IA.
La nature non déterministe des grands modèles de langage rend difficile la prévision des échecs. Les grands modèles de langage sont des systèmes probabilistes. Puisque sa plage d’entrée n’est pas limitée (dans la limite de longueur du contexte), il offre une large surface d’attaque. La cause de l’échec sera donc très complexe.
Il n'existe actuellement aucun cadre de test standard pour les grands modèles de langage. Les tests logiciels ont été profondément intégrés aux flux de travail d'ingénierie traditionnels, avec des cadres de tests unitaires, de grandes équipes d'inspection qualité et des cycles de publication, mais les entreprises n'ont pas encore développé de processus similaires pour les grands modèles de langage. L'évaluation continue et évolutive, l'identification et la documentation des erreurs de modèles de langage volumineux, ainsi que l'analyse comparative des performances sont essentielles à l'utilisation en production de modèles de langage de grande envergure.
Les repères académiques ne reflètent pas les situations du monde réel. Les entreprises testent actuellement de grands modèles de langage sur des benchmarks académiques (tels que HELM, GLUE, SuperGLUE, etc.), mais ces benchmarks ne peuvent pas refléter des scénarios d'utilisation réels. Les benchmarks académiques ont tendance à être saturés et souffrent de problèmes de fuite de données de formation.
La longue traîne des échecs de l’IA est très grave, et les 20 % restants sont extrêmement difficiles. Les attaques contradictoires ont montré que le problème de sécurité des grands modèles de langage est loin d’être résolu. Même si les modèles linguistiques pré-entraînés à usage général démontrent de solides capacités de base, il existe encore un grand nombre de situations de défaillance inconnues. Patronus a effectué de nombreuses recherches révolutionnaires sur l'évaluation et la robustesse des modèles contradictoires, mais ce n'est que le début.
Mission de Patronus AI
La mission de Patronus AI est d'accroître la confiance des entreprises dans l'IA générative.
Patronus AI est la première plateforme automatisée d'évaluation et de sécurité du secteur pour les grands modèles de langage. Les clients utilisent Patronus AI pour détecter les erreurs de modèle de langage à grande échelle afin de déployer en toute sécurité des produits d'IA.
La plateforme effectue automatiquement :
Notation : évaluez les performances du modèle et les indicateurs clés tels que les hallucinations et la sécurité dans des scénarios du monde réel.
Générer des tests : générez automatiquement des ensembles de tests contradictoires à grande échelle.
Analyse comparative : comparez les modèles pour aider les clients à déterminer le meilleur modèle pour un cas d'utilisation spécifique.
Patronus s'attend à des évaluations fréquentes pour s'adapter aux modèles, aux données et aux besoins des utilisateurs continuellement mis à jour. Le but ultime est d’obtenir une marque de crédibilité. Aucune entreprise ne souhaite voir ses utilisateurs insatisfaits face à des échecs inattendus, ou même à des problèmes de presse ou de réglementation négatifs.
De plus, Patronus recherche des évaluateurs tiers de confiance pour lesquels les utilisateurs ont besoin d'un point de vue impartial et indépendant. Patronus souhaite que tout le monde le considère comme le Moody's de l'IA.
Les partenaires actuels de Patronus comprennent les principales sociétés d'IA Cohere, Nomic et Naologic. En outre, des entreprises industrielles traditionnelles bien connues, telles que plusieurs sociétés de services financiers, sont également en pourparlers avec Patronus AI pour mener des projets pilotes.
N'entre pas doucement dans cette bonne nuit,
Rage,
rage contre la mort de la lumière.
——Dylan Thomas (1954)
Les références
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
Patronus AI : Lightspeed America mène un investissement de 3 millions de dollars, ciblant le marché des entreprises pour résoudre les problèmes de sécurité des grands modèles
**Source : **Cercle de pensée profonde SenseAI
Pensée sensorielle
Nous essayons de proposer des déductions et des réflexions plus divergentes en fonction du contenu de l'article, et de saluer les échanges.
▪ Points problématiques dans l'application de grands modèles au niveau de l'entreprise : la prédiction des éléments suivants à l'aide de la formule autorégressive du transformateur est essentiellement un modèle probabiliste, et l'évaluation de l'incertitude du contenu généré est la clé de la vérification de la capacité du modèle. Dans le même temps, l’évaluation des indices académiques ne peut pas être adaptée aux applications de terrain au niveau de l’entreprise, et une plate-forme d’évaluation automatique multimodèle plus orientée produit est nécessaire.
▪ Comment équilibrer précision et incertitude dans le contenu de production et amplifier les capacités LLM en fonction des scénarios de demande commerciale est l'art des plates-formes d'évaluation de modèles et des applications Gen-AI au niveau de l'entreprise.
Cet article compte au total 2 115 mots. Il faut environ 5 minutes pour le lire attentivement.
Les utilisateurs adoptent l’IA générative à un rythme sans précédent. ChatGPT est le produit de consommation qui connaît la croissance la plus rapide jamais vue : attirant plus de 100 millions d'utilisateurs au cours des deux premiers mois suivant son lancement. L’IA a été à l’honneur cette année. Mais dans le même temps, les entreprises ont fait preuve d’une attitude prudente face au déploiement rapide des produits d’IA. Ils s’inquiètent des erreurs que peuvent provoquer les grands modèles de langage. Malheureusement, les efforts actuels pour évaluer et inspecter les modèles de langage sont difficiles à mettre à l’échelle et inefficaces. Patronus s'engage à changer cela et sa mission est d'accroître la confiance des entreprises dans l'IA générative.
Contexte fondateur de Patronus AI
Les deux fondateurs de Patronus, Rebecca et Anand, se connaissent depuis près de 10 ans. Après avoir étudié ensemble l'informatique à l'Université de Chicago, Rebecca a rejoint Meta AI (FAIR) pour diriger des recherches liées à la PNL et à l'ALGN, tandis qu'Anand a développé les premières bases d'inférence causale et expérimentales au Meta Reality Labs. Chez Meta, les deux ont fait l'expérience directe de la difficulté d'évaluer et d'interpréter les résultats de l'apprentissage automatique : Rebecca du point de vue de la recherche et Anand du point de vue des applications.
Lorsque Meera Murati, CTO d'OpenAI, a annoncé la sortie de ChatGPT sur Twitter en novembre dernier, Anand a transmis la nouvelle à Rebecca dans les 5 minutes. Ils se rendent compte qu’il s’agit d’un moment de transformation et que les entreprises appliqueront certainement rapidement des modèles linguistiques à divers scénarios. Anand a donc été surpris lorsqu'il a appris que Piper Sandler, la banque d'investissement où travaillait son frère, avait interdit l'accès interne à OpenAI. Au cours des mois suivants, ils ont entendu à plusieurs reprises que les entreprises traditionnelles avançaient avec beaucoup de prudence dans cette technologie.
Ils se rendent compte que même si la technologie NLP a fait des progrès significatifs, il reste encore un long chemin à parcourir avant de véritables applications d'entreprise. Tout le monde s’accorde à dire que l’IA générative est très utile, mais personne ne sait comment l’utiliser correctement. Ils reconnaissent que l’évaluation et la sécurité de l’IA seront les principales questions des années à venir.
Situation de l'équipe et du financement
Patronus a annoncé le 14 septembre 23 avoir reçu un financement d'amorçage de 3 millions de dollars de Lightspeed Venture Partners. Factorial Capital, le PDG de Replit Amjad Masad, Gokul Rajaram, Michael Callahan, Prasanna Gopalakrishnan, Suja Chandrasekaran, etc. investissement. Ces investisseurs possèdent une vaste expérience en matière d’investissement et d’exploitation d’entreprises de référence dans les domaines de la sécurité d’entreprise et de l’IA.
L'équipe fondatrice de Patronus est issue des meilleurs milieux d'applications et de recherche en ML (apprentissage automatique), notamment Facebook AI Research (FAIR), Airbnb, Meta Reality Labs et des institutions quantitatives. Ils ont publié des articles de recherche en PNL lors des principales conférences sur l'IA (NeurIPS, EMNLP, ACL), ont conçu et lancé le premier assistant d'IA conversationnel d'Airbnb, ont été les pionniers de l'inférence causale chez Meta Reality Labs et ont quitté les produits Quantitative hedge funds soutenus par Mark Cuban, qui quitte 0 → 1. dans des startups à croissance rapide.
Patronus est conseillé par Douwe Kiela, PDG de Contextual AI et professeur adjoint à l'Université de Stanford, qui est également l'ancien directeur de recherche chez HuggingFace. Douwe a mené des recherches pionnières dans le domaine de la PNL, notamment en matière d'évaluation, d'analyse comparative et de RAG.
Problèmes que Patronus AI résout
L'évaluation actuelle des grands modèles de langage n'est pas évolutive et fonctionne mal pour les raisons suivantes :
L’évaluation manuelle est lente et coûteuse. Les grandes entreprises dépensent des millions de dollars pour embaucher des milliers de testeurs internes et de consultants externes pour vérifier manuellement les bugs de l'IA. Les ingénieurs qui souhaitent déployer des produits d’IA passent des semaines à créer manuellement des ensembles de tests et à vérifier les résultats de l’IA.
La nature non déterministe des grands modèles de langage rend difficile la prévision des échecs. Les grands modèles de langage sont des systèmes probabilistes. Puisque sa plage d’entrée n’est pas limitée (dans la limite de longueur du contexte), il offre une large surface d’attaque. La cause de l’échec sera donc très complexe.
Il n'existe actuellement aucun cadre de test standard pour les grands modèles de langage. Les tests logiciels ont été profondément intégrés aux flux de travail d'ingénierie traditionnels, avec des cadres de tests unitaires, de grandes équipes d'inspection qualité et des cycles de publication, mais les entreprises n'ont pas encore développé de processus similaires pour les grands modèles de langage. L'évaluation continue et évolutive, l'identification et la documentation des erreurs de modèles de langage volumineux, ainsi que l'analyse comparative des performances sont essentielles à l'utilisation en production de modèles de langage de grande envergure.
Les repères académiques ne reflètent pas les situations du monde réel. Les entreprises testent actuellement de grands modèles de langage sur des benchmarks académiques (tels que HELM, GLUE, SuperGLUE, etc.), mais ces benchmarks ne peuvent pas refléter des scénarios d'utilisation réels. Les benchmarks académiques ont tendance à être saturés et souffrent de problèmes de fuite de données de formation.
La longue traîne des échecs de l’IA est très grave, et les 20 % restants sont extrêmement difficiles. Les attaques contradictoires ont montré que le problème de sécurité des grands modèles de langage est loin d’être résolu. Même si les modèles linguistiques pré-entraînés à usage général démontrent de solides capacités de base, il existe encore un grand nombre de situations de défaillance inconnues. Patronus a effectué de nombreuses recherches révolutionnaires sur l'évaluation et la robustesse des modèles contradictoires, mais ce n'est que le début.
Mission de Patronus AI
La mission de Patronus AI est d'accroître la confiance des entreprises dans l'IA générative.
Patronus AI est la première plateforme automatisée d'évaluation et de sécurité du secteur pour les grands modèles de langage. Les clients utilisent Patronus AI pour détecter les erreurs de modèle de langage à grande échelle afin de déployer en toute sécurité des produits d'IA.
La plateforme effectue automatiquement :
Notation : évaluez les performances du modèle et les indicateurs clés tels que les hallucinations et la sécurité dans des scénarios du monde réel.
Générer des tests : générez automatiquement des ensembles de tests contradictoires à grande échelle.
Analyse comparative : comparez les modèles pour aider les clients à déterminer le meilleur modèle pour un cas d'utilisation spécifique.
Patronus s'attend à des évaluations fréquentes pour s'adapter aux modèles, aux données et aux besoins des utilisateurs continuellement mis à jour. Le but ultime est d’obtenir une marque de crédibilité. Aucune entreprise ne souhaite voir ses utilisateurs insatisfaits face à des échecs inattendus, ou même à des problèmes de presse ou de réglementation négatifs.
De plus, Patronus recherche des évaluateurs tiers de confiance pour lesquels les utilisateurs ont besoin d'un point de vue impartial et indépendant. Patronus souhaite que tout le monde le considère comme le Moody's de l'IA.
Les partenaires actuels de Patronus comprennent les principales sociétés d'IA Cohere, Nomic et Naologic. En outre, des entreprises industrielles traditionnelles bien connues, telles que plusieurs sociétés de services financiers, sont également en pourparlers avec Patronus AI pour mener des projets pilotes.
N'entre pas doucement dans cette bonne nuit,
Rage,
rage contre la mort de la lumière.
——Dylan Thomas (1954)
Les références