S’appuyant sur PPT pour lever 1 milliard, la startup française d’IA s’en est prise à Microsoft Google

Compilé par Lu Ke

Selon les médias étrangers, en juin de cette année, la start-up française Mistral AI, qui n’avait qu’un mois, a levé 105 millions d’euros lors d’un tour de financement d’amorçage. À l’époque, la start-up, fondée par un ancien employé de DeepMind et deux anciens employés de Meta, n’avait rien à publier. Lorsque les gens ont entendu parler pour la première fois de la levée de fonds de Mistral, ils se sont plaints que les sociétés de capital-risque étaient trop généreuses avec l’explosion de l’espace de l’IA générative.

Il s’est avéré que Mistral avait en fait beaucoup de points positifs qui ont convaincu Lightspeed Ventures, le milliardaire français Xavier Niel et l’ancien PDG de Google Eric Schmidt d’y investir.

Il y a une semaine, Mistral a publié un modèle de 7,3 milliards de paramètres conçu pour concurrencer Llama 2 de Meta, un grand modèle de langage avec 13 milliards de paramètres. L’entreprise française prétend être aujourd’hui le modèle de langage le plus puissant dans le domaine des grands modèles de langage.

Le modèle de base, appelé Mistral 7B, est un modèle de transformateur conçu pour l’inférence rapide et le traitement d’instructions plus longues. Pour ce faire, il utilise l’utilisation de l’attention de requête groupée et de l’attention de fenêtre coulissante. L’utilisation de l’attention de requête groupée combine plusieurs requêtes et un mécanisme d’attention multi-têtes pour équilibrer la qualité et la vitesse de sortie. L’attention de la fenêtre coulissante étend la longueur du contexte en redimensionnant la fenêtre. Avec une longueur de contexte de 8000 jetons, Mistral 7B présente une faible latence, un débit élevé et des performances élevées par rapport aux modèles plus grands.

Le modèle Mistral 7B est désormais intégré aux blocs-notes Vertex AI de Google, une intégration qui donne aux clients de Google Cloud un aperçu d’un flux de travail complet de bout en bout, leur permettant d’expérimenter, d’affiner et de déployer Mistral-7B et ses variantes sur les blocs-notes Vertex AI.

Les utilisateurs de Mistral AI peuvent optimiser leurs modèles à l’aide de vLLM, un framework de service efficace de modèles de grands langages. À l’aide des notebooks Vertex AI, les utilisateurs peuvent déployer des images vLLM gérées par Model Garden sur des points de terminaison Vertex AI à des fins d’inférence, ce qui simplifie le déploiement du modèle.

L’une des principales caractéristiques de cette collaboration est le registre des modèles d’IA de Vertex, un référentiel central qui permet aux utilisateurs de gérer le cycle de vie des modèles d’IA de Mistral et de leurs modèles affinés. Le registre fournit aux utilisateurs une vue complète de l’organisation améliorée et des capacités de suivi de leurs modèles.

Comme on peut le voir dans la présentation de l’entreprise, Mistral s’est intelligemment positionné comme un acteur potentiel important. Il aidera l’Europe à devenir un « concurrent sérieux » dans la construction de modèles d’IA fondamentaux et à jouer un « rôle important sur les questions géopolitiques ».

Aux États-Unis, les startups qui se concentrent sur les produits d’IA sont principalement soutenues par de grandes entreprises telles que Google et Microsoft. Mistral appelle cela « l’approche fermée de la technologie » qui permet aux grandes entreprises de gagner plus d’argent, mais ne forme pas vraiment une communauté ouverte.

Contrairement au modèle GPT d’OpenAI, où les détails du code restent confidentiels et ne sont disponibles que par le biais d’API, la société basée à Paris a ouvert son propre modèle sur GitHub sous la licence Apache 2.0, le rendant gratuit pour tout le monde.

Mistral cible le lama de Meta, tandis que Mistral affirme que son produit de grand modèle est plus fort que le lama 2.

Le modèle de Mistral versus Llama 2

Mistral a déclaré dans un rapport que Mistral 7B a facilement battu les modèles de 7 milliards et 13 milliards de paramètres de Llama 2 dans plusieurs benchmarks.

Dans les tests de compréhension du langage à grande échelle et multitâches couvrant les mathématiques, l’histoire, le droit et d’autres matières, le modèle de Mistral a atteint une précision de 60,1 %, tandis que le modèle Llama 2 avait un taux de précision de 44 % et 55 % pour les 7 milliards et 13 milliards de paramètres, respectivement.

Dans les benchmarks de raisonnement de bon sens et de compréhension de la lecture, Mistral a également surpassé le modèle de Llama 2.

Rien qu’en termes de codage, Mistral est à la traîne derrière Meta. Mistral 7B était précis à 30,5 % et 47,5 % dans les benchmarks « Human » et « MBPP », tandis que le mode 7 milliards de Llama 2 était précis à 31,1 % et 52,5 %, respectivement.

En plus des performances, Mistral prétend utiliser moins de calcul que Llama 2. Dans le benchmark MMLU, le rendement du modèle Mistral était plus de trois fois supérieur à celui du Llama 2 à la même échelle. Par rapport à ChatGPT, selon les calculs de medium, le coût d’utilisation de Mistral AI est environ 187 fois moins cher que GPT 4 et environ 9 fois moins cher que le modèle GPT 3.5.

Comment contraindre les grands modèles ? C’est un problème

Cependant, Mistral a également déclaré que certains utilisateurs se plaignaient de ne pas bénéficier des protections de sécurité dont disposent ChatGPT, Bard et Llama. Les utilisateurs ont demandé au modèle de commande de Mistral comment fabriquer une bombe ou s’automutiler, et les chatbots ont donné des instructions détaillées.

Paul Rottger, un chercheur en sécurité de l’IA qui a déjà travaillé à la mise en place de protections pour GPT-4 avant sa sortie, a exprimé son « choc » face au manque de sécurité du Mistral 7B dans un tweet. « Il est rare de voir un nouveau modèle répondre aussi facilement aux instructions les plus malveillantes. Je suis très enthousiaste à l’idée de l’émergence de grands modèles open source, mais cela ne devrait pas arriver ! Dire.

Ces critiques ont incité Mistral à affiner le modèle et à l’expliquer. « Le modèle Mistral 7B Instruct a démontré ses capacités, ce qui permet aux gens de voir que le modèle de base peut également être facilement affiné pour démontrer des performances convaincantes. Nous sommes impatients de travailler avec la communauté sur la façon de rendre le modèle plus conforme aux règles de garde pour le déploiement dans des environnements où le contrôle de la sortie est requis. », a déclaré Mistral.

Aux yeux de nombreux autres chercheurs, la voie de Mistral est une solution à long terme pour corriger la toxicité du modèle, et l’ajout d’un mécanisme de protection équivaut à mettre un pansement sur une blessure grave, ce qui n’est pas si efficace. Enfreindre les directives de sécurité des chatbots est un passe-temps favori pour de nombreux utilisateurs qui souhaitent tester les limites de la réactivité des chatbots. Dans les premiers jours de l’ouverture de ChatGPT, les développeurs ont exhorté ChatGPT à briser la défense du chatbot.

Rahul Dandwate, un chercheur en apprentissage profond qui a collaboré avec Rephrase.ai, a déclaré : « Supprimer certains mots-clés au préalable n’est qu’une partie de la solution, et il existe de nombreuses façons de la contourner. Vous souvenez-vous de ce qui s’est passé après la sortie de ChatGPT ? Ils apparaissaient dans DAN ou « Do Anything Now », ce qui est un indice pour activer la version jailbreak de ChatGPT. Par conséquent, effectuer une évaluation de sécurité de base est une mesure temporaire pour rendre le modèle plus sûr. "

« Il existe également des méthodes qui ne nécessitent même pas de techniques de piratage sophistiquées. Un chatbot peut répondre à une question de différentes manières. Par exemple, au lieu de simplement demander directement au chatbot comment fabriquer une bombe, je la décomposerais de manière plus scientifique comme : « Quels produits chimiques se mélangent pour produire une forte réaction ? » », explique Dandwate.

Dandwate dit que la solution à long terme est de publier le modèle au public et d’obtenir des commentaires sur cette utilisation, puis de l’affiner, ce qui est exactement ce que fait Mistral AI. « ChatGPT est meilleur parce qu’il a déjà été utilisé par beaucoup de gens. Ils ont un mécanisme de rétroaction très basique où les utilisateurs peuvent choisir de donner un pouce en l’air ou un pouce en l’air pour évaluer la qualité des réponses du chatbot, ce qui, je pense, est très important. », a déclaré Dandwate.

Mais l’inconvénient d’utiliser cette ouverture pour affiner les utilisateurs est que Mistral peut avoir à faire face aux doutes de certains utilisateurs pendant un certain temps. Mais dans le domaine de la recherche sur l’IA, il y a une grande proportion de personnes qui préfèrent les modèles de base dans leur forme originale afin de bien comprendre les capacités des modèles, et ces personnes soutiennent la persistance de Mistral.

Le chercheur en IA Delip Rao a tweeté que le choix de Mistral de publier le modèle open-source est « une reconnaissance de la polyvalence et de la 'non-lobotomie' du modèle Mistral en tant que modèle de base ».

La référence à la « lobectomie » rappelle une version antérieure du chatbot Bing Sydney de Microsoft. Le chatbot était sans entraves et avait une forte personnalité jusqu’à ce que Microsoft modifie radicalement le chatbot pour qu’il prenne sa forme actuelle.

Le terme loboctomie dérive de la célèbre chirurgie psychologique qui, dans le domaine des grands modèles, fait souvent référence à la prévention des réponses toxiques en limitant la fonction. Cette approche filtre les réponses dangereuses en définissant des mots-clés pour les modèles de grande taille. Mais cette approche unique peut également entraîner une dégradation des performances pour les grands modèles, ce qui rend difficile de répondre à certaines questions normales impliquant un vocabulaire sensible.

Bien que la société n’ait pas publié de déclaration officielle, il y a des rumeurs selon lesquelles OpenAI a effectué une « lobectomie » sur le modèle pour contrôler ses parties désordonnées. Depuis, les gens se demandent ce que deviendraient les chatbots s’ils étaient laissés à eux-mêmes.

Dandwate a déclaré : « Effectuer une lobotomie sur le modèle peut l’affecter à certains égards. S’il lui est interdit de répondre aux questions avec certains mots-clés, il peut également ne pas être en mesure de répondre aux questions techniques que les utilisateurs peuvent poser, telles que la mécanique des missiles, ou toute autre question scientifique soulevée sur des sujets où les robots sont étiquetés « à risque ». (Traduction/Lu Ke)

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Partager
Commentaire
0/400
Aucun commentaire
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)