Quatre semaines après sa création, elle a levé 105 millions d'euros, et le texte intégral du mémorandum de financement du modèle linguistique européen mistral.ai

2023-06-25 03:30:09

Source : Empower Labs

Source de l'image : générée par l'outil d'IA illimitée

Une équipe constituée depuis quelques semaines seulement a bouclé un financement de 105 millions d'euros sans produits, sans utilisateurs et sans expérience opérationnelle. Ce mémo (memo) l'a aidé à convaincre Light Speed, l'ancien PDG de Google Eric Schmidt et d'autres. Le mémo met l'accent sur le marché européen, la sécurité de l'IA, la conformité… Mistral estime que leur utilisation d'une voie open source complètement différente de l'OpenAI lui permettra à terme d'établir des avantages et de se dépasser. D'après ce que j'ai lu, ce mémo est clairement écrit très habilement, et il contient aussi quelques éléments de bluff. Il a fait bon usage de la mentalité FOMO actuelle de la société européenne sur le grand modèle linguistique pour compléter le financement.

Mistral est prêt à faire référence à un vent froid du nord-ouest sec et fort dans le sud de la France, et c'est aussi le nom d'un navire d'assaut amphibie de fabrication française. C'est le premier navire d'assaut amphibie au monde. Le nom incarne la fierté française. Les six membres de l'équipe fondatrice sont tous français, au lieu d'y voir un grand modèle linguistique européen, je pense plutôt qu'il s'agit d'une grande entreprise modèle francophone. Il raconte une bonne histoire européenne, mais ce ne sera pas la seule en Europe.

J'ai vu Memo dans un groupe de discussion.Après avoir confirmé que le contenu de Memo n'avait plus besoin d'être gardé secret, j'ai utilisé ChatGPT pour en traduire le texte intégral, puis relire et retraduire une partie du contenu.

Mémo stratégique mistral.ai

Auteur : mistral.ai

Traduction : ChatGPT, Wang Chao

L'IA générative est une technologie transformatrice

Au cours de la dernière année, nous avons assisté à une accélération phénoménale de l'IA générative (systèmes capables de générer du texte/des images à partir de texte et d'images). Ces systèmes peuvent aider les humains :

● Produire un contenu excellent et innovant (texte, code, graphiques)

● Lire, traiter et synthétiser des flux de contenu non structurés des milliers de fois plus rapidement que les humains

● Interagissez avec le monde via le langage naturel ou des API pour exécuter des flux de travail plus rapidement que jamais.

Les puissantes capacités de l'IA générative ont été soudainement révélées au public après la sortie de ChatGPT. De tels produits ne sont produits que par quelques petites équipes dans le monde, et le nombre limité de chercheurs dans ces équipes est devenu un goulot d'étranglement empêchant la création d'une nouvelle économie dans ce domaine.

L'IA générative est sur le point d'augmenter la productivité dans toutes les industries et de créer une nouvelle industrie en augmentant de manière transparente les capacités de la machine de l'esprit humain (marché de 10 milliards de dollars en 2022, qui devrait atteindre 110 milliards de dollars d'ici 2030, taux de croissance annuel prévu de 35 %). Il s'agit d'une technologie transformatrice pour l'économie mondiale qui changera la nature du travail et entraînera un changement social positif.

Oligopole en devenir

Les techniques d'IA générative reposent sur des années de recherche dans l'industrie et le milieu universitaire. En adaptant la formation aux données à l'échelle d'Internet et en corrigeant le modèle avec une rétroaction humaine, les percées qui ont rendu la technologie accessible aux masses ont été réalisées par une poignée d'acteurs de l'industrie, dont le plus grand (OpenAI) semble avoir une intention hégémonique sur le marché.

Ces quelques acteurs entraînent des modèles génératifs et les utilisent comme des actifs ; ils servent des milliers de tiers qui créent des produits pour améliorer la productivité, ainsi que le grand public via leurs propres produits comme les chatbots. Un grand nombre de startups tierces sont encore en cours de création pour construire divers services basés sur ces modèles génératifs.

** Nous pensons que la majeure partie de la valeur du marché émergent de l'IA générative provient de la technologie difficile à fabriquer, les modèles génératifs eux-mêmes. ** Ces modèles doivent être formés sur des milliers de machines puissantes, traitant des billions de données provenant de sources de haute qualité, ce qui constitue la première barre haute. Le deuxième obstacle important est la difficulté de constituer une équipe expérimentée, et mistral.ai est bien placé pour le faire.

Actuellement (GLM) tous les acteurs majeurs sont situés aux USA, il n'y a pas encore de concurrent sérieux en Europe. Compte tenu de la puissance (et de la dangerosité) de cette nouvelle technologie, il s'agit d'une question géopolitique majeure. mistral.ai sera le leader européen de l'IA qui augmente la productivité et la créativité et guide la nouvelle révolution industrielle à venir.

L'IA générative actuelle ne répond pas aux besoins du marché

OpenAI et ses concurrents actuels ont choisi une voie technologique fermée, ce qui limitera considérablement leur couverture de marché. Dans cette approche, le modèle reste privé et n'est servi que via une API de texte à texte. Cela soulève les questions importantes suivantes pour les entreprises :

● Les organisations souhaitant utiliser des techniques d'IA génératives sont obligées de fournir leurs précieuses données commerciales et leurs données utilisateur sensibles à un modèle de boîte noire, souvent déployé dans le cloud public. Cela pose un problème de sécurité : un modèle gardé secret ne peut pas être vérifié pour s'assurer que sa sortie est sûre, et de tels modèles ne peuvent pas être déployés dans des applications hautement critiques pour la sécurité. Cette situation pose également des problèmes juridiques, notamment lorsqu'une entreprise transfère des données personnelles en dehors de son périmètre légal, qui peut être régi par des lois extraterritoriales.

● Le fait d'exposer uniquement la sortie du modèle, plutôt que le modèle complet, rend plus difficile l'interface avec d'autres composants (base de données de récupération, entrée structurée, images et son). Il existe actuellement des centaines de produits qui créent des capacités composites (par exemple, mémoire, vision, etc.) en interconnectant les sorties et les entrées des modèles. Ces produits fonctionneront mieux et plus rapidement si le modèle peut être fourni sous forme de boîte blanche (modèle transparent) (comme The Flamingo intègre les modèles visuels et textuels de la boîte blanche dans un modèle texte+visuel).

● Les données utilisées pour former le modèle sont confidentielles, ce qui signifie que nous nous appuyons sur des systèmes d'origine incertaine et qui peuvent produire des résultats incontrôlables. Les efforts de filtrage pour résoudre ce problème ne fournissent que des garanties faibles et fragiles que le modèle ne produira pas de contenu sensible pour lequel il a peut-être été formé. Ce problème a conduit à l'interdiction de ChatGPT en Italie en avril 2023.

Briser le modèle du marché européen

En fondant mistral.ai, nous prévoyons de prendre une position complètement à l'opposé des modèles fermés actuels pour former des modèles avancés. **Notre vision est de devenir un acteur de premier plan dans le domaine tout en intégrant ces modèles en Europe et dans l'industrie au sens large pour développer une activité à forte valeur ajoutée. **

**mistral.ai sera un leader de la recherche en IA générative et d'ici quatre ans le principal fournisseur de technologie d'IA sur le marché. **Pour atteindre cet objectif, nous nous concentrerons d'abord sur quelques caractéristiques clés de différenciation, puis nous mènerons un effort de R&D complet pour sélectionner les stratégies les plus efficaces pour évoluer vers l'intelligence artificielle qui a une valeur pratique pour les humains.

Se concentrer d'abord sur le marché européen nous donnera un avantage défensif, et notre position ouverte sur la route technologique renforcera encore notre attractivité. Bon nombre des esprits les plus brillants dans le domaine de la modélisation des grands langages (LLM) sont européens ; notre vaste expérience montre que beaucoup d'entre eux aimeraient rejoindre notre projet.

Positionnement technique opposé

Nos premiers différenciateurs, les angles morts des stratégies de nos concurrents, étaient les suivants :

● ** Adoptez une approche plus ouverte du développement de modèles. ** Nous publierons le modèle sous une licence de logiciel open source permissive, qui ** surpassera considérablement la concurrence **. Nous publierons des outils pour exploiter la puissance de ces modèles de boîte blanche et créer une communauté de développeurs autour de notre marque. Cette approche est idéologiquement très différente d'OpenAI, cela attirera mieux les meilleurs chercheurs, et ce sera une puissante accélération pour le développement du projet, car cela fournira à beaucoup de développeurs enthousiastes en aval la porte ouverte. Cela augmentera notre champ de développement commercial. Nous allons équilibrer notre stratégie open source avec des intérêts financiers, réservant les modèles les plus puissants et professionnels aux utilisateurs payants.

○ Nous consacrerons 1% des fonds à des fondations à but non lucratif responsables du développement de la communauté open source.

● Qu'ils soient open source ou sous licence, les composants internes (architecture et poids entraînés) de nos modèles sont toujours ouverts à nos clients. ** Cela permettra une intégration plus étroite avec les flux de travail des clients, leur contenu peut être introduit dans différentes parties du modèle profond, au lieu de tout sérialiser en tant que texte d'entrée dans une API de boîte noire. **

● **Accent accru sur la provenance des données et le contrôle des données. **Nos modèles seront formés sur du contenu de données de haute qualité (autre que du contenu scrapé) pour lequel nous négocierons un accord de licence. Cela nous permettra de former de meilleurs modèles que les modèles actuellement disponibles tels que Llama. En utilisant des techniques d'engagement profond (experts hybrides et modèles de récupération augmentée), nous fournirons des modèles avec un accès optionnel à la source de données : pour les utilisateurs premium payants, des modèles spécifiques peuvent être dédiés à la finance/juridique/etc (cela offre une amélioration considérable des performances). En utilisant des techniques similaires, notre modèle sera en mesure de fournir un accès instantané aux données différenciées pour les employés ayant différents droits de propriété intellectuelle d'entreprise.

● **Fournit une garantie de sécurité et de confidentialité inégalée. **Notre modèle pourra être déployé dans un cloud privé et éventuellement directement sur l'appareil, minimisant efficacement les problèmes de confidentialité en éliminant les processus potentiellement problématiques. Pour cela, nous orienterons nos efforts de R&D vers la formation de modèles petits mais ultra performants, proposant effectivement des modèles avec le meilleur rapport qualité/coût du marché. Notre stratégie open-source garantira également l'auditabilité de nos modèles lorsqu'ils seront déployés dans des industries clés (notamment les industries duales et de la santé).

Développement des affaires

En termes commerciaux, nous fournirons les modules techniques les plus précieux pour l'industrie émergente de l'IA en tant que service et utiliserons l'IA générative pour changer complètement le flux de travail de l'entreprise. Nous co-construirons des solutions intégrées avec des intégrateurs européens et des clients industriels et obtiendrons de leur part des retours extrêmement précieux pour devenir l'outil principal pour toutes les entreprises qui cherchent à tirer parti de l'IA en Europe.

L'intégration avec les marchés verticaux peut prendre différentes formes de marché, y compris des licences d'accès complet aux modèles (y compris les poids formés), la spécialisation des modèles en fonction de la demande, des contrats commerciaux avec des intégrateurs/sociétés de conseil pour créer des solutions entièrement intégrées . Comme détaillé dans notre feuille de route, nous explorerons et identifierons les meilleures approches à mesure que la technologie évolue.

Comment devenir un leader dans le domaine de l'IA

Meilleure équipe

L'équipe fondatrice est composée des meilleurs chercheurs du domaine ayant travaillé chez DeepMind et Meta, ainsi que des serial entrepreneurs français expérimentés et des personnalités publiques influentes.

● Arthur Mensch — PDG — Ancien chercheur en chef chez DeepMind, auteur principal de plusieurs contributions majeures au LLM : Chinchilla, Retro, Flamingo

● Guillaume Lample — Directeur Scientifique — Ancien Chercheur Senior Meta. A dirigé le projet Llama, la contribution majeure de Meta dans le domaine des grands modèles de langage

● Timothée Lacroix — CTO — Ancien ingénieur logiciel chez Meta, responsable technique chez Llama

● Jean-Charles Samuelian ，Alan PDG

● Charles Gorintin，Alan CTO

● Cédric O, ancien secrétaire d'État français chargé du numérique

Les cinq premiers employés déjà identifiés seront des chercheurs expérimentés issus de grandes entreprises technologiques. Leur enthousiasme pour l'Europe et le concept d'open source, et la restructuration organisationnelle continue de certaines entreprises en raison du développement rapide de l'IA générative, constituent également un moment opportun pour qu'ils quittent ces entreprises.

Infrastructure et sources de données

Pour former un modèle compétitif, un cluster exa-scale doit être utilisé pendant au moins plusieurs mois. Nous avons l'intention de louer ces ressources informatiques pendant une année complète, développant ainsi des modèles open source et commerciaux de différentes capacités.

Nous menons déjà des négociations compétitives avec les meilleurs fournisseurs de services cloud sur la location de ressources informatiques (nous prévoyons de commencer en été et de constituer une réserve informatique de 1536 H100 d'ici septembre). Étant donné que mistral.ai a une base européenne solide, nous coopérerons également avec les fournisseurs de services cloud européens émergents qui développent activement les services informatiques d'apprentissage en profondeur.

Nous avons déjà formé des modèles à grande échelle, ce qui nous a fourni l'expertise nécessaire pour former 10 à 100 fois plus rapidement que les méthodes accessibles au public - nos fondateurs et nos premiers employés savaient clairement comment former le modèle le plus puissant avec un budget de calcul donné.

Nos premiers investisseurs sont également des fournisseurs de contenu en Europe et nous ouvriront toutes les portes nécessaires pour acquérir des ensembles de données de haute qualité sur lesquels nous pourrons former et affiner nos modèles.

Explorer des scénarios avec des clients clés

L'équipe fondatrice organise déjà des prospections commerciales auprès de grandes institutions commerciales françaises et européennes. Une petite équipe orientée produit (6 personnes d'ici la fin de l'année) commencera à développer l'activité tandis que l'équipe technique formera de précieux modules techniques.

L'équipe de modélisation restera concentrée à 100 % sur le développement technologique pour éviter les distractions.

Le développement commercial commencera en même temps que le développement de la famille de modèles de première génération, en utilisant les stratégies suivantes :

● Exploration ciblée des besoins des grands acteurs industriels, facilitée par des intégrateurs tiers qui auront un accès complet à nos meilleurs modèles (non open source)

● Co-concevoir des produits avec quelques petits partenaires émergents axés sur les produits d'IA générative.

L'exploration commerciale sera utilisée pour piloter la conception du modèle de deuxième génération.

le plan de route

la première année

Nous formerons deux générations de modèles, et le développement du modèle et l'intégration commerciale progresseront simultanément. La première génération sera partiellement open source, s'appuyant sur la technologie maîtrisée par l'équipe. Elle validera notre capacité à répondre aux besoins de nos clients, investisseurs et institutionnels. Le modèle de deuxième génération comblera les lacunes importantes du modèle actuel, lui permettant d'être utilisé de manière sûre et économique par les entreprises.

Entraînez le meilleur modèle standard open source

D'ici la fin de 2023, nous formerons une série de modèles de génération de texte qui peuvent largement surpasser ChatGPT 3.5 et la version de mars 2023 de Bard, ainsi que toutes les solutions open source.

Cette série sera open source ; nous participerons à la communauté pour en tirer parti, en en faisant un standard ouvert.

Nous fournirons la même interface de service que nos concurrents et facturerons des frais pour collecter des données d'utilisation tierces, et nous créerons des applications grand public gratuites pour étendre l'influence de la marque et capturer les données des utilisateurs propriétaires.

** Personnalisé et différencié pour les besoins de l'entreprise **

Au cours des six prochains mois, ces modèles seront équipés de modèles d'intégration sémantique pour la recherche de contenu et de plugins multimodaux pour la gestion des entrées visuelles. Des modèles ad hoc recyclés à l'aide de sources de données de haute qualité disponibles dans le commerce seront également préparés.

Le développement commercial commencera en même temps que le développement de la série de modèles de première génération : nous avons l'intention d'avoir une intégration de preuve de concept d'ici la fin du premier trimestre 2024.

En termes de technologie, aux premier et deuxième trimestres 2024, nous nous concentrerons sur deux principaux domaines sous-évalués par les entreprises en place :

● Entraînez un modèle suffisamment petit pour fonctionner sur un ordinateur portable de 16 Go tout en servant d'assistant IA utile

● Entraînez des modèles avec des contextes supplémentaires permutables à chaud**, permettant jusqu'à des millions de contextes supplémentaires, fusionnant efficacement les modèles de langage et les systèmes de récupération.

Dans le même temps, les ensembles de données de formation et de mise au point continueront d'être enrichis grâce à des partenariats et à l'acquisition de données.

D'ici la fin du deuxième trimestre 2024, nous avons l'intention de :

● Distribuer le meilleur modèle de génération de texte open source, avec une sortie textuelle et visuelle

● Possède un modèle générique et expert avec l'un des ratios valeur/coût les plus élevés

● Fournir des fonctionnalités de modèle aux intégrateurs tiers via des API disponibles évolutives et diversifiées

● Établir une relation commerciale sous licence avec un ou deux grands acteurs de l'industrie qui se sont engagés à utiliser notre technologie

Étape suivante

Concurrencer et surpasser des acteurs tels que OpenAI nécessitera des investissements substantiels dans les étapes ultérieures (GPT-4 a coûté plusieurs centaines de millions de dollars). Notre objectif pour la première année est de démontrer que nous sommes l'une des équipes les plus solides de la compétition mondiale d'IA, capable de développer et de lancer des modèles capables de rivaliser avec les plus grands acteurs. Notre expérience en tant que chercheurs en modèles linguistiques à grande échelle (LLM) nous permettra d'être plus efficaces en termes de capital à un stade précoce que les entreprises qui découvrent ou se lancent dans ce domaine.

L'une des étoiles du nord de mistral.ai sera la sécurité : nous publierons des modèles de manière bien échelonnée, en veillant à ce que nos modèles ne soient utilisés qu'à des fins conformes à nos valeurs, et pour cela, nous fournirons à l'"équipe rouge" un accès bêta à repérer les comportements inappropriés et les corriger.

Ce faisant, nous convaincrons les principales institutions publiques et privées que nous pouvons construire des technologies sûres, contrôlables et efficaces qui permettent à l'humanité de bénéficier de cette percée scientifique. Et cela incitera les institutions et les pays à participer à notre financement de série A. Dans la série A (T3 2024), nous prévoyons de devoir lever 200 millions de dollars pour former des modèles au-delà des capacités de GPT-4.

Un soutien financier solide nous permettra de former des modèles sur une infrastructure beaucoup plus grande, renforçant ainsi notre position de leader dans la recherche en IA et de fournisseur de choix dans le secteur industriel européen.

(texte intégral)

Voir l'original

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.