Cuatro semanas después de su creación, recaudó 105 millones de euros, y el texto completo del memorándum de financiación del modelo lingüístico europeo mistral.ai
Fuente de la imagen: Generada por la herramienta de IA Unbounded
Un equipo formado hace solo unas semanas ha completado una financiación de 105 millones de euros sin productos, sin usuarios y sin experiencia operativa. Este memorando (memorándum) lo ayudó a convencer a Light Speed, al ex director ejecutivo de Google, Eric Schmidt, y a otros. El memorando enfatiza el mercado europeo, la seguridad de la IA, el cumplimiento y otros aspectos.Mistral cree que su uso de una ruta de código abierto que es completamente diferente de OpenAI eventualmente le permitirá establecer ventajas y lograr superarse. Por lo que leí, este memorándum está claramente escrito con mucha habilidad y también contiene algunos elementos engañosos. Hizo un buen uso de la mentalidad FOMO actual de la sociedad europea sobre el modelo de lenguaje grande para completar la financiación.
Mistral está dispuesto a referirse a un viento frío seco y fuerte del noroeste en el sur de Francia, y también es el nombre de un barco de asalto anfibio de fabricación francesa. Este es el buque de asalto anfibio líder en el mundo. El nombre encarna el orgullo francés. Los seis miembros del equipo fundador son todos de Francia. En lugar de entenderlo como un gran modelo de idioma europeo, creo que es más como una gran empresa modelo de idioma francés. Cuenta una buena historia europea, pero no será la única en Europa.
Vi a Memo en un grupo de discusión. Después de confirmar que el contenido de Memo ya no necesita mantenerse en secreto, usé ChatGPT para traducir el texto completo y luego revisé y traduje nuevamente parte del contenido.
Memorándum Estratégico de mistral.ai
Autor: mistral.ai
Traducción: ChatGPT, Wang Chao
La IA generativa es una tecnología transformadora
En el último año, hemos visto una aceleración fenomenal en la IA generativa (sistemas capaces de generar texto/imágenes a partir de texto e imágenes). Estos sistemas pueden ayudar a los humanos a:
● Producir contenido excelente e innovador (texto, código, gráficos)
● Lea, procese y resuma flujos de contenido no estructurados miles de veces más rápido que los humanos
● Interactúe con el mundo a través del lenguaje natural o las API para ejecutar flujos de trabajo más rápido que nunca.
Las poderosas capacidades de la IA generativa se revelaron repentinamente al público después del lanzamiento de ChatGPT. Dichos productos están siendo producidos por solo unos pocos equipos pequeños en todo el mundo, y el número limitado de investigadores en estos equipos se ha convertido en un cuello de botella que impide la creación de una nueva economía en este campo.
La IA generativa está a punto de aumentar la productividad en todas las industrias y crear una nueva industria al aumentar sin problemas las capacidades de la máquina de la mente humana (mercado de $ 10 mil millones en 2022, proyectado para alcanzar los $ 110 mil millones para 2030, tasa de crecimiento anual proyectada del 35%). Es una tecnología transformadora para la economía mundial que cambiará la naturaleza del trabajo y generará un cambio social positivo.
Oligopolio en ciernes
Las técnicas de IA generativa se basan en años de investigación en la industria y el mundo académico. Al ampliar la capacitación a datos a escala de Internet y corregir el modelo con comentarios humanos, los avances que hicieron que la tecnología fuera accesible para las masas fueron logrados por un puñado de actores de la industria, el más grande de los cuales (OpenAI) parece tener la intención hegemónica de El mercado.
Estos pocos jugadores entrenan modelos generativos y los usan como activos; sirven a miles de terceros que crean productos para mejorar la productividad, así como al público en general a través de sus propios productos como chatbots. Todavía se está formando una gran cantidad de nuevas empresas de terceros para construir varios servicios basados en estos modelos generativos.
**Creemos que la mayor parte del valor en el mercado emergente de IA generativa proviene de la tecnología difícil de fabricar, los propios modelos generativos. **Estos modelos deben entrenarse en miles de potentes máquinas que procesan billones de datos de fuentes de alta calidad, lo que constituye el primer listón alto. La segunda barrera importante es la dificultad de formar un equipo experimentado, y mistral.ai está en una buena posición para hacerlo.
Actualmente (GLM) todos los jugadores principales están ubicados en los EE. UU., todavía no hay un competidor serio en Europa. Dado lo poderosa (y peligrosa) que es esta nueva tecnología, esta es una pregunta geopolítica importante. mistral.ai será el líder europeo en IA que aumenta la productividad y la creatividad y guía la nueva revolución industrial que se avecina.
La IA generativa actual no satisface las necesidades del mercado
OpenAI y sus competidores actuales han elegido una ruta de tecnología cerrada, lo que limitará significativamente su cobertura de mercado. En este enfoque, el modelo se mantiene privado y solo se sirve a través de una API de texto a texto. Esto plantea las siguientes preguntas importantes para las empresas:
● Las organizaciones que desean utilizar técnicas de IA generativa se ven obligadas a proporcionar sus valiosos datos comerciales y datos confidenciales de los usuarios a un modelo de caja negra, a menudo implementado en la nube pública. Esto plantea un problema de seguridad: un modelo que se mantiene en secreto no se puede verificar para garantizar que su salida sea segura, y dicho modelo no se puede implementar en una aplicación crítica para la seguridad. Esta situación también plantea problemas legales, especialmente cuando una empresa transfiere datos personales fuera de sus límites legales, que pueden estar regidos por leyes extraterritoriales.
● Exponer solo la salida del modelo, en lugar del modelo completo, dificulta la interfaz con otros componentes (base de datos de recuperación, entrada estructurada, imágenes y sonidos). Actualmente hay cientos de productos que crean capacidades compuestas (por ejemplo, memoria, visión, etc.) al interconectar las salidas y entradas de los modelos. Estos productos funcionarán mejor y más rápido si el modelo se puede proporcionar como una caja blanca (modelo transparente) (como The Flamingo integra los modelos visuales y de texto de la caja blanca en un modelo de texto+visual).
● Los datos utilizados para entrenar el modelo son confidenciales, lo que significa que confiamos en sistemas de origen incierto y que pueden generar resultados incontrolables. Los esfuerzos de filtrado para abordar este problema solo brindan garantías débiles y frágiles de que el modelo no generará contenido confidencial para el que puede haber sido entrenado. Este problema llevó a la prohibición de ChatGPT en Italia en abril de 2023.
Rompe el patrón de mercado de Europa
Al fundar mistral.ai, planeamos adoptar una postura completamente opuesta a los modelos cerrados actuales para entrenar modelos avanzados. **Nuestra visión es convertirnos en un actor líder en el campo al tiempo que integramos estos modelos en Europa y la industria en general para desarrollar un negocio de alto valor. **
**mistral.ai será líder en investigación en IA generativa y dentro de cuatro años el proveedor líder de tecnología de IA en el mercado. **Para lograr este objetivo, primero nos centraremos en algunas características diferenciadoras clave y luego realizaremos un esfuerzo integral de I+D para seleccionar las estrategias más efectivas para avanzar hacia la inteligencia artificial que es de valor práctico para los humanos.
Centrarse primero en el mercado europeo nos dará una ventaja defensiva, y nuestra postura abierta en la ruta tecnológica mejorará aún más nuestro atractivo. Muchas de las mentes más brillantes en el campo de Large Language Modeling (LLM) son europeas; nuestra amplia experiencia demuestra que muchas de ellas quisieran unirse a nuestro proyecto.
Posicionamiento técnico opuesto
Nuestros primeros diferenciadores, los puntos ciegos en las estrategias de nuestros competidores, fueron los siguientes:
● **Tome un enfoque más abierto para el desarrollo del modelo. **Lanzaremos el modelo bajo una licencia permisiva de software de código abierto, que superará sustancialmente a la competencia. Lanzaremos herramientas para aprovechar el poder de estos modelos de caja blanca y crear una comunidad de desarrolladores en torno a nuestra marca. Este enfoque es ideológicamente muy diferente de OpenAI, esto atraerá mejor a los mejores investigadores y será una poderosa aceleración para el desarrollo del proyecto, porque proporcionará una gran cantidad de desarrolladores entusiastas aguas abajo que abrirán la puerta. Esto aumentará nuestro alcance de desarrollo comercial. Equilibraremos nuestra estrategia de código abierto con intereses financieros, reservando los modelos más potentes y profesionales para los usuarios de pago.
○ Dedicaremos el 1% de los fondos a fundaciones sin fines de lucro responsables del desarrollo de la comunidad de código abierto.
● Ya sea de código abierto o con licencia, las partes internas (arquitectura y pesos entrenados) de nuestros modelos siempre están abiertas para nuestros clientes. **Esto permitirá una integración más estrecha con los flujos de trabajo de los clientes, su contenido se puede ingresar en diferentes partes del modelo profundo, en lugar de tener todo serializado como texto de entrada, alimentado a una API de caja negra. **
● **Mayor enfoque en la procedencia y el control de los datos. **Nuestros modelos serán entrenados en contenido de datos de alta calidad (que no sea contenido extraído) para el cual negociaremos un acuerdo de licencia. Esto nos permitirá entrenar mejores modelos que los modelos disponibles actualmente como Llama. Usando técnicas de participación profunda (expertos híbridos y modelos de recuperación aumentada), proporcionaremos modelos con acceso opcional a la fuente de datos: para usuarios premium pagados, los modelos específicos pueden dedicarse a finanzas/legal/etc. (esto proporciona un aumento considerable del rendimiento). Usando técnicas similares, nuestro modelo podrá proporcionar acceso instantáneo a datos diferenciados para empleados con diferentes derechos de propiedad intelectual corporativos.
● **Proporcione una garantía de seguridad y privacidad inigualable. **Nuestro modelo se podrá implementar en una nube privada y, opcionalmente, directamente en el dispositivo, lo que minimizará de manera efectiva las preocupaciones sobre la privacidad al eliminar procesos potencialmente problemáticos. Para ello, dirigiremos nuestros esfuerzos de I+D+i hacia la formación de modelos pequeños pero supereficientes, proponiendo de forma efectiva modelos con la mayor relación calidad/coste del mercado. Nuestra estrategia de código abierto también garantizará la auditabilidad de nuestros modelos cuando se implementen en industrias clave, especialmente duales y de salud.
Desarrollo de negocios
En términos de negocios, proporcionaremos los módulos técnicos más valiosos para la industria emergente de IA como servicio y utilizaremos IA generativa para cambiar completamente el flujo de trabajo comercial. Co-construiremos soluciones integradas con integradores europeos y clientes industriales y obtendremos comentarios extremadamente valiosos de ellos para convertirnos en la principal herramienta para todas las empresas que buscan aprovechar la IA en Europa.
La integración con verticales puede tomar diferentes formas de mercado, incluidas licencias de acceso completo a modelos (incluidos pesos entrenados), especialización de modelos según la demanda, contratos comerciales con integradores/empresas de consultoría para crear soluciones completamente integradas. Como se detalla en nuestra hoja de ruta, exploraremos e identificaremos los mejores enfoques a medida que evolucione la tecnología.
Cómo convertirse en un líder en el campo de la IA
El mejor equipo
El equipo fundador está formado por los mejores investigadores en el campo que han trabajado en DeepMind y Meta, así como por experimentados empresarios en serie franceses y líderes públicos influyentes.
● Arthur Mensch, director ejecutivo, exjefe científico de investigación de DeepMind, autor principal de varias contribuciones importantes a LLM: Chinchilla, Retro, Flamingo
● Guillaume Lample, científico jefe, ex investigador científico principal de Meta. Lideró el proyecto Llama, la mayor contribución de Meta al campo de los grandes modelos lingüísticos
● Timothée Lacroix — CTO — Ex ingeniero de software en Meta, líder técnico en Llama
● Jean-Charles Samuelian, CEO de Alan
● Charles Gorintin,Alan CTO
● Cédric O, exsecretario de Estado de Asuntos Digitales de Francia
Los primeros cinco empleados ya identificados serán investigadores experimentados de grandes empresas tecnológicas. Su entusiasmo por Europa y el concepto de código abierto, y la continua reestructuración organizativa de algunas empresas debido al rápido desarrollo de la IA generativa, también constituye un momento adecuado para que abandonen estas empresas.
Infraestructura y fuentes de datos
Para entrenar un modelo competitivo, se debe usar un clúster de escala exa durante al menos varios meses. Tenemos la intención de alquilar dichos recursos informáticos durante un año completo, desarrollando así modelos comerciales y de código abierto de diferentes capacidades.
Ya estamos realizando negociaciones competitivas con los principales proveedores de servicios en la nube sobre el alquiler de recursos informáticos (planeamos comenzar en verano y formar una reserva informática de 1536 H100 para septiembre). Dado que mistral.ai tiene una sólida base europea, también cooperaremos con los proveedores de servicios en la nube europeos emergentes que están expandiendo activamente los servicios de computación de aprendizaje profundo.
Hemos entrenado modelos a gran escala anteriormente, lo que nos proporcionó la experiencia para entrenar de 10 a 100 veces más rápido que los métodos disponibles públicamente: nuestros fundadores y primeros empleados claramente sabían cómo entrenar el modelo más fuerte con un presupuesto computacional dado.
Nuestros primeros inversores también son proveedores de contenido en Europa y nos abrirán todas las puertas necesarias para adquirir conjuntos de datos de alta calidad en los que podamos entrenar y ajustar nuestros modelos.
Explore escenarios junto con clientes clave
El equipo fundador ya está organizando exploraciones comerciales con las principales instituciones comerciales francesas y europeas. Un pequeño equipo orientado al producto (6 personas para fin de año) comenzará a hacer crecer el negocio mientras el equipo técnico entrena valiosos módulos técnicos.
El equipo de modelado permanecerá 100% enfocado en el desarrollo de tecnología para evitar distracciones.
El desarrollo comercial comenzará simultáneamente con el desarrollo de la familia modelo de primera generación, utilizando las siguientes estrategias:
● Exploración enfocada de las necesidades de los grandes actores industriales, facilitada por integradores de terceros a quienes se les otorgará acceso total a nuestros mejores modelos (no de código abierto).
● Diseño conjunto de productos con algunos pequeños socios emergentes centrados en productos de IA generativa.
La exploración basada en negocios se utilizará para impulsar el diseño del modelo de segunda generación.
mapa de ruta
el primer año
Entrenaremos dos generaciones de modelos, y el desarrollo del modelo y la integración comercial avanzarán simultáneamente. La primera generación será parcialmente de código abierto y se basará en la tecnología que el equipo ha dominado. Validará nuestra capacidad para satisfacer las necesidades de nuestros clientes, inversores e instituciones. El modelo de segunda generación abordará las deficiencias significativas del modelo actual, lo que permitirá que las empresas lo utilicen de manera segura y económica.
Entrenar el mejor modelo estándar de código abierto
Para fines de 2023, entrenaremos una serie de modelos de generación de texto que pueden superar significativamente a ChatGPT 3.5 y la versión de marzo de 2023 de Bard, así como a todas las soluciones de código abierto.
Esta serie será de código abierto; participaremos en la comunidad para desarrollarla, convirtiéndola en un estándar abierto.
Proporcionaremos la misma interfaz de servicio que nuestros competidores y cobraremos una tarifa para recopilar datos de uso de terceros, y crearemos algunas aplicaciones de consumo gratuitas para expandir la influencia de la marca y capturar datos de usuarios propios.
Personalizado y diferenciado para las necesidades del negocio
Durante los próximos seis meses, estos modelos estarán equipados con modelos de incrustación semántica para la búsqueda de contenido y complementos multimodales para manejar la entrada visual. También se prepararán modelos ad hoc reentrenados utilizando fuentes de datos de alta calidad disponibles en el mercado.
El desarrollo comercial comenzará simultáneamente con el desarrollo de la serie de modelos de primera generación: tenemos la intención de tener una integración de prueba de concepto para fines del primer trimestre de 2024.
En términos de tecnología, en el primer y segundo trimestre de 2024, nos enfocaremos en dos áreas principales que están infravaloradas por las empresas establecidas:
● Entrene un modelo lo suficientemente pequeño para ejecutarlo en una computadora portátil de 16 GB mientras funciona como un útil asistente de IA
● Entrenar modelos con contextos adicionales intercambiables en caliente**, lo que permite hasta millones de contextos adicionales, fusionando efectivamente modelos de lenguaje y sistemas de recuperación.
Al mismo tiempo, los conjuntos de datos de capacitación y ajuste continuarán enriqueciéndose a través de asociaciones y adquisición de datos.
Para fines del segundo trimestre de 2024, tenemos la intención de:
● Distribuir el mejor modelo generativo de texto de código abierto, con salida de texto y visual.
● Tiene un modelo genérico y experto con una de las relaciones valor/costo más altas
● Proporcione capacidades de modelo para integradores de terceros a través de API escalables y diversas disponibles.
● Establecer una relación comercial autorizada con uno o dos grandes actores de la industria que se hayan comprometido a usar nuestra tecnología.
Siguiente etapa
Competir y superar jugadores como OpenAI requerirá una inversión sustancial en etapas posteriores (GPT-4 costó varios cientos de millones de dólares). Nuestro objetivo para el primer año es demostrar que somos uno de los equipos más fuertes en la competencia global de IA, capaz de desarrollar y lanzar modelos que pueden competir con los jugadores más importantes. Nuestra experiencia como investigadores de modelos de lenguaje a gran escala (LLM) nos permitirá ser más eficientes en términos de capital en una etapa temprana que las empresas que están descubriendo o entrando en este campo.
Una estrella del norte de mistral.ai será la seguridad: lanzaremos modelos de una manera bien organizada, asegurándonos de que nuestros modelos solo se usen para propósitos consistentes con nuestros valores, y para esto proporcionaremos al "equipo rojo" acceso beta a detectar conductas inapropiadas y corregirlas.
Al hacerlo, convenceremos a instituciones públicas y privadas clave de que podemos construir tecnologías seguras, controlables y eficientes que permitan a la humanidad beneficiarse de este avance científico. Y esto atraerá a instituciones y países a participar en nuestro financiamiento Serie A. En la Serie A (Q3 2024), esperamos necesitar recaudar $200 millones para entrenar modelos más allá de las capacidades de GPT-4.
Un fuerte respaldo financiero nos permitirá entrenar modelos en una infraestructura mucho más grande, fortaleciendo nuestra posición como líder en investigación de IA y el proveedor preferido en el sector industrial europeo.
(texto completo)
Ver originales
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Cuatro semanas después de su creación, recaudó 105 millones de euros, y el texto completo del memorándum de financiación del modelo lingüístico europeo mistral.ai
Fuente: Empower Labs
Un equipo formado hace solo unas semanas ha completado una financiación de 105 millones de euros sin productos, sin usuarios y sin experiencia operativa. Este memorando (memorándum) lo ayudó a convencer a Light Speed, al ex director ejecutivo de Google, Eric Schmidt, y a otros. El memorando enfatiza el mercado europeo, la seguridad de la IA, el cumplimiento y otros aspectos.Mistral cree que su uso de una ruta de código abierto que es completamente diferente de OpenAI eventualmente le permitirá establecer ventajas y lograr superarse. Por lo que leí, este memorándum está claramente escrito con mucha habilidad y también contiene algunos elementos engañosos. Hizo un buen uso de la mentalidad FOMO actual de la sociedad europea sobre el modelo de lenguaje grande para completar la financiación.
Mistral está dispuesto a referirse a un viento frío seco y fuerte del noroeste en el sur de Francia, y también es el nombre de un barco de asalto anfibio de fabricación francesa. Este es el buque de asalto anfibio líder en el mundo. El nombre encarna el orgullo francés. Los seis miembros del equipo fundador son todos de Francia. En lugar de entenderlo como un gran modelo de idioma europeo, creo que es más como una gran empresa modelo de idioma francés. Cuenta una buena historia europea, pero no será la única en Europa.
Memorándum Estratégico de mistral.ai
Autor: mistral.ai
Traducción: ChatGPT, Wang Chao
La IA generativa es una tecnología transformadora
En el último año, hemos visto una aceleración fenomenal en la IA generativa (sistemas capaces de generar texto/imágenes a partir de texto e imágenes). Estos sistemas pueden ayudar a los humanos a:
● Producir contenido excelente e innovador (texto, código, gráficos)
● Lea, procese y resuma flujos de contenido no estructurados miles de veces más rápido que los humanos
● Interactúe con el mundo a través del lenguaje natural o las API para ejecutar flujos de trabajo más rápido que nunca.
Las poderosas capacidades de la IA generativa se revelaron repentinamente al público después del lanzamiento de ChatGPT. Dichos productos están siendo producidos por solo unos pocos equipos pequeños en todo el mundo, y el número limitado de investigadores en estos equipos se ha convertido en un cuello de botella que impide la creación de una nueva economía en este campo.
La IA generativa está a punto de aumentar la productividad en todas las industrias y crear una nueva industria al aumentar sin problemas las capacidades de la máquina de la mente humana (mercado de $ 10 mil millones en 2022, proyectado para alcanzar los $ 110 mil millones para 2030, tasa de crecimiento anual proyectada del 35%). Es una tecnología transformadora para la economía mundial que cambiará la naturaleza del trabajo y generará un cambio social positivo.
Oligopolio en ciernes
Las técnicas de IA generativa se basan en años de investigación en la industria y el mundo académico. Al ampliar la capacitación a datos a escala de Internet y corregir el modelo con comentarios humanos, los avances que hicieron que la tecnología fuera accesible para las masas fueron logrados por un puñado de actores de la industria, el más grande de los cuales (OpenAI) parece tener la intención hegemónica de El mercado.
Estos pocos jugadores entrenan modelos generativos y los usan como activos; sirven a miles de terceros que crean productos para mejorar la productividad, así como al público en general a través de sus propios productos como chatbots. Todavía se está formando una gran cantidad de nuevas empresas de terceros para construir varios servicios basados en estos modelos generativos.
**Creemos que la mayor parte del valor en el mercado emergente de IA generativa proviene de la tecnología difícil de fabricar, los propios modelos generativos. **Estos modelos deben entrenarse en miles de potentes máquinas que procesan billones de datos de fuentes de alta calidad, lo que constituye el primer listón alto. La segunda barrera importante es la dificultad de formar un equipo experimentado, y mistral.ai está en una buena posición para hacerlo.
Actualmente (GLM) todos los jugadores principales están ubicados en los EE. UU., todavía no hay un competidor serio en Europa. Dado lo poderosa (y peligrosa) que es esta nueva tecnología, esta es una pregunta geopolítica importante. mistral.ai será el líder europeo en IA que aumenta la productividad y la creatividad y guía la nueva revolución industrial que se avecina.
La IA generativa actual no satisface las necesidades del mercado
OpenAI y sus competidores actuales han elegido una ruta de tecnología cerrada, lo que limitará significativamente su cobertura de mercado. En este enfoque, el modelo se mantiene privado y solo se sirve a través de una API de texto a texto. Esto plantea las siguientes preguntas importantes para las empresas:
● Las organizaciones que desean utilizar técnicas de IA generativa se ven obligadas a proporcionar sus valiosos datos comerciales y datos confidenciales de los usuarios a un modelo de caja negra, a menudo implementado en la nube pública. Esto plantea un problema de seguridad: un modelo que se mantiene en secreto no se puede verificar para garantizar que su salida sea segura, y dicho modelo no se puede implementar en una aplicación crítica para la seguridad. Esta situación también plantea problemas legales, especialmente cuando una empresa transfiere datos personales fuera de sus límites legales, que pueden estar regidos por leyes extraterritoriales.
● Exponer solo la salida del modelo, en lugar del modelo completo, dificulta la interfaz con otros componentes (base de datos de recuperación, entrada estructurada, imágenes y sonidos). Actualmente hay cientos de productos que crean capacidades compuestas (por ejemplo, memoria, visión, etc.) al interconectar las salidas y entradas de los modelos. Estos productos funcionarán mejor y más rápido si el modelo se puede proporcionar como una caja blanca (modelo transparente) (como The Flamingo integra los modelos visuales y de texto de la caja blanca en un modelo de texto+visual).
● Los datos utilizados para entrenar el modelo son confidenciales, lo que significa que confiamos en sistemas de origen incierto y que pueden generar resultados incontrolables. Los esfuerzos de filtrado para abordar este problema solo brindan garantías débiles y frágiles de que el modelo no generará contenido confidencial para el que puede haber sido entrenado. Este problema llevó a la prohibición de ChatGPT en Italia en abril de 2023.
Rompe el patrón de mercado de Europa
Al fundar mistral.ai, planeamos adoptar una postura completamente opuesta a los modelos cerrados actuales para entrenar modelos avanzados. **Nuestra visión es convertirnos en un actor líder en el campo al tiempo que integramos estos modelos en Europa y la industria en general para desarrollar un negocio de alto valor. **
**mistral.ai será líder en investigación en IA generativa y dentro de cuatro años el proveedor líder de tecnología de IA en el mercado. **Para lograr este objetivo, primero nos centraremos en algunas características diferenciadoras clave y luego realizaremos un esfuerzo integral de I+D para seleccionar las estrategias más efectivas para avanzar hacia la inteligencia artificial que es de valor práctico para los humanos.
Centrarse primero en el mercado europeo nos dará una ventaja defensiva, y nuestra postura abierta en la ruta tecnológica mejorará aún más nuestro atractivo. Muchas de las mentes más brillantes en el campo de Large Language Modeling (LLM) son europeas; nuestra amplia experiencia demuestra que muchas de ellas quisieran unirse a nuestro proyecto.
Posicionamiento técnico opuesto
Nuestros primeros diferenciadores, los puntos ciegos en las estrategias de nuestros competidores, fueron los siguientes:
● **Tome un enfoque más abierto para el desarrollo del modelo. **Lanzaremos el modelo bajo una licencia permisiva de software de código abierto, que superará sustancialmente a la competencia. Lanzaremos herramientas para aprovechar el poder de estos modelos de caja blanca y crear una comunidad de desarrolladores en torno a nuestra marca. Este enfoque es ideológicamente muy diferente de OpenAI, esto atraerá mejor a los mejores investigadores y será una poderosa aceleración para el desarrollo del proyecto, porque proporcionará una gran cantidad de desarrolladores entusiastas aguas abajo que abrirán la puerta. Esto aumentará nuestro alcance de desarrollo comercial. Equilibraremos nuestra estrategia de código abierto con intereses financieros, reservando los modelos más potentes y profesionales para los usuarios de pago.
○ Dedicaremos el 1% de los fondos a fundaciones sin fines de lucro responsables del desarrollo de la comunidad de código abierto.
● Ya sea de código abierto o con licencia, las partes internas (arquitectura y pesos entrenados) de nuestros modelos siempre están abiertas para nuestros clientes. **Esto permitirá una integración más estrecha con los flujos de trabajo de los clientes, su contenido se puede ingresar en diferentes partes del modelo profundo, en lugar de tener todo serializado como texto de entrada, alimentado a una API de caja negra. **
● **Mayor enfoque en la procedencia y el control de los datos. **Nuestros modelos serán entrenados en contenido de datos de alta calidad (que no sea contenido extraído) para el cual negociaremos un acuerdo de licencia. Esto nos permitirá entrenar mejores modelos que los modelos disponibles actualmente como Llama. Usando técnicas de participación profunda (expertos híbridos y modelos de recuperación aumentada), proporcionaremos modelos con acceso opcional a la fuente de datos: para usuarios premium pagados, los modelos específicos pueden dedicarse a finanzas/legal/etc. (esto proporciona un aumento considerable del rendimiento). Usando técnicas similares, nuestro modelo podrá proporcionar acceso instantáneo a datos diferenciados para empleados con diferentes derechos de propiedad intelectual corporativos.
● **Proporcione una garantía de seguridad y privacidad inigualable. **Nuestro modelo se podrá implementar en una nube privada y, opcionalmente, directamente en el dispositivo, lo que minimizará de manera efectiva las preocupaciones sobre la privacidad al eliminar procesos potencialmente problemáticos. Para ello, dirigiremos nuestros esfuerzos de I+D+i hacia la formación de modelos pequeños pero supereficientes, proponiendo de forma efectiva modelos con la mayor relación calidad/coste del mercado. Nuestra estrategia de código abierto también garantizará la auditabilidad de nuestros modelos cuando se implementen en industrias clave, especialmente duales y de salud.
Desarrollo de negocios
En términos de negocios, proporcionaremos los módulos técnicos más valiosos para la industria emergente de IA como servicio y utilizaremos IA generativa para cambiar completamente el flujo de trabajo comercial. Co-construiremos soluciones integradas con integradores europeos y clientes industriales y obtendremos comentarios extremadamente valiosos de ellos para convertirnos en la principal herramienta para todas las empresas que buscan aprovechar la IA en Europa.
La integración con verticales puede tomar diferentes formas de mercado, incluidas licencias de acceso completo a modelos (incluidos pesos entrenados), especialización de modelos según la demanda, contratos comerciales con integradores/empresas de consultoría para crear soluciones completamente integradas. Como se detalla en nuestra hoja de ruta, exploraremos e identificaremos los mejores enfoques a medida que evolucione la tecnología.
Cómo convertirse en un líder en el campo de la IA
El mejor equipo
El equipo fundador está formado por los mejores investigadores en el campo que han trabajado en DeepMind y Meta, así como por experimentados empresarios en serie franceses y líderes públicos influyentes.
● Arthur Mensch, director ejecutivo, exjefe científico de investigación de DeepMind, autor principal de varias contribuciones importantes a LLM: Chinchilla, Retro, Flamingo
● Guillaume Lample, científico jefe, ex investigador científico principal de Meta. Lideró el proyecto Llama, la mayor contribución de Meta al campo de los grandes modelos lingüísticos
● Timothée Lacroix — CTO — Ex ingeniero de software en Meta, líder técnico en Llama
● Jean-Charles Samuelian, CEO de Alan
● Charles Gorintin,Alan CTO
● Cédric O, exsecretario de Estado de Asuntos Digitales de Francia
Los primeros cinco empleados ya identificados serán investigadores experimentados de grandes empresas tecnológicas. Su entusiasmo por Europa y el concepto de código abierto, y la continua reestructuración organizativa de algunas empresas debido al rápido desarrollo de la IA generativa, también constituye un momento adecuado para que abandonen estas empresas.
Infraestructura y fuentes de datos
Para entrenar un modelo competitivo, se debe usar un clúster de escala exa durante al menos varios meses. Tenemos la intención de alquilar dichos recursos informáticos durante un año completo, desarrollando así modelos comerciales y de código abierto de diferentes capacidades.
Ya estamos realizando negociaciones competitivas con los principales proveedores de servicios en la nube sobre el alquiler de recursos informáticos (planeamos comenzar en verano y formar una reserva informática de 1536 H100 para septiembre). Dado que mistral.ai tiene una sólida base europea, también cooperaremos con los proveedores de servicios en la nube europeos emergentes que están expandiendo activamente los servicios de computación de aprendizaje profundo.
Hemos entrenado modelos a gran escala anteriormente, lo que nos proporcionó la experiencia para entrenar de 10 a 100 veces más rápido que los métodos disponibles públicamente: nuestros fundadores y primeros empleados claramente sabían cómo entrenar el modelo más fuerte con un presupuesto computacional dado.
Nuestros primeros inversores también son proveedores de contenido en Europa y nos abrirán todas las puertas necesarias para adquirir conjuntos de datos de alta calidad en los que podamos entrenar y ajustar nuestros modelos.
Explore escenarios junto con clientes clave
El equipo fundador ya está organizando exploraciones comerciales con las principales instituciones comerciales francesas y europeas. Un pequeño equipo orientado al producto (6 personas para fin de año) comenzará a hacer crecer el negocio mientras el equipo técnico entrena valiosos módulos técnicos.
El equipo de modelado permanecerá 100% enfocado en el desarrollo de tecnología para evitar distracciones.
El desarrollo comercial comenzará simultáneamente con el desarrollo de la familia modelo de primera generación, utilizando las siguientes estrategias:
● Exploración enfocada de las necesidades de los grandes actores industriales, facilitada por integradores de terceros a quienes se les otorgará acceso total a nuestros mejores modelos (no de código abierto).
● Diseño conjunto de productos con algunos pequeños socios emergentes centrados en productos de IA generativa.
La exploración basada en negocios se utilizará para impulsar el diseño del modelo de segunda generación.
mapa de ruta
el primer año
Entrenaremos dos generaciones de modelos, y el desarrollo del modelo y la integración comercial avanzarán simultáneamente. La primera generación será parcialmente de código abierto y se basará en la tecnología que el equipo ha dominado. Validará nuestra capacidad para satisfacer las necesidades de nuestros clientes, inversores e instituciones. El modelo de segunda generación abordará las deficiencias significativas del modelo actual, lo que permitirá que las empresas lo utilicen de manera segura y económica.
Entrenar el mejor modelo estándar de código abierto
Para fines de 2023, entrenaremos una serie de modelos de generación de texto que pueden superar significativamente a ChatGPT 3.5 y la versión de marzo de 2023 de Bard, así como a todas las soluciones de código abierto.
Esta serie será de código abierto; participaremos en la comunidad para desarrollarla, convirtiéndola en un estándar abierto.
Proporcionaremos la misma interfaz de servicio que nuestros competidores y cobraremos una tarifa para recopilar datos de uso de terceros, y crearemos algunas aplicaciones de consumo gratuitas para expandir la influencia de la marca y capturar datos de usuarios propios.
Personalizado y diferenciado para las necesidades del negocio
Durante los próximos seis meses, estos modelos estarán equipados con modelos de incrustación semántica para la búsqueda de contenido y complementos multimodales para manejar la entrada visual. También se prepararán modelos ad hoc reentrenados utilizando fuentes de datos de alta calidad disponibles en el mercado.
El desarrollo comercial comenzará simultáneamente con el desarrollo de la serie de modelos de primera generación: tenemos la intención de tener una integración de prueba de concepto para fines del primer trimestre de 2024.
En términos de tecnología, en el primer y segundo trimestre de 2024, nos enfocaremos en dos áreas principales que están infravaloradas por las empresas establecidas:
● Entrene un modelo lo suficientemente pequeño para ejecutarlo en una computadora portátil de 16 GB mientras funciona como un útil asistente de IA
● Entrenar modelos con contextos adicionales intercambiables en caliente**, lo que permite hasta millones de contextos adicionales, fusionando efectivamente modelos de lenguaje y sistemas de recuperación.
Al mismo tiempo, los conjuntos de datos de capacitación y ajuste continuarán enriqueciéndose a través de asociaciones y adquisición de datos.
Para fines del segundo trimestre de 2024, tenemos la intención de:
● Distribuir el mejor modelo generativo de texto de código abierto, con salida de texto y visual.
● Tiene un modelo genérico y experto con una de las relaciones valor/costo más altas
● Proporcione capacidades de modelo para integradores de terceros a través de API escalables y diversas disponibles.
● Establecer una relación comercial autorizada con uno o dos grandes actores de la industria que se hayan comprometido a usar nuestra tecnología.
Siguiente etapa
Competir y superar jugadores como OpenAI requerirá una inversión sustancial en etapas posteriores (GPT-4 costó varios cientos de millones de dólares). Nuestro objetivo para el primer año es demostrar que somos uno de los equipos más fuertes en la competencia global de IA, capaz de desarrollar y lanzar modelos que pueden competir con los jugadores más importantes. Nuestra experiencia como investigadores de modelos de lenguaje a gran escala (LLM) nos permitirá ser más eficientes en términos de capital en una etapa temprana que las empresas que están descubriendo o entrando en este campo.
Una estrella del norte de mistral.ai será la seguridad: lanzaremos modelos de una manera bien organizada, asegurándonos de que nuestros modelos solo se usen para propósitos consistentes con nuestros valores, y para esto proporcionaremos al "equipo rojo" acceso beta a detectar conductas inapropiadas y corregirlas.
Al hacerlo, convenceremos a instituciones públicas y privadas clave de que podemos construir tecnologías seguras, controlables y eficientes que permitan a la humanidad beneficiarse de este avance científico. Y esto atraerá a instituciones y países a participar en nuestro financiamiento Serie A. En la Serie A (Q3 2024), esperamos necesitar recaudar $200 millones para entrenar modelos más allá de las capacidades de GPT-4.
Un fuerte respaldo financiero nos permitirá entrenar modelos en una infraestructura mucho más grande, fortaleciendo nuestra posición como líder en investigación de IA y el proveedor preferido en el sector industrial europeo.
(texto completo)