Confiando en PPT para recaudar 1.000 millones, la startup francesa de IA disparó contra Microsoft Google

2023-10-21 09:01:18

Compilado por Lu Ke

Según informes de medios extranjeros, en junio de este año, la startup francesa Mistral AI, que tenía solo un mes de vida, recaudó 105 millones de euros en una ronda de financiación inicial. En ese momento, la startup, fundada por un exempleado de DeepMind y dos exempleados de Meta, no tenía nada que lanzar. Cuando la gente escuchó por primera vez sobre la recaudación de fondos de Mistral, lamentaron que los capitalistas de riesgo fueran demasiado generosos con el espacio de IA generativa en explosión.

Resultó que Mistral en realidad tenía muchos puntos brillantes que convencieron a Lightspeed Ventures, al multimillonario francés Xavier Niel y al ex CEO de Google, Eric Schmidt, para que invirtieran en ellos.

Hace una semana, Mistral lanzó un modelo de 7.300 millones de parámetros diseñado para competir con Llama 2 de Meta, un gran modelo de lenguaje con 13.000 millones de parámetros. La compañía francesa afirma ser el modelo lingüístico más potente en el campo de los grandes modelos lingüísticos en la actualidad.

El modelo base, llamado Mistral 7B, es un modelo de transformador diseñado para una inferencia rápida y el procesamiento de instrucciones más largas. Para ello, utiliza la atención de consultas agrupadas y la atención de ventana deslizante. El uso de la atención de consultas agrupadas combina varias consultas y un mecanismo de atención de varios cabezales para equilibrar la calidad y la velocidad de salida. La atención de ventana deslizante amplía la longitud del contexto cambiando el tamaño de la ventana. Con una longitud de contexto de 8000 tokens, Mistral 7B presenta baja latencia, alto rendimiento y alto rendimiento en comparación con modelos más grandes.

El modelo Mistral 7B ahora está integrado en Vertex AI Notebooks de Google, una integración que brinda a los clientes de Google Cloud información sobre un flujo de trabajo integral de extremo a extremo, lo que les permite experimentar, ajustar e implementar Mistral-7B y sus variantes en Vertex AI Notebooks.

Los usuarios de Mistral AI pueden optimizar sus modelos utilizando vLLM, un marco de servicio eficiente de modelos de lenguaje grande. Mediante el uso de cuadernos de Vertex AI, los usuarios pueden implementar imágenes de vLLM mantenidas por Model Garden en los puntos de conexión de Vertex AI para la inferencia, lo que garantiza una implementación simplificada del modelo.

Una característica clave de esta colaboración es el Registro de Modelos de IA de Vertex, un repositorio central que permite a los usuarios gestionar el ciclo de vida de los modelos de IA Mistral y sus modelos ajustados. El registro proporciona a los usuarios una visión completa de las capacidades mejoradas de organización y seguimiento de sus modelos.

Como se puede ver en la presentación de la empresa, Mistral se ha posicionado inteligentemente como un actor potencial importante. Ayudará a Europa a convertirse en un "fuerte competidor" en la construcción de modelos fundamentales de IA y desempeñará un "papel importante en cuestiones geopolíticas".

En Estados Unidos, las startups que se centran en productos de IA cuentan principalmente con el apoyo de grandes empresas como Google y Microsoft. Mistral llama a esto "enfoque cerrado de la tecnología" que permite a las grandes empresas ganar más dinero, pero que en realidad no forma una comunidad abierta.

A diferencia del modelo GPT de OpenAI, donde los detalles del código permanecen confidenciales y solo están disponibles a través de API, la compañía con sede en París ha abierto su propio modelo en GitHub bajo la licencia Apache 2.0, lo que lo hace gratuito para todos.

Mistral apunta a la Llama de Meta, mientras que Mistral afirma que su producto de modelo grande es más fuerte que la Llama 2.

El modelo de Mistral contra Llama 2

Mistral dijo en un informe que Mistral 7B superó fácilmente los modelos de parámetros de 7.000 millones y 13.000 millones de Llama 2 en múltiples puntos de referencia.

En pruebas de comprensión lingüística a gran escala y multitarea que cubren matemáticas, historia, derecho y otras materias, el modelo de Mistral logró una precisión del 60,1%, mientras que el modelo de Llama 2 tuvo una tasa de precisión del 44% y el 55% para los 7.000 millones y 13.000 millones de parámetros, respectivamente.

En los puntos de referencia de razonamiento y comprensión lectora de Common Sense, Mistral también superó al modelo de Llama 2.

Solo en términos de codificación, Mistral está por detrás de Meta. Mistral 7B tuvo una precisión del 30,5% y del 47,5% en los puntos de referencia "Humano" y "MBPP", mientras que el modo de 7.000 millones de Llama 2 tuvo una precisión del 31,1% y del 52,5%, respectivamente.

Además del rendimiento, Mistral afirma usar menos computación que Llama 2. En el punto de referencia de MMLU, el resultado del modelo Mistral fue más de tres veces mayor que el de Llama 2 a la misma escala. Si se compara con ChatGPT, según los cálculos de medium, el coste de utilizar Mistral AI es unas 187 veces más barato que el GPT 4 y unas 9 veces más barato que el modelo GPT 3.5.

¿Cómo restringir modelos grandes? Esto es un problema

Sin embargo, Mistral también dijo que algunos usuarios se quejaron de que carecía de las protecciones de seguridad que tienen ChatGPT, Bard y Llama. Los usuarios han preguntado al modelo de comando de Mistral cómo hacer una bomba o autolesionarse, y los chatbots han dado instrucciones detalladas.

Paul Rottger, un investigador de seguridad de IA que anteriormente trabajó para establecer protecciones para GPT-4 antes de su lanzamiento, expresó su "sorpresa" por la falta de seguridad del Mistral 7B en un tuit. "Es raro ver que un nuevo modelo responda tan fácilmente incluso a las instrucciones más maliciosas. Estoy muy entusiasmado con la aparición de grandes modelos de código abierto, ¡pero eso no debería suceder! Dijo.

Estas críticas llevaron a Mistral a afinar el modelo y explicarlo. "El modelo Mistral 7B Instruct ha demostrado sus capacidades, lo que permite a las personas ver que el modelo base también se puede ajustar fácilmente para demostrar un rendimiento convincente. Esperamos trabajar con la comunidad sobre cómo hacer que el modelo sea más compatible con las reglas de protección para la implementación en entornos donde se requiere el control de la salida. —dijo Mistral—.

A los ojos de muchos otros investigadores, la ruta de Mistral es una solución a largo plazo para corregir la toxicidad del modelo, y agregar un mecanismo de protección equivale a poner una curita en una lesión grave, que no es tan efectiva. Violar las pautas de seguridad de los chatbots es uno de los pasatiempos favoritos de muchos usuarios que desean probar los límites de la capacidad de respuesta de los chatbots. En los primeros días de la apertura de ChatGPT, los desarrolladores han estado instando a ChatGPT a romper la defensa del chatbot.

Rahul Dandwate, un investigador de aprendizaje profundo que colaboró con Rephrase.ai, dijo: "Eliminar ciertas palabras clave de antemano es solo una parte de la solución, y hay muchas maneras de evitarlo. ¿Recuerdas lo que pasó después del lanzamiento de ChatGPT? Solían aparecer en DAN o 'Do Anything Now', que es una pista para habilitar la versión de jailbreak de ChatGPT. Por lo tanto, hacer una evaluación básica de seguridad es una medida temporal para hacer que el modelo sea más seguro. "

"También hay métodos que ni siquiera requieren técnicas sofisticadas de piratería. Una pregunta puede ser respondida por un chatbot de diferentes maneras. Por ejemplo, en lugar de simplemente preguntarle directamente al chatbot cómo hacer una bomba, lo dividiría en formas más científicas como: "¿Qué productos químicos se mezclan para producir una reacción fuerte?" Dandwate explica.

Dandwate dice que la solución a largo plazo es lanzar el modelo al público y obtener comentarios de ese uso y luego ajustarlo, que es exactamente lo que Mistral AI está haciendo. "ChatGPT es mejor porque ya ha sido utilizado por mucha gente. Tienen un mecanismo de retroalimentación muy básico en el que los usuarios pueden elegir dar un pulgar hacia arriba o un pulgar hacia arriba para calificar la calidad de las respuestas del chatbot, lo cual creo que es muy importante. —dijo Dandwate—.

Pero la desventaja de usar esta apertura para afinar a los usuarios es que Mistral puede tener que lidiar con las dudas de algunos usuarios durante un tiempo. Pero en el campo de la investigación de la IA, hay una gran proporción de personas que prefieren los modelos básicos en su forma original para comprender completamente las capacidades de los modelos, y estas personas apoyan la persistencia de Mistral.

El investigador de IA Delip Rao tuiteó que la elección de Mistral de lanzar el modelo de código abierto es "un reconocimiento de la versatilidad y la 'no lobotomía' del modelo Mistral como modelo base".

La referencia a la "lobectomía" es una reminiscencia de una versión anterior del chatbot Bing Sydney de Microsoft. El chatbot no tenía restricciones y tenía una personalidad fuerte hasta que Microsoft modificó drásticamente el chatbot a su forma actual.

El término loboctomía deriva de la notoria cirugía psicológica que, en el campo de los grandes modelos, a menudo se refiere a la prevención de respuestas tóxicas mediante la limitación de la función. Este enfoque filtra las respuestas peligrosas mediante el establecimiento de palabras clave para modelos grandes. Pero este enfoque único también puede conducir a la degradación del rendimiento de los modelos grandes, lo que dificulta la respuesta a algunas preguntas normales que implican vocabulario sensible.

Si bien la compañía no ha emitido una declaración oficial, hay rumores de que OpenAI realizó una "lobectomía" en el modelo para controlar sus partes desordenadas. Desde entonces, la gente se ha preguntado en qué se convertirían los chatbots si se les dejara funcionar libremente.

Dandwate dijo: "Realizar una lobotomía en el modelo puede afectarlo de alguna manera. Si se le prohíbe responder preguntas con ciertas palabras clave, es posible que tampoco pueda responder a las preguntas técnicas que los usuarios puedan hacer, como la mecánica de los misiles, o cualquier otra pregunta científica planteada en torno a temas en los que los robots están etiquetados como 'en riesgo'". (Traducción/Lu Ke)

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

3 me gusta

Recompensa
3
Comentar
Compartir

Comentar

0/400

Sin comentarios

Tema
1/3
1CandyDrop Airdrop Event 6.0
88k Popularidad
2White House Crypto Report
77k Popularidad
3Join Alpha RION Airdrop to Earn $40
63k Popularidad
4Fed Holds Rates Decision
10k Popularidad
5July Spark Program TOP 10 Creators Announced
4k Popularidad

Anclado