Recientemente, ha habido una ola de inversiones y adquisiciones en el campo de la IA. Salesforce, una empresa de renombre mundial, inyectó 450 millones de dólares en Anthropic, mientras que Runway recaudó con éxito 141 millones de dólares en financiación. Además, Snowflake también anunció la finalización de su adquisición de Neeva, mientras que el gigante chino Meituan adquirió la empresa de inteligencia artificial Light Years Away por 2065 millones.
Sin embargo, el acuerdo de más alto perfil fue sin duda la adquisición de la startup MosaicML. Se entiende que MosaicML fue adquirido por el gigante de big data Databricks por aproximadamente 1300 millones de dólares, y su valoración se ha duplicado seis veces en esta transacción, lo que la convierte en la adquisición más grande en la primera mitad de este año. Tiene solo 2 años de establecida y cuenta con más de 60 empleados ¿Qué respalda la alta valoración de MosaicML?
Databricks adquiere MosaicML para acelerar la democratización de las tecnologías de IA generativa
Databricks anunció oficialmente recientemente que adquirió MosaicML, una empresa emergente de inteligencia artificial generativa, por alrededor de $ 1.3 mil millones (alrededor de 9.3 mil millones de yuanes) para brindar servicios para crear herramientas similares a ChatGPT para empresas.
Después de la adquisición, MosaicML pasará a formar parte de la plataforma Databricks Lakehouse. Todo el equipo y la tecnología de MosaicML pasarán a estar bajo la bandera de Databricks, proporcionando a las empresas una plataforma unificada para gestionar activos de datos y poder utilizar sus propios datos patentados para construir, Poseer y proteger Modelos de IA generativos propios.
MosaicML es una empresa de IA generativa muy joven, fundada en San Francisco en 2021. Solo ha revelado públicamente una ronda de financiación y tiene solo 62 empleados. En la última ronda de financiación, su valoración fue de 220 millones de dólares estadounidenses, es decir, la valoración de la adquisición de MosaicML saltó directamente 6 veces. El acuerdo es la mayor adquisición anunciada en el campo de la IA generativa en lo que va del año. No hace mucho tiempo, el gigante de la computación en la nube Snowflake acaba de anunciar la adquisición de otra empresa de IA generativa, Neeva. Después de unos meses de frenesí de inversión, parece estar en marcha una ola corporativa masiva de adquisiciones de nuevas empresas de IA generativa.
Databricks se originó en UC Berkeley y participó en el desarrollo del proyecto Apache Spark. Como gigante del almacenamiento y análisis de datos, a partir de 2022, tendrá un valor de $ 31 mil millones, ayudando a grandes empresas como AT&T, Shell y Walgreens a procesar datos. Hace algún tiempo, acabo de abrir mi propio modelo grande Dolly, con el objetivo de lograr un efecto similar al de ChatGPT con menos parámetros. Después de que la computación en la nube se hizo más popular, el concepto de "integración de lagos y almacenes" propuesto por Spark ha influido profundamente en una serie de empresas emergentes de big data. Desde su creación en 2013, Databricks se ha convertido rápidamente en la empresa de infraestructura de datos más importante del mundo. El año pasado, Databricks anunció ingresos anuales de más de mil millones de dólares y, después de completar la última ronda de financiación en agosto de 2021, su última valoración alcanzó los 38 mil millones de dólares.
Ventajas de los modelos de la serie MosaicML MPT
Los modelos de la serie MPT de MosaicML se subclasifican de la clase base HuggingFace PretrainedModel y son totalmente compatibles con el ecosistema HuggingFace. El modelo MPT-7B es uno de los modelos más populares de MosaicML con miles de millones de parámetros y puede manejar más de 2000 tareas de procesamiento de lenguaje natural. Entre ellos, la capa de optimización de MPT-7B incluye FlashAttention y norma de capa de baja precisión, etc., lo que puede hacer que el modelo sea de 2 a 7 veces más rápido que los métodos de entrenamiento tradicionales, y la escalabilidad casi lineal de los recursos garantiza que los modelos con miles de millones de parámetros se pueden usar en Train en horas, no en días. MosaicML también lanzó un nuevo modelo de lenguaje grande de código abierto disponible comercialmente MPT-30B, que tiene 30 mil millones de parámetros y supera a GPT-3.
Fuente de datos: evaluación de MT-Bench de los modelos principales de MosaicML
Las ventajas de los modelos de la serie MPT son su alta eficiencia y bajo costo. La complejidad de los modelos de inteligencia artificial que utilizan una gran cantidad de datos para el "entrenamiento" ha aumentado considerablemente. Entrenar un modelo ahora cuesta al menos millones de dólares, lo que generalmente es inasequible para las pequeñas y medianas empresas, excepto para las grandes empresas. Los modelos de la serie MPT de MosaicML permiten a las empresas entrenar sus propios modelos de lenguaje a un costo menor y con mayor eficiencia, para que puedan aplicar más fácilmente la tecnología de IA generativa y lograr un mejor rendimiento comercial. La mayoría de los modelos de lenguaje de código abierto solo pueden manejar secuencias con unos pocos miles de tokens como máximo (consulte la Figura 1). Sin embargo, con la plataforma MosaicML y un solo nodo de 8xA100-40GB, los usuarios pueden ajustar fácilmente el MPT-7B para manejar longitudes de contexto de hasta 65k. La capacidad de manejar esta adaptación extrema de la longitud del contexto proviene de ALiBi, una de las opciones arquitectónicas clave en MPT-7B.
Por ejemplo, el texto completo de The Great Gatsby tiene menos de 68k Tokens. En una prueba, el modelo StoryWriter leyó El gran Gatsby y generó un epílogo. Uno de los epílogos de la generación de modelos se muestra en la Figura 2. StoryWriter leyó El gran Gatsby en unos 20 segundos (alrededor de 150.000 palabras por minuto). Debido a la mayor duración de la secuencia, su velocidad de "tecleo" es más lenta que la de otros modelos MPT-7B, a unas 105 palabras por minuto. Aunque StoryWriter se ajustó con una longitud de contexto de 65k, ALiBi permite que el modelo infiera entradas más largas de las que se entrenaron: 68k tokens en el caso de The Great Gatsby y hasta 84k tokens en las pruebas.
Figura 2: El MPT-7B-StoryWriter-65k+ escribió el epílogo de El gran Gatsby. El resultado del epílogo es proporcionar el texto completo de "El gran Gatsby" (aproximadamente 68k tokens) como entrada al modelo, seguido de la palabra "epílogo" y permitir que el modelo continúe generando.
Popularización de la tecnología de IA generativa
La tecnología de IA generativa es una rama de la inteligencia artificial que utiliza grandes cantidades de datos y algoritmos de aprendizaje profundo para generar automáticamente contenido como texto original, imágenes y código informático. El surgimiento de esta tecnología permite a las personas procesar y analizar datos de manera más conveniente y satisfacer mejor las necesidades humanas. Con el rápido desarrollo de la tecnología de big data e inteligencia artificial, la tecnología de IA generativa se ha utilizado ampliamente en el procesamiento del lenguaje natural, el reconocimiento de imágenes y la realidad virtual, entre otros campos. Por ejemplo, en el campo del procesamiento del lenguaje natural, GPT-4 se ha convertido en uno de los modelos de IA generativa más populares, que se puede utilizar para tareas como generar artículos, traducir idiomas y responder preguntas. En el campo del reconocimiento de imágenes, StyleGAN2 puede generar imágenes de alta calidad, que pueden usarse en el desarrollo de juegos, producción de cine y televisión y realidad virtual.
Naveen Rao, CEO de MosaicML, declaró anteriormente que desde 2018, la complejidad de los modelos de inteligencia artificial que utilizan grandes cantidades de datos para "entrenar" ha aumentado considerablemente, y entrenar un modelo ahora cuesta al menos millones de dólares. generalmente no puede permitírselo. Después de esta adquisición, el producto conjunto de la plataforma Lakehouse de Databricks y la tecnología MosaicML permitirá a las empresas usar sus propios datos patentados para entrenar y construir modelos de IA generativos de manera simple, rápida y a bajo costo. Sin control ni propiedad, el desarrollo de modelos de IA personalizados puede llevar lugar. Según Databricks, con la plataforma y el soporte técnico de Databricks y MosaicML, el costo de capacitación y uso de LLM para empresas se reducirá significativamente y se espera que baje a miles de dólares. Esto facilita la popularización de la IA generativa.
Importancia de la adquisición de Databricks de MosaicML
El objetivo principal de la adquisición de MosaicML por parte de Databricks es acelerar el desarrollo y la democratización de la tecnología de IA generativa. Al integrar las tecnologías y los recursos de las dos empresas, Databricks puede satisfacer mejor las necesidades de los clientes y brindar soluciones más eficientes y convenientes. En concreto, la adquisición traerá cambios en los siguientes aspectos:
1. Modelo de lenguaje grande más eficiente
Después de que Databricks adquiera MosaicML, puede integrar los modelos de la serie MPT en su plataforma Lakehouse para brindar a los clientes modelos de lenguaje grande más eficientes y de menor costo. Esto ayudará a las empresas a manejar mejor las tareas de procesamiento del lenguaje natural y mejorará la eficiencia y precisión del negocio.
2. Mayor velocidad de entrenamiento del modelo
Los modelos de la serie MPT de MosaicML cuentan con un entrenamiento rápido, lo que ayudará a Databricks a proporcionar servicios de entrenamiento de modelos más rápidos. Esto es especialmente importante para las empresas que necesitan responder rápidamente a las demandas del mercado, ayudándolas a satisfacer mejor las necesidades de los clientes.
3. Mayor democratización
La adquisición de MosaicML por parte de Databricks también significa que la democratización de la tecnología de IA generativa aumentará aún más. Los modelos de la serie MPT de MosaicML pueden facilitar que las pequeñas y medianas empresas entrenen sus propios modelos de lenguaje, para que puedan aplicar mejor la tecnología de IA generativa y lograr un mejor rendimiento comercial. Esto ayudará a promover el desarrollo y la aplicación de la tecnología de inteligencia artificial generativa y promoverá la popularización y el desarrollo de la tecnología de inteligencia artificial.
Resumir
Las aplicaciones de IA generativa están diseñadas para generar texto sin procesar, imágenes y código de computadora en función de las señales del lenguaje natural del usuario. El interés en la tecnología ha aumentado desde que la startup de inteligencia artificial OpenAI lanzó ChatGPT, un chatbot de IA generativo en línea, en noviembre pasado. "Toda organización debería poder beneficiarse de la revolución de la IA y tener más control sobre cómo se utilizan sus datos. Databricks y MosaicML tienen una oportunidad increíble para democratizar la IA y convertir a Lakehouse en la potencia de la generación de construcciones. El mejor lugar para la inteligencia artificial, ”, dijo Ali Ghodsi, cofundador y director ejecutivo de Databricks.
La importancia de la adquisición de MosaicML por parte de Databricks no es solo acelerar el desarrollo y la democratización de la tecnología de IA generativa, sino también integrar las tecnologías y los recursos de las dos empresas para brindar a los clientes soluciones más eficientes y convenientes. Con el rápido desarrollo y la aplicación de la tecnología de inteligencia artificial, la tecnología de IA generativa desempeñará un papel cada vez más importante. La adquisición de MosaicML por parte de Databricks también refleja la importancia y la inversión de varias empresas en esta dirección. Empresas como Anthropic y OpenAI otorgan licencias de modelos de lenguaje listos para usar a las empresas, que luego crean aplicaciones de IA generativa sobre ellos. Se han creado oportunidades para nuevas empresas como MosaicML, impulsadas por una fuerte demanda comercial de estos modelos. A partir de las sucesivas adquisiciones de Snowflake y Databricks, podemos ver que las grandes empresas de tecnología están pasando gradualmente de la investigación y el desarrollo independientes y la inversión estratégica a las fusiones y adquisiciones de tecnología de IA generativa.
Fuente de referencia:
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
Establecido hace 2 años, cada empleado vale 21 millones de dólares estadounidenses, ¿por qué MosaicML vende 1300 millones de dólares estadounidenses?
Recientemente, ha habido una ola de inversiones y adquisiciones en el campo de la IA. Salesforce, una empresa de renombre mundial, inyectó 450 millones de dólares en Anthropic, mientras que Runway recaudó con éxito 141 millones de dólares en financiación. Además, Snowflake también anunció la finalización de su adquisición de Neeva, mientras que el gigante chino Meituan adquirió la empresa de inteligencia artificial Light Years Away por 2065 millones.
Sin embargo, el acuerdo de más alto perfil fue sin duda la adquisición de la startup MosaicML. Se entiende que MosaicML fue adquirido por el gigante de big data Databricks por aproximadamente 1300 millones de dólares, y su valoración se ha duplicado seis veces en esta transacción, lo que la convierte en la adquisición más grande en la primera mitad de este año. Tiene solo 2 años de establecida y cuenta con más de 60 empleados ¿Qué respalda la alta valoración de MosaicML?
Databricks adquiere MosaicML para acelerar la democratización de las tecnologías de IA generativa
Databricks anunció oficialmente recientemente que adquirió MosaicML, una empresa emergente de inteligencia artificial generativa, por alrededor de $ 1.3 mil millones (alrededor de 9.3 mil millones de yuanes) para brindar servicios para crear herramientas similares a ChatGPT para empresas.
Después de la adquisición, MosaicML pasará a formar parte de la plataforma Databricks Lakehouse. Todo el equipo y la tecnología de MosaicML pasarán a estar bajo la bandera de Databricks, proporcionando a las empresas una plataforma unificada para gestionar activos de datos y poder utilizar sus propios datos patentados para construir, Poseer y proteger Modelos de IA generativos propios.
MosaicML es una empresa de IA generativa muy joven, fundada en San Francisco en 2021. Solo ha revelado públicamente una ronda de financiación y tiene solo 62 empleados. En la última ronda de financiación, su valoración fue de 220 millones de dólares estadounidenses, es decir, la valoración de la adquisición de MosaicML saltó directamente 6 veces. El acuerdo es la mayor adquisición anunciada en el campo de la IA generativa en lo que va del año. No hace mucho tiempo, el gigante de la computación en la nube Snowflake acaba de anunciar la adquisición de otra empresa de IA generativa, Neeva. Después de unos meses de frenesí de inversión, parece estar en marcha una ola corporativa masiva de adquisiciones de nuevas empresas de IA generativa.
Databricks se originó en UC Berkeley y participó en el desarrollo del proyecto Apache Spark. Como gigante del almacenamiento y análisis de datos, a partir de 2022, tendrá un valor de $ 31 mil millones, ayudando a grandes empresas como AT&T, Shell y Walgreens a procesar datos. Hace algún tiempo, acabo de abrir mi propio modelo grande Dolly, con el objetivo de lograr un efecto similar al de ChatGPT con menos parámetros. Después de que la computación en la nube se hizo más popular, el concepto de "integración de lagos y almacenes" propuesto por Spark ha influido profundamente en una serie de empresas emergentes de big data. Desde su creación en 2013, Databricks se ha convertido rápidamente en la empresa de infraestructura de datos más importante del mundo. El año pasado, Databricks anunció ingresos anuales de más de mil millones de dólares y, después de completar la última ronda de financiación en agosto de 2021, su última valoración alcanzó los 38 mil millones de dólares.
Ventajas de los modelos de la serie MosaicML MPT
Los modelos de la serie MPT de MosaicML se subclasifican de la clase base HuggingFace PretrainedModel y son totalmente compatibles con el ecosistema HuggingFace. El modelo MPT-7B es uno de los modelos más populares de MosaicML con miles de millones de parámetros y puede manejar más de 2000 tareas de procesamiento de lenguaje natural. Entre ellos, la capa de optimización de MPT-7B incluye FlashAttention y norma de capa de baja precisión, etc., lo que puede hacer que el modelo sea de 2 a 7 veces más rápido que los métodos de entrenamiento tradicionales, y la escalabilidad casi lineal de los recursos garantiza que los modelos con miles de millones de parámetros se pueden usar en Train en horas, no en días. MosaicML también lanzó un nuevo modelo de lenguaje grande de código abierto disponible comercialmente MPT-30B, que tiene 30 mil millones de parámetros y supera a GPT-3.
Fuente de datos: evaluación de MT-Bench de los modelos principales de MosaicML
Las ventajas de los modelos de la serie MPT son su alta eficiencia y bajo costo. La complejidad de los modelos de inteligencia artificial que utilizan una gran cantidad de datos para el "entrenamiento" ha aumentado considerablemente. Entrenar un modelo ahora cuesta al menos millones de dólares, lo que generalmente es inasequible para las pequeñas y medianas empresas, excepto para las grandes empresas. Los modelos de la serie MPT de MosaicML permiten a las empresas entrenar sus propios modelos de lenguaje a un costo menor y con mayor eficiencia, para que puedan aplicar más fácilmente la tecnología de IA generativa y lograr un mejor rendimiento comercial. La mayoría de los modelos de lenguaje de código abierto solo pueden manejar secuencias con unos pocos miles de tokens como máximo (consulte la Figura 1). Sin embargo, con la plataforma MosaicML y un solo nodo de 8xA100-40GB, los usuarios pueden ajustar fácilmente el MPT-7B para manejar longitudes de contexto de hasta 65k. La capacidad de manejar esta adaptación extrema de la longitud del contexto proviene de ALiBi, una de las opciones arquitectónicas clave en MPT-7B.
Por ejemplo, el texto completo de The Great Gatsby tiene menos de 68k Tokens. En una prueba, el modelo StoryWriter leyó El gran Gatsby y generó un epílogo. Uno de los epílogos de la generación de modelos se muestra en la Figura 2. StoryWriter leyó El gran Gatsby en unos 20 segundos (alrededor de 150.000 palabras por minuto). Debido a la mayor duración de la secuencia, su velocidad de "tecleo" es más lenta que la de otros modelos MPT-7B, a unas 105 palabras por minuto. Aunque StoryWriter se ajustó con una longitud de contexto de 65k, ALiBi permite que el modelo infiera entradas más largas de las que se entrenaron: 68k tokens en el caso de The Great Gatsby y hasta 84k tokens en las pruebas.
Figura 2: El MPT-7B-StoryWriter-65k+ escribió el epílogo de El gran Gatsby. El resultado del epílogo es proporcionar el texto completo de "El gran Gatsby" (aproximadamente 68k tokens) como entrada al modelo, seguido de la palabra "epílogo" y permitir que el modelo continúe generando.
Popularización de la tecnología de IA generativa
La tecnología de IA generativa es una rama de la inteligencia artificial que utiliza grandes cantidades de datos y algoritmos de aprendizaje profundo para generar automáticamente contenido como texto original, imágenes y código informático. El surgimiento de esta tecnología permite a las personas procesar y analizar datos de manera más conveniente y satisfacer mejor las necesidades humanas. Con el rápido desarrollo de la tecnología de big data e inteligencia artificial, la tecnología de IA generativa se ha utilizado ampliamente en el procesamiento del lenguaje natural, el reconocimiento de imágenes y la realidad virtual, entre otros campos. Por ejemplo, en el campo del procesamiento del lenguaje natural, GPT-4 se ha convertido en uno de los modelos de IA generativa más populares, que se puede utilizar para tareas como generar artículos, traducir idiomas y responder preguntas. En el campo del reconocimiento de imágenes, StyleGAN2 puede generar imágenes de alta calidad, que pueden usarse en el desarrollo de juegos, producción de cine y televisión y realidad virtual.
Naveen Rao, CEO de MosaicML, declaró anteriormente que desde 2018, la complejidad de los modelos de inteligencia artificial que utilizan grandes cantidades de datos para "entrenar" ha aumentado considerablemente, y entrenar un modelo ahora cuesta al menos millones de dólares. generalmente no puede permitírselo. Después de esta adquisición, el producto conjunto de la plataforma Lakehouse de Databricks y la tecnología MosaicML permitirá a las empresas usar sus propios datos patentados para entrenar y construir modelos de IA generativos de manera simple, rápida y a bajo costo. Sin control ni propiedad, el desarrollo de modelos de IA personalizados puede llevar lugar. Según Databricks, con la plataforma y el soporte técnico de Databricks y MosaicML, el costo de capacitación y uso de LLM para empresas se reducirá significativamente y se espera que baje a miles de dólares. Esto facilita la popularización de la IA generativa.
Importancia de la adquisición de Databricks de MosaicML
El objetivo principal de la adquisición de MosaicML por parte de Databricks es acelerar el desarrollo y la democratización de la tecnología de IA generativa. Al integrar las tecnologías y los recursos de las dos empresas, Databricks puede satisfacer mejor las necesidades de los clientes y brindar soluciones más eficientes y convenientes. En concreto, la adquisición traerá cambios en los siguientes aspectos:
1. Modelo de lenguaje grande más eficiente
Después de que Databricks adquiera MosaicML, puede integrar los modelos de la serie MPT en su plataforma Lakehouse para brindar a los clientes modelos de lenguaje grande más eficientes y de menor costo. Esto ayudará a las empresas a manejar mejor las tareas de procesamiento del lenguaje natural y mejorará la eficiencia y precisión del negocio.
2. Mayor velocidad de entrenamiento del modelo
Los modelos de la serie MPT de MosaicML cuentan con un entrenamiento rápido, lo que ayudará a Databricks a proporcionar servicios de entrenamiento de modelos más rápidos. Esto es especialmente importante para las empresas que necesitan responder rápidamente a las demandas del mercado, ayudándolas a satisfacer mejor las necesidades de los clientes.
3. Mayor democratización
La adquisición de MosaicML por parte de Databricks también significa que la democratización de la tecnología de IA generativa aumentará aún más. Los modelos de la serie MPT de MosaicML pueden facilitar que las pequeñas y medianas empresas entrenen sus propios modelos de lenguaje, para que puedan aplicar mejor la tecnología de IA generativa y lograr un mejor rendimiento comercial. Esto ayudará a promover el desarrollo y la aplicación de la tecnología de inteligencia artificial generativa y promoverá la popularización y el desarrollo de la tecnología de inteligencia artificial.
Resumir
Las aplicaciones de IA generativa están diseñadas para generar texto sin procesar, imágenes y código de computadora en función de las señales del lenguaje natural del usuario. El interés en la tecnología ha aumentado desde que la startup de inteligencia artificial OpenAI lanzó ChatGPT, un chatbot de IA generativo en línea, en noviembre pasado. "Toda organización debería poder beneficiarse de la revolución de la IA y tener más control sobre cómo se utilizan sus datos. Databricks y MosaicML tienen una oportunidad increíble para democratizar la IA y convertir a Lakehouse en la potencia de la generación de construcciones. El mejor lugar para la inteligencia artificial, ”, dijo Ali Ghodsi, cofundador y director ejecutivo de Databricks.
La importancia de la adquisición de MosaicML por parte de Databricks no es solo acelerar el desarrollo y la democratización de la tecnología de IA generativa, sino también integrar las tecnologías y los recursos de las dos empresas para brindar a los clientes soluciones más eficientes y convenientes. Con el rápido desarrollo y la aplicación de la tecnología de inteligencia artificial, la tecnología de IA generativa desempeñará un papel cada vez más importante. La adquisición de MosaicML por parte de Databricks también refleja la importancia y la inversión de varias empresas en esta dirección. Empresas como Anthropic y OpenAI otorgan licencias de modelos de lenguaje listos para usar a las empresas, que luego crean aplicaciones de IA generativa sobre ellos. Se han creado oportunidades para nuevas empresas como MosaicML, impulsadas por una fuerte demanda comercial de estos modelos. A partir de las sucesivas adquisiciones de Snowflake y Databricks, podemos ver que las grandes empresas de tecnología están pasando gradualmente de la investigación y el desarrollo independientes y la inversión estratégica a las fusiones y adquisiciones de tecnología de IA generativa.
Fuente de referencia: