Baichuan VS Zhipu, ¿quién es OpenAI de China?

Question

*Fuente del artículo: Light Cone Intelligence**Texto: Hao Xin**Editor: Liu Yuqi*A principios de junio, los medios de comunicación extranjeros emitieron una tortura de "quién es la OpenAI de China", y después de experimentar la ola de emprendimiento de grandes modelos, las grandes olas se precipitaron a la arena y al final solo quedaron unas pocas personas.El edificio Xaar, a pocas intersecciones de la Universidad de Tsinghua, es la inteligencia de Baichuan del empresario estrella Wang Xiaochuan, y el edificio de la red Sohu es el espectro de sabiduría que la IA envía por la academia. Después de pasar por la prueba del mercado, se convirtieron en los dos candidatos más prometedores.La batalla por los dos edificios parece haber comenzado silenciosamente.** Desde el punto de vista de la financiación, Zhipu AI y Baichuan Intelligent han completado múltiples rondas de financiación a gran escala este año. **![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-7e2e2823fa-dd1a6f-69ad2a) (Light Cone Intelligent Mapping: Organizado de acuerdo a la información pública)Este año, el monto total acumulado de financiamiento de Zhipu AI superó los 2.500 millones de yuanes, y el monto total de financiamiento de Baichuan Intelligent alcanzó los 350 millones de dólares estadounidenses (alrededor de 2.300 millones de yuanes). Según la información pública, la última valoración de **Zhipu AI ha superado los 10 mil millones de yuanes, la más alta o 15 mil millones, que es una de las empresas nacionales más rápidas con una valoración de más de 10 mil millones de yuanes; ** Después de la última ronda de financiación, Baichuan Intelligent ha sido valorada en más de 1.000 millones de dólares estadounidenses (unos 6.600 millones de yuanes).Desde la perspectiva de la composición del equipo, Zhipu AI y Baichuan Intelligent Master salen de la misma casa, y Wang Shaolan, presidente de Zhipu AI, y Wang Xiaochuan, fundador de Sogou, son equipos empresariales del Departamento de Tsinghua.** Desde la perspectiva de la velocidad de la recuperación tecnológica, los dos también son indistinguibles. ** El GLM-130B de Zhipu AI derrotó a GPT-3 tan pronto como salió, y el recién lanzado Baichuan 2 está por delante de Llama 2 en todas las dimensiones, siendo pionero en el desarrollo del ecosistema de código abierto de China.Todos los indicios muestran que Zhipu AI y Baichuan Intelligence se han convertido en los "caballos negros" de la gran pista de modelos de China, y bajo la feroz competencia, ¿quién es el ciervo muerto?  ## **Creyentes en OpenAI: IA de sabiduría**  La relación entre Zhipu AI y OpenAI se remonta a 2020, que fue considerado por Zhang Peng, CEO de Zhipu AI, como el verdadero "primer año del gran modelo de lenguaje de IA" en su corazón.La relación entre Zhipu AI y OpenAI se remonta a 2020, que fue considerado por Zhang Peng, CEO de Zhipu AI, como el verdadero "primer año del gran modelo de lenguaje de IA" en su corazón.En el aniversario de Zhipu AI, en el ambiente alegre, se puede oler algo de ansiedad provocada por el nacimiento de GPT-3 de vez en cuando. GPT-3, que alcanza los 175.000 millones de parámetros, es el primer modelo de lenguaje grande en sentido estricto.En ese momento, Zhang Peng no solo se sorprendió por la capacidad de aparición de GPT-3, sino que también cayó en el pensamiento de "si seguir", ya sea entonces o ahora, todo en la dirección de un modelo grande de parámetros a gran escala es algo extremadamente arriesgado. Después de sopesar, Zhipu AI decidió tomar OpenAI como punto de referencia e invertir en el desarrollo de modelos de preentrenamiento a ultra gran escala.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-e41f17dbae-dd1a6f-69ad2a) (Light Cone Intelligent Mapping: Organizado de acuerdo a la información pública)** En términos de selección de rutas tecnológicas, Zhipu AI tiene el mismo pensamiento independiente que OpenAI. **En ese momento, había varios marcos de preentrenamiento de modelos grandes, como BERT, GPT y T5. Las tres rutas tienen sus propias ventajas y desventajas en cuanto al objetivo de entrenamiento, la estructura del modelo, el origen de datos de entrenamiento y el tamaño del modelo.Si el proceso de entrenamiento del modelo grande se compara con un examen de inglés, BERT es bueno para hacer preguntas a través de la relación entre palabras y oraciones, y para tomar el examen a través de la comprensión, y sus materiales de revisión provienen principalmente de libros de texto y Wikipedia; GPT es bueno para predecir la próxima palabra a hacer preguntas, prepararse para el examen a través de mucha práctica de escritura, y sus materiales de revisión provienen principalmente de una variedad de páginas web; T5 adopta una estrategia de formalización de las preguntas, primero traduciendo las preguntas al chino y luego resolviendo las preguntas, y al revisar, no solo leyendo el libro de texto, sino también cepillando una gran cantidad de bancos de preguntas.Como todos sabemos, Google eligió BERT, OpenAI eligió GPT y Zhipu AI no lo siguió ciegamente, ** en base a estas dos rutas propuso el marco de algoritmos GLM (General Language Model). De hecho, el marco se da cuenta de las ventajas y desventajas complementarias de BERT y GPT, "que pueden entenderse mientras se continúa y se rellenan los espacios en blanco". **Por lo tanto, GLM se ha convertido en la mayor confianza para que Zhipu AI persiga OpenAI, y bajo este marco, los modelos de la serie GLM como GLM-130B, ChatGLM-6B y ChatGLM2-6B han crecido sucesivamente. Los datos experimentales muestran que los modelos grandes de la serie GLM son superiores a GPT en términos de precisión de comprensión del lenguaje, velocidad de inferencia, proporción de memoria y aplicación de adaptación de modelos grandes.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-dc70c8e5d7-dd1a6f-69ad2a) (Fuente: Internet)OpenAI es actualmente la institución más completa que puede brindar servicios de modelos básicos en el extranjero, y su comercialización se divide principalmente en dos categorías, una son las tarifas de cobro de API y la otra son las tarifas de suscripción a ChatGPT. En términos de comercialización, Zhipu AI también sigue la idea general y se encuentra en el escalón de las empresas con una comercialización relativamente madura de grandes modelos nacionales.De acuerdo con el peinado inteligente del cono óptico, combinado con el aterrizaje de las empresas chinas, el modelo de negocio de **Zhipu AI se divide en tarifa de cobro de API y modo de tarifa de privatización. **Los tipos generales de modelos proporcionados son modelos grandes de lenguaje, modelos grandes superantropomórficos, modelos grandes vectoriales y modelos grandes de código, y en cada opción de modelo grande, incluidos los precios estándar, los precios privados en la nube y los precios privados locales. En comparación con OpenAI, Zhapu AI carece de la provisión de servicios de modelos grandes de voz e imagen, pero agrega modelos grandes superantropomórficos, que también satisfacen las necesidades de los humanos digitales, los NPC inteligentes de China y otras industrias.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-d5dc94c153-dd1a6f-69ad2a) (Light Cone Intelligent Mapping: Organizado de acuerdo a la información pública)Light Cone Intelligence aprendió del desarrollador que "en la actualidad, las características de la plataforma Baidu Wenxin Qianfan son perfectas, las características de Tongyi Qianwen son flexibles y Zhipu AI es una de las empresas con las tarifas API más baratas entre los principales fabricantes del mercado".La tarifa de ChaGLM-Pro es de 0,01 yuanes/mil tokens, y se regalan 18 yuanes, y la tarifa de ChaGLM-Lite se reduce a 0,002 yuanes/mil tokens. Como referencia, OpenAI GPT-3.5 cobra 0,014 yuanes/mil tokens, Ali Tongyi Qianwen-turbo cobra 0,012 yuanes/mil tokens, y Baidu Wenxin One Word emie-bot-turbo cobra 0,008 yuanes/mil tokens.Como dijo Zhang Peng, Zhipu AI también está pasando por una nueva etapa de "dejar de seguir a OpenAI" con OpenAI como objetivo.En términos de negocio de productos, a diferencia de OpenAI, que solo se enfoca en la actualización y construcción de ChatGPT, Zhipu AI ha optado por atacar por tres lados.Según su sitio web oficial, el negocio actual de Zhipu AI se divide principalmente en tres bloques, a saber, la plataforma MaaS de gran modelo, la plataforma de inteligencia tecnológica AMiner y el humano digital cognitivo. Como resultado, se han formado tres grandes matrices de productos de IA, los productos de modelo grande, los productos AMiner y los productos humanos digitales. Entre ellos, los productos de modelos grandes no solo cubren robots de diálogo básicos, sino también programación, escritura y división de robots colgantes de pintura.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-0bf9c101e1-dd1a6f-69ad2a) (Fuente: Sitio web oficial de Zhipu AI)Al mismo tiempo, Zhipu AI continúa explorando el lado de la aplicación a través de la inversión. Hasta ahora, Zhipu AI ha invertido en Lingxin Intelligence y Painting Wall Intelligence, y aumentó sus tenencias de Lingxin Intelligent nuevamente en septiembre de este año.Lingxin Intelligence también se incuba en el Departamento de Ciencias de la Computación de la Universidad de Tsinghua, aunque el departamento es homólogo, pero Lingxin Intelligence está más inclinado a la aplicación, y la comunidad interactiva de interés de AiU desarrollada por él es un gran modelo superantropomórfico basado en Zhipu AI. La idea de desarrollo de sus productos es similar a la IA de personajes extranjeros, al crear personajes de IA con diferentes personalidades y personajes, interactuar y chatear con ellos, se inclina más por las aplicaciones C-end y enfatiza los atributos del entretenimiento.  ## ** Pasando de OpenAI a LIama: Baichuan Intelligence**  Light Cone Intelligence descubrió que, en comparación con OpenAI, Baichuan Intelligence se parece más a Llama.** En primer lugar, sobre la base de la tecnología y la experiencia originales, la velocidad de lanzamiento e iteración es muy rápida. **Medio año después de su creación, Baichuan Intelligent ha lanzado sucesivamente cuatro modelos comerciales de código abierto de baichuan-7B / 13B, Baichuan2-7B / 13B y dos modelos grandes de código cerrado de Baichuan-53B y Baichuan2-53B. A partir de la apertura de la interfaz API Baichuan2-53B el 25 de septiembre, en los últimos 168 días, Baichuan Intelligent ha lanzado un modelo grande a una tasa promedio de meses.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-e27cb1a5a0-dd1a6f-69ad2a) (Light Cone Intelligent Mapping: Organizado de acuerdo a la información pública)Meta confía en LLama2 para recuperar la posición de IA, y Baichuan Intelligent es famoso por derrotar a LLama2 con la serie Baichuan2 de modelos de código abierto.De acuerdo con los resultados de la prueba, Baichuan2-7B-Base y Baichuan2-13B-Base son superiores a LLaMA2 en varios puntos de referencia de evaluación autorizados como MMLU, CMMLU, GSM8K, etc., y su rendimiento también es muy brillante en comparación con otros modelos con grandes cantidades de los mismos parámetros, y su rendimiento es significativamente mejor que el de los competidores de LLaMA2 y otros modelos del mismo tamaño.Los hechos han demostrado que el modelo grande inteligente de Baichuan ha resistido la prueba. Según datos oficiales, Baichuan se ha descargado más de 5 millones de veces en la comunidad de código abierto y más de 3 millones de veces al mes.Light Cone Intelligent descubrió que el modelo de la serie inteligente Baichuan tiene el mayor número de descargas en la comunidad de código abierto Hugging Face, con más de 110.000, lo que sigue siendo competitivo entre los modelos de código abierto chinos y extranjeros.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-d6975a90e4-dd1a6f-69ad2a) (Fuente: Sitio web oficial de Hugging Face)La razón por la que su código abierto tiene ventajas también está relacionada con su fuerte compatibilidad, Baichuan Intelligent ha presentado en público que toda su gran estructura base de modelos está más cerca de la estructura de LLAMA de Meta, por lo que es muy amigable para las empresas y los fabricantes desde el diseño de código abierto.**"Después del código abierto, la ecología se construirá en torno a LLaMA, y hay muchos proyectos de código abierto en países extranjeros que siguen a LLaMA para promover, por lo que nuestra estructura está más cerca de LLaMA". Dijo Wang Xiaochuan.De acuerdo con la inteligencia del cono óptico, Baichuan Intelligent adopta la conexión en caliente en el diseño de la arquitectura, que puede admitir el cambio aleatorio entre diferentes módulos del modelo Baichuan y el modelo LLAMA y el modelo Baichuan, como entrenar un modelo con LLAMA, sin modificaciones, el modelo se puede colocar directamente en Baichuan para su uso. Esto también explica por qué la mayoría de los fabricantes de Internet ahora usan el modelo Baichuan, y los proveedores de nube introducen el modelo de la serie Baichuan.El camino que ha recorrido la historia conduce tanto al pasado como al futuro, y el gran modelo empresarial de Wang Xiaochuan es así.Basado en la identidad del fundador de Sogou y la experiencia en tecnología de búsqueda, en los primeros días del emprendimiento, Wang Xiaochuan recibió las evaluaciones de muchas personas, "Xiaochuan, es el más adecuado para grandes modelos".** La creación de modelos grandes en la experiencia de búsqueda y los marcos se ha convertido en el color de fondo de Baichuan Intelligence. **Chen Weipeng, cofundador de Baichuan Intelligent Technology, dijo una vez que la investigación y el desarrollo de búsqueda tiene muchas similitudes con el desarrollo de modelos grandes: "Baichuan Intelligent transfiere rápidamente la experiencia de búsqueda a la investigación y el desarrollo de modelos grandes, que es similar a un proyecto sistemático de 'construcción de cohetes', desmantelando sistemas complejos, promoviendo la colaboración en equipo y mejorando la eficacia del equipo a través de la evaluación de procesos".Wang Xiaochuan también habló en la conferencia de prensa: "Debido a que Baichuan Intelligence tiene un gen de búsqueda antes, naturalmente sabe cómo seleccionar las mejores páginas en medio de billones de páginas web, que se pueden deduplicar y antibasura". En el procesamiento de datos, Baichuan Intelligent también se basa en la experiencia de búsquedas anteriores y puede completar la limpieza y deduplicación de cientos de miles de millones de datos en una hora".El núcleo de su gran búsqueda de modelos se muestra vívidamente en el Baichuan-53B. Al abordar el problema de la "ilusión" de los modelos grandes, combinado con la precipitación de la tecnología de búsqueda, Baichuan Intelligent ha realizado optimizaciones en la adquisición de información, la mejora de la calidad de los datos y la mejora de la búsqueda.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-e8c8a50de0-dd1a6f-69ad2a) En términos de mejorar la calidad de los datos, la idea central de Baichuan Intelligent es "tomar siempre lo mejor", clasificar los datos de baja calidad y alta calidad como estándar, y garantizar que Baichuan2-53B siempre utilice datos de alta calidad para el entrenamiento previo; En términos de adquisición de información, Baichuan2-53B ha actualizado múltiples módulos, incluidos componentes clave como la comprensión de la intención de la instrucción, la búsqueda inteligente y la mejora de los resultados, a través de una comprensión profunda de las instrucciones del usuario, impulsa con precisión la búsqueda de términos de consulta y, finalmente, combina la tecnología de modelos de lenguaje grandes para optimizar la confiabilidad de la generación de resultados del modelo.Aunque comenzó con código abierto, Baichuan Intelligent ha comenzado a explorar el camino de la comercialización. Según la información oficial, el objetivo de Baichuan Intelligence es "construir la mejor base modelo grande en China", y el objetivo de la dimensión vertical es mejorar en la búsqueda, la multimodalidad, la educación, la medicina y otros campos.La comercialización de hoy se concentra en Baichuan2-53B, y el sitio web oficial muestra que la llamada API del modelo adopta un estándar de carga basado en el tiempo. De 0:00 a 8:00 cobra 0,01 yuanes/mil tokens, de 8:00 a 24:00 cobra 0,02 yuanes/mil tokens, en comparación, el precio de la tarifa diurna es más alto que el de la noche.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-4543fd2d4b-dd1a6f-69ad2a) (Fuente: Sitio web oficial de Baichuan Intelligent)  ## **Fin**  Debatir quién es la OpenAI de China no tiene mucho sentido en los primeros días del desarrollo de grandes modelos. Muchas startups como Zhipu AI y Baichuan Intelligent se han dado cuenta de que seguir ciegamente los pasos de OpenAI no es aconsejable, por ejemplo, Zhipu AI ha aclarado el camino técnico de "no hacer GPT chino". Además, en un momento en el que el código abierto se está popularizando y formando un asedio, la superioridad tecnológica absoluta de OpenAI no parece ser inquebrantable.Zhipu AI, Baichuan Intelligent ha mencionado que las súper aplicaciones son un mercado más amplio, pero también la zona de confort de las grandes empresas modelo de China, ya no permanecen en su lugar, por ejemplo, una persona cercana a Zhipu AI una vez dio la noticia a los medios de comunicación, el equipo de Zhipu AI ha determinado firmemente la ruta 2B, apuntando al mercado de la información y la innovación, y en 5 meses, amplió rápidamente el equipo, de 200 a 500 personas, para la posterior mano de obra de reserva comercial 2B.En el camino de la comercialización, Baichuan Intelligent ha optado por referirse a la ecología de código abierto de Llama2, y también ha comenzado a iterar en pequeños pasos.Se puede ver a simple vista que en solo medio año, Baichuan Intelligent y Zhipu AI han atravesado la tierra de nadie de la tecnología y han llegado a la etapa de comercialización para el aterrizaje industrial. En comparación con el auge empresarial de la IA 1.0, el período de pulido de la tecnología es de hasta 3 años (2016-2019), y es precisamente debido al obstáculo en el aterrizaje comercial que una gran cantidad de empresas de IA disminuirán colectivamente en 2022 y caerán antes del amanecer.Aprendiendo de las lecciones de la etapa anterior, pero también debido a que la versatilidad de la tecnología de modelos grandes es más conveniente para aterrizar, las nuevas empresas representadas por Baichuan Intelligence y Zhipu AI están reclutando tropas y caballos para preparar la tecnología, los productos y las reservas de talento para la siguiente etapa.Sin embargo, los primeros disparos solo se escucharon en el maratón, y era demasiado pronto para decir que el resultado era demasiado pronto. Pero al menos la primera etapa de la pista se ha descompuesto, y después de que el objetivo está claro, la competencia es aún más paciente y perseverante. Lo mismo ocurre con Baichuan Intelligence, Zhipu AI u OpenAI.