Baichuan VS Zhipu, qui est l’OpenAI chinois ?

Question

*Source de l’article : Light Cone Intelligence**Texte : Hao Xin**Editeur : Liu Yuqi*Au début du mois de juin, les médias étrangers ont publié une torture sur « qui est l’OpenAI chinois », et après avoir connu la vague de l’entrepreneuriat de grand format, les grandes vagues se sont précipitées sur le sable, et il ne restait que quelques personnes à la fin.Le bâtiment Xaar, à quelques intersections de l’université Tsinghua, est l’intelligence Baichuan de l’entrepreneur vedette Wang Xiaochuan, et le bâtiment du réseau Sohu est le spectre de sagesse envoyé par l’académie. Après avoir passé le test du marché, ils sont devenus les deux candidats les plus prometteurs.La bataille pour les deux bâtiments semble avoir commencé tranquillement.** Du point de vue du financement, Zhipu AI et Baichuan Intelligent ont réalisé plusieurs tours de financement à grande échelle cette année. **![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-7e2e2823fa-dd1a6f-69ad2a) (Cartographie intelligente des cônes de lumière : organisée en fonction de l’information publique)Cette année, le montant total cumulé du financement de Zhipu AI a dépassé 2,5 milliards de yuans, et le montant total du financement de Baichuan Intelligent a atteint 350 millions de dollars américains (environ 2,3 milliards de yuans). Selon les informations publiques, la dernière valorisation de Zhipu AI a dépassé les 10 milliards de yuans, le plus élevé ou 15 milliards, ce qui est l’une des entreprises nationales les plus rapides avec une valorisation de plus de 10 milliards de yuans ; **Après le dernier tour de financement, Baichuan Intelligent a été évalué à plus d’un milliard de dollars américains (environ 6,6 milliards de yuans).Du point de vue de la composition de l’équipe, Zhipu AI et Baichuan Intelligent Master sortent de la même maison, et Wang Shaolan, président de Zhipu AI, et Wang Xiaochuan, fondateur de Sogou, sont tous deux des équipes entrepreneuriales du département de Tsinghua.**Du point de vue de la vitesse du rattrapage technologique, les deux sont également indiscernables. **Le GLM-130B de Zhipu AI a battu GPT-3 dès sa sortie, et le nouveau Baichuan 2 est en avance sur Llama 2 dans toutes les dimensions, pionnier du développement de l’écosystème open source chinois.Tout indique que Zhipu AI et Baichuan Intelligence sont devenus les « chevaux noirs » de la piste des grands modèles chinois, et sous la concurrence féroce, qui est le cerf mort ?  ## **Croyants en OpenAI : Wisdom AI**  La relation entre Zhipu AI et OpenAI remonte à 2020, qui a été considérée par Zhang Peng, PDG de Zhipu AI, comme la véritable « première année du grand modèle de langage de l’IA » dans son cœur.La relation entre Zhipu AI et OpenAI remonte à 2020, qui a été considérée par Zhang Peng, PDG de Zhipu AI, comme la véritable « première année du grand modèle de langage de l’IA » dans son cœur.À l’occasion de l’anniversaire de Zhipu AI, dans l’atmosphère joyeuse, vous pouvez sentir de temps en temps une certaine anxiété provoquée par la naissance de GPT-3. GPT-3, qui atteint 175 milliards de paramètres, est le premier modèle à grand langage au sens strict.À ce moment-là, Zhang Peng n’a pas seulement été choqué par la capacité d’émergence de GPT-3, mais il est également tombé dans la pensée de « savoir s’il fallait suivre », que ce soit à l’époque ou maintenant, tout cela dans le sens d’un modèle à très grande échelle est une chose extrêmement risquée. Après avoir pesé le pour et le contre, Zhipu AI a décidé de prendre OpenAI comme référence et d’investir dans le développement de modèles de pré-entraînement à très grande échelle.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-e41f17dbae-dd1a6f-69ad2a) (Cartographie intelligente des cônes de lumière : organisée en fonction de l’information publique)**En termes de choix de voie technologique, Zhipu AI a la même indépendance d’esprit qu’OpenAI. **À cette époque, il existait plusieurs grands cadres de pré-formation tels que BERT, GPT et T5. Les trois parcours ont leurs propres avantages et inconvénients en termes de cible d’entraînement, de structure de modèle, de source de données d’entraînement et de taille de modèle.Si l’on compare le processus d’entraînement à un examen d’anglais, BERT est doué pour répondre aux questions par la relation entre les mots et les phrases, et pour passer l’examen par la compréhension, et ses supports de révision proviennent principalement des manuels et de Wikipédia ; GPT est doué pour prédire le prochain mot à faire des questions, se préparer à l’examen grâce à beaucoup de pratique de l’écriture, et ses supports de révision proviennent principalement d’une variété de pages Web ; T5 adopte une stratégie consistant à formaliser les questions, d’abord en traduisant les questions en chinois, puis en les résolvant, et lors de la révision, non seulement en lisant le manuel, mais aussi en brossant un grand nombre de banques de questions.Comme nous le savons tous, Google a choisi BERT, OpenAI a choisi GPT, et Zhipu AI n’a pas suivi aveuglément, ** sur la base de ces deux voies proposées par le cadre d’algorithme GLM (General Language Model). Le cadre réalise en fait les avantages et les inconvénients complémentaires de BERT et GPT, « qui peuvent être compris tout en continuant et en remplissant les blancs ». **GLM est ainsi devenu la plus grande confiance de Zhipu AI pour poursuivre OpenAI, et dans ce cadre, les modèles de la série GLM tels que GLM-130B, ChatGLM-6B et ChatGLM2-6B ont été successivement développés. Les données expérimentales montrent que les grands modèles de la série GLM sont supérieurs aux GPT en termes de précision de compréhension du langage, de vitesse d’inférence, de proportion de mémoire et d’application d’adaptation de modèles de grande taille.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-dc70c8e5d7-dd1a6f-69ad2a) (Source : Internet)OpenAI est actuellement l’institution la plus complète capable de fournir des services de modélisation de base à l’étranger, et sa commercialisation est principalement divisée en deux catégories, l’une est les frais de collecte d’API et l’autre les frais d’abonnement à ChatGPT. En termes de commercialisation, Zhipu AI suit également l’idée générale et se situe à l’échelon des entreprises avec une commercialisation relativement mature des grands modèles nationaux.Selon le peignage intelligent du cône optique, combiné à l’atterrissage des entreprises chinoises, le modèle commercial de **Zhipu AI est divisé en frais de collecte d’API et mode frais de privatisation. **Les types globaux de modèles fournis sont les grands modèles de langage, les grands modèles super-anthropomorphes, les grands modèles vectoriels et les grands modèles de code, et sous chaque option de grand modèle, y compris la tarification standard, la tarification privée dans le cloud et la tarification privée locale. Par rapport à OpenAI, Zhapu AI ne fournit pas de services de grands modèles de voix et d’image, mais ajoute de grands modèles super-anthropomorphes, qui répondent également aux besoins de l’homme numérique, des PNJ intelligents et d’autres industries chinoises.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-d5dc94c153-dd1a6f-69ad2a) (Cartographie intelligente des cônes de lumière : organisée en fonction de l’information publique)Light Cone Intelligence a appris du développeur qu'"à l’heure actuelle, les caractéristiques de la plate-forme Baidu Wenxin Qianfan sont parfaites, les caractéristiques de Tongyi Qianwen sont flexibles et Zhipu AI est l’une des entreprises avec les frais d’API les moins chers parmi les fabricants grand public sur le marché. »Les frais pour ChaGLM-Pro sont de 0,01 yuan/mille jetons, et 18 yuans sont offerts, et les frais de ChaGLM-Lite sont réduits à 0,002 yuan/mille jetons. À titre de référence, OpenAI GPT-3.5 facture 0,014 yuan/mille jetons, Ali Tongyi Qianwen-turbo facture 0,012 yuan/mille jetons et Baidu Wenxin One Word emie-bot-turbo facture 0,008 yuan/mille jetons.Comme l’a dit Zhang Peng, Zhipu AI traverse également une nouvelle étape de « ne plus suivre OpenAI » avec OpenAI comme objectif.En termes d’activité produit, contrairement à OpenAI, qui se concentre uniquement sur la mise à niveau et la construction de ChatGPT, Zhipu AI a choisi d’attaquer sur trois côtés.Selon son site officiel, l’activité actuelle de Zhipu AI est principalement divisée en trois blocs, à savoir la plate-forme MaaS grand modèle, la plate-forme d’intelligence technologique AMiner et l’humain numérique cognitif. En conséquence, trois grandes matrices de produits d’IA ont été formées, les produits de grands modèles, les produits AMiner et les produits humains numériques. Parmi eux, les produits de grands modèles couvrent non seulement les robots de dialogue de base, mais aussi la division des robots de programmation, d’écriture et de peinture suspendus.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-0bf9c101e1-dd1a6f-69ad2a) (Source : site officiel de Zhipu AI)Dans le même temps, Zhipu AI continue d’explorer le côté applicatif par le biais d’investissements. Jusqu’à présent, Zhipu AI a investi dans Lingxin Intelligence et Painting Wall Intelligence, et a de nouveau augmenté ses avoirs en Lingxin Intelligent en septembre de cette année.Lingxin Intelligence est également incubé par le département d’informatique de l’Université Tsinghua, bien que le département soit homologue, mais Lingxin Intelligence est plus enclin à l’application, et la communauté interactive d’intérêt AiU développée par elle est un grand modèle super-anthropomorphe basé sur l’IA Zhipu. L’idée de développement de ses produits est similaire à l’IA de personnage étrangère, en créant des personnages d’IA avec des personnalités et des personnages différents, en interagissant et en discutant avec eux, il est plus enclin aux applications C-end et met l’accent sur les attributs du divertissement.  ## ** Passer d’OpenAI à LIama : Baichuan Intelligence**  Light Cone Intelligence a constaté que par rapport à OpenAI, Baichuan Intelligence ressemble davantage à Llama.**Tout d’abord, sur la base de la technologie et de l’expérience d’origine, la vitesse de sortie et d’itération est très rapide. **Six mois après sa création, Baichuan Intelligent a successivement publié quatre modèles commerciaux open source de baichuan-7B/13B, Baichuan2-7B/13B et deux grands modèles de source fermée de Baichuan-53B et Baichuan2-53B. Depuis l’ouverture de l’interface API Baichuan2-53B le 25 septembre, au cours des 168 derniers jours, Baichuan Intelligent a publié un grand modèle à un rythme moyen de plusieurs mois.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-e27cb1a5a0-dd1a6f-69ad2a) (Cartographie intelligente des cônes de lumière : organisée en fonction de l’information publique)Meta s’appuie sur LLama2 pour reconquérir la position de l’IA, et Baichuan Intelligent est célèbre pour avoir vaincu LLama2 avec la série de modèles open source Baichuan2.Selon les résultats des tests, Baichuan2-7B-Base et Baichuan2-13B-Base sont supérieurs à LLaMA2 dans plusieurs benchmarks d’évaluation faisant autorité tels que MMLU, CMMLU, GSM8K, etc., et leurs performances sont également très brillantes par rapport à d’autres modèles avec de grandes quantités des mêmes paramètres, et leurs performances sont nettement meilleures que celles des concurrents de LLaMA2 et d’autres modèles de la même taille.Les faits ont prouvé que le grand modèle intelligent de Baichuan a effectivement résisté à l’épreuve. Selon les données officielles, Baichuan a été téléchargé plus de 5 millions de fois dans la communauté open source et plus de 3 millions de fois par mois.Light Cone Intelligent a constaté que le modèle de la série intelligente Baichuan a le plus grand nombre de téléchargements dans la communauté open source Hugging Face de plus de 110 000, ce qui est toujours compétitif parmi les modèles open source chinois et étrangers.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-d6975a90e4-dd1a6f-69ad2a) (Source : site officiel de Hugging Face)La raison pour laquelle son open source présente des avantages est également liée à sa forte compatibilité, Baichuan Intelligent a présenté en public que l’ensemble de sa structure de base de grand modèle est plus proche de la structure du LAMA de Meta, il est donc très convivial pour les entreprises et les fabricants de la conception open source.**"Après l’open source, l’écologie se construira autour de LLaMA, et il y a beaucoup de projets open source dans les pays étrangers qui suivent LLaMA à promouvoir, c’est pourquoi notre structure est plus proche de LLaMA. » », a déclaré Wang Xiaochuan.Selon l’intelligence du cône optique, Baichuan Intelligent adopte le pluggable à chaud dans la conception de l’architecture, qui peut prendre en charge la commutation aléatoire entre différents modules du modèle Baichuan et du modèle LLAMA et du modèle Baichuan, comme l’entraînement d’un modèle avec LLAMA, sans modification, le modèle peut être directement mis dans Baichuan pour utilisation. Cela explique également pourquoi la plupart des fabricants d’Internet utilisent désormais le modèle Baichuan, et les fournisseurs de cloud introduisent le modèle de la série Baichuan.Le chemin parcouru par l’histoire mène à la fois au passé et à l’avenir, et l’esprit d’entreprise de Wang Xiaochuan est comme ça.Sur la base de l’identité du fondateur de Sogou et de l’expérience de la technologie de recherche, dans les premiers jours de l’entrepreneuriat, Wang Xiaochuan a reçu les évaluations de nombreuses personnes, « Xiaochuan, est le plus approprié pour les grands modèles. »** La construction de grands modèles dans l’expérience de recherche et les frameworks est devenue la couleur de fond de Baichuan Intelligence. **Chen Weipeng, cofondateur de Baichuan Intelligent Technology, a déclaré un jour que la recherche et le développement de la recherche présentent de nombreuses similitudes avec le développement de grands modèles : « Baichuan Intelligent transfère rapidement l’expérience de recherche à la recherche et au développement de grands modèles, ce qui est similaire à un projet systématique de « construction de fusées », démantelant des systèmes complexes, favorisant la collaboration d’équipe et améliorant l’efficacité de l’équipe grâce à l’évaluation des processus. »Wang Xiaochuan a également pris la parole lors de la conférence de presse : « Parce que Baichuan Intelligence a déjà un gène de recherche, il sait naturellement comment sélectionner les meilleures pages parmi des milliards de pages Web, qui peuvent être dédupliquées et anti-déchets. » Dans le traitement des données, Baichuan Intelligent s’appuie également sur l’expérience des recherches précédentes et peut effectuer le nettoyage et la déduplication de centaines de milliards de données en une heure.Le cœur de sa recherche de grands modèles est affiché de manière vivante dans le Baichuan-53B. En traitant le problème de « l’illusion » des grands modèles, combiné à la précipitation de la technologie de recherche, Baichuan Intelligent a apporté des optimisations dans l’acquisition d’informations, l’amélioration de la qualité des données et l’amélioration de la recherche.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-e8c8a50de0-dd1a6f-69ad2a) En ce qui concerne l’amélioration de la qualité des données, l’idée centrale de Baichuan Intelligent est de « toujours prendre le meilleur », de classer les données de faible qualité et de haute qualité comme la norme, et de s’assurer que Baichuan2-53B utilise toujours des données de haute qualité pour le pré-entraînement ; En termes d’acquisition d’informations, Baichuan2-53B a mis à niveau plusieurs modules, y compris des composants clés tels que la compréhension de l’intention d’instruction, la recherche intelligente et l’amélioration des résultats, grâce à une compréhension approfondie des instructions de l’utilisateur, pilotent avec précision la recherche de termes de requête et enfin combinent la technologie de modèle de langage de grande taille pour optimiser la fiabilité de la génération de résultats du modèle.Bien qu’il ait commencé avec l’open source, Baichuan Intelligent a commencé à explorer la voie de la commercialisation. Selon les informations officielles, l’objectif de Baichuan Intelligence est de « construire la meilleure grande base de modèles en Chine », et l’objectif de la dimension verticale est d’améliorer la recherche, la multimodalité, l’éducation, la médecine et d’autres domaines.La commercialisation d’aujourd’hui est concentrée dans Baichuan2-53B, et le site officiel montre que l’appel d’API du modèle adopte une norme de charge basée sur le temps. 0 :00-8 :00 facture 0,01 yuan / mille jetons, 8 :00-24 :00 charge 0,02 yuan / mille jetons, en comparaison, le prix des frais de jour est plus élevé que la nuit.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-4543fd2d4b-dd1a6f-69ad2a) (Source : site officiel de Baichuan Intelligent)  ## **Fin**  Débattre de l’identité de l’OpenAI chinois n’a pas beaucoup de sens dans les premiers jours du développement des grands modèles. De nombreuses startups telles que Zhipu AI et Baichuan Intelligent ont réalisé qu’il n’était pas conseillé de suivre aveuglément les traces d’OpenAI, par exemple, Zhipu AI a clarifié la voie technique consistant à « ne pas faire de GPT chinois ». De plus, à l’heure où l’open source se démocratise et forme un siège, la supériorité technologique absolue d’OpenAI ne semble pas indéfectible.Zhipu AI, Baichuan Intelligent a mentionné que les super applications sont un marché plus large, mais aussi la zone de confort des grandes entreprises modèles de la Chine, ne restent plus en place, par exemple, une personne proche de Zhipu AI a une fois annoncé la nouvelle aux médias, l’équipe de Zhipu AI a fermement déterminé la voie 2B, visant le marché de l’information et de l’innovation, et en 5 mois, a rapidement élargi l’équipe, de 200 à 500 personnes, pour la main-d’œuvre de réserve d’entreprise 2B ultérieure.Dans la voie de la commercialisation, Baichuan Intelligent a choisi de se référer à l’écologie open source de Llama2, et a également commencé à itérer par petites étapes.On peut voir à l’œil nu qu’en seulement six mois, Baichuan Intelligent et Zhipu AI ont traversé le no man’s land technologique et sont arrivés au stade de la commercialisation pour l’atterrissage industriel. Par rapport à l’essor entrepreneurial de l’IA 1.0, la période de polissage de la technologie peut atteindre 3 ans (2016-2019), et c’est précisément à cause de l’obstacle à l’atterrissage commercial qu’un grand nombre d’entreprises d’IA déclineront collectivement en 2022 et tomberont avant l’aube.Tirant les leçons de l’étape précédente, mais aussi parce que la polyvalence de la technologie des grands modèles est plus pratique à atterrir, les startups représentées par Baichuan Intelligence et Zhipu AI lèvent des troupes et des chevaux pour préparer la technologie, les produits et les réserves de talents pour la prochaine étape.Cependant, les premiers coups de feu n’ont été entendus que pendant le marathon, et il était trop tôt pour dire que l’issue était trop précoce. Mais au moins, la première étape de la piste a été décomposée, et une fois que l’objectif est clair, la concurrence est encore plus patiente et persévérante. Il en est de même pour Baichuan Intelligence, Zhipu AI ou OpenAI.