Les grands modèles ne sont pas les chouchous des géants

2023-10-30 07:18:49

Source de l’article : Tiger Sniff

Auteur : Creek

Source de l’image : Généré par Unbounded AI

La guerre des 100 modèles s’intensifie, mais de nombreux praticiens se posent de plus en plus de questions sur les grands modèles.

Dans le domaine des grands modèles de base, Tencent, Alibaba, Baidu et d’autres géants de l’Internet ont afflué, et Alibaba, Baidu, iFLYTEK et d’autres grands fabricants ont successivement publié les dernières versions des produits de grands modèles au cours du mois dernier, et leurs capacités techniques ont également été considérablement améliorées ; Les startups itérent sur la nouvelle version en même temps, mais aussi des financements « fous », Zhipu AI a récemment annoncé que cette année a reçu un total de 2,5 milliards de yuans de financement, établi près de six mois Baichuan Intelligence a reçu 350 millions de dollars américains de financement, parmi les investisseurs de ces startups, il y a aussi Tencent, Alibaba, Meituan et d’autres géants de l’Internet.

La Chine a-t-elle vraiment besoin d’autant de modèles de base ? Toutes les grandes entreprises de modèles de base sont folles de paramètres techniques « roulants », mais de quel type de grand modèle le marché a-t-il besoin ? Dans la situation de bataille animée et chaotique, ces questions sont soulevées par de plus en plus de gens.

Pour répondre à cette question, nous devons d’abord comprendre comment le grand modèle de base gagne de l’argent sur le marché chinois. Bien que la grande majorité des gens perçoivent les grands modèles comme des chatbots, et que de nombreux utilisateurs commencent à utiliser ces produits lors de la recherche d’informations et de l’organisation de documents, il est difficile pour les entreprises liées de gagner de l’argent avec ces produits C-end, et même plus l’échelle de l’utilisateur est grande, plus les entreprises perdent de l’argent. **À l’heure actuelle, la direction la plus pragmatique pour la commercialisation des grands modèles de base est toujours du côté B, au service des entreprises de la vente au détail, de la finance, de la fabrication et d’autres domaines pour réduire les coûts et améliorer l’efficacité, afin d’obtenir des revenus commerciaux stables. **

Il n’existe que trois types de besoins pour les grands modèles de base : ** Appelez directement l’API des grands modèles pour obtenir des fonctionnalités pertinentes pour les grands modèles ; Sur la base du grand modèle, le développement secondaire est réalisé en fonction de l’activité réelle ; Développez des applications d’IA basées sur de grands modèles. **Ces exigences testent les capacités techniques de la plate-forme de base pour les grands modèles et testent également ses capacités de service d’entreprise.

Du point de vue des capacités de service, les startups modèles à grande échelle et les géants de l’Internet doivent repartir de zéro, et personne n’a d’avantage inné. Les plates-formes qui peuvent obtenir plus rapidement des informations sur les besoins des clients et fournir des services stables et fiables peuvent se démarquer.

Les grands modèles ne sont pas « soufflés"

Avec la popularité de ChatGPT comme point de démarcation, le développement des grands modèles nationaux a connu deux jours.

Avant que ChatGPT ne devienne populaire, seul un petit nombre d’entreprises nationales étaient engagées dans la recherche et le développement de grands modèles de base, car la technologie et les capacités de service des grands modèles n’ont pas été largement acceptées par le marché, et ces entreprises se concentrent principalement sur la recherche et le développement technologiques et l’accumulation de capacités de service. Lorsque ChatGPT est devenu populaire, un grand nombre d’investisseurs et de praticiens ont afflué, et les grands modèles sont devenus un nouveau débouché.

Le marché en pleine effervescence est facile à donner naissance à des spéculateurs, qui ne se plongent pas dans la technologie, mais racontent des histoires, des concepts à la mode, indépendamment des capacités de technologie et de service, racontent d’abord l’histoire au ciel et gagnent ainsi la reconnaissance du marché des capitaux et des clients. Un praticien de grands modèles a dit en plaisantant à Tiger Sniff que de nombreuses grandes entreprises de mannequins en Chine affirment que l’écart entre elles et GPT-4 n’est que de quelques mois, et c’est parce qu’elles ont suivi une formation sur la base de GPT-2 qui a été open source et sont venues raconter des histoires.

En fait, l’évolution des capacités techniques des grands modèles ne peut pas être réalisée en s’entraînant pendant quelques mois, car il s’agit d’un système complexe, et il est très important d’avoir une grande échelle, et il est impossible de produire une évolution plus intelligente sans une certaine échelle. Cependant, l’augmentation de l’échelle d’apprentissage des grands modèles nécessite beaucoup de temps et un débogage répété. Les techniciens qui ont débogué les paramètres d’entraînement de grands modèles comprennent cette difficulté : personne ne vous dit quoi faire, vous devez le comprendre par vous-même, et toutes sortes de situations inattendues surviennent dans le processus qui prennent du temps à résoudre.

En Chine, les grands modèles de base qui ont vraiment confiance dans les capacités techniques ont été formés avant que ChatGPT ne devienne populaire, à cette époque, le grand modèle n’était pas bien connu de tout le monde, et beaucoup de gens ne comprenaient pas et n’étaient pas optimistes à propos du grand modèle, et les entreprises qui insistaient pour investir dans le grand modèle étaient très sûres de la nouvelle technologie.

Par exemple, en 2020, KLCII a lancé le premier projet de recherche sur les modèles pré-entraînés à très grande échelle, Wudao, et sa version 2.0 est devenue le plus grand modèle de niveau billion au monde. Après la mise à jour de cette année, « Wudao » couvre les grands modèles de base tels que le langage, la vision et la multimodalité, et est entré dans la phase de l’open source complet.

Zhipu AI a également développé une architecture de pré-entraînement GLM en 2020, et a également entraîné un modèle GLM-10B avec des dizaines de milliards de paramètres. Le 27 octobre, Zhipu AI a publié le modèle de dialogue auto-développé de troisième génération ChatGLM3, qui a considérablement amélioré ses performances, sa capacité d’inférence et sa capacité de contexte par rapport à la génération précédente. Par rapport à ChatGLM2, ChatGLM3 s’est classé premier parmi 44 ensembles de données publics en chinois et en anglais en Chine. Parmi eux, MMLU a augmenté de 36 %, C a augmenté de 33 %, GSM8K a augmenté de 179 % et BBH a augmenté de 126 %.

En outre, en termes de fonctions, un certain nombre de grands modèles développés localement (ChatGLM, CodeGeeX, WebGLM, CogVLM, etc.) publiés par Zhipu AI sont également les grands modèles de la série OpenAI les plus complets en Chine, et sont applicables à l’assistant d’IA générative « Zhipu Qingyan ».

Ces premières entreprises à fabriquer de grands modèles sont fondamentalement différentes des entreprises qui spéculent sur des concepts et courent après le vent. Lorsque la technologie des modèles à grande échelle n’a pas encore explosé et que le marché n’a pas encore été aussi volatil, ils y sont impliqués parce qu’ils ont compris la valeur technique et la logique commerciale du modèle de base à grande échelle. Cette différence est également très évidente après la popularité du grand modèle, de nombreuses entreprises s’impliquent dans les produits C-end pour des raisons de trafic et d’actualité, tandis que les premières entreprises telles que Zhipu AI sont plus axées sur le domaine des services d’entreprise, et toutes les capacités de R&D et de service sont également disposées autour de cette idée, et elles s’accumulent de manière terre-à-terre et se développent dans le sens de la création de valeur pour les clients.

**La complexité du grand modèle détermine que les entreprises qui ont accumulé des capacités de technologie et de service pendant une période plus longue ont un avantage plus important. Lorsque de plus en plus de personnes sur le marché sont conscientes de la complexité des grands modèles et du temps nécessaire à l’évolution des grands modèles, les grandes entreprises de modèles qui s’appuient sur le storytelling pour faire frire les concepts auront de moins en moins de marge de survie, et les entreprises qui accumulent sérieusement des capacités de technologie et de service peuvent résister à l’épreuve de la première vague de concurrence.

Pas de grand modèle d’écologie prospère, pas d’avenir

Dans le processus de commercialisation des grands modèles, celui qui peut atterrir dans les scénarios d’application qui ont les besoins rigides de la société sera le premier à former un cercle vertueux d’auto-hématopoïèse. **

Le grand modèle général a un plus large éventail d’applications, mais il n’est pas assez spécialisé pour résoudre des problèmes spécifiques dans des domaines verticaux. Les grands modèles verticaux ont une plus grande capacité à résoudre des problèmes spécifiques à un domaine, mais la portée des services est très limitée, ce qui rend difficile pour de nombreux grands modèles verticaux d’atteindre un équilibre entre les coûts et les avantages commerciaux, et l’espace de développement est limité.

Le point final de l’application des grands modèles est d’être utilisé dans la vie et la production, pour résoudre des problèmes pratiques dans le travail et la vie, et pour améliorer l’efficacité et la productivité du travail. Sur la base des avantages et des inconvénients du modèle général et du modèle vertical actuels, une idée plus appropriée dans le processus actuel de commercialisation du modèle est d’ouvrir les capacités technologiques et de services à la vente au détail, à la finance, à la fabrication et à d’autres domaines, et le modèle général et les entreprises dans des domaines connexes travaillent ensemble pour construire des scénarios d’application. **

Sous réserve de limitations telles que les données, la puissance de calcul et les scénarios, il n’y a pas beaucoup de grands modèles qui peuvent vraiment fonctionner en open source. Dans le même temps, en tant que base technologique de base, le rôle du grand modèle est très similaire à celui des systèmes d’exploitation pour PC et téléphones portables, et présentera un modèle concurrentiel de « sous le grand arbre, pas un seul pouce d’herbe », c’est-à-dire qu’une ou deux bases techniques occupent une position dominante dans l’industrie, et tous les développeurs d’applications doivent développer sur la base de ces deux bases techniques. Si le modèle du piédestal ne peut pas former une écologie florissante, il n’y aura pas de capacité de développement durable.

À en juger par l’historique de développement des systèmes d’exploitation pour PC et téléphones portables, l’avantage du premier arrivé est très important. Lorsque Windows domine le marché des PC et qu’iOS et Android sont divisés en deux mondes dans le domaine de la téléphonie mobile, il est difficile pour les autres systèmes d’exploitation d’avoir de la place pour un redressement.

La même tendance s’observe également dans le domaine des grands modèles. Les grands modèles ouvriront la voie à un écosystème d’applications d’IA prospère, et les données, capacités ou applications personnelles et d’entreprise peuvent rapidement devenir des plug-ins d’IA, améliorant ainsi les capacités des grands modèles et rendant les grands modèles plus pratiques et plus faciles à utiliser.

À l’heure actuelle, Baidu, iFLYTEK et d’autres entreprises géantes se sont engagées dans la construction écologique, Baidu cloud intelligent Qianfan grande plate-forme de modèle 2.0 entreprises actives mensuelles de près de 10 000, couvrant plus de 400 scénarios dans la finance, l’éducation, la fabrication, l’énergie, les affaires gouvernementales, les transports et d’autres industries, l’échelle de développeur de la plate-forme de grand modèle Spark d’iFLYTEK a dépassé 700 000.

Certaines startups qui ont accumulé longtemps dans le domaine des grands modèles sont aussi les premières à manger des crabes. À l’heure actuelle, Zhipu AI compte plus de 1 000 clients et plus de 100 partenaires pour construire un écosystème, couvrant plusieurs scénarios tels que les médias, le SaaS, l’éducation et le bureau. Par exemple, derrière les capacités de WPS, la génération intelligente de documents de contenu de présentation et la rédaction de communiqués de presse, il y a la capacité technique de Zhipu AI en tant que support.

Dans la compétition écologique de diverses plates-formes modèles à grande échelle, le test le plus important de la plate-forme est la valeur qu’elle apporte aux partenaires et la capacité à grandir avec les partenaires. En ce qui concerne le scénario bureautique, la génération de contenu de présentations, la rédaction de contenu d’article et la réécriture de style ont des exigences très élevées en matière de précision et de capacités de raisonnement de la plate-forme de grand modèle, et seul le grand modèle qui a atteint un certain niveau technique peut avoir la capacité de prendre en charge ces applications, et la plate-forme de grand modèle doit également corriger les erreurs et les itérations en fonction des commentaires des utilisateurs dans les applications réelles.

**Qu’il s’agisse d’une entreprise géante ou d’une start-up, quelle que soit la force du capital et des ressources, il est nécessaire d’accumuler et d’itérer étape par étape à partir de zéro. Par conséquent, dans le processus de construction d’un écosystème pour les grandes plates-formes de modèles, l’avantage de temps est très important. C’est aussi la raison pour laquelle les start-up qui ont l’avantage d’être les premiers arrivés et les géants de l’Internet qui disposent de ressources financières plus importantes peuvent rivaliser sur un pied d’égalité.

100 model war, qui est le plus adapté au marché chinois ?

Bien que la situation de bataille de la guerre des 100 modèles soit animée et chaotique, la direction de la concurrence derrière elle est très claire, et les capacités techniques et de service et la capacité de la grande plate-forme de modèles à construire un écosystème déterminent directement la direction de la concurrence.

La construction de ces capacités prend du temps à s’accumuler, et il est difficile de les atteindre du jour au lendemain, mais il ne suffit pas de les accumuler au fil du temps. L’avantage du premier arrivé, en plus du décalage temporel apporté par l’action précoce, a également la capacité de percevoir avec précision la demande du marché, c’est-à-dire d’agir fermement et rapidement le long d’une stratégie correcte, d’un swing stratégique et de détours peut facilement consommer tous les avantages de temps accumulés par une action précoce.

Lorsque de plus en plus de grandes plates-formes modèles se concentreront sur la construction écologique, la détermination stratégique et l’exécution de la plate-forme deviendront de plus en plus importantes dans la compétition écologique. **Lorsque quelques plates-formes effectuent le changement qualitatif vers des super-plateformes, le paysage concurrentiel est fondamentalement déterminé.

Sur le marché intérieur vaste et complexe, les entreprises de services B-end sont sujettes à des fluctuations et des détours stratégiques. D’une part, les régions et les échelles commerciales des entreprises sur le marché intérieur sont différentes, et la perception de la valeur des grands modèles pour l’intelligence d’entreprise est très différente, et les ressources et les coûts qu’elles sont prêtes à investir sont également différents, de sorte qu’il est difficile de trouver une solution standardisée ; D’autre part, les entreprises de différents domaines ont des besoins différents en matière de capacités de grands modèles, et même différentes entreprises dans le même domaine ont des besoins différents en matière de grands modèles.

Dans un tel environnement, par rapport au plan de commercialisation d’OpenAI, la commercialisation de plateformes de modèles nationaux à grande échelle nécessite plus d’attention aux détails. Nous constatons une telle tendance dans les idées de commercialisation de certaines plateformes.

Par exemple, en plus des services d’API de plate-forme ouverte communs, Zhipu AI propose également deux solutions : la privatisation du cloud et la privatisation locale. **La privatisation du cloud peut aider les entreprises à construire leurs propres grands modèles basés sur des données privées avec une sécurité renforcée, tandis que la privatisation locale est une solution unique sur le marché chinois, en plus de fournir un modèle plus puissant, elle fournit également une matrice de modèle complète pour répondre à divers scénarios et besoins. **

En réponse aux différents besoins des clients tels que la génération d’articles, le service client intelligent et l’annotation de données, ainsi qu’à l’échelle des grandes, moyennes et petites entreprises, Zhipu AI fournit différentes solutions, que les clients peuvent librement combiner en fonction de leurs propres besoins. Ce modèle de service plus détaillé et plus flexible est également basé sur une connaissance précise à long terme du marché chinois.

Face à l’incertitude de l’environnement externe, Zhipu AI a également lancé un plan d’adaptation des puces domestiques, coopérant avec les fabricants de matériel et les fabricants de puces nationaux pour fournir différents niveaux de certification et de test pour différents types d’utilisateurs et différents types de puces, afin de rendre les services de grands modèles plus sûrs et plus fiables. À l’heure actuelle, la série ChatGLM a pris en charge plus de 10 types d’écosystèmes matériels domestiques, notamment Ascend, Shenwei Supercomputer, Haiguang DCU, Haifeike, Muxi Xiyun, Computing Technology, Tiantian Zhixin, Cambrian, Moore Threads, Baidu Kunlun Core, Lingxi Technology, Great Wall Chaoyun, et le modèle de test final déployable pour téléphone mobile publié simultanément ChatGLM3-1.5B et 3B prennent en charge Xiaomi, vivo, Samsung et d’autres téléphones mobiles et plates-formes de véhicules.

Plus la bataille est féroce dans la guerre des 100 modèles, plus ces détails apparemment discrets sont importants, car ces détails déterminent le degré de reconnaissance des partenaires externes et affectent également la vitesse d’atterrissage des grands modèles dans différents scénarios. Le seuil pour simplement publier un grand modèle n’est pas aussi élevé que le marché l’imagine, mais il est possible d’avoir des scénarios de données de haute qualité afin de continuer à itérer et à former des barrières concurrentielles, et la clé des scénarios de données de haute qualité réside dans les partenaires externes - la plate-forme que plus de partenaires sont prêts à choisir facilite l’exécution de ce cycle économique.

Dans cette compétition, de nombreux praticiens pensent que le gagnant doit être l’entreprise géante avec des ressources et des capacités financières plus solides, mais ce n’est pas le cas. Les startups et les géants doivent suivre les astuces et aller au fond des détails, et il n’y a pas de raccourcis. En ce qui concerne le financement, il n’est pas à l’origine de la bataille décisive, car les startups à la compétitivité de base ne manqueront pas d’argent - même si Zhipu AI a reçu le plus grand montant de financement de la part de startups modèles à grande échelle, il y a plus de nouveaux investisseurs qui veulent entrer dans le jeu.

Si vous y réfléchissez sous un autre angle, en fait, le marché des capitaux vote déjà avec ses pieds pour savoir qui est le plus adapté au modèle de piédestal des entreprises chinoises.

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

Récompense
J'aime
Commentaire
Partager

Commentaire

0/400

Aucun commentaire

Rubrique
1/3
1Gate ETH Staking APY 5%
3k Popularité
2Show My Alpha Points
24k Popularité
3SOL Futures Reach New High
6k Popularité
4ETH ETF Sees 12 Weeks of Inflows
4k Popularité
5Crypto Market Rebound
172k Popularité

Épingler

Les grands modèles ne sont pas les chouchous des géants

Les grands modèles ne sont pas « soufflés"

Pas de grand modèle d’écologie prospère, pas d’avenir

**100 model war, qui est le plus adapté au marché chinois ? **

100 model war, qui est le plus adapté au marché chinois ?