Combien de volumes est l’entraînement d’un grand modèle ? Percez le mystère de la puissance de calcul des grands modèles

Question

Source de l’article : Titanium MediaAuteur|Qin ConghuiEditeur|Gai Hongda> La prémisse de l’accaparement de la puissance de calcul est que la puissance de calcul est en train de devenir un nouveau modèle économique. L’essor de « l’alchimie » des modèles à grande échelle passera, et les fournisseurs de services de puissance de calcul devraient prendre des précautions et tourner à temps.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-f385fd50ff-dd1a6f-69ad2a) *Source de l’image : Générée par Unbounded AI*À l’aide de 40 ans de données météorologiques mondiales, d’un pré-entraînement avec 200 cartes GPU et en 2 mois environ, un grand modèle météorologique Pangea avec des centaines de millions de paramètres a été formé.C’est l’histoire de Bi Kaifeng, diplômé de l’Université Tsinghua pendant 3 ans, et formé un grand mannequin.Cependant, du point de vue du coût, dans des circonstances normales, un GPU est de 7,8 yuans / heure, et le coût d’entraînement du modèle météorologique Bikaifeng Pangu peut dépasser 2 millions. Il s’agit toujours d’un grand modèle vertical dans le domaine météorologique, et s’il est entraîné sur un grand modèle général, le coût peut être cent fois supérieur.Selon les statistiques, il existe plus de 100 grands modèles avec 1 milliard de paramètres en Chine. Cependant, le grand modèle « Alchemy » de l’industrie est confronté au problème que les GPU haut de gamme sont difficiles à trouver. Le coût de la puissance de calcul est élevé, et le manque de puissance de calcul et de fonds est devenu le problème le plus intuitif auquel l’industrie est confrontée.  ## **GPU haut de gamme, combien manque-t-il ? **  « Non, bien sûr qu’il manque, mais que pouvons-nous faire ? » Un cadre supérieur d’une grande usine s’est exclamé lorsqu’on lui a demandé s’il manquait de puissance de calcul.Cela semble être devenu un problème non résolu reconnu par l’industrie, le prix d’un NVIDIA A100 au sommet a été spéculé à 200 000 yuans, et le prix de location mensuel d’un seul serveur A100 a également grimpé à 50 000-70 000 / mois. Mais même dans ce cas, le prix élevé peut ne pas être en mesure d’obtenir la puce, et certains fournisseurs de puissance de calcul ont également rencontré des expériences étranges qui sont difficiles à rencontrer auparavant, comme le saut de ticket fournisseur.Zhou Lijun, un dirigeant de l’industrie du cloud computing, a déclaré de la même manière : « Il y a une pénurie de puissance de calcul. Nous avons de nombreux clients qui veulent des ressources GPU haut de gamme, mais ils ne peuvent pas répondre pleinement aux besoins du marché au sens large pour le moment. "![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-f46d3c3ff5-dd1a6f-69ad2a) *Le cluster de calcul haute performance d’un fournisseur de services cloud avec l’interface A100 est épuisé*Il s’avère que la pénurie de GPU haut de gamme n’est pas résolue dans l’industrie à court terme. Avec l’apparition des grands modèles, la demande de puissance de calcul du marché a augmenté rapidement, mais le taux de croissance de l’offre est loin d’avoir suivi. Bien que l’offre de puissance de calcul entrera définitivement sur le marché des acheteurs à partir du marché des vendeurs à long terme, on ne sait pas combien de temps cela prendra.Chaque entreprise calcule le nombre de « biens » (GPU NVIDIA) qu’elle a entre les mains, et l’utilise même pour juger de sa part de marché. Par exemple, si vous avez près de 10 000 cartes en main et que le marché est de 100 000 cartes au total, la part est de 10 %. « D’ici la fin de l’année, il y en aura environ 40 000, et si le marché est de 200 000, ce sera probablement 20 % du marché. » Des personnes familières avec la question ont donné des exemples.D’une part, vous ne pouvez pas acheter de carte, d’autre part, le seuil pour la formation des grands modèles n’est pas aussi facile à « démarrer » que l’industrie le fait. Comme mentionné ci-dessus, le coût de formation du modèle météorologique Bikaifeng Pangea peut dépasser 2 millions. Cependant, il convient de noter que le modèle météorologique de Bikaifeng Pangu est un grand modèle vertical entraîné sur la base du grand modèle général de Pangu, et que ses paramètres sont des centaines de millions. Si vous souhaitez entraîner un grand modèle à usage général avec des paramètres à l’échelle d’un milliard ou plus, le coût peut être dix fois ou cent fois plus élevé.« À l’heure actuelle, l’investissement le plus important est dans la formation, et sans des milliards d’investissements en capital, il est difficile de continuer à faire un grand modèle. » Qiu Yuepeng, vice-président du groupe Tencent, directeur de l’exploitation du groupe d’affaires Cloud et Smart Industry et président de Tencent Cloud, a révélé.« Courez vite, au moins jusqu’à ce que l’argent soit épuisé pour obtenir le prochain tour de financement. » Un entrepreneur a décrit la « situation de guerre » actuelle : « Cette route est une impasseSi vous n’avez pas des dizaines de milliards de dollars derrière vous, c’est difficile d’y aller. "Dans cette situation, l’opinion commune dans l’industrie est qu’avec la concurrence sur le marché des grands modèles, le marché passera également de fanatique à rationnel, et les entreprises contrôleront également les coûts et ajusteront leurs stratégies en fonction des changements attendus.  ## **Réponse positive insoluble**  S’il n’y a pas de conditions, il est nécessaire de créer des conditions - cela semble être la mentalité majoritaire parmi les participants au grand modèle. Et comment créer les conditions pour faire face à des problèmes réels, chaque entreprise a également de nombreuses méthodes.En raison de la pénurie de puces GPU haut de gamme, et le GPU disponible sur le marché chinois n’est pas de dernière génération, les performances sont généralement inférieures, de sorte que les entreprises ont besoin de plus de temps pour former de grands modèles. Ces entreprises sont également à la recherche de moyens innovants pour pallier le manque de puissance de calcul.L’une des façons d’y parvenir est d’utiliser des données de meilleure qualité pour l’entraînement, ce qui rend l’entraînement plus efficace.Récemment, l’Académie des technologies de l’information et de la communication (CAICT) a pris l’initiative de publier le « Rapport de recherche sur l’architecture des systèmes standard et des capacités des grands modèles de l’industrie », qui mentionne l’évaluation de la couche de données des grands modèles. Le rapport suggère qu’en termes de qualité des données, parce qu’elles auront un impact important sur l’effet du modèle, il est recommandé d’introduire un étiquetage et une confirmation manuels, et de sélectionner au moins une certaine proportion des données originales pour l’étiquetage, afin de construire des ensembles de données de très haute qualité.En plus de réduire le coût des grands modèles grâce à des données de haute qualité, pour l’industrie, l’amélioration des capacités d’infrastructure et l’obtention d’un fonctionnement stable de plus de 10000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000« En tant que fournisseur de services cloud, nous aidons nos clients à construire une infrastructure stable et fiable. Étant donné que la stabilité de la carte serveur GPU sera médiocre, toute défaillance interrompra l’entraînement, ce qui entraînera une augmentation du temps d’entraînement global. Les clusters de calcul haute performance peuvent fournir aux clients des services plus stables, réduire le temps de formation et résoudre certains problèmes de puissance de calcul. », a déclaré Zhou Lijun.Dans le même temps, la planification des ressources de la carte de puissance de calcul teste également la capacité technique du fournisseur de services. Xu Wei, responsable des solutions Internet de l’est de la Chine chez Volcano Engine, a déclaré à Titanium Media que le fait de disposer de ressources de carte de puissance de calcul n’est qu’un aspect, et que la façon de planifier les ressources de carte et de les utiliser est une capacité de base et une capacité d’ingénierie plus éprouvées. « Le fait de diviser une carte en plusieurs petites cartes et d’essayer d’obtenir une planification distribuée et affinée peut réduire davantage le coût de la puissance de calcul. » », a déclaré Xu Wei.Le réseau affecte également la vitesse et l’efficacité de l’entraînement des modèles de grande taille. L’entraînement des grands modèles est souvent composé de milliers de cartes, la connexion de centaines de serveurs GPU requis La vitesse du réseau est extrêmement élevée, si le réseau est un peu encombré, la vitesse d’entraînement sera très lente, l’efficacité est très affectée. « Tant qu’un serveur surchauffe et tombe en panne, l’ensemble du cluster peut devoir s’arrêter et les tâches d’entraînement doivent redémarrer. Cela nécessite des exigences très élevées en matière de capacités d’exploitation et de maintenance des services cloud et de capacités de dépannage. », a déclaré Qiu Yuepeng.Certains fournisseurs ont trouvé un autre moyen, et la transition de l’architecture de cloud computing à l’architecture de supercomputing est également devenue un moyen de réduire les coûts, c’est-à-dire que dans le cas de la satisfaction des besoins des utilisateurs, des tâches de calcul non à haut débit et des scénarios de tâches parallèles, le cloud de supercalcul coûte environ la moitié du prix du supercalcul en nuage, puis grâce à l’optimisation des performances, l’utilisation des ressources peut être augmentée de 30 % à 60 %.De plus, certains fabricants choisissent d’utiliser des plates-formes nationales pour former et raisonner les grands modèles pour remplacer NVIDIA, qui est difficile à trouver avec une carte. « Nous avons lancé conjointement la machine tout-en-un iFLYTEK Spark avec Huawei, ce qui est très remarquable de pouvoir faire de la formation et du raisonnement sur la plate-forme nationale. Je suis particulièrement heureux de vous dire que les capacités du GPU de Huawei sont maintenant les mêmes que celles de NVIDIA, et que Ren Zhengfei y attache une grande importance, et que les trois directeurs de Huawei ont travaillé dans la classe spéciale d’iFLYTEK et l’ont maintenant rendu comparable à l’A100 de NVIDIA. Liu Qingfeng, fondateur et président d’iFLYTEK, a dit un jour.Chacune des méthodes ci-dessus est un projet relativement important, il est donc difficile pour les entreprises générales de se réunir par le biais de centres de données auto-construits, et de nombreuses équipes d’algorithmes choisissent les fabricants de puissance de calcul les plus professionnels à prendre en charge. Parmi eux, le stockage parallèle représente également un coût important, ainsi que les capacités techniques, les garanties de taux de défaillance correspondantes, etc. font également partie du coût du matériel. Bien sûr, tenez même compte du coût de l’électricité de la zone de disponibilité IDC, des coûts d’exploitation tels que les logiciels, la plate-forme et les coûts de personnel.Seul le cluster GPU au niveau de la kilocarte aura un effet d’échelle, et choisir un fournisseur de services de puissance de calcul équivaut à dire que le coût marginal est nul.Sun Ninghui, académicien de l’Académie chinoise d’ingénierie et chercheur à l’Institut de technologie informatique de l’Académie chinoise des sciences, a également suggéré dans son discours que l’AIGC a provoqué l’éclosion de l’industrie de l’intelligence artificielle, et que l’application à grande échelle de la technologie intelligente a un problème typique à longue traîne, c’est-à-dire que les départements forts dotés de fortes capacités d’IA (sécurité des réseaux, neuf instituts de la neuvième académie et bureaux météorologiques, etc.), les instituts de recherche scientifique et les grandes et moyennes entreprises ne représentent qu’environ 20 % de la demande principale de puissance de calcul, et les 80 % restants sont des petites et moyennes entreprises. Ou limité par le prix élevé de la puissance de calcul, il est difficile d’obtenir des dividendes de développement dans la vague de l’ère de l’IA.Par conséquent, afin de réaliser l’application à grande échelle de la technologie intelligente, l’industrie de l’intelligence artificielle est à la fois « applaudie » et « applaudie », et une grande quantité de puissance de calcul intelligente bon marché et facile à utiliser est nécessaire, afin que les petites, moyennes et micro-entreprises puissent également utiliser la puissance de calcul de manière pratique et à moindre coût.Qu’il s’agisse de la demande urgente de puissance de calcul de grands modèles ou des divers problèmes qui doivent être résolus dans le processus d’application de la puissance de calcul, un nouveau changement auquel il faut prêter attention est que la puissance de calcul est devenue un nouveau modèle de service dans le processus de demande du marché et d’itération technologique.  ## **Explorez un nouveau modèle de service de puissance de calcul**  Quelle est la puissance de calcul du grand modèle que nous saisissons ? Pour répondre à cette question, nous devons commencer par le service de puissance de calcul.En termes de types, la puissance de calcul est divisée en puissance de calcul générale, puissance de calcul intelligente et puissance de supercalcul, et cette puissance de calcul est devenue un service, qui est le résultat du double entraînement du marché et de la technologie.La définition du service de puissance de calcul dans le « Livre blanc 2023 sur les services de puissance de calcul » (ci-après dénommé le « Livre blanc ») est un nouveau domaine de l’industrie de la puissance de calcul basé sur une puissance de calcul diversifiée, reliée par un réseau de puissance de calcul, et visant à fournir une puissance de calcul efficace.L’essence du service de puissance de calcul est d’obtenir une sortie unifiée de puissance de calcul hétérogène grâce à de nouvelles technologies informatiques, et d’intégrer le cloud, le big data, l’IA et d’autres technologies. Il n’y a pas seulement de la puissance de calcul dans le service de puissance de calcul, il s’agit d’une encapsulation unifiée de la puissance de calcul, du stockage, du réseau et d’autres ressources, et la fourniture de la puissance de calcul est complétée sous la forme de services (tels que des API).En comprenant cela, vous constaterez qu’en saisissant les puces NVIDIA, une grande partie d’entre elles sont des fournisseurs de services de puissance de calcul, c’est-à-dire des producteurs de puissance de calcul. Les utilisateurs de l’industrie qui appellent réellement l’API de puissance de calcul sur le front-end n’ont qu’à mettre en avant les exigences de puissance de calcul correspondantes.Selon Titanium Media App, du point de vue du côté logiciel, tout le grand modèle utilisé par l’interaction logicielle est divisé en trois types, le premier grand appel d’API de modèle, chaque famille a un devis, selon le règlement du prix; La seconde consiste à posséder un petit modèle, à acheter vous-même de la puissance de calcul, voire à la déployer vous-même ; Troisièmement, les grands fournisseurs de modèles coopèrent avec les fournisseurs de cloud, c’est-à-dire les clouds dédiés, et paient mensuellement. « En général, ce sont les trois, Kingsoft Office utilise actuellement principalement des appels d’API, et le petit modèle interne a créé sa propre plate-forme de planification de la puissance de calcul. » Yao Dong, vice-président de Kingsoft Office, a déclaré à Titanium Media App.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-cf2277488b-dd1a6f-69ad2a) Diagramme de la structure de la chaîne industrielle Hashrate, source : Académie chinoise des technologies de l’information et de la communicationEn d’autres termes, dans la chaîne industrielle de la structure de la puissance de calcul, les entreprises en amont complètent principalement la fourniture de ressources de soutien pour les services de puissance de calcul tels que la puissance de calcul générale, la puissance de calcul intelligente, la puissance de supercalcul, le stockage et le réseau. Par exemple, dans la bataille pour la puissance de calcul des grands modèles, NVIDIA appartient à la puissance de calcul en amont de l’approvisionnement en ressources de base de l’industrie pour fournir des puces, et l’augmentation des stocks des fabricants de serveurs tels que Inspur Information est également affectée par la demande du marché.Les entreprises du secteur intermédiaire sont principalement des fournisseurs de services cloud et de nouveaux fournisseurs de services de puissance de calcul, et leurs rôles consistent principalement à réaliser la production de puissance de calcul grâce à l’orchestration de la puissance de calcul, à la planification de la puissance de calcul et à la technologie d’échange de puissance de calcul, et à compléter la fourniture de puissance de calcul par le biais d’API. Les fournisseurs de services de puissance de calcul mentionnés ci-dessus, Tencent Cloud et Volcano Engine, sont tous dans ce lien. Plus la capacité de la puissance de calcul orientée services au service des entreprises du secteur intermédiaire est forte, plus le seuil pour le côté applicatif est bas et plus il est propice au développement inclusif et omniprésent de la puissance de calcul.Les entreprises en aval s’appuient sur la puissance de calcul fournie par les services de puissance de calcul pour générer et fabriquer des services à valeur ajoutée, tels que les utilisateurs de l’industrie. Cette partie de l’utilisateur n’a qu’à mettre en avant la demande, et le producteur de puissance de calcul configure la puissance de calcul correspondante en fonction de la demande pour réaliser la « tâche de puissance de calcul » émise par l’utilisateur.Cela présente plus d’avantages en termes de coûts et d’avantages techniques que l’achat initial de serveurs pour construire un environnement de puissance de calcul de grande taille. L’entraînement de Bi Kaifeng sur le grand modèle météorologique de Pangu devrait appeler directement la couche sous-jacente du modèle de Pangu, c’est-à-dire le service de calcul haute performance de HUAWEI CLOUD, alors le processus des autres grandes entreprises modélisées utilisera-t-il la puissance de calcul ou paiera-t-il pour la puissance de calcul ?  ## **Itération du modèle d’affaires de la puissance de calcul**  ChatGLM est le premier lot de grands modèles généraux lancés, en prenant l’exemple de l’utilisation de la puissance de calcul ChatGLM de Zhipu AI, selon les informations qui ont été divulguées publiquement, ChatGLM AI utilise un certain nombre de fournisseurs de services de puissance de calcul d’IA grand public en Chine. « En théorie, tout devrait être utile. » Des personnes familières avec la question ont déclaré que cela pourrait également inclure les fournisseurs de services de puissance de calcul traditionnels nationaux / fournisseurs de services cloud.La facturation à l’utilisation et la facturation mensuelle sont les modes courants du service de puissance de calcul actuel, et il existe environ deux types d’exigences d’utilisation, l’une consiste à choisir l’instance de service de puissance de calcul correspondante, et sur l’interface du site Web officiel d’un fournisseur de services cloud, il peut fournir des serveurs GPU haute performance équipés de NVIDIA A800, A100, V100 trois cartes graphiques grand public.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-f6fb6682b2-dd1a6f-69ad2a) *Types de cartes graphiques GPU de calcul haute performance fournies par un fournisseur de services informatiques*L’autre consiste à choisir la plate-forme de service MaaS correspondante et à affiner le grand modèle dans la plate-forme MaaS. Si l’on prend l’exemple du prix de publication à l’utilisation de la plate-forme Tencent Cloud TI-ONE, la configuration du 8C40G V100\*1 est de 20,32 yuans par heure, ce qui peut être utilisé pour la vision d’apprentissage automatique, la modélisation basée sur les tâches, le bloc-notes et la modélisation visuelle.À l’heure actuelle, l’industrie promeut également « l’intégration de l’informatique et du réseau » des services de puissance de calcul, et grâce à l’évaluation complète des tâches de calcul, de l’état des ressources du réseau de calcul et d’autres informations, un schéma d’orchestration de réseau informatique capable de prendre en charge la planification inter-architecture, inter-région et inter-fournisseurs de services est formé, et le déploiement des ressources associées est terminé. Par exemple, tant que vous économisez une somme d’argent et que vous la déposez dans le réseau de puissance de calcul, les partitions du réseau de puissance de calcul peuvent être appelées à volontéSelon les caractéristiques de l’application, sélectionnez la partition la plus appropriée, la partition la plus rapide et la partition la plus rentable, puis facturez en fonction de la durée et déduisez les frais des fonds pré-déposés.Il en va de même pour les fournisseurs de services cloud, en tant que produit unique de services cloud, leur permettant de participer rapidement à la chaîne industrielle de la puissance de calcul.Selon les données du ministère de l’Industrie et des Technologies de l’information, l’échelle totale de la puissance de calcul de la Chine atteindra 180 EFLOPS en 2022, se classant au deuxième rang mondial. En 2022, l’échelle de l’industrie chinoise de la puissance de calcul a atteint 1,8 billion de dollars. La puissance de calcul des grands modèles a considérablement accéléré le développement de l’industrie de la puissance de calcul.L’un des dictons est que le service actuel de puissance de calcul est en fait un nouveau type de modèle de « vente d’électricité ». Cependant, selon la division différente du travail, certains fournisseurs de services informatiques peuvent avoir besoin d’aider les utilisateurs à effectuer davantage de débogage des performances du système, d’installation de logiciels, d’opérations à grande échelle et d’analyse des caractéristiques de fonctionnement, c’est-à-dire une partie du travail d’exploitation et de maintenance du dernier kilomètre.Avec la normalisation de la demande de calcul haute performance pour les grands modèles, les services de puissance de calcul, qui sont nés des services cloud, sont rapidement entrés dans le champ de vision du public, formant une chaîne industrielle et un modèle commercial uniques. C’est juste qu’au début de l’éclosion de l’industrie de la puissance de calcul en raison des grands modèles, la pénurie de GPU haut de gamme, le coût élevé de la puissance de calcul et la saisie des « cœurs » ont formé un paysage unique appartenant à cette époque.« À ce stade, le volume est de savoir qui peut obtenir la carte dans la chaîne d’approvisionnement, NVIDIA est le roi de toute l’industrie à l’heure actuelle, et tous les marchés sont contrôlés par elle, ce qui est le statu quo. » Des personnes familières avec la question ont commenté. C’est comme si celui qui obtient la carte pouvait livrer l’entreprise lorsque la demande dépasse l’offre.Mais tout le monde ne saisit pas la « carte », car la pénurie est temporaire et le problème sera toujours résolu. « La personne qui fait la recherche à long terme ne s’en empare pas, elle attend simplement parce qu’elle ne mourra pasÀ l’heure actuelle, il n’y a qu’un groupe de startups qui s’emparent des cartes, et elles veulent s’assurer qu’elles peuvent survivre jusqu’à l’année prochaine. La personne a dit.Dans de nombreuses incertitudes, la tendance est à ce que la puissance de calcul devienne un service, et ce que les fournisseurs de services de puissance de calcul devraient faire, c’est être prêts à prendre des précautions lorsque le grand modèle reviendra à la rationalité et que le vent du marché changera rapidement.Note : À la demande de la personne interrogée, Zhou Lijun est un pseudonyme.**(Cet article a été publié pour la première fois sur Titanium Media APP) **