Vous voulez rivaliser avec Nvidia ? Intel pousse les puces d'IA cloud et a l'intention de s'associer à des fabricants nationaux pour développer des serveurs d'IA

Question

Source originale : Science and Technology Innovation Board Daily

Crédit image : Généré par Unbounded AI‌

Le 11 juillet, Intel a lancé sur le marché chinois une puce d'entraînement à l'intelligence artificielle dans le cloud - Habana® Gaudi® 2. La puce peut répondre aux besoins des modèles de langage à grande échelle, des modèles multimodaux et des modèles d'IA générative. Selon l'introduction sur place, les performances de la puce sont meilleures que celles de Nvidia A100 dans certains indicateurs clés.

Il est entendu que le processeur Gaudi2 et la carte mezzanine Gaudi2 HL-225B sont basés sur l'architecture haute performance Gaudi de première génération et disposent de 24 cœurs de processeur Tensor programmables (TPC).

Chaque puce intègre 21 interfaces Ethernet 100 Gbps (RoCEv2 RDMA) dédiées à l'interconnexion interne, équipées de 96 Go de mémoire haute vitesse HBM et d'une bande passante mémoire totale de 2,4 To/s, répondant à des modèles de langage à grande échelle, des modèles multimodaux et des modèles génératifs. Besoins du modèle d'IA.

Selon l'introduction sur site, les performances par watt d'Intel Gaudi2 exécutant ResNet-50 sont environ le double de celles de NVIDIA A100, et les performances par watt d'exécution du modèle BLOOMZ à 176 milliards de paramètres sont environ 1,6 fois supérieures à celles d'A100. **

Lors de la conférence de presse, Liu Jun, vice-président senior d'Inspur Information et directeur général d'IA et HPC, a publié sur place une nouvelle génération de serveur d'IA NF5698G7 équipé de Gaudi2.

Actuellement, Intel a coopéré avec Inspur Information pour créer un serveur AI NF5698G7 basé sur l'accélérateur d'apprentissage en profondeur Gaudi2. Le serveur intègre 8 cartes accélératrices Gaudi2 HL-225B, et comprend également deux processeurs évolutifs Intel Xeon de quatrième génération, prenant en charge les moteurs d'accélération AI tels que AMX/DSA. Le même jour, le serveur AI a également été officiellement publié.

Wang Lei, chef de produit senior d'Inspur Information, a souligné que le NF5698G7 est une nouvelle génération de serveur d'IA spécialement développé pour le marché de l'IA générative. Il prend en charge 8 accélérateurs Gaudi2 interconnectés à haut débit OAM et fournira aux clients de l'IA une formation et des modèles à grande échelle. capacités de raisonnement.

Liu Hongcheng, vice-président de la gamme de produits informatiques et de stockage de H3C, a déclaré que sur la base de l'accélérateur d'IA Intel Gaudi2, H3C coopère avec Intel pour développer des serveurs d'IA hautes performances adaptés à la formation et au raisonnement de modèles à grande échelle. **

Dans le même temps, Tang Qiming, président du domaine de l'infrastructure de puissance de calcul de Super Fusion Digital Technology Co., Ltd., a souligné que ** Super Fusion et Intel lanceront conjointement de nouveaux produits et solutions basés sur Gaudi2. **

Auparavant, Wang Rui, président d'Intel Chine, a souligné dans une interview avec un journaliste du "Science and Technology Board Daily" que la vague **ChatGPT a entraîné une augmentation significative de la demande informatique et se développe actuellement avec les clients chinois. y compris Baidu et Ali. Recherche conjointe. **Wang Rui a révélé que le calcul haute performance et le calcul distribué ont été mis en place.

Un journaliste du Science and Technology Innovation Board Daily, un expert en technologie d'Intel, a partagé la disposition d'Intel dans le domaine des grands modèles. Au niveau de la formation, pour l'informatique hétérogène telle que CPU, GPU, IPU et Habana, Intel utilise les plates-formes oneAPI et XPU pour offrir plus de choix. En termes de raisonnement, après la sortie du Sapphire Rapids de quatrième génération, basé sur l'accélérateur AMX, il peut résoudre plus de 80% des besoins de raisonnement des clients dans l'industrie. Dans le même temps, il utilise également pleinement le processeur, y compris Ponte Vecchio pour l'entraînement et Arctic Sound pour le raisonnement.

Avec la montée en puissance des grands modèles, le modèle économique du cloud computing évolue vers le MaaS (Model as a Service), et la demande de puissance de calcul apportée par celui-ci est également digne d'attention.

"Son idée est d'utiliser le modèle de pré-formation pour former les données de l'industrie afin de former un modèle segmenté pour des scénarios spécifiques et pour diverses industries. Nous savons que le nombre de paramètres du modèle général est très important, par exemple, GPT-3 peut atteindre 175 milliards, le déploiement de ces modèles sera fastidieux, par conséquent, de grands modèles devront peut-être être distillés et compressés pour former un modèle pouvant être déployé par l'industrie », ont déclaré les experts techniques susmentionnés.

De plus, Le déploiement privatisé de grands modèles est une demande potentielle dans de nombreux secteurs. "De nombreuses industries subdivisées n'acceptent pas les services SaaS, en particulier les industries financières et autres. Par conséquent, Intel discute de la manière de miniaturiser ce modèle et de mettre en œuvre un déploiement privatisé localement afin qu'il puisse vraiment être mis en œuvre dans l'industrie."

Voir l'original

SugarCake · Accepted Answer

Pouces vers le haut