Il y a souvent l’illusion que les processeurs Intel se vendent bien et les attribuent à une entreprise de matériel prospère, alors qu’en fait, la domination d’Intel sur les processeurs de bureau est l’architecture X86, née en 1978.
La même illusion se retrouve chez Nvidia.
La raison pour laquelle NVIDIA peut monopoliser le marché des puces d’entraînement à l’intelligence artificielle, l’architecture CUDA est certainement l’un des héros dans les coulisses.
Cette architecture, née en 2006, a été impliquée dans tous les domaines de l’informatique informatique et a presque pris la forme de NVIDIA. 80 % de la recherche dans les domaines de l’aérospatiale, de la recherche en biosciences, de la simulation mécanique et des fluides et de l’exploration énergétique est menée sur la base de la CUDA.
Dans le domaine le plus en vogue de l’IA, presque tous les grands constructeurs se préparent au plan B : Google, Amazon, Huawei, Microsoft, OpenAI, Baidu... Personne ne veut que son avenir soit entre les mains d’autres personnes.
L’agence de conseil en services entrepreneuriaux Dealroom.co publié un ensemble de données, dans cette vague de chaleur de l’IA générative, les États-Unis ont obtenu 89% de l’investissement et du financement mondiaux, et dans l’investissement et le financement des puces d’IA, l’investissement et le financement des puces d’IA de la Chine se classent au premier rang mondial, plus de deux fois celui des États-Unis.
C’est-à-dire que, bien qu’il existe de nombreuses différences dans les méthodes et les étapes de développement des grands modèles des entreprises chinoises et américaines, tout le monde est particulièrement cohérent dans le contrôle de la puissance de calcul.
Pourquoi CUDA a-t-il cette magie ? **
En 2003, afin de concurrencer Intel, qui a introduit un processeur à 4 cœurs, NVIDIA a commencé à développer une technologie d’architecture de périphérique informatique unifiée, ou CUDA.
L’intention initiale de CUDA était d’ajouter une interface de programmation facile à utiliser au GPU, afin que les développeurs n’aient pas à apprendre des langages d’ombrage complexes ou des primitives de traitement graphique. L’idée originale de Nvidia était de fournir aux développeurs de jeux une application dans le domaine de l’informatique graphique, ce que Huang appelle « rendre les graphiques programmables ».
Cependant, depuis le lancement de CUDA, il n’a pas été en mesure de trouver des applications clés et manque d’un support client important. Et NVIDIA doit également dépenser beaucoup d’argent pour développer des applications, maintenir des services, promouvoir et commercialiser, et en 2008, il a rencontré une tempête financière, les revenus de Nvidia ont fortement chuté avec de mauvaises ventes de cartes graphiques, et le cours de l’action est tombé à seulement 1,50 $, pire que le pire moment d’AMD.
Ce n’est qu’en 2012 que deux étudiants de Hinton ont utilisé les GPU de NVIDIA pour rivaliser en matière de vitesse de reconnaissance d’image appelée ImageNet. Ils ont utilisé la carte graphique GTX580 et se sont entraînés avec la technologie CUDA, et les résultats ont été des dizaines de fois plus rapides que ceux de la deuxième place, et la précision était supérieure de plus de 10 % à celle de la deuxième place.
Ce n’est pas seulement le modèle ImageNet lui-même qui a choqué l’industrie. Ce réseau de neurones, qui nécessitait 14 millions d’images et un total de 262 quadrillions d’opérations en virgule flottante, n’a utilisé que quatre GTX 580 en une semaine d’entraînement. À titre de référence, Google Cat a utilisé 10 millions d’images, 16 000 processeurs et 1 000 ordinateurs.
Cette compétition n’est pas seulement un tournant historique pour l’IA, mais ouvre également une percée pour NVIDIA. NVIDIA a commencé à coopérer avec l’industrie pour promouvoir l’écosystème de l’IA, promouvoir les frameworks d’IA open source et coopérer avec Google, Facebook et d’autres entreprises pour promouvoir le développement de technologies d’IA telles que TensorFlow.
Cela équivaut à terminer la deuxième étape qui, selon Huang, « ouvre le GPU à la programmabilité pour toutes sortes de choses ».
Lorsque la valeur de la puissance de calcul des GPU a été découverte, les grands fabricants se sont également soudainement réveillés au fait que CUDA, que NVIDIA avait itéré et pavé pendant plusieurs années, était devenu un haut mur que l’IA ne pouvait pas éviter.
Afin de construire l’écosystème CUDA, NVIDIA fournit aux développeurs une multitude de bibliothèques et d’outils, tels que cuDNN, cuBLAS et TensorRT, etc., qui sont pratiques pour les développeurs d’effectuer des tâches d’apprentissage profond, d’algèbre linéaire et d’accélération d’inférence et autres. En outre, NVIDIA propose une chaîne d’outils de développement complète, y compris des compilateurs et des optimiseurs CUDA, ce qui facilite la programmation GPU et l’optimisation des performances pour les développeurs.
Dans le même temps, NVIDIA travaille également en étroite collaboration avec de nombreux frameworks de deep learning populaires tels que TensorFlow, PyTorch et MXNet, offrant à CUDA des avantages significatifs dans les tâches de deep learning.
Ce dévouement à « aider le cheval et à le conduire » a permis à NVIDIA de doubler le nombre de développeurs dans l’écosystème CUDA en seulement deux ans et demi.
Au cours de la dernière décennie, NVIDIA a fait la promotion des cours d’enseignement de CUDA auprès de plus de 350 universités, avec des développeurs professionnels et des experts du domaine sur la plate-forme qui ont fourni un support riche pour les applications CUDA en partageant leurs expériences et en répondant à des questions difficiles.
Plus important encore, NVIDIA sait que le défaut du matériel en tant que douve est qu’il n’y a pas d’adhérence de l’utilisateur, il regroupe donc le matériel avec le logiciel, le rendu GPU pour utiliser CUDA, la réduction du bruit de l’IA pour utiliser OptiX, l’informatique de conduite autonome a besoin de CUDA...
Bien que NVIDIA monopolise actuellement 90% du marché de la puissance de calcul de l’IA avec GPU + NVlink + CUDA, il y a plus d’une fissure dans l’empire.
Fissures
Les fabricants d’IA souffrent de CUDA depuis longtemps, et ce n’est pas alarmiste.
La magie de CUDA est qu’il est dans la position clé de la combinaison du logiciel et du matériel, qui est la pierre angulaire de l’ensemble de l’écosystème pour les logiciels, et il est difficile pour les concurrents de contourner CUDA pour être compatible avec l’écosystème de NVIDIA ; Pour le matériel, la conception de CUDA est essentiellement une abstraction logicielle sous la forme de matériel NVIDIA, et fondamentalement chaque concept de base correspond au concept matériel du GPU.
Ensuite, pour les concurrents, il ne reste plus que deux options :
1 Contourner CUDA et reconstruire un écosystème logiciel, ce qui nécessite de faire face à l’énorme défi de l’adhérence des utilisateurs de NVIDIA ;
2 Compatible avec CUDA, mais également confronté à deux problèmes, l’un est que si votre itinéraire matériel est incompatible avec NVIDIA, il est possible d’obtenir inefficace et inconfortable, et l’autre est que CUDA suivra l’évolution des caractéristiques matérielles NVIDIA, et la compatibilité ne peut que choisir de suivre.
Mais afin de se débarrasser de l’emprise de Nvidia, les deux options ont été essayées.
En 2016, AMD a lancé ROCm, un écosystème GPU basé sur des projets open source, fournissant des outils HIP entièrement compatibles avec CUDA, ce qui est un moyen de suivre la voie.
Cependant, en raison du manque de ressources de la bibliothèque de la chaîne d’outils et du coût élevé du développement et de la compatibilité des itérations, il est difficile pour l’écosystème ROCm de se développer. Sur Github, plus de 32 600 développeurs contribuent au dépôt de paquets CUDA, tandis que ROCm en compte moins de 600.
La difficulté d’emprunter la voie CUDA compatible NVIDIA est que sa vitesse d’itération de mise à jour ne peut jamais suivre CUDA et qu’il est difficile d’obtenir une compatibilité totale :
1 itération est toujours un pas plus lent : les GPU NVIDIA itèrent rapidement sur les microarchitectures et les jeux d’instructions, et de nombreux endroits dans la pile logicielle supérieure doivent également effectuer des mises à jour de fonctionnalités correspondantes. Mais AMD ne peut pas connaître la feuille de route des produits NVIDIA, et les mises à jour logicielles seront toujours un peu plus lentes que celles de NVIDIA. Par exemple, AMD vient peut-être d’annoncer la prise en charge de CUDA11, mais NVIDIA a déjà lancé CUDA12.
2 La difficulté de compatibilité totale augmentera la charge de travail des développeurs : les gros logiciels tels que CUDA lui-même sont très complexes, et AMD doit investir beaucoup de main-d’œuvre et de ressources matérielles pendant plusieurs années, voire plus d’une décennie, pour rattraper son retard. Parce qu’il y a des différences fonctionnelles inévitables, si la compatibilité n’est pas bien faite, cela affectera les performances (bien que 99% soient similaires, mais la résolution des 1% de différences restantes peut prendre 99% du temps du développeur).
Il existe également des entreprises qui choisissent de contourner CUDA, comme Modular, qui a été fondée en janvier 2022.
L’idée de Modular est de garder la barre aussi basse que possible, mais il s’agit plutôt d’une attaque surprise. Il propose un moteur d’IA « pour améliorer les performances des modèles d’intelligence artificielle » afin de résoudre le problème que « les piles d’applications d’IA actuelles sont souvent couplées à du matériel et des logiciels spécifiques » grâce à une approche « modulaire ».
Pour accompagner ce moteur d’IA, Modular a également développé le langage de programmation open-source Mojo. Vous pouvez le considérer comme un langage de programmation « construit pour l’IA », Modular l’utilise pour développer des outils à intégrer dans le moteur d’IA susmentionné, tout en s’intégrant de manière transparente à Python et en réduisant les coûts d’apprentissage.
Le problème avec Modular, cependant, est que sa vision des « outils de développement toutes plateformes » est trop idéaliste.
Bien qu’il porte le titre de « beyond Python » et qu’il soit approuvé par la réputation de Chris Lattner, Mojo, en tant que nouveau langage, doit être testé par de nombreux développeurs en termes de promotion.
Les moteurs d’IA sont confrontés à plus de problèmes, non seulement avec des accords avec de nombreux fabricants de matériel, mais aussi avec la compatibilité entre les plates-formes. Ce sont toutes des tâches qui nécessitent beaucoup de temps de polissage, et je crains que personne ne sache ce que Nvidia deviendra à ce moment-là.
Challenger Huawei
Le 17 octobre, les États-Unis ont mis à jour leurs règles de contrôle des exportations de puces d’IA, empêchant des entreprises telles que NVIDIA d’exporter des puces d’IA avancées vers la Chine. Selon les dernières règles, les exportations de puces de NVIDIA vers la Chine, y compris les A800 et H800, seront affectées.
Auparavant, après que les deux modèles de NVIDIA A100 et H100 aient été interdits d’exportation vers la Chine, les « versions castrées » A800 et H800 exclusivement destinées à la Chine ont été conçues pour se conformer à la réglementation. Intel a également lancé la puce d’IA Gaudi2 pour le marché chinois. Il semble maintenant que les entreprises devront adapter leur réponse à la nouvelle série d’interdictions d’exportation.
En août de cette année, le Mate60Pro équipé de la puce Kirin 9000S développée par Huawei a soudainement été mis en vente, ce qui a instantanément déclenché une énorme vague d’opinion publique, faisant qu’une autre nouvelle presque au même moment s’est rapidement noyée.
Liu Qingfeng, président d’iFLYTEK, a fait une rare déclaration lors d’un événement public, affirmant que le GPU de Huawei peut se comparer au NVIDIA A100, mais seulement si Huawei envoie un groupe de travail spécial pour optimiser le travail d’iFLYTEK.
De telles déclarations soudaines ont souvent des intentions profondes, et bien qu’elles n’aient pas la capacité de les prévoir, leur utilité est toujours de répondre à l’interdiction des puces deux mois plus tard.
Huawei GPU, la plate-forme logicielle et matérielle complète d’Ascend AI, comprend 5 couches, à savoir le matériel de la série Atlas, l’architecture informatique hétérogène, le cadre d’IA, l’activation des applications et les applications industrielles de bas en haut.
Fondamentalement, on peut comprendre que Huawei a fait un ensemble de remplacements pour NVIDIA, la couche de puce est Ascend 910 et Ascend 310, et l’architecture informatique hétérogène (CANN) évalue la couche logicielle de base NVIDIA CUDA + CuDNN.
Bien sûr, l’écart ne peut pas être absent, et certains praticiens pertinents ont résumé deux points :
1 Les performances d’une seule carte sont à la traîne, et il y a toujours un écart entre Ascend 910 et A100, mais la victoire est que le prix est bon marché et que le montant peut être empilé, et que l’écart global n’est pas grand après avoir atteint l’échelle du cluster ;
2 Les inconvénients écologiques existent, mais Huawei essaie également de rattraper son retard, par exemple, grâce à la coopération entre la communauté PyTorch et Ascend, la version 2.1 de PyTorch a pris en charge de manière synchrone Ascend NPU, ce qui signifie que les développeurs peuvent directement développer des modèles basés sur Ascend sur PyTorch 2.1.
À l’heure actuelle, Huawei Ascend exécute principalement les produits grand modèle en boucle fermée de Huawei, et tout modèle public doit être profondément optimisé par Huawei pour fonctionner sur la plate-forme de Huawei, et cette partie du travail d’optimisation repose fortement sur Huawei.
Dans le contexte actuel, Ascend revêt une importance particulière.
En mai de cette année, Zhang Dixuan, président de l’activité informatique Ascend de Huawei, a révélé que la plate-forme logicielle et matérielle de base « Ascend AI » a été incubée et adaptée à plus de 30 grands modèles grand public, et que plus de la moitié des grands modèles natifs de Chine sont basés sur la plate-forme logicielle et matérielle de base « Ascend AI », y compris la série Pengcheng, la série Zidong et la série HUAWEI CLOUD Pangu. En août de cette année, Baidu a également annoncé officiellement l’adaptation de l’IA Ascend avec le modèle aviron volant + Wen Xin.
Et selon une image circulant sur Internet, le Centre chinois de supercalcul intelligent est essentiellement Ascend, sauf qu’il n’est pas divulgué, et il est dit qu’après la nouvelle série de restrictions sur les puces, 30 à 40% de la capacité de production de puces de Huawei sera réservée au cluster Ascend, et le reste est Kirin.
Épilogue
En 2006, alors que NVIDIA déroulait son grand récit, personne ne pensait que CUDA serait un produit révolutionnaire, et Huang a dû persuader le conseil d’administration d’investir 500 millions de dollars par an pour parier sur une période de récupération inconnue de plus de 10 ans, et le chiffre d’affaires de NVIDIA n’était que de 3 milliards de dollars cette année-là.
Mais dans toutes les histoires d’affaires qui utilisent la technologie et l’innovation comme mots-clés, il y a toujours des gens qui ont connu un grand succès en raison de leur adhésion persistante à des objectifs à long terme, et NVIDIA et Huawei sont parmi les meilleurs.
Ressources
[1] La « faucille » de NVIDIA n’est pas une puce d’IA, un laboratoire à base de silicium
[2] Afin de devenir un « remplaçant de NVIDIA », les grands fabricants de modèles ont ouvert le livre, et la petite table à manger a créé des vêtements
[3] Seulement 1 an après sa création, cette startup star de l’IA veut défier NVIDIA et le kenet de magnésium
[4] Une fissure dans l’empire Nvidia, l’institut de recherche Enukawa
[5] Les États-Unis prévoient d’intensifier leurs exportations de puces vers la Chine, Huawei est à la tête de l’augmentation de la production nationale et West China Securities
[6] Rapport approfondi de l’industrie de l’AIGC (11) : Spin-off de la puissance de calcul de Huawei : le deuxième pôle de la puissance de calcul mondiale de l’IA, West China Securities
[7] Rapport spécial 2023 de l’industrie AIGC : Quatre grandes voies techniques des puces d’IA, Cambrian Copy NVIDIA, Shenwan Hongyuan
[8] Comment CUDA réalise NVIDIA : une grande percée dans l’IA, Tencent Cloud Community
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
NVIDIA : Empire Rift un par un
Source d’origine : Decode
Il y a souvent l’illusion que les processeurs Intel se vendent bien et les attribuent à une entreprise de matériel prospère, alors qu’en fait, la domination d’Intel sur les processeurs de bureau est l’architecture X86, née en 1978.
La même illusion se retrouve chez Nvidia.
La raison pour laquelle NVIDIA peut monopoliser le marché des puces d’entraînement à l’intelligence artificielle, l’architecture CUDA est certainement l’un des héros dans les coulisses.
Cette architecture, née en 2006, a été impliquée dans tous les domaines de l’informatique informatique et a presque pris la forme de NVIDIA. 80 % de la recherche dans les domaines de l’aérospatiale, de la recherche en biosciences, de la simulation mécanique et des fluides et de l’exploration énergétique est menée sur la base de la CUDA.
Dans le domaine le plus en vogue de l’IA, presque tous les grands constructeurs se préparent au plan B : Google, Amazon, Huawei, Microsoft, OpenAI, Baidu... Personne ne veut que son avenir soit entre les mains d’autres personnes.
L’agence de conseil en services entrepreneuriaux Dealroom.co publié un ensemble de données, dans cette vague de chaleur de l’IA générative, les États-Unis ont obtenu 89% de l’investissement et du financement mondiaux, et dans l’investissement et le financement des puces d’IA, l’investissement et le financement des puces d’IA de la Chine se classent au premier rang mondial, plus de deux fois celui des États-Unis.
C’est-à-dire que, bien qu’il existe de nombreuses différences dans les méthodes et les étapes de développement des grands modèles des entreprises chinoises et américaines, tout le monde est particulièrement cohérent dans le contrôle de la puissance de calcul.
Pourquoi CUDA a-t-il cette magie ? **
En 2003, afin de concurrencer Intel, qui a introduit un processeur à 4 cœurs, NVIDIA a commencé à développer une technologie d’architecture de périphérique informatique unifiée, ou CUDA.
L’intention initiale de CUDA était d’ajouter une interface de programmation facile à utiliser au GPU, afin que les développeurs n’aient pas à apprendre des langages d’ombrage complexes ou des primitives de traitement graphique. L’idée originale de Nvidia était de fournir aux développeurs de jeux une application dans le domaine de l’informatique graphique, ce que Huang appelle « rendre les graphiques programmables ».
Cependant, depuis le lancement de CUDA, il n’a pas été en mesure de trouver des applications clés et manque d’un support client important. Et NVIDIA doit également dépenser beaucoup d’argent pour développer des applications, maintenir des services, promouvoir et commercialiser, et en 2008, il a rencontré une tempête financière, les revenus de Nvidia ont fortement chuté avec de mauvaises ventes de cartes graphiques, et le cours de l’action est tombé à seulement 1,50 $, pire que le pire moment d’AMD.
Ce n’est qu’en 2012 que deux étudiants de Hinton ont utilisé les GPU de NVIDIA pour rivaliser en matière de vitesse de reconnaissance d’image appelée ImageNet. Ils ont utilisé la carte graphique GTX580 et se sont entraînés avec la technologie CUDA, et les résultats ont été des dizaines de fois plus rapides que ceux de la deuxième place, et la précision était supérieure de plus de 10 % à celle de la deuxième place.
Cette compétition n’est pas seulement un tournant historique pour l’IA, mais ouvre également une percée pour NVIDIA. NVIDIA a commencé à coopérer avec l’industrie pour promouvoir l’écosystème de l’IA, promouvoir les frameworks d’IA open source et coopérer avec Google, Facebook et d’autres entreprises pour promouvoir le développement de technologies d’IA telles que TensorFlow.
Cela équivaut à terminer la deuxième étape qui, selon Huang, « ouvre le GPU à la programmabilité pour toutes sortes de choses ».
Lorsque la valeur de la puissance de calcul des GPU a été découverte, les grands fabricants se sont également soudainement réveillés au fait que CUDA, que NVIDIA avait itéré et pavé pendant plusieurs années, était devenu un haut mur que l’IA ne pouvait pas éviter.
Afin de construire l’écosystème CUDA, NVIDIA fournit aux développeurs une multitude de bibliothèques et d’outils, tels que cuDNN, cuBLAS et TensorRT, etc., qui sont pratiques pour les développeurs d’effectuer des tâches d’apprentissage profond, d’algèbre linéaire et d’accélération d’inférence et autres. En outre, NVIDIA propose une chaîne d’outils de développement complète, y compris des compilateurs et des optimiseurs CUDA, ce qui facilite la programmation GPU et l’optimisation des performances pour les développeurs.
Dans le même temps, NVIDIA travaille également en étroite collaboration avec de nombreux frameworks de deep learning populaires tels que TensorFlow, PyTorch et MXNet, offrant à CUDA des avantages significatifs dans les tâches de deep learning.
Ce dévouement à « aider le cheval et à le conduire » a permis à NVIDIA de doubler le nombre de développeurs dans l’écosystème CUDA en seulement deux ans et demi.
Au cours de la dernière décennie, NVIDIA a fait la promotion des cours d’enseignement de CUDA auprès de plus de 350 universités, avec des développeurs professionnels et des experts du domaine sur la plate-forme qui ont fourni un support riche pour les applications CUDA en partageant leurs expériences et en répondant à des questions difficiles.
Plus important encore, NVIDIA sait que le défaut du matériel en tant que douve est qu’il n’y a pas d’adhérence de l’utilisateur, il regroupe donc le matériel avec le logiciel, le rendu GPU pour utiliser CUDA, la réduction du bruit de l’IA pour utiliser OptiX, l’informatique de conduite autonome a besoin de CUDA...
Bien que NVIDIA monopolise actuellement 90% du marché de la puissance de calcul de l’IA avec GPU + NVlink + CUDA, il y a plus d’une fissure dans l’empire.
Fissures
Les fabricants d’IA souffrent de CUDA depuis longtemps, et ce n’est pas alarmiste.
La magie de CUDA est qu’il est dans la position clé de la combinaison du logiciel et du matériel, qui est la pierre angulaire de l’ensemble de l’écosystème pour les logiciels, et il est difficile pour les concurrents de contourner CUDA pour être compatible avec l’écosystème de NVIDIA ; Pour le matériel, la conception de CUDA est essentiellement une abstraction logicielle sous la forme de matériel NVIDIA, et fondamentalement chaque concept de base correspond au concept matériel du GPU.
Ensuite, pour les concurrents, il ne reste plus que deux options :
1 Contourner CUDA et reconstruire un écosystème logiciel, ce qui nécessite de faire face à l’énorme défi de l’adhérence des utilisateurs de NVIDIA ;
2 Compatible avec CUDA, mais également confronté à deux problèmes, l’un est que si votre itinéraire matériel est incompatible avec NVIDIA, il est possible d’obtenir inefficace et inconfortable, et l’autre est que CUDA suivra l’évolution des caractéristiques matérielles NVIDIA, et la compatibilité ne peut que choisir de suivre.
Mais afin de se débarrasser de l’emprise de Nvidia, les deux options ont été essayées.
En 2016, AMD a lancé ROCm, un écosystème GPU basé sur des projets open source, fournissant des outils HIP entièrement compatibles avec CUDA, ce qui est un moyen de suivre la voie.
Cependant, en raison du manque de ressources de la bibliothèque de la chaîne d’outils et du coût élevé du développement et de la compatibilité des itérations, il est difficile pour l’écosystème ROCm de se développer. Sur Github, plus de 32 600 développeurs contribuent au dépôt de paquets CUDA, tandis que ROCm en compte moins de 600.
La difficulté d’emprunter la voie CUDA compatible NVIDIA est que sa vitesse d’itération de mise à jour ne peut jamais suivre CUDA et qu’il est difficile d’obtenir une compatibilité totale :
1 itération est toujours un pas plus lent : les GPU NVIDIA itèrent rapidement sur les microarchitectures et les jeux d’instructions, et de nombreux endroits dans la pile logicielle supérieure doivent également effectuer des mises à jour de fonctionnalités correspondantes. Mais AMD ne peut pas connaître la feuille de route des produits NVIDIA, et les mises à jour logicielles seront toujours un peu plus lentes que celles de NVIDIA. Par exemple, AMD vient peut-être d’annoncer la prise en charge de CUDA11, mais NVIDIA a déjà lancé CUDA12.
2 La difficulté de compatibilité totale augmentera la charge de travail des développeurs : les gros logiciels tels que CUDA lui-même sont très complexes, et AMD doit investir beaucoup de main-d’œuvre et de ressources matérielles pendant plusieurs années, voire plus d’une décennie, pour rattraper son retard. Parce qu’il y a des différences fonctionnelles inévitables, si la compatibilité n’est pas bien faite, cela affectera les performances (bien que 99% soient similaires, mais la résolution des 1% de différences restantes peut prendre 99% du temps du développeur).
Il existe également des entreprises qui choisissent de contourner CUDA, comme Modular, qui a été fondée en janvier 2022.
Pour accompagner ce moteur d’IA, Modular a également développé le langage de programmation open-source Mojo. Vous pouvez le considérer comme un langage de programmation « construit pour l’IA », Modular l’utilise pour développer des outils à intégrer dans le moteur d’IA susmentionné, tout en s’intégrant de manière transparente à Python et en réduisant les coûts d’apprentissage.
Le problème avec Modular, cependant, est que sa vision des « outils de développement toutes plateformes » est trop idéaliste.
Bien qu’il porte le titre de « beyond Python » et qu’il soit approuvé par la réputation de Chris Lattner, Mojo, en tant que nouveau langage, doit être testé par de nombreux développeurs en termes de promotion.
Les moteurs d’IA sont confrontés à plus de problèmes, non seulement avec des accords avec de nombreux fabricants de matériel, mais aussi avec la compatibilité entre les plates-formes. Ce sont toutes des tâches qui nécessitent beaucoup de temps de polissage, et je crains que personne ne sache ce que Nvidia deviendra à ce moment-là.
Challenger Huawei
Le 17 octobre, les États-Unis ont mis à jour leurs règles de contrôle des exportations de puces d’IA, empêchant des entreprises telles que NVIDIA d’exporter des puces d’IA avancées vers la Chine. Selon les dernières règles, les exportations de puces de NVIDIA vers la Chine, y compris les A800 et H800, seront affectées.
Auparavant, après que les deux modèles de NVIDIA A100 et H100 aient été interdits d’exportation vers la Chine, les « versions castrées » A800 et H800 exclusivement destinées à la Chine ont été conçues pour se conformer à la réglementation. Intel a également lancé la puce d’IA Gaudi2 pour le marché chinois. Il semble maintenant que les entreprises devront adapter leur réponse à la nouvelle série d’interdictions d’exportation.
En août de cette année, le Mate60Pro équipé de la puce Kirin 9000S développée par Huawei a soudainement été mis en vente, ce qui a instantanément déclenché une énorme vague d’opinion publique, faisant qu’une autre nouvelle presque au même moment s’est rapidement noyée.
Liu Qingfeng, président d’iFLYTEK, a fait une rare déclaration lors d’un événement public, affirmant que le GPU de Huawei peut se comparer au NVIDIA A100, mais seulement si Huawei envoie un groupe de travail spécial pour optimiser le travail d’iFLYTEK.
De telles déclarations soudaines ont souvent des intentions profondes, et bien qu’elles n’aient pas la capacité de les prévoir, leur utilité est toujours de répondre à l’interdiction des puces deux mois plus tard.
Huawei GPU, la plate-forme logicielle et matérielle complète d’Ascend AI, comprend 5 couches, à savoir le matériel de la série Atlas, l’architecture informatique hétérogène, le cadre d’IA, l’activation des applications et les applications industrielles de bas en haut.
Fondamentalement, on peut comprendre que Huawei a fait un ensemble de remplacements pour NVIDIA, la couche de puce est Ascend 910 et Ascend 310, et l’architecture informatique hétérogène (CANN) évalue la couche logicielle de base NVIDIA CUDA + CuDNN.
1 Les performances d’une seule carte sont à la traîne, et il y a toujours un écart entre Ascend 910 et A100, mais la victoire est que le prix est bon marché et que le montant peut être empilé, et que l’écart global n’est pas grand après avoir atteint l’échelle du cluster ;
2 Les inconvénients écologiques existent, mais Huawei essaie également de rattraper son retard, par exemple, grâce à la coopération entre la communauté PyTorch et Ascend, la version 2.1 de PyTorch a pris en charge de manière synchrone Ascend NPU, ce qui signifie que les développeurs peuvent directement développer des modèles basés sur Ascend sur PyTorch 2.1.
À l’heure actuelle, Huawei Ascend exécute principalement les produits grand modèle en boucle fermée de Huawei, et tout modèle public doit être profondément optimisé par Huawei pour fonctionner sur la plate-forme de Huawei, et cette partie du travail d’optimisation repose fortement sur Huawei.
Dans le contexte actuel, Ascend revêt une importance particulière.
En mai de cette année, Zhang Dixuan, président de l’activité informatique Ascend de Huawei, a révélé que la plate-forme logicielle et matérielle de base « Ascend AI » a été incubée et adaptée à plus de 30 grands modèles grand public, et que plus de la moitié des grands modèles natifs de Chine sont basés sur la plate-forme logicielle et matérielle de base « Ascend AI », y compris la série Pengcheng, la série Zidong et la série HUAWEI CLOUD Pangu. En août de cette année, Baidu a également annoncé officiellement l’adaptation de l’IA Ascend avec le modèle aviron volant + Wen Xin.
Épilogue
En 2006, alors que NVIDIA déroulait son grand récit, personne ne pensait que CUDA serait un produit révolutionnaire, et Huang a dû persuader le conseil d’administration d’investir 500 millions de dollars par an pour parier sur une période de récupération inconnue de plus de 10 ans, et le chiffre d’affaires de NVIDIA n’était que de 3 milliards de dollars cette année-là.
Mais dans toutes les histoires d’affaires qui utilisent la technologie et l’innovation comme mots-clés, il y a toujours des gens qui ont connu un grand succès en raison de leur adhésion persistante à des objectifs à long terme, et NVIDIA et Huawei sont parmi les meilleurs.
Ressources
[1] La « faucille » de NVIDIA n’est pas une puce d’IA, un laboratoire à base de silicium
[2] Afin de devenir un « remplaçant de NVIDIA », les grands fabricants de modèles ont ouvert le livre, et la petite table à manger a créé des vêtements
[3] Seulement 1 an après sa création, cette startup star de l’IA veut défier NVIDIA et le kenet de magnésium
[4] Une fissure dans l’empire Nvidia, l’institut de recherche Enukawa
[5] Les États-Unis prévoient d’intensifier leurs exportations de puces vers la Chine, Huawei est à la tête de l’augmentation de la production nationale et West China Securities
[6] Rapport approfondi de l’industrie de l’AIGC (11) : Spin-off de la puissance de calcul de Huawei : le deuxième pôle de la puissance de calcul mondiale de l’IA, West China Securities
[7] Rapport spécial 2023 de l’industrie AIGC : Quatre grandes voies techniques des puces d’IA, Cambrian Copy NVIDIA, Shenwan Hongyuan
[8] Comment CUDA réalise NVIDIA : une grande percée dans l’IA, Tencent Cloud Community