Brisant le « monopole » de NVIDIA grâce à la différenciation, d-Matrix réduit de 30 fois le coût de la puissance de calcul par inférence de l’IA

2023-10-12 03:21:59

Source originale : Alpha Commune

Source de l’image : Généré par Unbounded AI

Derrière l’explosion de l’AIGC se cache la demande massive de formation et de raisonnement en IA. NVIDIA est actuellement le plus grand fournisseur de puissance de calcul de l’IA, et sa rentabilité au deuxième trimestre (en hausse de 854% d’une année sur l’autre) envoie un signal que la demande de l’industrie en puissance de calcul de l’IA est loin d’être satisfaite.

Le monopole de NVIDIA sur la puissance de calcul de l’IA (part de marché de plus de 80%) a inquiété de nombreuses entreprises qui utilisent la puissance de calcul de l’IA, Microsoft, Amazon et OpenAI construisent activement des cœurs, et OpenAI a également eu des scandales d’acquisition avec des startups de puces d’IA telles que Cerebras et Atomic Semi.

Les exigences de puissance de calcul de raisonnement de l’IA pour exécuter des applications d’IA dépasseront largement les exigences de puissance de calcul pour la formation de grands modèles à l’avenir, et les exigences de puissance de calcul de raisonnement ne sont pas les mêmes que la formation, et les GPU existants pour faire de l’inférence n’ont aucun avantage en termes de coût, ce qui nécessite des puces d’inférence d’IA propriétaires.

Récemment, d-Matrix, une start-up axée sur les puces de raisonnement IA, a reçu 110 millions de dollars en financement de série B, dirigé par Temasek, y compris des investisseurs de cycles de financement précédents tels que Playground Global, M12 (Microsoft Venture Capital Fund), Industry Ventures, Ericsson Ventures, Samsung Ventures, SK Hynix, etc., les investissements industriels représentant une part considérable. Sid Sheth, PDG de d-Matrix, a déclaré : « Ce sont des capitaux qui savent comment construire une entreprise de semi-conducteurs et qui peuvent travailler avec nous pendant longtemps. "

Le nouveau financement de d-Matrix sera utilisé pour construire Corsair, sa carte de calcul d’inférence de puces DIMC (Digital In-Memory Computing). Cette carte serait 9 fois plus rapide que le GPU NVIDIA H100, et dans le cas d’un cluster de cartes de calcul, elle est 20 fois plus économe en énergie, 20 fois moins de latence et jusqu’à 30 fois moins chère que les solutions similaires de NVIDIA.

Deux vétérans des puces visent à raisonner les besoins en puissance de calcul de l’IA à l’ère de l’AIGC

Les systèmes d’IA utilisent différents types de calcul lors de la formation de modèles d’IA par rapport à leur utilisation pour les prédictions et les inférences. L’inférence IA nécessite moins de puissance de calcul, mais lors de l’exécution d’un grand service d’IA, elle nécessite plus de puissance de calcul que de formation à long terme.

Il est difficile de déployer un centre de données dédié à l’inférence de l’IA à faible coût en utilisant le matériel d’IA existant. Il est rapporté que le service GitHub Copilot de Microsoft est affiché en moyenne 20 $ par utilisateur et par mois, et selon Dylan Patel, analyste principal chez SemiAnalysis, le coût d’investissement quotidien d’OpenAI exécutant ChatGPT peut atteindre 700 000 $. Ces coûts sont des coûts d’inférence de l’IA qui ne peuvent pas être réduits lors de l’exécution de services d’IA.

L’industrie de l’IA devrait se développer plus sainement, avec des coûts d’inférence et des coûts de consommation d’énergie plus faibles des puces d’inférence d’IA.

Deux vétérans de l’industrie des puces, Sid Sheth et Sudeep Bhoja, ont fondé d-Matrix en 2019 après avoir travaillé ensemble chez Marvell et Broadcom. En 2019, le modèle d’IA de l’architecture Transformer venait tout juste d’émerger, et ils ont vu le grand potentiel et l’opportunité de cette architecture de modèle et ont décidé de concevoir leur matériel d’IA spécifiquement pour ces grands modèles de langage.

Sid Sheth, PDG et cofondateur de d-Matrix, a déclaré: « Nous avons fait le pari en 2019 de nous concentrer sur une plate-forme d’accélération pour les modèles Transformer et de nous concentrer sur l’inférence, et à la fin de 2022, lorsque l’IA générative a explosé, d-Matrix est devenue l’une des rares entreprises à disposer d’une plate-forme de calcul d’inférence d’IA générative. Nous avons grandi et saisi cette opportunité en trois ans. Tout notre matériel et nos logiciels sont conçus pour accélérer les modèles Transformer et l’IA générative. "

Sid Sheth a poursuivi en décrivant le caractère unique du positionnement de d-Matrix sur le marché : « L’IA générative changera à jamais le paradigme de la façon dont les gens et les entreprises créent, travaillent et interagissent avec la technologie.

Mais le coût total de possession (TCO) actuel pour l’exécution de l’inférence IA augmente rapidement, et l’équipe de d-Matrix modifie l’économie des coûts du déploiement de l’inférence IA avec des solutions informatiques spécialement conçues pour les grands modèles de langage, et ce cycle de financement confirme davantage notre position dans l’industrie. "

Michael Stewart, un investisseur dans Microsoft M12, a déclaré : « Nous sommes officiellement entrés en production lorsque le TCO de l’inférence de modèle de langage à grande échelle devient un facteur limitant clé pour les entreprises d’utiliser l’IA avancée dans leurs services et applications. d-Matrix a suivi un plan qui fournira un coût total de possession de pointe pour une variété de scénarios potentiels de service de modèles en utilisant une architecture Chiplet flexible et résiliente basée sur une approche centrée sur la mémoire. "

Réduire le coût de l’inférence IA de 30x

L’utilisation de processeurs et de GPU pour la formation et l’inférence de l’IA n’est pas le moyen le plus efficace. Pour les opérations d’inférence IA, le déplacement des données est le plus gros goulot d’étranglement. Plus précisément, le transfert de données dans les deux sens vers la mémoire vive entraîne une latence importante, ce qui entraîne une augmentation de la consommation d’énergie et des coûts, et ralentit l’ensemble du système d’IA.

Il y a trois façons de résoudre ce problème.

Le premier accélère l’apprentissage profond en réduisant la quantité de données traitées par échantillonnage et pipelines, mais il limite également l’exactitude et la précision.

La seconde consiste à mettre en place un processeur de moteur d’IA dédié à proximité du processeur traditionnel, Apple, NVIDIA, Intel et AMD utilisent tous cette méthode, mais ces solutions utilisent toujours l’architecture de processeur von Neumann traditionnelle, pour intégrer la SRAM et la mémoire DRAM externe, elles doivent toutes déplacer les données dans et hors de la mémoire, ce qui entraîne toujours une consommation d’énergie élevée et une faible efficacité.

La troisième consiste à rapprocher le calcul de la RAM (mémoire), ce qui est l’approche adoptée par d-Matrix. Cette architecture de moteur, appelée Digital In-Memory Computing (DIMC), réduit la latence et la consommation d’énergie. Il est également bien adapté à l’inférence par IA, car l’inférence implique un ensemble de données pondéré relativement statique (mais volumineux) auquel on accède à plusieurs reprises, et DIMC élimine la plupart des frais de transfert d’énergie et des retards de déplacement des données.

d-Matrix utilise plusieurs puces pour construire des circuits intégrés plus grands, modulaires et évolutifs. Cela lui permet de créer des plates-formes évolutives pour les tâches d’inférence d’IA de niveau entreprise, aidant les entreprises d’IA à améliorer leurs performances et leur efficacité.

Jayhawk II Chiplet

En 2021, d-Matrix a lancé le Nighthawk Chiplet, après quoi ils ont lancé la Jayhawk Chiplet Platform, la première plate-forme de chiplet Bunch of Vores (BoW) de l’industrie conçue pour fournir une connectivité puce à puce basée sur un substrat organique économe en énergie.

Les premiers produits dotés de l’architecture DIMC de d-Matrix seront basés sur le processeur Jayhawk II récemment annoncé, un Chiplet contenant environ 16,5 milliards de transistors.

Chaque puce Jayhawk II contient un cœur RISC-V pour le gérer, 32 cœurs Apollo (chacun avec huit unités DIMC fonctionnant en parallèle) et 256 Mo de SRAM avec une bande passante de 150 To / s. Le cœur est connecté à l’aide d’une puce réseau spéciale avec une bande passante de 84 To / s.

Carte de calcul Corsair

d-Matrix a également introduit des cartes de calcul Corsair, similaires au H100 de NVIDIA, chaque carte informatique Corsair a 8 chiplets Jayhawk II, chaque Jayhawk II fournit une bande passante puce à puce de 2 To / s (250 Go / s) et une seule carte informatique Corsair a une bande passante globale puce à puce de 8 To / s (1 To / s).

L’architecture et l’évolutivité logicielle de d-Matrix lui permettent d’agréger la mémoire SRAM intégrée dans un pool de mémoire unifié qui fournit une bande passante très élevée. Par exemple, un serveur avec 16 cartes Corsair a 32 Go de SRAM et 2 To de LPDDR5, ce qui est suffisant pour exécuter un modèle Transformer avec 20 milliards à 30 milliards de paramètres.

d-Matrix affirme que les serveurs équipés de cartes de calcul Corsair réduisent le coût total de possession de l’inférence générative de l’IA de 10 à 30 fois par rapport aux solutions basées sur GPU, mais cet ensemble de matériel ne sera pas officiellement disponible avant 2024.

pile logicielle d-Matrix Aviator

La puissance de NVIDIA en matière de puissance de calcul de l’IA réside non seulement dans le GPU, mais aussi dans sa pile logicielle CUDA et ses nombreuses bibliothèques optimisées pour des charges de travail et des cas d’utilisation spécifiques, formant ainsi un écosystème complet.

d-Matrix offre également aux clients une expérience complète avec la pile logicielle Aviator ainsi que le matériel, qui comprend une gamme de logiciels pour le déploiement de modèles en production, tels que des chaînes d’outils ML, des logiciels système pour la distribution de la charge de travail, des logiciels de serveur d’inférence pour les déploiements de production, etc. Et une grande partie de sa pile logicielle exploite des logiciels open source largement adoptés.

Visez un modèle relativement petit

Sid Sheth, PDG de d-Matrix, a souligné qu’en plus de positionner l’inférence de l’IA, ils se concentrent davantage sur plusieurs milliards à des dizaines de milliards de modèles de petite et moyenne taille, plutôt que sur les centaines de milliards de grands modèles à usage général.

Karl Freund, fondateur et analyste principal de Cambrian AI, une société de recherche sur les semi-conducteurs et l’IA, est d’accord: « La plupart des entreprises ne déploient pas de modèles avec des centaines de milliards ou des billions de paramètres. Mais ils utiliseront les propres données de l’entreprise pour affiner le modèle, et le modèle qu’ils déploieront réellement sera beaucoup plus petit. Pour un modèle de cette taille, le NVIDIA H100 n’est pas nécessairement l’option la plus économique en matière d’inférence d’IA, et le H100 se vend actuellement jusqu’à 40 000 $. "

Il a également souligné que d-Matrix fait face à une fenêtre d’opportunité, et il a une période de temps relativement vide pour montrer sa valeur avant que des géants tels que Nvidia se tournent vers ce marché.

Pour l’instant, d-Matrix s’attend à un chiffre d’affaires ne dépassant pas 10 millions de dollars cette année, principalement de la part des clients qui achètent des puces pour évaluation. Le fondateur Sheth a déclaré que d-Matrix s’attend à un chiffre d’affaires annuel de plus de 70 à 75 millions de dollars sur deux ans et à un seuil de rentabilité. L’espace de marché auquel d-Matrix est confronté est énorme, et Cambrian AI prévoit que d’ici 2030, il est possible que le ratio de consommation de puissance de calcul des puces d’inférence AI atteigne plus de 1000 TOPS par watt.

L’autonomie et le coût sont le terrain pour les puces d’IA

D’une part, le terreau de survie des startups de puces d’IA telles que d-Matrix provient des besoins indépendants et contrôlables des fabricants d’IA, qu’il s’agisse de géants tels que Microsoft, Meta, Amazon, de super licornes telles que OpenAI, Anthropic, ou de startups de premier plan telles que Cohere, ils ne veulent pas que leur puissance de calcul d’IA soit liée à une seule entreprise.

D’autre part, le coût d’exploitation des services d’IA, pour les grandes entreprises modèles, à long terme, le coût de la puissance de calcul pour exécuter des services d’IA sera plus élevé que le coût de la puissance de calcul pour les modèles de formation, et à ce stade, le coût d’exploitation d’un seul utilisateur d’entreprises d’IA est un état déficitaire, et le coût total de possession (TCO) est également élevé. Pour les géants riches en liquidités, cette perte est abordable, mais pour les startups, c’est un fardeau énorme, ralentissant l’expansion de leur entreprise.

La puissance de calcul de raisonnement IA tierce et peu coûteuse est extrêmement nécessaire pour les géants et les startups.

A ce stade, quels sont les risques encourus par les startups dans le domaine des puces IA ? L’un est, bien sûr, le « monopole » du géant NVIDIA, ainsi que Microsoft, Meta, Google, OpenAI, les plus grandes sociétés d’IA ont développé des puces auto-développées, puis le problème écologique logiciel supportant la puce.

Et ces problèmes, d-Matrix est en train de les résoudre. Il cible le marché des modèles commerciaux d’IA de petite et moyenne taille et coopère également avec la communauté open source pour construire un écosystème logiciel, ce qui peut lui donner un avantage concurrentiel différencié dans la concurrence des géants.

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

Récompense
J'aime
Commentaire
Partager

Commentaire

0/400

Aucun commentaire

Rubrique
1/3
1BTC & ETH Launchpool Yield Exceeds 3%
17k Popularité
2White House Crypto Report
4k Popularité
3Fed Holds Rates Decision
5k Popularité
4Alpha Points System Opens
15k Popularité
5Ethereum 10th Anniversary
21k Popularité

Épingler