Les grands modèles approfondissent la valeur des éléments de données : après les algorithmes et la puissance de calcul, la valeur des supports de stockage devient plus importante

2023-09-27 08:03:34

Article| Relativité intelligente** (aixdlun)**

Auteur | Ye Yuanfeng

18 800 milliards de dollars américains, soit la valeur totale que le marché s’attend à ce que l’économie intelligente basée sur l’IA génère en 2030. Parmi eux, le changement qualitatif des capacités de l’IA provoqué par les grands modèles deviendra sans aucun doute une force motrice importante.

Sous la vague des grands modèles, l’attention portée par l’industrie à toutes les dimensions de la troïka du développement de l’IA – puissance de calcul, algorithmes et données – a atteint un nouveau niveau. Éviter « l’effet baril » est devenu la considération primordiale dans le développement de grands modèles. des modèles.

Dans ce processus, l'attention de l'industrie sur les « données » se concentre souvent sur « quantité » + « qualité ». Une plus grande quantité de données et une meilleure qualité des données peuvent favoriser une meilleure formation et de meilleurs effets d'application des grands modèles. C'est devenu un consensus.

Cependant, comme l'innovation des grands modèles nécessite des données de plus en plus complexes, il ne suffit plus de se concentrer uniquement sur la « quantité » + la « qualité » des données. Le stockage capable de transporter des données et de répondre aux besoins des grands modèles mérite également l'attention de praticiens dans le domaine des grands modèles.

Lors de la récente Huawei Connectivity Conference 2023 (HC 2023), Huawei a systématiquement présenté comment ses solutions de stockage peuvent résoudre les problèmes liés à la formation et à l'application de grands modèles et soutenir le processus d'innovation des grands modèles.

Les actions de Huawei démontrent de manière panoramique l'essence du développement de grands modèles du point de vue des données - le développement à grande échelle d'« éléments de données » et comment l'innovation en matière de stockage fournit de la puissance pour cette essence, aidant ainsi les praticiens des grands modèles à mieux exploiter l'ère de l'économie intelligente.

L'ère des grands modèles est l'ère des éléments de données, et la valeur du stockage en tant que support est démontrée.

Il ne fait aucun doute que la demande en puissance de calcul, en algorithmes et en données pour les grands modèles augmente rapidement.

Selon les statistiques d'études de marché, au cours des cinq dernières années, les paramètres des grands modèles ont augmenté de 2 000 fois, la puissance de calcul requise a été multipliée par 50 000, la demande de stockage de données a augmenté de 100 000 fois et les besoins en bande passante du réseau associés. ont augmenté de 8 000 fois.

Les grandes ouvertures, les grandes fermetures et les demandes importantes nécessitent des installations et des investissements importants.

Cependant, du point de vue de l’innovation, en réalité, la difficulté des algorithmes et de la puissance de calcul diminue ou converge.

En termes de puissance de calcul, qui est un casse-tête pour de nombreuses entreprises, même si la quantité requise est importante, elle provient entièrement de NVIDIA, Ascend et d'autres ressources matérielles GPU, qui dépendent principalement des coûts d'investissement. En d’autres termes, tant que le budget est suffisant, les ressources informatiques peuvent être fournies.

Du côté des algorithmes, bien que les principaux fabricants continuent de s'adapter et d'itérer, ils adoptent généralement l'infrastructure du modèle Transformer, qui est développée sur la base des cadres de développement traditionnels tels que Pytorch, TensorFlow et MindSpore, et converge progressivement.

À ce moment-là, la pression vient sur les données.

Avec le développement en profondeur de grands modèles, la quantité totale de données requises est déjà passée du niveau To au niveau PB, et le « pool » requis devient de plus en plus grand ; dans le même temps, la demande de types de données est extrêmement riche et le modèle d'un texte unique Outre les modalités, les données multimodales telles que les images, les vidéos et les voix explosent et les besoins en données deviennent de plus en plus complexes. Tout cela teste la capacité de stockage et la manière dont pour mieux travailler avec la puissance de calcul et les algorithmes lors de la formation et de l'application. .

Durant cette période, de nombreux problèmes sont apparus, attendant d’être surmontés par le stockage, notamment :

Performances de lecture de petits fichiers. Les besoins en données des grands modèles concernent principalement de grandes quantités de petits fichiers tels que des images et des textes. Un seul serveur AI peut lire plus de 20 000 images par seconde, ce qui entraîne souvent une faible efficacité de chargement des données (similaire à l'action de copie sur un PC personnel). , équivalent à Sous l'espace requis, un dossier contenant un grand nombre de petits fichiers sera beaucoup plus lent qu'un seul gros fichier), affectant l'efficacité de la formation des gros modèles. À l'heure actuelle, les performances de petits fichiers volumineux sont devenues un goulot d'étranglement et les exigences de base pour un grand modèle avec des milliards de paramètres ont atteint 10 millions d'IOPS.

Le point d'arrêt CheckPoint reprend l'entraînement. Au cours du processus de formation d'un grand modèle, en raison de divers besoins tels que le réglage des paramètres, CheckPoint sera interrompu à des moments non spécifiés, puis redémarré pour poursuivre la formation (cela prend du temps et crée un écart dans l'utilisation des ressources GPU). Il s'agit d'une fonctionnalité très conviviale pour les modèles de formation à long terme, mais le réglage fréquent des paramètres par les entreprises entraîne souvent une réduction de l'utilisation du GPU (actuellement, le secteur s'interrompt généralement une fois tous les deux jours en moyenne, et l'utilisation du GPU n'est que de 40 %), ce qui nécessite du stockage. Ce n'est qu'avec de solides performances de lecture et d'écriture de fichiers volumineux que vous pourrez réduire le temps d'attente du GPU et améliorer l'efficacité de l'utilisation coûteuse des ressources.

Le problème de « l’hallucination de l’IA ». Le phénomène selon lequel les résultats de sortie des grands modèles sont « fabriqués au hasard » et sont manifestement en conflit avec les faits est un problème très gênant dans l'industrie. Ce phénomène d'autosatisfaction des grands modèles est appelé « illusion de l'IA ». Il semble qu'il s'agisse d'un problème algorithmique, mais en fait, l'industrie a progressivement découvert au cours de l'exploration que sa solution nécessite une « vérification » continue au niveau des données (se référant principalement à des informations contextuelles), ce qui nécessite essentiellement que le stockage puisse fournir un similaire Le système de connaissances du « Dictionnaire Encyclopédique » sert d '« hippocampe » du grand modèle pour fournir des connaissances précises de l'industrie.

On constate qu’au niveau de l’innovation, la résolution des problèmes de stockage rencontrés par les grands modèles peut avoir la priorité sur la puissance de calcul et les algorithmes.

Ce point permet en fait aux grands modèles de revenir davantage à leur essence, qui est d'utiliser des modèles d'IA avec des paramètres plus larges pour explorer davantage la valeur des éléments de données et promouvoir la transformation et la mise à niveau de milliers d'industries.

De nos jours, les éléments de données sont devenus les ressources essentielles de l'économie numérique et de la société de l'information et sont considérés comme un autre facteur de production important après la terre, le travail, le capital et la technologie. D'innombrables innovations, y compris les grands modèles, sont toutes basées sur des éléments de données. Développement profond de la valeur.

Le processus de développement de grands modèles peut être considéré comme un processus dans lequel les éléments de données continuent de passer de l'original à la valeur produite.

Dans ce processus, les algorithmes guident la direction depuis le début, vers des secteurs généraux ou spécifiques. La puissance de calcul croissante apporte une forte force motrice, tandis que le stockage fournit un support et des capacités de collaboration. Alors que la puissance de calcul repose principalement sur des investissements en coûts et que les algorithmes convergent progressivement, la valeur innovante du stockage en tant que support d’éléments de données devient de plus en plus importante.

Laissez la valeur des éléments de données se concrétiser, le stockage Huawei s'attaque aux problèmes dans plusieurs dimensions

Comment résoudre les problèmes de stockage ? Les produits de stockage de base de connaissances hautes performances OceanStor A800 de Huawei et les solutions correspondantes ont une efficacité de formation et de promotion de pointe dans les scénarios de formation et de promotion des modèles industriels. De manière générale, ils présentent quatre caractéristiques principales :

1. Performances globales extrêmement élevées, correspondant aux besoins de formation de grands modèles

La principale solution de stockage de Huawei est de répondre à l'énorme demande de données d'entraînement de grands modèles en termes de performances globales, en particulier la demande de performances de lecture de petits fichiers.

OceanStor A800 est basé sur une architecture de séparation CNC innovante. Il peut atteindre 24 millions d'IOPS dans une seule image. Son efficacité de chargement d'ensemble de formation est quatre fois supérieure à celle de l'industrie et ses performances peuvent être étendues de manière linéaire en fonction des besoins des clients. De plus, le système de fichiers distribué OceanFS atteint une dispersion globale équilibrée, éliminant les goulots d'étranglement du processeur, apportant une expérience ultime d'amélioration des performances pour les petits fichiers volumineux et répondant aux besoins de lecture d'un grand nombre de petits fichiers.

Tant qu'il y a une demande de performances, le stockage de Huawei peut « la supporter » même s'il est « augmenté ».

2. Optimiser les capacités spéciales pour répondre à des besoins spécifiques tels que la formation continue aux points d'arrêt

Comment mieux fournir une assistance dans des circonstances particulières telles que la poursuite de la formation au point d'arrêt est un défi que Huawei Storage doit relever simultanément pendant la phase de formation des grands modèles.

Grâce à la collaboration en matière de contrôle de disque et au système de fichiers parallèle NFS+, le stockage Huawei atteint une bande passante ultra-élevée de 500 Go/s en une seule image et peut réaliser une récupération ultra-rapide de CheckPoint. La vitesse de reprise de la formation aux points d'arrêt est trois fois supérieure à celle de l'industrie. La lecture et l'écriture de CheckPoint au niveau de l'ordinateur peuvent être réalisées à partir de quelques heures à quelques minutes (c'est-à-dire que le temps de récupération moyen des grands modèles avec des milliards de paramètres est accéléré d'heures à quelques minutes), réduisant ainsi l'attente coûteuse du GPU.

Tant que cela est nécessaire pour optimiser de grands modèles, les clients peuvent effectuer avec plus d'audace le réglage des paramètres et d'autres opérations.

De plus, son plan de gestion et de contrôle dispose de fonctionnalités de partitionnement des ressources et de planification unifiée, qui peuvent également rendre le stockage adapté à différents modèles commerciaux.

Quel que soit le modèle économique que les clients souhaitent développer, quel que soit le moment où ils choisissent de faire une pause dans le processus, Huawei Storage peut mieux y faire face.

3. Capacités de réponse améliorées pour répondre aux besoins en temps réel des applications de grands modèles

Une fois la phase de formation terminée, Huawei Storage doit répondre aux besoins stricts en matière de réponse aux données lors de la phase de candidature.

À l'heure actuelle, au stade de l'application de grands modèles, grâce à la base de connaissances vectorielles intégrée (stockant les connaissances de l'industrie sous forme de vecteurs), le QPS de stockage de Huawei a atteint plus de 250 000 et a pu atteindre une réponse de l'ordre de la milliseconde. D'une part, cela peut accélérer le raisonnement, ce qui réduit considérablement la consommation de ressources GPU pendant le processus de candidature, ce qui permet d'économiser efficacement les coûts de mise en œuvre - actuellement, de nombreux grands modèles consomment d'énormes ressources au cours de la phase d'application ouverte, et certaines entreprises sont débordées ; d'autre part. , le « dictionnaire encyclopédique » rend les grands modèles plus précis. La connaissance de l'industrie joue un rôle de soutien important dans la réduction de l'apparition d'hallucinations de l'IA et peut considérablement améliorer la précision du raisonnement.

4. L'innovation architecturale garantit la stabilité et la fiabilité de l'ensemble du système

La dernière et la plus fondamentale exigence en matière de stockage est que, quelles que soient ses caractéristiques, il doit garantir une structure globale stable et fiable sans causer de problèmes de sécurité ni « tomber de la chaîne ».

Le processus de Huawei Storage visant à résoudre une série d'exigences de problèmes de données de grands modèles a également augmenté la complexité des solutions et des systèmes de stockage dans une certaine mesure. Cependant, dans le même temps, Huawei n'a pas sacrifié la fiabilité du système. Architecture AA, elle peut atteindre 5 couches de protection complète et 6 neuf de fiabilité ultra-élevée.

En conséquence, la fiabilité des données et la stabilité de la formation des grands modèles sont garanties de bout en bout.

Celui qui construit des roues, parcourt le premier le long chemin

Le stockage de Huawei peut résoudre les problèmes liés aux données de grands modèles. La cause profonde réside dans son exploration innovante à long terme en matière de stockage.

L'architecture de séparation CNC de l'OceanStor A800 tire parti de l'innovation technologique de pointe de l'industrie en matière de lecture et d'écriture directes des données sur le disque, permettant au plan de données d'être directement connecté au disque et séparé du plan de contrôle pour obtenir des E/S directes, ainsi réduisant les opérations du processeur pendant la lecture et l'écriture des données, améliore considérablement les performances de stockage.

En fait, Huawei fait des efforts technologiques en matière de stockage depuis longtemps et a réalisé de nombreuses innovations de pointe similaires.

Actuellement, le stockage Huawei OceanStor compte 12 centres de R&D dans le monde, plus de 4 000 employés de R&D et plus de 3 000 brevets. Ses produits sont impliqués dans de nombreux domaines tels que les solutions de stockage NAS hautes performances, les solutions de stockage anti-ransomware, les solutions de stockage de conteneurs et virtualisation des centres de données, qui a été largement saluée.

Dans plus de 150 pays à travers le monde, le stockage Huawei a servi plus de 25 000 clients, notamment des opérateurs, des finances, des gouvernements, de l'énergie, de la médecine, de la fabrication, des transports et d'autres secteurs.

On peut dire que les capacités de stockage adaptées au développement de la valeur des éléments de données et aux besoins d'innovation des grands modèles sont le résultat inévitable du travail acharné à long terme de Huawei sur la voie du stockage - le stockage Huawei a déjà fait du bon travail pour répondre aux données. besoins de nombreux domaines (pas seulement les modèles à grande échelle). Modèle) fournit des préparations à une forte capacité de charge et à une synergie.

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

1 J'aime

Récompense
1
Commentaire
Partager

Commentaire

0/400

Aucun commentaire

Rubrique
1/3
1Simple Earn Annual Rate 24.4%
40k Popularité
2Gate Launchpad List IKA
42k Popularité
3ETH Trading Volume Surges
44k Popularité
4Gate ETH 10th Anniversary Celebration
23k Popularité
5Trump’s AI Strategy
18k Popularité

Épingler