L'ère des grands modèles d'IA ≠ L'ère de l'IA avec uniquement de grands modèles

2023-09-27 09:43:40

Auteur 丨Jin Lei

SourceQubit QbitAI

Quel type de technologie peut survivre au baptême du temps et rester nouveau ?

La réponse peut être résumée dans un modèle de type « trilogie » : ascension, développement et application à grande échelle, plus une autre itération évolutive de ce processus.

En s'inspirant de l'histoire, la machine à vapeur a mené la première révolution industrielle. Lorsqu'elle a évolué vers le moteur à combustion interne et est devenue populaire, le perturbateur de la deuxième révolution industrielle - l'énergie électrique elle-même et divers équipements qui y sont liés en étaient à leurs balbutiements. les équipements évoluent vers une innovation itérative en microélectronique, divers moteurs à carburant sont encore améliorés et popularisés.

À en juger par cette règle, bien que les grands modèles de langage (LLM en abrégé) aient dominé tous les mots-clés liés à l'IA et attiré l'attention de tous depuis leur émergence, cela ne signifie pas qu'« il n'y avait pas d'IA avant LLM ».

Si les grands modèles volent la vedette, l'ancienne génération d'applications de machine learning, auparavant spécialisées dans la prise de décision, ainsi que les applications de deep learning « classiques » centrées sur les capacités de perception, ne chôment pas non plus : elles passent par leurs bruits bruyants. l'adolescence et l'entrée dans une pratique stable et pratique.

Quelles sont les preuves ?

Un important fabricant de puces a lancé une série de manuels pratiques sur l’IA, ciblant les pratiques de l’IA dans les secteurs de la fabrication et de l’énergie, de la médecine, de la finance, du transport et de la logistique, ainsi que de l’éducation.

Dans la mise à jour de cette année du Manuel pratique de l'IA pour la logistique, le transport et la santé, de nombreuses applications d'IA qui ont été ou sont en cours de mise en œuvre sont enregistrées, ainsi que la manière de les déployer en douceur et de libérer pleinement leur potentiel d'accélération des performances. ils sont également utilisés dans certaines têtes familières. Exemples d'application d'entreprises qui s'enfoncent profondément en première ligne.

L’IA ne concerne donc pas uniquement les grands modèles. L’ère des grands modèles d’IA aussi ≠ l’ère de l’IA avec uniquement de grands modèles.

L'IA mature a déjà été mise en œuvre

Peut-être n’arrivez-vous toujours pas à croire que la technologie de l’IA soit déjà à l’origine même des petites livraisons express.

C’est vrai, et elle intervient quasiment dans tout le processus logistique : commande, expédition, tri, transbordement, distribution… L’IA doit désormais tout « gérer ».

Prenons l'exemple de la technologie OCR (Optical Character Recognition) classique : son statut dans le « monde technique » de la logistique peut être considéré comme crucial, améliorant considérablement l'efficacité du travail.

Par exemple, lorsque l'expéditeur remplit l'adresse et les informations d'identité lors de l'expédition et que l'entrepôt de commerce électronique vérifie les informations sur le produit expédié, l'OCR peut être utilisé pour réaliser une saisie en un clic.

À mesure que la technologie de l'IA se perfectionne et que ses applications s'approfondissent, cette vitesse a atteint « il n'y a pas de plus rapide, seulement plus rapide ».

C'est le cas de Yunda Express, que nous connaissons : lors du processus de reconnaissance OCR en trois segments, on espérait à l'origine que l'IA pourrait atteindre une précision de reconnaissance OCR de 95 %.

En conséquence, l'IA actuelle a « donné une leçon à Yunda » : non seulement la précision a grimpé jusqu'à près de 98 %, mais le temps a également « chuté » : de 130 ms à 114 ms.

△Les résultats des tests de performance sont basés sur des tests effectués par Yunda en octobre 2022

De plus, la reconnaissance OCR ne représente qu'une petite partie de l'implication de l'IA dans le secteur de la logistique. Jetez un œil à une photo pour ressentir le pouvoir qu'elle joue désormais :

Eh bien, l’IA est tellement omniprésente qu’il n’est pas étonnant que la logistique nationale s’accélère.

Mais mes amis, ce n'est qu'un cas où l'IA accélère des milliers d'industries. En fait, nos voyages quotidiens sont également pleins de la « saveur » de l'IA.

Par exemple, la technologie d’analyse vidéo IA peut analyser les conditions de circulation sur les autoroutes en temps réel.

Qu'il s'agisse de surveillance du trafic, de reconnaissance des plaques d'immatriculation des véhicules ou d'alerte d'accident, etc., l'IA peut être considérée comme ayant une vue panoramique de tout.

De cette manière, les conditions routières peuvent être contrôlées de manière efficace et précise.

Un autre exemple est celui des aéroports : les caméras basées sur la technologie IA peuvent également identifier de manière précise les avions, les véhicules, le personnel et les violations des frontières, ce qui offre une certaine garantie pour la sécurité de la zone de vol.

……

Il n'est pas difficile de voir à partir des petits cas d'utilisation ci-dessus que l'IA « mature », ou ces applications d'IA vedettes populaires il y a quelques années, ne semblent peut-être pas être populaires, mais elles ont en fait pénétré tous les aspects de nos vies, et leur L'objectif principal est de "réduire les dépenses et d'améliorer l'efficacité".

Alors, qu’est-ce qui se cache derrière ces « économies de coûts et gains d’efficacité » ?

Ne soyez pas trop prétentieux, donnez simplement la réponse——

Ce sont les plates-formes Intel qui aident, en particulier les processeurs Xeon®️ Scalable. De même, le fabricant de puces que nous avons mentionné ci-dessus est également Intel, et c'est Intel qui a fourni des manuels pratiques d'IA pour plusieurs secteurs.

Mais ce qui libère de telles capacités n'est pas seulement un processeur, mais les bonus d'optimisation au niveau logiciel d'Intel ; en d'autres termes, c'est le résultat de « l'intégration du logiciel et du matériel ».

Cela se résume simplement à : des processeurs évolutifs Xeon®️ et leur accélérateur d'IA intégré, ainsi qu'une série de frameworks d'IA et de logiciels d'optimisation tels que OpenVINO™️ et oneAPI pour vous aider.

Il n’existe actuellement que deux facteurs qui affectent les performances des applications d’IA : la puissance de calcul et la vitesse d’accès aux données.

Le nombre de cœurs de processeur uniques dans les derniers processeurs évolutifs Xeon®️ de quatrième génération a augmenté pour atteindre un maximum de 60 cœurs. En termes de vitesse d'accès aux données, la taille du cache à tous les niveaux, le nombre de canaux mémoire, la vitesse d'accès à la mémoire, etc. ont été optimisés dans une certaine mesure. De plus, la technologie de mémoire à large bande passante HBM est également intégrée dans la série CPU Max.

De plus, le jeu d'instructions du processeur a également été optimisé et des accélérateurs matériels tels que Intel®️ Advanced Matrix Extensions (Intel®️ AMX) sont intégrés, qui sont responsables des calculs matriciels et de l'accélération des charges de travail d'apprentissage en profondeur. Il peut être appelé le C -bit d'applications d'IA accélérées par le processeur.

Il est quelque peu similaire au Tensor Core du GPU.

AMX se compose de deux parties, l'une est un fichier de registre 2D de 1 Ko et l'autre est le module TMUL, qui est utilisé pour exécuter des instructions de multiplication matricielle. Il peut prendre en charge les types de données INT8 et BF16, et BF16 a de meilleures performances informatiques que FP32.

Grâce au jeu d'instructions AMX, les performances sont améliorées jusqu'à 8 fois, voire plus, par rapport au jeu d'instructions de réseau neuronal vectoriel VNNI intégré au processeur évolutif Xeon®️ de génération précédente.

En plus de la plate-forme matérielle de base, ce qui aide réellement ces industries à mettre en œuvre des applications pratiques d’IA est une série d’outils logiciels d’IA « propres » à Intel, mais non « privés ».

Par exemple, l’accélération OCR évoquée précédemment est indissociable de l’optimisation d’OpenVINO™️, qui élimine de nombreux calculs redondants nécessaires à la partie formation et supporte principalement la partie inférence.

Il s'agit également d'un framework optimisé spécialement conçu pour le matériel Intel. Il ne faut que 5 lignes de code pour terminer le remplacement du framework d'origine.

Les utilisateurs peuvent optimiser les paramètres de fonctionnement d'OpenVINO™️ pour différents scénarios commerciaux.

Avec une telle combinaison de logiciels et de matériel, Intel non seulement libère pleinement le potentiel de calcul du CPU, mais atteint également des performances proches de celles du GPU dans des scénarios de raisonnement réels. Il présente également des avantages supplémentaires tels qu'un faible coût, un seuil bas et facilité d'utilisation.

Cependant, il ne s’agit que d’optimisations de technologies d’IA matures sur la plate-forme Intel®️. Les capacités d’Intel sont bien plus que cela.

Nous revenons au grand modèle.

Les grands modèles populaires s'accélèrent également

À l'heure actuelle, de grandes entreprises technologiques du monde entier recherchent de grands modèles linguistiques, après tout, le cercle technologique les considère désormais comme la tendance du développement futur.

Bien que comparée à ces technologies et applications d'IA matures, elle est encore loin d'une mise en œuvre à grande échelle, son leadership technologique est incontestable, et même les applications d'IA « ancienne génération » devraient y être combinées ou transformées par elle. Renouvelé.

En tant qu'accélérateur de puissance de calcul de base et de performances des applications, Intel se prépare également aux jours difficiles dans ce domaine concurrentiel et a déjà exposé ses plans.

Tout d’abord, quel que soit le niveau de développement d’un grand modèle, davantage de personnes doivent l’utiliser pour réaliser pleinement sa valeur. Si vous voulez y « jouer », le coût est un problème de longue date face à sa taille énorme.

Par conséquent, Intel a dévoilé un « outil magique de réduction de poids » amélioré qui peut affiner de 3/4 un grand modèle de langage avec un milliard de paramètres et améliorer sa précision, et peut également améliorer efficacement les performances d'inférence des grands modèles sur l'Intel. ®️ plateforme.

Plus précisément, la technologie SmoothQuant est utilisée, qu'Intel adapte à sa propre plate-forme et met en œuvre des améliorations. Cette approche a été intégrée à Intel®️ Neural Compressor. Il s'agit d'une bibliothèque Python open source qui contient une variété de techniques de compression de modèles couramment utilisées telles que la quantification, l'élagage (parcisté), la distillation (extraction de connaissances) et la recherche d'architecture neuronale. Elle prend déjà en charge une variété de matériel d'architecture Intel®️ et est compatible avec TensorFlow, frameworks grand public tels que PyTorch, ONNX Runtime et MXNet.

Deuxièmement, au niveau matériel, Intel a également fait quelques efforts.

Par exemple, le ChatGLM-6B, récemment populaire, utilise l'AMX Intel®️ intégré du processeur évolutif Xeon®️ de quatrième génération pour augmenter considérablement la vitesse de calcul du réglage fin du modèle ; il utilise le HBM intégré au processeur de la série Xeon®️ CPU Max. pour répondre aux besoins des utilisateurs à grande échelle.Grande bande passante mémoire requise pour le réglage fin du modèle.

△Architecture technologique Intel® AMX

En plus du processeur, Intel dispose également d'une puce d'accélération d'apprentissage en profondeur dédiée Habana®️ Gaudi®️2, qui peut déployer 8 cartes accélératrices (appelées Habana Processing Unit, appelée HPU) sur un seul serveur. Chaque carte a une mémoire jusqu'à 96 GB, offrant beaucoup d'espace pour les grands modèles.

Par conséquent, même un modèle de langage de niveau 100 milliards comme BLOOMZ avec 176 milliards de paramètres peut contrôler le délai de performance à 3,7 secondes après optimisation par Intel. Pour le modèle plus petit BLOOMZ-7B avec 7 milliards de paramètres, la latence d'un seul appareil dans Gaudi®️2 est d'environ 37,21 % de celle de Gaudi®️ de première génération ; et lorsque le nombre d'appareils est augmenté à 8, ce pourcentage chute encore à environ 24,33%.

△Résultats des tests de latence d'inférence BLOOMZ sur Gaudi®️2 et la première génération Gaudi®️

Ensuite, au niveau logiciel, pour les grands modèles de langage populaires comme ChatGLM, Intel peut également l'optimiser en créant un modèle avec état OpenVINO™ : compresser les poids pour réduire l'utilisation de la bande passante mémoire et améliorer la vitesse d'inférence.

Cela reflète directement l’approche « d’intégration logicielle et matérielle » d’Intel dans les applications de grands modèles. De plus, le matériel ne se limite plus au processeur, mais il existe également Gaudi®️ qui peut rivaliser avec le GPU en termes de performances d'entraînement et d'inférence et impressionner tout le monde en termes de rapport coût/performance.

Enfin, en termes de sécurité, Intel a également réalisé « le meilleur des deux mondes » : le Trusted Execution Environment (TEE) basé sur Intel®️ SGX/TDX peut fournir un environnement d'exploitation plus sûr pour les grands modèles sans échanger de performances.

Il s’agit de « l’approche d’accélération » d’Intel à l’ère des grands modèles d’IA.

Quels autres changements cela apportera-t-il ?

En regardant le développement de la technologie de l'IA, il n'est pas difficile de constater qu'Intel met en œuvre un principe très clair : l'utilisation est le dernier mot. Même son utilisation dans les centres de données et les périphéries ne suffit pas. Il est préférable que chaque ordinateur et chaque terminal d'information de chaque personne ait la capacité d'accélérer indépendamment les applications d'IA afin d'être satisfait « de base ».

Par conséquent, Intel a ajusté sa mission d'innovation pour : ajouter des capacités d'IA à divers produits matériels, promouvoir la vulgarisation des applications d'IA via des solutions logicielles ouvertes et multi-architectures et promouvoir l'essor de « l'économie de base ».

L'« approche d'accélération » d'Intel vise non seulement à permettre une mise en œuvre et une popularisation plus rapides de la technologie, mais également à promouvoir l'adoption, l'innovation et le changement, ouvrant ainsi la voie à la prochaine génération de changements technologiques.

Alors Intel a-t-il un objectif ultime sur cette voie ?

Peut-être comme cela a été répété et souligné lors d'Intel Innovation 2023 : que l'IA soit partout (AI Everywhere).

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

Récompense
J'aime
Commentaire
Partager

Commentaire

0/400

Aucun commentaire

Rubrique
1/3
1Simple Earn Annual Rate 24.4%
40k Popularité
2Gate Launchpad List IKA
42k Popularité
3ETH Trading Volume Surges
44k Popularité
4Gate ETH 10th Anniversary Celebration
23k Popularité
5Trump’s AI Strategy
18k Popularité

Épingler