Combien d'étapes faut-il pour charger le grand modèle dans le téléphone mobile ?

Question

Source originale : intelligence du cône de lumière

Source de l'image : générée par l'IA illimitée‌

Le grand modèle "fonctionne" dans le téléphone mobile, et la bataille de l'IA a été brûlée du "cloud" au "terminal mobile".

« À l'ère de l'IA, le modèle Pangu de Huawei aidera l'écologie de Hongmeng. » Le 4 août, Yu Chengdong, directeur exécutif de Huawei, PDG du terminal BG et PDG de la solution de voiture intelligente BU, a présenté cela grâce à la technologie sous-jacente de Pangu. modèle, Harmony OS apporte Voici la prochaine génération de systèmes d'exploitation de terminaux intelligents.

L'utilisation de grands modèles sur les téléphones mobiles n'est pas nouvelle.Auparavant, des applications et des applets telles que ChatGPT, Wenxin Yiyan et Miaoya utilisaient toutes la puissance du cloud computing pour répondre aux besoins des applications d'IA sur les terminaux mobiles.

**La prochaine étape consiste à laisser le grand modèle fonctionner directement sur le téléphone mobile. **

Depuis avril et mai de cette année, les trois géants de la technologie américaine - Qualcomm, Microsoft et Nvidia, la star de l'IA la plus accrocheuse OpenAI, et l'"équipe principale" de l'IA nationale Tencent, Baidu, etc., ont tous accéléré leurs efforts dans les terminaux mobiles Déploiement allégé de grands modèles d'IA. Qualcomm a même annoncé qu'il se transformait progressivement en une société d'informatique de pointe intelligente (fournissant des services informatiques à des sources de données telles que des terminaux mobiles).

Sous la forte poussée des géants, la tendance industrielle des modèles à grande échelle passant du cloud à la fin est devenue très claire.

Pourquoi le grand modèle devrait-il "tourner" sur le téléphone portable ?

La plus grande caractéristique du grand modèle est "grande", avec des dizaines de milliards de milliards voire des billions de paramètres, et afin de mieux exécuter le grand modèle, le cluster de puissance de calcul a été mis à niveau au niveau "dix mille cartes". Maintenant, pourquoi devez-vous "fourrer" un grand modèle dans un petit téléphone portable de la taille d'une paume ?

Le grand modèle apporte des améliorations d'expérience aux utilisateurs de téléphones mobiles. Par exemple, Xiaoyi, l'assistant intelligent du terminal de Huawei, peut non seulement recommander des restaurants sur la base d'invites vocales, mais également effectuer un traitement de l'information tel que le résumé, la recherche d'informations et la traduction multilingue. Un long texte anglais avec des milliers de mots peut être traité par un mobile. assistant intelligent avec des capacités de modélisation à grande échelle. Un résumé est généré, qui peut également être traduit en chinois. Surtout ce dernier point, à l'ère de l'explosion de l'information, est encore très précieux pour améliorer l'efficacité de l'apprentissage et du travail.

** Jia Yongli, président du département Terminal BG AI et Intelligent All-Scenario Business de Huawei, a expliqué que, d'une part, le grand modèle de langage a la capacité de généraliser, ce qui peut aider les assistants intelligents de téléphones mobiles à améliorer leur compréhension. D'autre part, la capacité de plug-in du grand modèle Plug-in peut briser les barrières entre les applications du téléphone mobile et étendre les capacités à l'aide d'outils. **

De plus, les applications AIGC telles que ChatGPT ont toujours été accompagnées de solides conflits de confidentialité et de sécurité, mais si elles sont complètement exécutées du côté final, ce problème peut être complètement évité. Étant donné que le grand modèle s'exécute du côté final, les données ne quitteront pas le côté final. De plus, la vitesse de réponse sera plus rapide.

** D'autre part, la demande de grands modèles de terminaux mobiles tels que les téléphones portables est déjà très urgente. **

La tendance turbulente des grands modèles rend le cloud de plus en plus incapable de supporter seul la demande de puissance de calcul. Alex Katouzian, vice-président senior de Qualcomm, a récemment déclaré sans ambages : "Alors que la croissance des appareils connectés et du trafic de données s'accélère et que le coût des centres de données superposés augmente, il est impossible (pour nous) d'envoyer tout le contenu vers le cloud."

Sans compter la grande quantité de ressources telles que la bande passante du réseau, le stockage et le matériel consommés par la transmission de données, la puissance de calcul du cloud à elle seule a déjà dépassé les fabricants concernés. ChatGPT n'en est qu'au stade de l'inférence et on estime de manière prudente que le coût mensuel de la puissance de calcul est d'environ 10 millions de dollars américains.

Le plus gros problème n'est pas "cher", mais "manque".

Auparavant, même Sam Altaman, le fondateur d'OpenAI, avait révélé qu'il y avait une pénurie de GPU, et avait même carrément déclaré qu'il ne voulait pas que trop de gens utilisent ChatGPT. Récemment, certains initiés ont émis l'hypothèse que la capacité des clusters H100 à grande échelle de petits et grands fournisseurs de cloud est sur le point de s'épuiser, et que la tendance de la demande pour H100 se poursuivra au moins jusqu'à la fin de 2024. La capacité de production actuelle de Nvidia H100 est encore fortement limitée par la chaîne d'approvisionnement.

Par conséquent, le cloud et le terminal forment une coopération, et les ressources de puissance de calcul inutilisées des téléphones mobiles et autres terminaux sont utilisées pour résoudre l'inadéquation entre la puissance de calcul « centralisée » et la demande « distribuée ». Plus important encore, par rapport à un nombre limité de nœuds centraux, de nombreux terminaux mobiles peuvent être qualifiés de « capillaires » qui touchent des milliers de scénarios, ce qui détermine que cette entrée sera la clé pour accélérer la pénétration des applications de grands modèles.

Comment « empocher » le grand modèle ?

"Par rapport aux PC ou aux serveurs traditionnels, le plus grand défi pour les terminaux mobiles est de savoir comment équilibrer l'expérience et la consommation d'énergie. C'est l'un des points centraux les plus importants de la conception de base de Hongmeng. " Gong Ti, président du département Terminal Business Software de Huawei , souligné.

Un grand modèle nécessite beaucoup de ressources informatiques et de ressources de stockage, notamment en fonction de la configuration matérielle existante du téléphone mobile, ce qui nécessite la coordination du système logiciel pour améliorer l'efficacité et réduire la consommation d'énergie.

À l'heure actuelle, afin d'améliorer les performances des téléphones mobiles, au moins 8 cœurs de puce doivent être coordonnés par le système de téléphonie mobile, et ce processus consommera beaucoup de puissance de calcul. Si la planification des ressources hétérogènes est adoptée, le CPU, le GPU et le NPU peuvent être efficacement coordonnés. Selon Gong Ti, l'efficacité de la planification peut être augmentée de plus de 60 %.

Le système de téléphonie mobile peut effectuer des calculs et la plus petite unité de planification est appelée un thread. Dans un système d'exploitation traditionnel, des dizaines de milliers de threads s'exécutent en même temps et il y aura un grand nombre de threads invalides. Compte tenu de cela, un modèle de concurrence plus léger peut être utilisé pour gérer les opérations simultanées et réduire la consommation de puissance de calcul par la commutation de thread invalide. Selon Gong Ti, le modèle de simultanéité peut économiser 50 % des frais généraux de commutation de tâches.

De plus, en termes de planification des tâches dans le système d'exploitation, il s'agit également de l'élément le plus fondamental qui affecte la fluidité de l'expérience.Par rapport à la planification équitable, la planification prioritaire dynamique réduira considérablement la consommation d'énergie. La planification prioritaire dynamique est similaire à un système de transport intelligent, qui peut ajuster dynamiquement l'état d'éclairage des feux de circulation en fonction des conditions de la route et du flux de trafic, des embouteillages et des retards.

Cependant, pour que le grand modèle soit déployé sur le téléphone mobile et fonctionne toujours, il ne suffit pas de mettre à niveau et d'améliorer le système d'exploitation du téléphone mobile.

À mesure que les prédictions des grands modèles deviennent plus précises et que les réseaux deviennent plus profonds, la capacité de mémoire consommée par les réseaux de neurones est devenue un problème central. Dans le même temps, cela implique également le problème de la bande passante mémoire.Lorsque le réseau est en marche, la mémoire, le processeur et la batterie seront consommés rapidement.C'est certainement une charge insupportable pour les téléphones mobiles actuels.

** Par conséquent, avant de déployer sur le téléphone mobile, le grand modèle doit être compressé pour réduire la demande de puissance de calcul d'inférence. Cependant, il est important de s'assurer que les performances et la précision d'origine sont fondamentalement inchangées. **

La quantification est une opération de compression courante et importante, qui peut réduire l'espace mémoire occupé par le modèle et améliorer les performances d'inférence. Essentiellement, il s'agit de convertir le modèle d'opération en virgule flottante en un modèle d'opération sur nombre entier, car l'opération sur nombre entier a une précision plus élevée et une vitesse de fonctionnement plus rapide que l'opération en virgule flottante.

À l'heure actuelle, la technologie quantitative accélère également les percées. Le modèle formé sur le serveur utilise généralement des opérations à virgule flottante 32 bits (FP32). Du côté des téléphones mobiles, Qualcomm a quantifié et compressé le modèle FP32 au modèle INT4, réalisant 64 améliorations de l'efficacité énergétique de la mémoire et du calcul. Les données d'implémentation de Qualcomm montrent qu'après avoir utilisé l'entraînement de perception de quantification de Qualcomm, de nombreux modèles AIGC peuvent être quantifiés en modèles INT4.Par rapport à INT8, les performances sont améliorées d'environ 90 % et l'efficacité énergétique est améliorée d'environ 60 %.

La technologie de compression des grands modèles est sans aucun doute le facteur clé pour que les géants de l'IA gagnent le champ de bataille des terminaux mobiles. Cela explique aussi dans une certaine mesure pourquoi Nvidia a acquis "tranquillement" OmniML, une startup d'intelligence artificielle qui maîtrise la technologie de compression des grands modèles, en février de cette année.

Le grand modèle force le matériel du terminal à se mettre à niveau

"Cette année, nous serons en mesure de prendre en charge un modèle d'IA générative avec 10 milliards de paramètres exécutés sur un téléphone mobile." Ziad Asghar, vice-président senior de la gestion des produits et responsable de l'IA chez Qualcomm, a récemment déclaré qu'un modèle avec 10 milliards à 15 milliards de paramètres peuvent couvrir la plupart des données.La plupart des cas d'utilisation AIGC. Si le terminal peut déjà prendre en charge ce niveau de paramètres, tous les calculs peuvent être effectués sur le terminal et le téléphone mobile deviendra un véritable assistant personnel.

Cependant, la génération actuelle de puces phares pour téléphones mobiles peut transporter et exécuter un grand modèle avec un niveau de paramètre de 1 milliard. Qualcomm a présenté avec succès un grand modèle fonctionnant sur le système Android au CVPR, la plus grande conférence universitaire sur la vision par ordinateur en juin de cette année. , mais seulement 1,5 milliard de paramètres.

Les paramètres ont sauté presque dix fois, et le grand modèle se dirigeant vers le terminal mobile a déjà appuyé sur "l'accélérateur", de sorte que le téléphone mobile doit être mis à niveau pour y faire face.

** Le matériel de téléphonie mobile a un besoin urgent d'innovations dans les accélérateurs d'IA et la mémoire. **

Premièrement, les grands modèles avec des paramètres plus importants nécessitent une mémoire et un espace de stockage plus importants pour stocker les paramètres du modèle et les résultats intermédiaires. Cela nécessite une mise à niveau de la capacité de la puce mémoire du terminal mobile et de la bande passante de l'interface mémoire.

Deuxièmement, des paramètres plus importants nécessitent inévitablement des capacités de calcul et de raisonnement plus puissantes pour traiter les données d'entrée et les résultats de sortie.

Bien que les accélérateurs d'IA (tels que diverses adresses IP NPU) sur les puces de téléphone mobile soient presque standard, la conception est essentiellement pour la génération précédente de conception de réseau neuronal convolutif, pas complètement pour les grands modèles.

Afin de s'adapter aux grands modèles, les accélérateurs d'IA doivent disposer d'une plus grande bande passante d'accès à la mémoire et réduire la latence d'accès à la mémoire. Cela nécessite quelques changements dans l'interface de l'accélérateur AI (comme l'attribution de plus de broches à l'interface mémoire), et nécessite également des changements correspondants dans l'interconnexion de données sur puce pour répondre aux exigences d'accès à la mémoire de l'accélérateur AI.

L'une des raisons importantes pour lesquelles Qualcomm peut appeler "l'exécution de téléphones mobiles avec 10 milliards de paramètres dans l'année" est qu'il détient le processeur Snapdragon 8 de deuxième génération équipé du moteur d'IA le plus rapide et le plus avancé de l'histoire de Qualcomm. , les performances de l'IA ont été multipliées par 4,35 et l'efficacité énergétique a été augmentée de 60 %.

**Bien sûr, même dans le cloud, l'entraînement et le raisonnement des modèles de paramètres à très grande échelle doivent franchir cinq murs : mur de mémoire + mur de puissance de calcul + mur de communication + mur de réglage + mur de déploiement, et les téléphones mobiles doivent traverser couche par couche. **

Cependant, de « l'intelligence » à « l'intelligence artificielle », pour les téléphones mobiles, les opportunités l'emportent sur les défis.

"L'impact du cycle d'innovation sur l'électronique grand public est plus important, et il peut même sortir une industrie de l'impact du cycle économique." Le PDG de Glory Terminal, Zhao Ming, a estimé que l'industrie actuelle des smartphones est dans un nouveau cycle d'innovation. initié par l'IA et la 5G+.

Voir l'original