MediaTek : l'ère des tâches d'IA génératives côté mobile arrive, sans recourir au traitement cloud

Écrit par : Jason Perlow

Source : Zdnet

Source de l'image : générée par l'outil Unbounded AI

MediaTek collabore avec Lllama 2 LLM de Meta, conçu pour exécuter des tâches d'IA génératives directement sur les appareils mobiles, sans traitement basé sur le cloud. Il y a plusieurs avantages à faire cela, mais il y a aussi des problèmes correspondants.

L'intelligence artificielle générative est l'une des technologies émergentes les plus en vogue, alimentée par ChatGPT d'OpenAI et les systèmes de chat Bard de Google, ainsi que par des systèmes de génération d'images comme Stable Diffusion et DALL-E. Cela reste cependant quelque peu limité, car ces outils utilisent des centaines de GPU dans les centres de données cloud pour effectuer les calculs requis pour chaque requête.

Mais un jour, nous pourrons exécuter des tâches générées par l’IA directement sur les appareils mobiles. Ou dans une voiture connectée, ou dans le salon, la chambre et la cuisine, via des haut-parleurs intelligents comme Amazon Echo, Google Home ou Apple HomePod.

MediaTek estime que cet avenir est plus proche que nous ne le pensons. Aujourd'hui, la société de semi-conducteurs basée à Taiwan a annoncé son partenariat avec Meta pour combiner le Lllama 2 LLM du géant social avec la plate-forme de développement logiciel APU et NeuroPilot de dernière génération de la société afin d'exécuter des tâches d'IA générative sur l'appareil sans recourir à un traitement externe.

Bien sûr, cela pose un problème : cette combinaison n’éliminera pas complètement les centres de données. En raison de la taille des ensembles de données LLM (le nombre de paramètres qu'ils contiennent) et des performances requises du système de stockage, nous avons toujours besoin d'un centre de données, bien qu'à une échelle beaucoup plus petite.

Par exemple, le "petit" jeu de données de Llama 2 compte 7 milliards de paramètres, soit environ 13 Go, et convient à certaines fonctions d'IA génératives rudimentaires. Cependant, une version plus grande de 72 milliards de paramètres, même avec des techniques avancées de compression des données, nécessiterait une quantité de stockage proportionnellement importante au-delà des capacités pratiques des smartphones actuels. Dans les prochaines années, les LLM en développement auront facilement une taille de 10 à 100 fois supérieure à celle de Llama 2 ou GPT-4, avec des besoins de stockage de plusieurs centaines de gigaoctets ou plus.

C'est difficile à stocker sur un smartphone et à disposer de suffisamment d'IOPS pour les performances de la base de données, mais ce n'est certainement pas vrai pour un périphérique de mise en cache spécialement conçu avec un flash rapide et des téraoctets de RAM. Ainsi, avec Llama 2, il est désormais possible d'héberger un appareil optimisé pour servir des appareils mobiles dans une seule unité de rack sans calcul lourd. Ce n'est pas un téléphone, mais c'est impressionnant quand même !

MediaTek s'attend à ce que les applications d'IA basées sur Llama 2 soient lancées sur les smartphones alimentés par son SoC phare de nouvelle génération, qui devrait arriver sur le marché d'ici la fin de cette année.

Pour que l'IA générative intégrée aux appareils puisse accéder à ces ensembles de données, les opérateurs mobiles doivent s'appuyer sur des réseaux périphériques à faible latence : de petits centres de données/armoires d'équipement qui se connectent rapidement aux tours 5G. Ces centres de données seront situés directement sur le réseau de l'opérateur, de sorte que le LLM exécuté sur le smartphone n'aura pas besoin de passer par plusieurs « sauts » de réseau avant d'accéder aux données de paramètres.

En plus d'exécuter des charges de travail d'IA sur des appareils dotés de processeurs spécialisés tels que MediaTek, les LLM spécifiques à un domaine peuvent également être mélangés à ces dispositifs de mise en cache dans des micro-centres de données dans un scénario de «périphérie d'appareil contrainte».

Alors, quels sont les avantages de l’utilisation de l’IA générative sur les appareils ?

  • Latence réduite : Étant donné que les données sont traitées sur l'appareil, les temps de réponse sont considérablement réduits, en particulier si des méthodes de mise en cache localisées sont utilisées pour les parties fréquemment consultées des ensembles de données de paramètres.
  • Améliorer la confidentialité des données : En conservant les données sur l'appareil, les données (telles que les conversations de chat ou la formation soumise par l'utilisateur) ne sont pas transmises via le centre de données, uniquement via les données du modèle.
  • Efficacité de bande passante améliorée : Aujourd'hui, les tâches d'IA générative nécessitent que toutes les données d'une conversation utilisateur soient transmises dans les deux sens au centre de données. Avec un traitement localisé, une grande quantité de données sera effectuée sur l'appareil.
  • **Améliorez la résilience opérationnelle : **En générant sur l'appareil, le système peut continuer à fonctionner même si le réseau est interrompu, surtout si l'appareil dispose d'un cache de paramètres suffisamment grand.
  • Efficacité énergétique : Les centres de données ne nécessitent pas autant de ressources informatiques intensives, ni autant d'énergie pour transférer les données des appareils vers le centre de données.

Cependant, pour bénéficier de ces avantages, il faudra peut-être diviser les charges de travail et utiliser d'autres techniques d'équilibrage de charge pour décharger les coûts de calcul et les frais de réseau des centres de données centralisés.

Outre le besoin continu de centres de données périphériques à connexion rapide (bien qu'avec des besoins informatiques et énergétiques considérablement réduits), une autre question se pose : quelle est la puissance de LLM sur le matériel actuel ? Bien que les données sur l'appareil risquent moins d'être interceptées sur le réseau, si elles ne sont pas correctement gérées, le risque de sécurité d'infiltration de données sensibles sur l'appareil local augmentera également, et la mise à jour des données du modèle et la maintenance des données sur un grand nombre de données distribuées Périphériques de cache périphérique La cohérence est également un défi.

Enfin, il y a la question du coût : qui va payer pour tous ces petits centres de données en périphérie ? Les réseaux périphériques sont actuellement adoptés par des fournisseurs de services périphériques tels qu'Equinix, des services tels que Netflix et iTunes d'Apple nécessitent des réseaux périphériques, et les opérateurs de réseaux mobiles tels qu'AT&T, T-Mobile ou Verizon n'ont traditionnellement pas besoin de réseaux périphériques. Les fournisseurs de services d'IA générative tels que OpenAI/Microsoft, Google et Meta devront prendre des dispositions similaires.

L'IA générative sur appareil est un élément à prendre en compte, mais il est clair que les entreprises technologiques y réfléchissent. D’ici cinq ans, l’assistant intelligent de votre appareil pourrait penser par lui-même. Prêt à mettre l’intelligence artificielle dans votre poche ? Il arrive, et bien plus tôt que prévu.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Partager
Commentaire
0/400
Aucun commentaire
  • Épingler
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)