Mise à niveau majeure de la puce Google AI : ciblant les grands modèles et l'IA générative, et intégrant également les cadres d'apprentissage profond traditionnels
Depuis longtemps, Google a construit des capacités d'IA de pointe, telles que l'architecture Transformer qui mène le développement d'une nouvelle génération d'intelligence artificielle, et l'infrastructure optimisée avec l'IA. Parmi eux, Google Cloud s'engage à fournir des services d'infrastructure d'IA avancés, notamment GPU et TPU.
Le 29 août, heure locale, Google Cloud a organisé la conférence annuelle Google Cloud Next '23 et a lancé un nouveau produit TPU - Cloud TPU v5e, qui est un portefeuille de produits d'infrastructure optimisé pour l'IA et qui deviendra le plus rentable à ce jour. Cloud TPU polyvalent et évolutif. Une version préliminaire est actuellement disponible.
Nous avons appris que TPU v5e peut être intégré à Google Kubernetes Engine (GKE), à l'outil de développement Vertex AI pour créer des modèles et des applications d'IA, ainsi qu'à des frameworks d'apprentissage en profondeur tels que Pytorch, JAX et TensorFlow, offrant une interface familière et facile à utiliser. . , très facile pour démarrer.
Google Cloud a également lancé A3 VMs, un supercalculateur GPU basé sur le GPU H100 de Nvidia, pour prendre en charge les modèles d'IA à grande échelle. Le produit sera généralement disponible en septembre.
*Pichai, PDG de Google. *
**Tweet de Jeff Dean, scientifique en chef chez Google et universitaire renommé. *
En outre, lors de l'événement, Google a également annoncé qu'il ajouterait des outils d'IA (tels que Llama 2 et Claude 2) d'entreprises telles que Meta et Anthropic à sa plate-forme cloud, intégrant ainsi de puissantes capacités d'IA générative dans les produits cloud. Actuellement, dont Llama 2 et Claude 2, les clients de Google Cloud ont accès à plus de 100 modèles et outils d'IA puissants.
Par rapport au TPU v4, dans quels aspects le TPU v5e a-t-il été mis à niveau
Quelles sont les performances et la facilité d'utilisation du TPU v5e lancé cette fois par Google Cloud ? Voyons.
Selon les données officielles, Cloud TPU v5e apporte des performances élevées et une rentabilité élevée à la formation et à l'inférence à moyenne et grande échelle. On peut dire que cette génération de TPU est spécialement conçue pour les grands modèles de langage et les modèles d'IA génératifs. Par rapport à la génération précédente de TPU v4, les performances de formation par dollar sont améliorées jusqu'à 2 fois et les performances d'inférence par dollar sont améliorées de jusqu'à 2,5 fois. Et le coût du TPU v5e est inférieur de moitié à celui du TPU v4, ce qui donne à davantage d’institutions la possibilité de former et de déployer des modèles d’IA plus grands et plus complexes.
*Puce TPU v5e. *
Il convient de mentionner que, grâce à l’innovation technologique, ces avantages en termes de coûts ne nécessitent aucun sacrifice en termes de performances ou de flexibilité. Google Cloud utilise des pods TPU v5e pour équilibrer performances, flexibilité et efficacité, permettant d'interconnecter jusqu'à 256 puces, avec une bande passante totale de plus de 400 To/s et des performances INT8 de 100 petaOps.
*Un détail de tranche 2D du TPU v5e. *
Le TPU v5e présente également une grande polyvalence, prenant en charge huit configurations de machines virtuelles différentes, et le nombre de puces dans une seule puce peut varier de 1 à 256, permettant aux clients de choisir la configuration appropriée pour prendre en charge de grands modèles de langage et des IA génératives de différentes échelles.
En plus d'une fonctionnalité et d'une rentabilité accrues, le TPU v5e élève également la facilité d'utilisation à un tout autre niveau. Les clients peuvent désormais utiliser Google Kubernetes Engine (GKE) pour gérer l'orchestration des charges de travail d'IA à grande échelle sur TPU v5e et TPU v4, améliorant ainsi l'efficacité du développement de l'IA. Pour les organisations qui préfèrent un service géré simple, Vertex AI prend désormais en charge l'utilisation de machines virtuelles Cloud TPU pour former différents frameworks et bibliothèques.
De plus, comme mentionné précédemment, Cloud TPU v5e offre une prise en charge intégrée des principaux frameworks d'IA tels que JAX, PyTorch et TensorFlow, ainsi que des outils open source populaires (Transformers and Accelerate de Huggingface, PyTorch Lightning et Ray). La prochaine version PyTorch/XLA 2.1 prendra en charge TPU v5e et de nouvelles fonctionnalités telles que la modélisation et le parallélisme des données pour la formation de modèles à grande échelle.
Enfin, pour faciliter l'extension du travail de formation, Google Cloud a introduit la technologie Multislice dans la version préliminaire de TPU v5e, permettant aux utilisateurs d'étendre facilement les modèles d'IA au-delà de la portée des pods TPU physiques pour accueillir jusqu'à des dizaines de milliers de TPU v5e ou TPU. Puces v4. .
*Utilisez plusieurs tranches de pods TPU pour obtenir une expansion linéaire des performances. *
À l'heure actuelle, les tâches de formation utilisant des TPU sont limitées à une seule puce TPU, le TPU v4 ayant un nombre maximum de tranches de 3 072. Avec Multislice, les développeurs peuvent faire évoluer les charges de travail jusqu'à des dizaines de milliers de puces à l'aide de la technologie ICI (Intra-Chip Interconnect) au sein d'un seul pod ou via plusieurs pods sur un réseau de centre de données (DCN).
Cette technique de découpage multicouche permet à Google de créer son modèle PaLM de pointe. Désormais, les clients de Google Cloud peuvent également profiter de cette technologie.
Le TPU v5e amélioré a été hautement reconnu par les clients. Domenic Donato, vice-président de la technologie chez AssemblyAI, a déclaré que lors de l'utilisation du TPU v5e pour exécuter des inférences sur leur modèle ASR (reconnaissance automatique de la parole), les performances par dollar sont systématiquement 4 fois supérieures à celles des solutions similaires sur le marché. Cette puissante combinaison de logiciels et de matériel peut fournir à leurs clients des solutions d'IA plus rentables.
Alors que Google Cloud continue de mettre à niveau son infrastructure d'IA, de plus en plus de clients choisiront d'utiliser les services Google Cloud. Selon l'introduction précédente de la société mère de Google, Aplabet, plus de la moitié des startups d'IA générative utilisent la plateforme de cloud computing de Google.
Pour Google, le Cloud TPU v5e est le prélude à une nouvelle évolution du modèle de produit et à l'autonomisation des clients cloud.
Lien de référence :
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
Mise à niveau majeure de la puce Google AI : ciblant les grands modèles et l'IA générative, et intégrant également les cadres d'apprentissage profond traditionnels
Depuis longtemps, Google a construit des capacités d'IA de pointe, telles que l'architecture Transformer qui mène le développement d'une nouvelle génération d'intelligence artificielle, et l'infrastructure optimisée avec l'IA. Parmi eux, Google Cloud s'engage à fournir des services d'infrastructure d'IA avancés, notamment GPU et TPU.
Le 29 août, heure locale, Google Cloud a organisé la conférence annuelle Google Cloud Next '23 et a lancé un nouveau produit TPU - Cloud TPU v5e, qui est un portefeuille de produits d'infrastructure optimisé pour l'IA et qui deviendra le plus rentable à ce jour. Cloud TPU polyvalent et évolutif. Une version préliminaire est actuellement disponible.
Nous avons appris que TPU v5e peut être intégré à Google Kubernetes Engine (GKE), à l'outil de développement Vertex AI pour créer des modèles et des applications d'IA, ainsi qu'à des frameworks d'apprentissage en profondeur tels que Pytorch, JAX et TensorFlow, offrant une interface familière et facile à utiliser. . , très facile pour démarrer.
Google Cloud a également lancé A3 VMs, un supercalculateur GPU basé sur le GPU H100 de Nvidia, pour prendre en charge les modèles d'IA à grande échelle. Le produit sera généralement disponible en septembre.
En outre, lors de l'événement, Google a également annoncé qu'il ajouterait des outils d'IA (tels que Llama 2 et Claude 2) d'entreprises telles que Meta et Anthropic à sa plate-forme cloud, intégrant ainsi de puissantes capacités d'IA générative dans les produits cloud. Actuellement, dont Llama 2 et Claude 2, les clients de Google Cloud ont accès à plus de 100 modèles et outils d'IA puissants.
Par rapport au TPU v4, dans quels aspects le TPU v5e a-t-il été mis à niveau
Quelles sont les performances et la facilité d'utilisation du TPU v5e lancé cette fois par Google Cloud ? Voyons.
Selon les données officielles, Cloud TPU v5e apporte des performances élevées et une rentabilité élevée à la formation et à l'inférence à moyenne et grande échelle. On peut dire que cette génération de TPU est spécialement conçue pour les grands modèles de langage et les modèles d'IA génératifs. Par rapport à la génération précédente de TPU v4, les performances de formation par dollar sont améliorées jusqu'à 2 fois et les performances d'inférence par dollar sont améliorées de jusqu'à 2,5 fois. Et le coût du TPU v5e est inférieur de moitié à celui du TPU v4, ce qui donne à davantage d’institutions la possibilité de former et de déployer des modèles d’IA plus grands et plus complexes.
Il convient de mentionner que, grâce à l’innovation technologique, ces avantages en termes de coûts ne nécessitent aucun sacrifice en termes de performances ou de flexibilité. Google Cloud utilise des pods TPU v5e pour équilibrer performances, flexibilité et efficacité, permettant d'interconnecter jusqu'à 256 puces, avec une bande passante totale de plus de 400 To/s et des performances INT8 de 100 petaOps.
Le TPU v5e présente également une grande polyvalence, prenant en charge huit configurations de machines virtuelles différentes, et le nombre de puces dans une seule puce peut varier de 1 à 256, permettant aux clients de choisir la configuration appropriée pour prendre en charge de grands modèles de langage et des IA génératives de différentes échelles.
En plus d'une fonctionnalité et d'une rentabilité accrues, le TPU v5e élève également la facilité d'utilisation à un tout autre niveau. Les clients peuvent désormais utiliser Google Kubernetes Engine (GKE) pour gérer l'orchestration des charges de travail d'IA à grande échelle sur TPU v5e et TPU v4, améliorant ainsi l'efficacité du développement de l'IA. Pour les organisations qui préfèrent un service géré simple, Vertex AI prend désormais en charge l'utilisation de machines virtuelles Cloud TPU pour former différents frameworks et bibliothèques.
De plus, comme mentionné précédemment, Cloud TPU v5e offre une prise en charge intégrée des principaux frameworks d'IA tels que JAX, PyTorch et TensorFlow, ainsi que des outils open source populaires (Transformers and Accelerate de Huggingface, PyTorch Lightning et Ray). La prochaine version PyTorch/XLA 2.1 prendra en charge TPU v5e et de nouvelles fonctionnalités telles que la modélisation et le parallélisme des données pour la formation de modèles à grande échelle.
Enfin, pour faciliter l'extension du travail de formation, Google Cloud a introduit la technologie Multislice dans la version préliminaire de TPU v5e, permettant aux utilisateurs d'étendre facilement les modèles d'IA au-delà de la portée des pods TPU physiques pour accueillir jusqu'à des dizaines de milliers de TPU v5e ou TPU. Puces v4. .
À l'heure actuelle, les tâches de formation utilisant des TPU sont limitées à une seule puce TPU, le TPU v4 ayant un nombre maximum de tranches de 3 072. Avec Multislice, les développeurs peuvent faire évoluer les charges de travail jusqu'à des dizaines de milliers de puces à l'aide de la technologie ICI (Intra-Chip Interconnect) au sein d'un seul pod ou via plusieurs pods sur un réseau de centre de données (DCN).
Cette technique de découpage multicouche permet à Google de créer son modèle PaLM de pointe. Désormais, les clients de Google Cloud peuvent également profiter de cette technologie.
Le TPU v5e amélioré a été hautement reconnu par les clients. Domenic Donato, vice-président de la technologie chez AssemblyAI, a déclaré que lors de l'utilisation du TPU v5e pour exécuter des inférences sur leur modèle ASR (reconnaissance automatique de la parole), les performances par dollar sont systématiquement 4 fois supérieures à celles des solutions similaires sur le marché. Cette puissante combinaison de logiciels et de matériel peut fournir à leurs clients des solutions d'IA plus rentables.
Alors que Google Cloud continue de mettre à niveau son infrastructure d'IA, de plus en plus de clients choisiront d'utiliser les services Google Cloud. Selon l'introduction précédente de la société mère de Google, Aplabet, plus de la moitié des startups d'IA générative utilisent la plateforme de cloud computing de Google.
Pour Google, le Cloud TPU v5e est le prélude à une nouvelle évolution du modèle de produit et à l'autonomisation des clients cloud.
Lien de référence :