Le mouvement « cost slimming » des grands modèles

2023-11-03 02:38:15

Source d’origine : Corps polaire cérébral

Source de l’image : Généré par Unbounded AI

Avec de grandes données, de grands paramètres et une grande puissance de calcul, certaines capacités des grands modèles vont « émerger », ce qui est largement répandu dans le cercle technologique.

L’idée principale de la fabrication d’un grand modèle est la suivante : ne dites pas facilement que le modèle « ne fonctionne pas », si « il ne fonctionne pas encore », alors agrandissez-le.

Par conséquent, en moins d’un an, l’échelle des paramètres du grand modèle a été multipliée par 100, et maintenant elle a dépassé le niveau de billion, la consommation de ressources est énorme, et cela a également entraîné des coûts de stockage, des coûts d’inférence, des coûts d’exploitation et de maintenance et des coûts d’atterrissage de plus en plus élevés. et les coûts sociaux.

À l’heure actuelle, le grand modèle est encore à l’aube de la commercialisation, et il y a encore beaucoup d’inconnues et d’incertitudes sur la façon de récupérer l’investissement dans le grand modèle, et le grand modèle a pris de l’ampleur et est devenu une entreprise extrêmement brûlante, soutenue par Open AI de Microsoft, qui perdra environ 540 millions de dollars en 2022.

Le coût qui ne cesse d’augmenter est la facture de l’argent réel, et la « paille » qui pèse sur les grandes entreprises modèles. Le PDG d’Anthropic, Dario Amodei, a récemment prédit que leur modèle coûterait 10 milliards de dollars au cours des deux prochaines années.

En plus des entreprises elles-mêmes, la société supporte également les coûts cachés des grands modèles. Google a rapporté que la formation PaLM consomme environ 3,4 kWh d’électricité en deux mois environ, ce qui équivaut à la consommation annuelle totale d’énergie de 300 ménages. Le fardeau et le coût de la forte consommation d’énergie sur l’environnement apportés par le grand modèle sont en fin de compte payés par l’ensemble de la société.

De toute évidence, tant sur le plan commercial qu’environnemental, la taille du modèle de concurrence n’est pas viable.

L’époque de la recherche aveugle de la grandeur est révolue.

La question est de savoir comment « réduire le fardeau » du grand modèle.

En fait, les fabricants en chef de grands modèles généraux ont activement mené la campagne de « réduction des coûts ».

Par exemple, Microsoft a annoncé lors de la Microsoft Build 2020 que le supercalculateur de calcul intensif d’IA qui alimente GPT-3 peut rendre les modèles d’IA 16 fois plus efficaces que les autres plateformes, et qu’une formation plus rapide peut réduire le temps et les coûts de risque.

Les grands modèles domestiques ne font pas exception.

Dès la version 2.0, le grand modèle Pangu a essayé d’adopter une architecture clairsemée + dense pour réduire le coût de l’entraînement. Un mois après son lancement, Wenxin Yiyan a également amélioré les performances d’inférence du grand modèle de près de 10 fois par des moyens techniques, et le coût d’inférence a été réduit à un dixième du coût initial.

Pour éviter de devenir ballonné et lourd, il est impératif de devenir un outil que tout le monde peut utiliser, et le « mouvement d’amincissement des coûts » des grands modèles. Comment? Cet article parlera de cette question.

Une bouchée ne peut pas faire un gros homme

Quels sont les coûts des grands modèles qui peuvent être optimisés, ceux qui ne peuvent pas être réduits et ceux qui doivent être investis davantage ? Avant de comprendre cela, vous devez d’abord savoir comment grossir. Afin d’assurer la performance et l’expérience utilisateur (santé) du grand modèle, la « réduction des coûts » peut être effectuée de manière raisonnable et précise.

Pour le dire simplement, les trois éléments de l’IA - les données, la puissance de calcul et les algorithmes - restent les facteurs les plus critiques pour déterminer le coût des grands modèles.

Commençons par les données. ** Garbage in, garbage out, toujours applicable à l’ère des grands modèles.

La qualité des données détermine directement les capacités du grand modèle. OpenAI a recruté un certain nombre de docteurs pour traiter des données professionnelles dans divers secteurs, et a embauché un certain nombre de sociétés d’annotation de données telles que la société licorne Scale AI pour alimenter GPT-3 avec des ensembles de données à grande échelle. Dans le même temps, le modèle d’algorithme continuera d’être mis à jour de manière itérative, et la demande de volume de données se poursuivra pendant une courte période avec l’augmentation de l’utilisation et l’optimisation des performances.

L’une des principales raisons du coût élevé des grands modèles chinois est qu’il existe toujours un écart entre la quantité et la qualité des données chinoises et de l’anglais, et que davantage de données en langue chinoise doivent être collectées et traitées pour entraîner les grands modèles chinois. D’autre part, la structure grammaticale anglaise est plus simple que le chinois, la complexité et la diversité des textes chinois, certains mots chinois peuvent exprimer une variété de significations, un contexte riche et de nombreuses ambiguïtés et difficultés dans la compréhension du contexte, ce qui augmente également la difficulté d’entraînement des modèles chinois et nécessite des ressources supplémentaires pour soutenir l’entraînement des grands modèles chinois.

Parlons de la puissance de calcul. **

Les ressources doivent être calculées et stockées tout au long de l’entraînement, de l’exploitation, de l’entretien et de l’itération de grands modèles.

L’entraînement des grands modèles se concentre sur une « esthétique violente », et plus les paramètres sont grands, plus les ressources de calcul sont utilisées pour l’entraînement. GPT-3 utilise un supercalculateur qui contient 10 000 GPU et 285 000 cœurs de processeur. Le Wenxin 4.0 domestique est également entraîné dans le cluster Vanka sur la base de la plate-forme à pagaie.

Et ce n’est pas tout. Les modèles volumineux sont exposés aux services après le déploiement et, à mesure que l’utilisation augmente, de plus en plus de tâches d’inférence doivent être effectuées. Le processus de raisonnement de la « pensée » et de la « sortie » en 24 heures continuera également à consommer des ressources informatiques, tout comme le cerveau humain a besoin de consommer du glycogène lorsqu’il s’agit d’un grand nombre de tâches complexes, et il est facile d’avoir faim et de devoir manger un gros repas pour refaire le plein d’énergie. Par conséquent, le coût d’inférence des grands modèles est également très élevé.

L’inférence de GPT-3 après le déploiement de 175B nécessite au moins cinq GPU A100, et les grands modèles ouverts à l’ensemble de la société chinoise, tels que Wenxin Yiyan, auraient un coût d’inférence 8 à 10 fois supérieur à celui de la génération précédente.

Enfin, parlons de l’algorithme. **

Pour réduire l’énorme dépendance des grands modèles vis-à-vis des ressources informatiques, une solution courante consiste à optimiser le modèle, sur la base de performances inchangées, avec une vitesse d’inférence plus rapide, une latence plus faible et des besoins en ressources plus faibles, ce qui équivaut à un rapport entrée-sortie ROI plus élevé, et le coût unitaire des ressources informatiques requises pour l’entraînement et l’inférence est plus faible.

Il y a autant de travail que d’intelligence, et il est impossible de faire un grand modèle qui puisse vraiment être joué sans talents. Le développement d’algorithmes, les tests, l’itération, la productisation, etc., nécessitent tous un grand nombre de talents techniques. Le fait que le coût de la main-d’œuvre soit élevé ou non dépend de la robustesse du modèle d’affaires du grand modèle.

L’équipe de talents avec des qualifications académiques complètes est assez compétitive dans la phase de recherche et développement. La question est de savoir comment gagner de l’argent. API ou les frais d’utilisation, un jeton coûte moins d’un centime et le retour sur investissement peut être lointain ; Abonnement payant (version professionnelle), le grand modèle de tête a un effet de siphon, tout le monde choisira OpenAI ou BATH et d’autres grands fabricants, on ne sait pas si leur propre grand modèle peut être accepté par les utilisateurs et prêts à payer ; Pour personnaliser le développement pour les clients de l’industrie, ToB doit avoir une compréhension approfondie de l’industrie, de la recherche, du développement, des tests et de l’itération, afin que les ingénieurs en algorithmes avec un salaire annuel de dizaines de millions puissent rester sur le chantier pendant quelques mois, et que la marge bénéficiaire brute du projet ne soit pas très bonne.

Par conséquent, la réussite d’un grand modèle dépend non seulement de la capacité de l’algorithme lui-même, mais aussi de la durabilité du cycle économique, du développement à la mise en œuvre.

Ferme ta gueule et ouvre tes jambes

Si nous comparons le coût du grand modèle à celui d’une personne qui souhaite perdre de la graisse en excès, cet objectif peut être décomposé en deux manières de base :

L’une d’entre elles consiste à créer une « différence de chaleur ». Il s’agit de garder la bouche fermée et d’ouvrir les jambes, de contrôler les investissements, de soustraire les coûts excessifs, d’accélérer la commercialisation et d’augmenter les revenus, et de perdre naturellement du poids.

La seconde est de devenir un « facile à perdre du poids ». Comprendre pleinement le mécanisme des grands modèles, utiliser une nouvelle architecture pour résoudre le problème du mécanisme d’attention du transformateur et avoir le physique de « peu importe comment vous mangez, vous ne pouvez pas grossir ».

N’a-t-on pas l’impression que la seconde est très tentante ?

Vous n’avez pas besoin de contrôler les coûts, d’attirer des utilisateurs, de personnaliser les services et de vous allonger facilement pour gagner de l’argent, et ce genre de bonne chose ? Vraiment.

À l’heure actuelle, tous les grands modèles de langage utilisent l’architecture Transformer, qui est difficile à traiter de longs textes et des images à haute résolution, et le raisonnement logique et l’induction de connaissances reposent sur la « production vigoureuse de miracles », ce qui est coûteux. De nombreux principes de base ne sont pas encore clairs, ce qui conduit à de nombreux problèmes existants, tels que la génération d'« hallucinations » et une capacité de raisonnement limitée.

Yann LeCun, lauréat du prix Turing, a critiqué plus d’une fois le paradigme technique des grands modèles de langage, affirmant que « les LLM ont une compréhension très superficielle du monde », et il veut construire un « modèle du monde » pour apprendre comment le monde fonctionne, puis former un modèle interne, puis utiliser ce modèle interne pour accomplir diverses tâches. En outre, de nombreux scientifiques discutent de l’intelligence générale de l’IAG dans leurs domaines de recherche respectifs.

En résumé, de nombreux principes des grands modèles de langage actuels ne sont pas clairs, et la technologie est encore en train d’évoluer. À l’avenir, d’autres paradigmes technologiques pourraient émerger pour subvertir le modèle actuel qui consiste à chercher aveuglément à être plus grand, et alors il n’y aura peut-être plus besoin de coûts excessifs et d’un « amincissement » douloureux.

Vous avez peut-être compris que la recherche des principes sous-jacents et la recherche d’une technologie AGI plus puissante semblent cool, mais ce n’est vraiment pas un score, et il n’y a pas encore de calendrier clair. Le paradigme technique de cette série de grands modèles de langage est réalisable dans la pratique de l’ingénierie, peut fonctionner dans l’industrie et a un effet clair d’amélioration de la qualité et de l’efficacité. L’utiliser d’abord et saisir le présent est la priorité absolue des entreprises technologiques.

Par conséquent, les entreprises modèles à grande échelle ne peuvent que se taire, ouvrir leurs jambes, contrôler les coûts dès que possible, accélérer la commercialisation et créer une « différence calorifique » pour un développement bénin et durable.

Quatre modernisations Mouvement pour créer une « différence calorique"

Alors, comment créer exactement une « différence de chaleur » ? **Sur la base des méthodes courantes actuellement sur le marché, nous les résumons sous le nom de « Mouvement des quatre modernisations » : l’échelle des données, la compression des modèles, l’efficacité informatique et la stratification de l’entreprise. **

L’échelle des données vise à améliorer le bénéfice marginal des données et à obtenir le meilleur rapport qualité-prix grâce à l’effet d’échelle. L’effet d’échelle est principalement obtenu de trois manières, l’une est l’échelle de la concentration industrielle, et le niveau national a clairement proposé d'«accélérer la culture du marché des éléments de données », impliquant la production, la collecte, le stockage, le traitement, l’analyse, le service et d’autres liens de données, l’industrialisation aidera à réduire le coût des données des grandes entreprises modèles. La seconde est l’application d’outils d’IA, qui réduit la participation manuelle à tous les aspects de l’ingénierie des données, accélère le traitement des données pré-entraînées, réduit les coûts et améliore l’efficacité de l’entraînement des modèles. Le troisième est l’échelle des données de rétroaction. Certains grands modèles qui ont ouvert leurs services à l’ensemble de la société plus tôt, tels que Baidu Wenxin Yiyan, le « SenseChat » de SenseTime, le « Baichuan Model » de Baichuan Intelligence, le « Spark Model » d’iFLYTEK, etc., devraient atteindre plus rapidement l’échelle optimale des données avec des avantages marginaux.

Il y a un avantage marginal aux données. OpenAl permet déjà aux utilisateurs de décider s’ils souhaitent utiliser les données de chat pour la formation, ce qui signifie qu’ils ne peuvent plus compter sur les données de feedback des utilisateurs, de sorte que le coût du stockage et du calcul des données peut être contrôlé.

La compression de modèle vise à améliorer les performances du modèle, à obtenir des performances plus élevées avec moins de ressources et à transformer le grand modèle gourmand en ressources en une version plus compacte et plus efficace grâce à la technologie de compression. Semblable à la conversion de la graisse en muscle, le muscle est plus dense et le poids (performance) reste le même, tandis que la personne devient plus mince (plus petite).

À l’heure actuelle, il existe trois méthodes courantes de compression de grands modèles : la quantification, l’élagage et la distillation des connaissances. **

La quantification, équivalente à la liposuccion, est simple et rudimentaire mais efficace. Plus la précision du modèle est élevée, plus l’espace de stockage requis est important. Cependant, dans l’inférence, il n’est pas nécessaire de capturer de très petits changements de gradient dans des modèles complexes, de sorte que la quantification peut réduire directement la précision des paramètres du modèle et « extraire » des informations détaillées, réduisant ainsi l’espace occupé et ne réduisant pas la capacité d’inférence. Par exemple, Qualcomm AI Research utilise la technologie de quantification pour maintenir la précision du modèle à un niveau de précision inférieur, et a déployé Stable Diffusion sur les smartphones Android pour la première fois. La technologie quantitative a également été appliquée dans les grands modèles nationaux tels que Wenxin et Pangu.

L’élagage, similaire à « l’excision », soustrait directement certaines branches latérales qui ont peu d’effet sur l’effet, telles qu’un grand nombre de structures et de neurones redondants, et ces poids plus petits sont supprimés, ce qui a peu d’impact sur l’effet du modèle et réduit la taille du modèle. Bien sûr, l’élagage est un « travail d’artisanat », et plus l’élagage est précis, plus la perte de précision du modèle est faible et meilleur est l’effet de compression.

La distillation des connaissances consiste à laisser le grand modèle « sauna », et le modèle de 100 milliards est distillé en un seul passage pour produire plusieurs petits modèles avec des performances similaires et une structure plus simple, et le coût d’atterrissage est inférieur. Le défi est que la distillation du modèle à l’échelle de 100 milliards consomme également des ressources de calcul extrêmement élevées, et que l’écart de volume de données de 100 milliards à des dizaines de millions est trop important, ce qui peut facilement affecter l’effet de distillation. La distillation non destructive est l’un des points de concurrence technique des grands fabricants.

Étant donné que la technologie de compression de modèles consomme également des ressources informatiques, il est particulièrement important d’améliorer l’efficacité informatique de l’infrastructure informatique.

L’efficacité informatique est la prémisse pour que les grands fabricants de modèles modélisent fournissent des services de modélisation avec une efficacité plus élevée.

Les performances des puces et des clusters de calcul font l’objet de recherches et d’optimisation. Microsoft Cloud Azure a construit un supercalculateur pour le calcul de l’IA spécifiquement pour OpenAI. Les fabricants nationaux, tels que Baidu et Huawei, ont développé eux-mêmes des puces et des cadres d’apprentissage profond, qui peuvent améliorer l’efficacité informatique grâce à l’optimisation de bout en bout, améliorer la vitesse d’apprentissage et la vitesse d’inférence des grands modèles, et réduire le temps et les coûts de formation.

Toutefois, pour les grands modèles non généraux tels que les modèles métier et les modèles métier, l’effet d’échelle et la technologie d’optimisation matérielle sont limités, et le coût de création et de maintenance de l’infrastructure par vous-même est très élevé, de sorte que l’utilisation de services cloud pour former et déployer des services est un choix plus rentable.

En fin de compte, les grands modèles doivent augmenter les revenus commerciaux pour atteindre l’objectif d’optimisation du retour sur investissement et de récupération des coûts. À l’heure actuelle, la commercialisation de divers grands modèles reflète des caractéristiques hiérarchiques évidentes.

Pour le dire simplement, il s’agit d’un grand modèle avec différents volumes, différentes fonctions et différentes directions, et la voie de la commercialisation a commencé à être claire.

Le modèle général est basé sur des économies d’échelle et des marchés à forte valeur ajoutée. OpenAI compte un grand nombre d’utilisateurs, et le développement de l’économie des API a un effet d’échelle, et l’investissement initial peut être partagé à parts égales avec la croissance du volume d’affaires. BATH (Baidu, Alibaba, Tencent, Huawei) et d’autres ont leurs propres activités de cloud computing et ont accumulé une riche expérience dans les services industriels, en particulier les capacités de portée de la clientèle des grands gouvernements et des entreprises telles que la finance, l’exploitation minière et les affaires gouvernementales, et ont un grand potentiel de transformation commerciale. Les exigences élevées des clients ToB favorisent l’amélioration de l’expérience et de l’effet du modèle, et peuvent également servir le marché de la ToC et amortir davantage les coûts grâce à l’échelle.

Le modèle de la grande industrie restreint activement les frontières du produit et de l’entreprise, se concentre sur l’activité et les fonctions de base et développe de petits modèles spécialisés avec moins de ressources, afin d’atteindre un bon équilibre entre le retour sur investissement et la commercialisation. Par exemple, dans le domaine financier, le « Xuanyuan 70B » de Du Xiaoman a incorporé un grand nombre de corpus financiers professionnels pour améliorer la compréhension des connaissances financières, répondre aux exigences particulières des clients financiers en termes de contrôlabilité et de sécurité, et a été mis à l’essai par des centaines d’institutions financières.

Dans l’ensemble, le grand modèle n’est pas seulement une voie universelle et généralisée, mais aussi la privatisation et le déploiement personnalisé de milliers d’industries produiront des facteurs de prise de décision tels que le prix, la confidentialité et la sécurité, et apporteront également un grand nombre d’opportunités commerciales de segmentation. Le grand modèle général, le grand modèle de l’industrie et le petit modèle propriétaire, les efforts hiérarchiques + conjoints ouvrent la voie à la commercialisation. L’harmonie et la différence mettent à l’épreuve la sagesse de chaque rôle dans la chaîne industrielle.

Pour des services durables et à long terme, il est nécessaire de garder la bouche fermée et d’ouvrir les jambes, et la « réduction des coûts » du grand modèle est le seul moyen.

Ce processus peut être douloureux, mais il condensera un fossé pour protéger le développement sain de l’ensemble de l’industrie.

Dans les années 40 du 20e siècle, alors que les ordinateurs venaient tout juste de naître, les gens étaient émerveillés par l’énorme corps de ce « monstre machine », mais c’est alors que le saut de l’ère de l’information a commencé. Lorsque les smartphones sont nés, les fabricants de téléphones polyvalents étaient extrêmement sarcastiques à ce sujet, mais ils ne s’attendaient pas à ce que ce type de connexion inclusive, où tout le monde peut accéder à Internet, ait favorisé la prospérité de l’Internet mobile.

Au fur et à mesure que les grands modèles s’améliorent et diminuent, « l’IA pour tous » ne sera plus un rêve lointain.

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

Récompense
J'aime
Commentaire
Partager

Commentaire

0/400

Aucun commentaire

Rubrique
#Gate & WLFI USD1 Points Program
5k Popularité
#Show My Alpha Points
64k Popularité
#ETH Whales Accumulate
11k Popularité
#SOL Futures Reach New High
23k Popularité
#ETH ETF Sees 12 Weeks of Inflows
7k Popularité

Épingler