Fuite d'un initié du GPT-4, 1,8 billion de paramètres énormes, formation de 13 billions de jetons, dépensé 63 millions de dollars américains

Source : "Xinzhiyuan" (ID : AI_era)

Tout à l'heure, le GPT-4 d'OpenAI a de nouveau été "open source" par des initiés de l'industrie !

Ceux-ci incluent des paramètres et des informations très spécifiques tels que l'architecture de GPT-4, l'infrastructure de formation et d'inférence, le volume de paramètres, l'ensemble de données de formation, le numéro de jeton, le coût et le mélange d'experts (MoE).

En particulier, derrière les différents projets, comment pèse OpenAI. Et comment franchir le plus gros goulot d'étranglement dans l'inférence de grands modèles.

De qui est venue une révélation aussi lourde ?

Les auteurs de l'article sont deux contributeurs de SemiAnalysis nommés Dylan Patel et Gerald Wong.

Il convient de mentionner que Dylan Patel était également l'un des auteurs de la fuite de documents internes de Google ("Nous n'avons pas de fossé, et OpenAI non plus"), qui avait auparavant provoqué un tollé dans l'industrie.

Le PDG de DeepMind, Hassabis, a récemment confirmé l'authenticité des documents divulgués par les ingénieurs de Google dans une interview avec le média étranger The Verge.

On peut voir que Dylan Patel a des chaînes spéciales, ce qui rend la révélation d'aujourd'hui un peu plus authentique.

Li Zhifei, PDG de Sortir pour demander, a également prononcé un discours

De nombreuses entreprises peuvent fabriquer du GPT-4

De l'avis de l'auteur de l'article de dernière heure, la raison pour laquelle OpenAI n'est pas ouvert n'est pas de s'assurer que les êtres humains ne sont pas détruits par l'IA, mais parce que les choses qu'ils construisent sont reproductibles.

Il prédit même qu'à l'avenir, toutes les grandes sociétés Internet ou start-ups d'IA en Chine et aux États-Unis seront en mesure de construire un modèle identique à GPT-4 ou même supérieur à GPT-4.

Mais il a également admis que GPT-4 est un grand chef-d'œuvre d'OpenAI. Il condense la conception ingénieuse de l'ingénieur, sa structure complexe et divers compromis d'ingénierie ingénieux.

Le fossé le plus durable d'OpenAI est qu'ils ont des retours d'utilisateurs réels, les meilleurs talents d'ingénierie de l'industrie et la position de leader continue apportée par l'avantage du premier arrivé.

Cadre de modèle

Tout d'abord, l'auteur qui a annoncé la nouvelle estime que GPT-4 contient un total de 1,8 billion de paramètres dans 120 couches, tandis que GPT-3 n'a qu'environ 175 milliards de paramètres.

En d'autres termes, l'échelle de GPT-4 est plus de 10 fois supérieure à celle de GPT-3.

Auparavant, il était dit sur Internet que le paramètre de GPT-4 était de 1 billion, ce qui semble être sous-estimé par rapport à la situation réelle.

Afin de maintenir un coût raisonnable, OpenAI adopte le modèle MoE pour la construction.

Plus précisément, GPT-4 dispose de 16 modèles experts avec environ 111 milliards de paramètres par expert MLP. Parmi eux, deux modèles experts sont utilisés pour la propagation vers l'avant.

Bien qu'il y ait beaucoup de discussions dans la littérature sur les algorithmes avancés pour sélectionner les experts vers lesquels chaque jeton pointe, on dit que l'algorithme utilisé par OpenAI pour GPT-4 est en fait très simple.

De plus, il y a environ 55 milliards de paramètres dans le modèle, qui sont utilisés pour le partage du mécanisme d'attention.

Dans chaque raisonnement de propagation vers l'avant (générant un jeton), GPT-4 n'a besoin d'utiliser qu'environ 280 milliards de paramètres et 560TFLOP.

Cela contraste fortement avec de nombreux modèles purement denses qui nécessitent environ 1,8 billion de paramètres et 3700 TFLOP par passe avant.

La composition du jeu de données

OpenAI a formé GPT-4 avec 13 000 milliards de jetons.

Cet ensemble de données contient non seulement 13 billions de jetons, mais comme il n'y a pas de jetons de haute qualité, cet ensemble de données contient également de nombreuses époques.

À l'intérieur de Scale AI et de l'ensemble de données, des millions de lignes de données de réglage fin d'instructions sont également incluses.

Cependant, l'auteur de la révélation a déclaré qu'ils n'avaient pas trouvé beaucoup d'informations sur ces données RLHF.

La longueur du contexte dans la phase de pré-formation a atteint 8K (seqlen), et la version 32k a été affinée en fonction de la version 8K pré-formée.

La taille du lot est progressivement augmentée sur plusieurs jours dans le cluster, et la taille finale du lot utilisée par OpenAI est de 60 millions.

Bien sûr, ce n'est "que" la taille du modèle expert à 7,5 millions de jetons chacun, car tous les modèles experts ne verront pas tous les jetons.

Stratégie parallèle

La stratégie parallèle est très importante pour A100GPU.

OpenAI utilise le parallélisme tenseur à 8 voies, car NVLink n'en prend en charge qu'un nombre limité.

Mais en plus, l'auteur des dernières nouvelles a entendu dire qu'OpenAI utilise 15 pipelines parallèles.

En théorie, 15 pipelines, c'est un peu trop compte tenu de la communication des données et du temps de calcul.

Mais en raison de la limitation de la capacité de mémoire, de nombreux pipelines sont significatifs.

Lorsqu'il est purement pipeline et tenseur parallèle, le paramètre FP16 est d'environ 30 Go par GPU.

Mais une fois le cache KV et le coût ajoutés, si la plupart des GPU utilisés par OpenAI sont des A100 de 40 Go, alors une telle architecture a du sens en théorie.

Il est possible qu'OpenAI utilise ZeRo Stage 1 et utilise FSDP au niveau des blocs ou un parallélisme hybride de données partagées.

Pourquoi n'ont-ils pas utilisé le modèle complet de FSDP ? Probablement à cause du coût élevé de la communication.

Bien qu'OpenAI dispose d'un réseau à haut débit entre la plupart des nœuds, il ne couvre pas tous les nœuds.

Parmi eux, au moins certains clusters auront une bande passante de connexion beaucoup plus faible que d'autres.

Cependant, l'auteur a déclaré qu'il ne comprenait pas très bien comment OpenAI évite la génération de « énormes bulles » dans chaque lot avec un parallélisme de pipeline aussi élevé. Il est très probable qu'OpenAI ait résisté à ces coûts.

Coût de la formation

OpenAI entraîne GPT-4 avec environ 2,15e25 FLOPS, entraîné sur environ 25 000 A100 pendant 90 à 100 jours, et le taux d'utilisation se situe entre 32 % et 36 %.

Cette utilisation extrêmement faible était en partie due au nombre élevé d'échecs, qui nécessitaient de reprendre la formation à partir des points de contrôle précédents. Tels que le coût de la bulle mentionné ci-dessus.

Le coût de formation perdu dans ce cas est extrêmement élevé.

Une autre raison est que tout réduire parmi tant de GPU coûte très cher.

Ce diagramme suppose que l'incapacité à fusionner chaque opération, la bande passante mémoire requise par le mécanisme d'attention et la surcharge matérielle équivalente aux lectures de paramètres entraînent des inefficacités. En fait, même avec une bibliothèque optimisée telle que la bibliothèque FasterTransformer de Nvidia, la surcharge totale peut être encore plus importante.

L'auteur du rapport soupçonne que si ce cluster est en fait un groupe de clusters plus petits avec des connexions réseau plus faibles, alors la vitesse de connexion non bloquante (non bloquante) entre les différentes parties du cluster est de 800G/1.6T, mais ces parties la vitesse de connexion entre eux n'est que de 200G/400G.

Si le coût du cloud computing OpenAI est d'environ 1 $/100 heures, alors dans de telles conditions, le coût de la formation est d'environ 63 millions de dollars.

Cela n'inclut pas toutes les expériences, les échecs de formation et les autres coûts, tels que la collecte de données, le RLHF, le coût humain, etc.

Si vous tenez compte des facteurs que nous venons de mentionner, le coût réel est beaucoup plus élevé.

En outre, cela doit partir du principe que d'autres peuvent acheter des puces/réseaux/centres de données, engager des dépenses en capital pour construire ces systèmes et les louer à OpenAI.

Mais aujourd'hui, à 2 $ / H100 heures, la pré-formation peut être effectuée sur environ 8 192 H100 en seulement 55 jours pour un coût de 21,5 millions de dollars.

La figure ci-dessus montre le nombre de paramètres et de jetons pour certains des modèles avancés accessibles au public. La ligne de la figure correspond aux observations à l'échelle de Chinchilla de Google DeepMind (barres d'erreur plus grandes lissées), chaque point de la ligne montre le FLOPS théorique nécessaire pour entraîner le modèle avec ce paramètre et le nombre de jetons

Cependant, l'auteur du rapport a déclaré que d'ici la fin de cette année, au moins neuf entreprises auront des clusters H100 dépassant la taille susmentionnée.

Bien que toutes ces entreprises ne les utilisent pas toutes pour la formation de modèles individuels, le cas échéant, elles auront des modèles plus grands que GPT-4.

Par exemple, Meta aura plus de 100 000 H100 d'ici la fin de cette année, mais une partie considérable d'entre eux sera distribuée dans son propre centre de données pour l'inférence.

Mais son plus grand cluster unique dépassera toujours les 25 000 H100.

En bref, d'ici la fin de cette année, de nombreuses entreprises disposeront de suffisamment de ressources informatiques pour former des modèles de taille GPT-4.

Ce tableau est le coût théoriquement optimal de la formation d'un modèle sur un Nvidia A100, sans tenir compte de la main-d'œuvre requise, des outils ML Ops, de la collecte/prétraitement des données, de la récupération après panne, des exemples d'apprentissage ponctuels/quelques-coups, de l'inférence, etc., de nombreux pièces Le coût de

Compromis dans les modèles experts mixtes

MoE (Mixed Model of Experts) est un excellent moyen de réduire la quantité de paramètres lors de l'inférence, tout en les augmentant en même temps.

Mais cela est nécessaire pour que chaque jeton d'entraînement encode plus d'informations, car il est très difficile d'obtenir suffisamment de jetons de haute qualité.

Si OpenAI veut vraiment rechercher les meilleures performances, il doit former deux fois plus de jetons pour y parvenir.

Cela étant dit, OpenAI a fait pas mal de compromis.

Par exemple, traiter le MoE pendant l'inférence est très difficile car chaque partie du modèle n'est pas utilisée à chaque génération de jeton.

Cela signifie que certaines parties peuvent être inactives pendant que d'autres fonctionnent.

Cette situation peut réduire considérablement l'utilisation lors de la maintenance des utilisateurs.

Les chercheurs ont montré que l'utilisation de 64 à 128 modèles experts donne de meilleurs profils de perte que l'utilisation de 16 modèles experts, mais ce n'est que de la recherche.

Il existe de nombreuses raisons d'utiliser relativement peu de modèles experts.L'une des raisons pour lesquelles OpenAI a choisi 16 experts est qu'il est difficile de généraliser davantage de modèles experts sur de nombreuses tâches.

Il est également plus difficile d'atteindre la convergence avec des modèles plus experts.

Dans un processus de formation aussi énorme, OpenAI a choisi d'être plus conservateur dans le nombre de modèles experts.

De plus, l'utilisation de moins de modèles experts aide également leur infrastructure d'inférence. Il existe divers compromis et compromis difficiles lors du passage à une architecture d'inférence hybride modèle expert.

L'auteur des dernières nouvelles commence par la discussion des compromis de base du raisonnement LLM, puis discute des problèmes auxquels OpenAI est confronté et des choix qu'ils font.

Raisonner les compromis

Avant d'introduire les compromis d'inférence, soit dit en passant, après avoir parlé à toutes les sociétés LLM, le lanceur d'alerte a constaté que la bibliothèque d'inférence FasterTransformer de NVIDIA est très mauvaise, et TensorRT l'est encore plus.

Cela signifie que si Nvidia ne modifie pas, les gens devront créer leurs propres solutions à partir de zéro.

Il existe trois principaux compromis dans le raisonnement sur les grands modèles de langage, la dimension de la taille du lot (nombre d'utilisateurs traités simultanément) et le nombre de puces utilisées, comme suit :

1. Retard

Le modèle doit répondre dans un délai raisonnable. Personne ne veut attendre quelques secondes dans une application de chat avant de commencer à recevoir une sortie. Le temps de traitement pour le pré-remplissage (jetons d'entrée) et le décodage (jetons de sortie) varie.

2. Débit

Le modèle doit produire un certain nombre de jetons par seconde. Les humains ont besoin d'environ 30 jetons par seconde. Pour divers autres cas d'utilisation, des débits inférieurs et supérieurs sont acceptables.

3. Taux d'utilisation

Le matériel exécutant le modèle doit atteindre des taux d'utilisation élevés, sinon le coût sera prohibitif. Bien qu'une latence plus élevée et un débit plus faible puissent être utilisés pour combiner davantage de demandes d'utilisateurs afin d'obtenir une utilisation plus élevée, cela augmente également la difficulté.

La clé du raisonnement LLM est d'équilibrer les deux points de la bande passante mémoire et du calcul.

Exigences théoriques en matière de bande passante de LLM : on peut supposer que la taille maximale du modèle pouvant être exécuté sur l'iPhone 14 est d'environ 1 milliard de paramètres FP16, ou d'environ 4 milliards de paramètres int4. Il s'agit de la limite de base de LLM basée sur les smartphones. les modèles ne seront pas adoptés

En termes simples, chaque paramètre doit être lu et il y a 2 FLOP qui lui sont associés.

Par conséquent, le ratio de la plupart des puces (le H100 SXM n'a que 3 To/s de bande passante mémoire, mais le FP8 a 2 000 TFLOP/s) est complètement déséquilibré en inférence avec une taille de lot de 1.

S'il n'y a qu'un seul utilisateur (taille de lot 1), la bande passante mémoire nécessaire pour lire chaque paramètre à chaque fois qu'un jeton est généré domine le temps d'inférence, tandis que le temps de calcul est presque négligeable.

Pour adapter efficacement les grands modèles de langage à plusieurs utilisateurs, la taille du lot doit dépasser 1. Plusieurs utilisateurs partagent le coût de la lecture des paramètres. Par exemple, avec une taille de lot de 256/512, vous pouvez obtenir 512 FLOP/s ou 1024 FLOP/s par octet de mémoire lu.

Ce rapport est plus proche de l'équilibre du H100 entre la bande passante mémoire et les FLOPS. Cela permet d'obtenir une utilisation plus élevée, mais au prix d'une latence plus élevée.

Beaucoup considèrent que la capacité de mémoire est un goulot d'étranglement majeur pour l'inférence LLM, car les grands modèles nécessitent plusieurs puces pour l'inférence, et des capacités de mémoire plus élevées signifient qu'ils peuvent tenir sur moins de puces.

Cependant, il est en fait préférable d'utiliser plus de puces afin que la latence soit plus faible, que le débit soit augmenté et que des tailles de lots plus importantes puissent être utilisées pour une utilisation plus élevée.

Compromis d'inférence GPT-4 et infrastructure

Comme mentionné ci-dessus, il est très difficile pour le raisonnement GPT-4. Mais être à nouveau un mod MoE introduit à nouveau un tout nouvel ensemble de difficultés.

Chaque passe avant qui génère des jetons peut être acheminée vers un ensemble différent d'experts. Cela pose un problème avec le compromis entre le débit, la latence et l'utilisation à des tailles de lot plus importantes.

Le GPT-4 d'OpenAI compte 16 experts, et chaque passe avant est dirigée vers 2 d'entre eux.

Cela signifie que si la taille du lot est de 8, chaque paramètre d'expert lu ne peut avoir qu'une taille de lot de 1.

Pire encore, cela pourrait signifier qu'un expert a une taille de lot de 8 tandis que d'autres experts ont des tailles de lot de 4, 1 ou 0.

Pour chaque jeton généré, l'algorithme de routage envoie des passes vers l'avant dans différentes directions, ce qui fait varier considérablement les délais entre les jetons et la taille des lots d'experts.

L'infrastructure d'inférence est l'une des principales raisons pour lesquelles OpenAI a choisi un plus petit nombre d'experts. S'ils choisissent plus d'experts, la bande passante mémoire devient le goulot d'étranglement pour l'inférence.

Le cluster d'inférence d'OpenAI peut généralement atteindre une taille de lot de 4k+, ce qui signifie que même avec le meilleur équilibre de charge entre les experts, la taille du lot d'experts n'est que d'environ 500. Cela nécessite une très grande quantité d'utilisation pour y parvenir.

Selon le lanceur d'alerte, nous avons appris qu'OpenAI effectuait de l'inférence sur un cluster de 128 GPU. Ils ont plusieurs de ces clusters dans plusieurs centres de données et emplacements géographiques.

L'inférence utilise le parallélisme du tenseur à 8 voies et le parallélisme du pipeline à 16 voies. Chaque nœud composé de 8 GPU n'a qu'environ 130 B de paramètres, soit moins de 30 Go par GPU sous FP16, et moins de 15 Go sous FP8/int8.

Cela permet d'exécuter l'inférence sur un A100 de 40 Go tant que la taille du cache KV pour tous les lots n'est pas trop grande.

Les couches contenant différents experts sur différents nœuds ne sont pas scindées car cela rendrait le trafic réseau trop irrégulier et recalculer le cache KV entre chaque génération de jeton serait trop coûteux.

Pour les futures extensions de modèle MoE et le routage conditionnel, la plus grande difficulté est de savoir comment gérer le routage du cache KV.

Le modèle comporte 120 couches, elles peuvent donc simplement être réparties sur 15 nœuds différents, mais comme le premier nœud doit effectuer le chargement et l'intégration des données, il est logique de mettre moins de couches sur le nœud maître du cluster d'inférence.

De plus, il y a des rumeurs sur le "décodage spéculatif" (suivant), ce qui explique également pourquoi les masternodes doivent contenir moins de couches.

Coût d'inférence

Comparé au modèle de Davinchi avec 175 milliards de paramètres, GPT-4 coûte 3 fois, bien que ses paramètres d'anticipation n'augmentent que de 1,6 fois.

Cela est principalement dû au fait que GPT-4 nécessite un cluster plus grand et atteint une utilisation plus faible.

Les auteurs estiment que le coût de la déduction de la longueur de séquence de 8k du GPT-4 sur 128 A100 est de 0,0049 USD pour 1 000 jetons, tandis que le coût de la déduction de la longueur de séquence de 8k du GPT-4 sur 128 H100 est de 0,0021 USD pour 1 000 jetons.

Notez que cela suppose une utilisation assez élevée et maintient une taille de lot élevée.

Mais force est de constater qu'OpenAI est parfois très sous-utilisé.

À cet égard, l'auteur a émis l'hypothèse qu'OpenAI fermerait le cluster pendant les heures creuses, reconfigurerait les nœuds, reprendrait la formation de modèles de test plus petits et essaierait diverses nouvelles technologies pour réduire les coûts d'inférence.

Si OpenAI ne l'avait pas fait, leur utilisation aurait été moindre et leurs coûts auraient plus que doublé.

Attention multi-requêtes

De plus, OpenAI utilise également Multi-Query Attention (MQA).

Adresse papier :

En bref, une seule tête d'attention est requise et l'empreinte mémoire du cache KV peut être considérablement réduite.

Même ainsi, GPT-4 d'une longueur de 32k ne peut certainement pas fonctionner sur un A100 de 40 Go, et il existe une limite supérieure à la taille de lot maximale de 8k.

Traitement par lots en continu

OpenAI implémente une taille de lot variable et un traitement par lots continu.

Cela permet un certain degré de latence maximale et optimise le coût d'inférence.

Décodage spéculatif

Il a été révélé qu'OpenAI utilisait un "décodage spéculatif" dans le processus de raisonnement de GPT-4, qui a encore une incertitude de 100 %.

La variation de latence d'un jeton à l'autre et la différence entre les tâches de récupération simples et les tâches plus complexes semblent suggérer que cela est possible, bien qu'il y ait encore trop de variables pour être sûr.

Ici, le dénonciateur a apporté les modifications appropriées/ajouté quelques détails pour expliquer le texte dans une étude "Accelerating LLM Inference with Staged Speculative Decoding" par DeepMind.

L'utilisation du LLM comporte généralement deux phases.

Le premier est le pré-remplissage, où le texte d'indication est introduit dans le modèle pour générer le cache KV et les cotes du journal (distribution de probabilité des sorties de jetons possibles) de la première sortie. Ce processus est généralement rapide car l'intégralité du texte de l'invite peut être traitée en parallèle.

La deuxième étape est le décodage. Sélectionnez un jeton parmi les cotes du journal de la sortie et introduisez-le dans le modèle, qui générera les cotes du journal du prochain jeton. Répétez ce processus jusqu'à ce que le nombre de jetons souhaité soit généré.

Étant donné que le décodage doit se produire de manière séquentielle, chaque fois que les poids doivent être diffusés via l'unité de calcul pour générer un seul jeton. Ainsi, cette deuxième étape est très gourmande en calcul (c'est-à-dire calculer des FLOP/octets de bande passante mémoire) lors de l'exécution en mini-lots. Par conséquent, le décodage est généralement la partie la plus coûteuse de la génération autorégressive.

C'est pourquoi le jeton d'entrée est beaucoup moins cher que le jeton de sortie dans les appels API d'OpenAI.

L'idée de base du "décodage spéculatif" est d'utiliser un modèle de brouillon plus petit et plus rapide pour décoder plusieurs jetons à l'avance, puis de les introduire dans le modèle prédictif par lots.

Si les prédictions du projet de modèle sont correctes, c'est-à-dire que le plus grand modèle est d'accord avec ces prédictions, plusieurs jetons peuvent être décodés à l'aide d'un seul lot, ce qui permet d'économiser beaucoup de bande passante mémoire et de temps.

Cependant, si le plus grand modèle rejette un jeton prédit par le modèle préliminaire, le lot restant est rejeté et l'algorithme revient naturellement au décodage standard jeton par jeton.

Le "décodage spéculatif" peut également être accompagné d'un schéma d'échantillonnage par rejet pour échantillonner à partir de la distribution d'origine. Il convient de noter que cela n'est utile que dans les paramètres de petits lots où la bande passante est le goulot d'étranglement.

Le décodage spéculatif, qui échange le calcul contre la bande passante, est une cible d'ingénierie de performance attrayante pour deux raisons principales :

Premièrement, cela ne réduit pas la qualité du modèle. Deuxièmement, les améliorations de performances qu'il offre sont souvent orthogonales aux autres approches, puisque leurs performances proviennent de la conversion de "l'exécution séquentielle" en "exécution parallèle".

La méthode d'inférence actuelle est une séquence distincte de prédictions par lots. Cependant, cette approche ne s'adapte pas bien aux grands lots ou aux alignements de modèles à faible ébauche.

Intuitivement, la probabilité que deux modèles s'accordent sur des séquences contiguës de jetons est exponentiellement faible, ce qui implique que les gains du décodage spéculatif diminuent rapidement à mesure que la densité arithmétique augmente.

Le dénonciateur estime que si OpenAI utilise un "décodage spéculatif", il ne peut l'utiliser que par séquences d'environ 4 jetons.

Soit dit en passant, toute la conspiration autour de la castration d'OpenAI, entraînant un GPT-4 de qualité inférieure, peut simplement être due au fait qu'ils soumettent leurs modèles prédictifs à des séquences à faible probabilité à partir de modèles de "décodage spéculatif".

Il a également été supposé que Bard utilise également un "décodage spéculatif" car Google attend que la séquence entière soit entièrement générée avant de l'envoyer à l'utilisateur, mais de l'avis du lanceur d'alerte, cette supposition est complètement incorrecte.

Visuel Multimodal

Les capacités multimodales visuelles sont la partie la moins impressionnante de GPT-4, du moins par rapport aux principales recherches.

Bien sûr, personne n'a encore commercialisé les résultats de la recherche LLM multimodale.

Le lanceur d'alerte a déclaré qu'il s'agissait d'un encodeur visuel indépendant de l'encodeur de texte, ainsi que d'une attention croisée, l'architecture est similaire à Flamingo, et plus de paramètres ont été ajoutés au GPT-4 1.8T.

La capacité multimodale de GPT-4 est affinée avec environ 2 billions de jetons après la pré-formation textuelle.

On dit que sur le modèle visuel, OpenAI espérait à l'origine s'entraîner à partir de zéro, mais comme il n'était pas assez mature, il n'avait d'autre choix que de s'affiner à partir du modèle d'entraînement textuel.

Et le modèle de nouvelle génération GPT-5, dont la formation devrait former le modèle de vision à partir de zéro, et être capable de générer des images, et même de générer de l'audio.

L'un des principaux objectifs de cette capacité visuelle est de permettre à des agents autonomes de lire des pages Web et de retranscrire des images, des vidéos.

Il convient de mentionner que les données utilisées par OpenAI pour former des modèles multimodaux comprennent : des "données conjointes" (LaTeX/texte), des captures d'écran de pages Web, des vidéos YouTube (images d'échantillonnage et exécution de Whisper pour obtenir des sous-titres).

Un fait intéressant concernant la sur-optimisation des LLM est que les modèles visuels ont un coût d'E/S différent de celui des modèles textuels. Dans le modèle visuel, les E/S de chargement des données sont environ 150 fois supérieures à celles du modèle textuel.

Le coût IO du modèle visuel est faible

Chaque jeton dans le modèle visuel est de 600 octets et le texte est de 4 octets/jeton.

Cela demande donc beaucoup de travail en terme de compression d'image. Ceci est extrêmement important pour les fournisseurs de matériel car ils optimisent le matériel d'ici 2 à 3 ans autour des cas d'utilisation et des ratios LLM.

Ils peuvent se retrouver dans un monde où chaque modèle possède de puissantes capacités visuelles et audio.

Ils peuvent se trouver mal adaptés à l'architecture.

En général, l'architecture surpassera certainement les modèles denses simplifiés basés sur du texte et les modèles MoE que nous voyons aujourd'hui.

Les références

Voir l'original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Récompense
  • Commentaire
  • Partager
Commentaire
0/400
Aucun commentaire
  • Épingler
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)