Les détails de la formation GPT-4 d'OpenAI sur "sans parler de la mort" ont été publiés, c'est mon interprétation

Source originale : Minorité

Source de l'image : générée par l'IA illimitée

C'était une matinée ordinaire il y a quelques jours. Je déplaçais des briques quotidiennement, et soudain toutes sortes d'informations ont afflué: "Dépêchez-vous, la structure du modèle GPT-4 a été divulguée, et le grand modèle produit dans le pays le surpassera à nouveau!"

Allumez les réseaux sociaux et voyez, d'accord, vous n'avez pas besoin de parler anglais, et les nationaux sont déjà en ligne, je suis vraiment convaincu par cette vitesse. Cependant, lorsque je suis allé chercher la source et voir à quel point l'information était fiable, j'ai soudainement senti que je m'étais éloigné du cercle de la technologie du cercle du divertissement.

Au vu de l'état actuel d'Internet où les "Fake News" volent partout dans le ciel, la première chose que j'ai faite après avoir vu cette nouvelle a été de retrouver la source.

▍Tenants et aboutissants

Le point de départ de mon exploration d'informations était un fil de tweets partagé sur Hacker News extrait via Thread Reader (archivé le 11 juillet). Cliquez pour l'ouvrir, et il y a deux phrases :

Les détails de GPT-4 sont divulgués. C'est fini.

Le niveau de ce parti phare n'est pas inférieur à celui de la Chine.

Comme nous le savons tous, OpenAI a rompu son engagement d'ouverture lors de la publication de GPT-4, n'a divulgué aucun poids ni détail technique et a été largement critiqué par l'industrie. C'est probablement la raison pour laquelle le blogueur utilise le thème C'est fini pour rendre l'effet dramatique du "renversement de l'intrigue".

En regardant à nouveau le contenu, il s'agit des détails de formation GPT-4 d'OpenAI. Il y a eu beaucoup de spéculations sur cette information, mais l'officiel ne l'a pas divulguée. Lorsqu'elle est mentionnée, elle est très vague (le texte original est relativement obscur, utilisant beaucoup d'abréviations et de jargon, certains seront expliqués plus tard) :

  • Nombre de paramètres du modèle : 1 800 milliards, soit environ 10 fois plus que GPT-3.5 (175 milliards).
  • Profondeur du calque du modèle : 120 calques.
  • Architecture de modèle : modèle expert mixte (MoE, voir ci-dessous pour l'explication), un total de 16 "experts", chacun avec 111 milliards de paramètres. Chaque passage d'inférence vers l'avant (générant une sortie de jeton) sélectionne deux experts.
  • Données d'entraînement : un total de 13 T (13 000 milliards) de données de jeton. Les données de texte sont recyclées 2 fois et les données de code sont recyclées 4 fois. Ces données sont en fait très importantes et seront analysées en détail plus tard.
  • Stratégie parallèle : parallélisme de tenseur à 8 voies + parallélisme de pipeline à 16 voies. Il existe plusieurs clusters GPU situés dans différents centres de données qui s'entraînent simultanément, chaque cluster dispose de 128 GPU.
  • Contexte pré-formation : 8K. La version 32K est affinée à partir de 8K.
  • Coût de la formation : Formation continue de 90 à 100 jours sur environ 25 000 A100 à raison d'environ 2,15e25 flops. À 1 $ par heure A100, cela coûterait environ 63 millions de dollars. (Peut être fait aujourd'hui dans environ 55 jours en utilisant environ 8192 H100 à un coût estimé à 21,5 millions de dollars.)

La question est, comment cette information est-elle apparue et est-elle fiable ?

Suivez la vigne pour toucher le "melon", et j'ai trouvé l'éditeur de cette série de tweets - Yam Peleg.

Bien que je n'aie pas suivi le récit de ce vieil homme, j'ai lu ses articles précédents. Il est le PDG d'une « startup » en Israël (mais elle est établie depuis 15 ans, et il n'est peut-être pas approprié de l'appeler une start-up ); j'ai une riche expérience en ingénierie et je comprends les grands modèles de langage. J'ai essayé pour inverser le crack GPT-4 et l'interpréteur de code ChatGPT. En juin de cette année, lorsque les membres d'OpenAI se sont rendus en Israël, Peleg est également allé participer à la discussion et à la communication, et a également pris une photo avec le PDG Sam Altman.

En lisant l'article de ce vieil homme, je ne peux m'empêcher de penser à Tom, un officier de liaison étudiant que j'ai rencontré en Israël, qui peut vous faire bouillir le sang si vous dites n'importe quoi.

De gauche à droite : Sam Altman, Yam Peleg (Source : @Yampeleg)

Considérant que ce vieil homme a fait des recherches sur OpenAI et connaît beaucoup de personnes à l'intérieur d'OpenAI, donc s'il obtient des informations internes, je pense que la crédibilité est en fait assez élevée.

Mais alors que j'étais sur le point d'étudier attentivement ses messages la nuit, j'ai soudainement découvert qu'il avait supprimé tous les messages précédents. Au début, je pensais être couvert par OpenAI, mais j'étais content d'avoir gardé le fichier. Après un examen plus approfondi, j'ai découvert que ce n'était pas parce qu'OpenAI avait demandé la suppression, mais parce qu'il l'avait également signalé dans une colonne de rémunération et s'était plaint de violation du droit d'auteur.

La source originale de ceci est une colonne Substack appelée SemiAnalysis.Ils ont publié un article intitulé GPT-4 Architecture, Infrastructure, Training Dataset, Costs, Vision, MoE plus tôt, derrière un paywall.

Après vérification, j'ai découvert :

SemiAnalysis est une société de recherche et de conseil en semi-conducteurs spécialisée dans la chaîne d'approvisionnement des semi-conducteurs, de la matière première chimique à la fabrication, en passant par la conception de la propriété intellectuelle et la stratégie. La société a été fondée par Dylan Patel, un analyste et ingénieur possédant de nombreuses années d'expérience dans l'industrie des semi-conducteurs. Patel a occupé des postes allant d'ingénieur de conception à responsable marketing chez Intel, AMD, Qualcomm, etc. L'équipe de SemiAnalysis comprend également un certain nombre d'analystes et de consultants professionnels en semi-conducteurs. Ils ont chacun des domaines d'expertise différents, tels que l'IA, le cloud computing, les réseaux, le stockage, les véhicules électriques, la radiofréquence, l'Internet des objets, etc. Ils fournissent aux clients des services complets d'analyse et de conseil de la chaîne d'approvisionnement des semi-conducteurs, des matières premières chimiques aux usines de fabrication, en passant par la conception de la propriété intellectuelle et la stratégie.

Auparavant, SemiAnalysis avait également publié un article révélant que les ingénieurs de Google avaient déclaré dans des communications internes que "We Have No Moat, And Ni Does OpenAI" (We Have No Moat, And Ni Does OpenAI), ce qui a suscité de nombreuses discussions. Cet article a ensuite été confirmé comme étant vrai.

De ce point de vue, le frère Dylan Patel peut effectivement avoir des initiés, et la crédibilité des informations qu'ils ont données devrait encore être acceptable.

Quant à savoir pourquoi ils étaient si désireux d'amener Brother Yam à supprimer les tweets - parce que ces "informations privilégiées" sont en effet précieuses, et qu'il en coûte 500 $ par an pour s'abonner aux articles payants de SemiAnalysis. L'abonnement de Brother Yam à la version élite coûte 1 000 $.

▍Analyse des cartes

D'après ces tenants et aboutissants, mon avis est que cette rumeur a encore une certaine crédibilité. Voici quelques-unes de mes analyses basées sur ces informations, que je propose pour discussion.

Le concours pour les modèles privés se concentrera sur le parallélisme

Selon cette rumeur, si vous souhaitez former un concurrent du GPT-4, on estime qu'en utilisant environ 8 192 puces H100, au prix de 2 dollars de l'heure, la pré-formation peut être effectuée en 55 jours environ, et le coût est d'environ 21,5 millions de dollars (150 millions de RMB).

Ce coût n'est vraiment pas trop important pour le marché turbulent actuel du LLM. Les grands acteurs nationaux actuels peuvent facilement suivre plusieurs entraînements. Donc, pour être honnête cette fois, il ne s'agit peut-être pas de se vanter de comparer le GPT-4 dans six mois avec les capacités du modèle (au moins l'échelle des paramètres).

Si le coût de la formation n'est pas un problème, les données de formation seront-elles un problème ? Je ne pense pas non plus. On dit que les données d'entraînement de GPT-4 ont un total de 13T (13 trillions) de jetons. À titre de comparaison, les ensembles de données publics CommonCrawl et RefinedWeb ont des jetons 5 T. Selon la rumeur, le reste proviendrait de Twitter, Reddit et YouTube ; certaines poursuites judiciaires affirment également qu'OpenAI a utilisé des données piratées provenant de "bibliothèques fantômes" telles que LibGen et SciHub.

Par conséquent, je pense que l'ampleur de ces données n'est pas inaccessible.De plus, le pays lui-même a accumulé beaucoup de ressources chinoises, donc les données de formation ne devraient pas être un gros problème.

Pour d'autres problématiques telles que la pré-formation, la mise au point, l'encodage et le décodage chinois, en effet, il n'y a pas trop de secrets techniques, et les méthodes sont relativement ouvertes. Avec suffisamment de ressources, il devrait être résolu dans six mois.

Ainsi, le dernier seuil restant est le parallélisme. En fait, une énorme quantité d'espace a été utilisée dans cette rumeur pour introduire un contenu pertinent, et le niveau professionnel est encore relativement élevé.Je ne peux donner ici que des explications superficielles.

En gros, le soi-disant problème parallèle est que vous avez un grand modèle, comment laisser le plus de gens l'utiliser en même temps au moindre coût. Cela implique de nombreuses problématiques de conception professionnelle : dans le cas de ressources de calcul fixes, comment allouer les ressources de calcul dans les différents liens ? Comment gérer la concurrence ? Comment gérer la mémoire ?

La capacité de traitement parallèle détermine directement l'expérience utilisateur. À l'heure actuelle, ChatGPT et l'API basée sur GPT-3.5 sont relativement fluides, ce qui est très puissant. Tout le monde ici peut dire que d'autres LLM nationaux ou Claude que j'ai connus sont plus rapides que GPT-3.5. Cependant, tout le monde n'a pas considéré l'ampleur de l'utilisation. GPT-3.5 a de telles performances avec une concurrence aussi élevée. Si d'autres fabricants ne peuvent pas égaler la capacité d'OpenAI, ils ne pourront pas s'emparer du marché OpenAI.

Par conséquent, les capacités parallèles peuvent devenir l'un des principaux points de concurrence pour divers concurrents d'OpenAI.

GPT-5 se concentre sur la multimodalité

Comme mentionné précédemment, la rumeur dit que le GPT-4 est un modèle de "mélange d'experts" (MoE) composé de 16 modèles experts. Voici une brève explication de ce qu'est le "mélange expert", qui consiste à diviser le "problème" de l'utilisateur en plusieurs sous-problèmes, et chaque sous-problème est confié à un modèle plus petit (c'est-à-dire un "expert") pour résoudre, puis via un Le "modèle de routage" est sélectionné et combiné, puis transmis à l'utilisateur.

Les rumeurs affirment en outre que chaque "expert" du GPT-4 possède 111 milliards de paramètres équivalents au GPT-3 (ce qui est cohérent avec les paramètres du GPT-4 qui, selon Sam Altman, sont encore plus petits que le GPT-3.5), dont il y a 55 milliards de paramètres sont partagés. Chaque passe d'inférence vers l'avant (générant une sortie de jeton) utilise deux "experts", consommant effectivement environ 280 milliards de paramètres. Ce nombre est nettement inférieur au nombre requis sans MoE, et il est également similaire aux prédictions de nombreux chercheurs à un stade précoce.

Il convient de noter que des rumeurs indiquent que les données de texte et de code utilisées pour la formation GPT-4 sont réutilisées. Combiné avec le choix d'utiliser le framework MoE, je suppose personnellement: soit les données textuelles de haute qualité qui peuvent être facilement obtenues à l'heure actuelle sont proches de l'épuisement, soit l'amélioration des performances LLM en augmentant la quantité de données sans limite est déjà très limité.

Cependant, quelle que soit la situation, si GPT-5 veut avoir une grande percée en matière de performances, il doit être capable de tirer pleinement parti de la grande quantité existante de données vidéo, image et audio, en d'autres termes, c'est un " modèle multimodal ».

Le problème est que, selon cette rumeur, la multimodalité visuelle actuelle d'OpenAI n'a pas grand-chose à offrir. Il s'agit d'un encodeur visuel indépendant qui utilise du texte comme entrée pour la pré-formation, puis utilise environ 2 billions de jetons pour un réglage fin. Cette méthode de formation ne peut évidemment pas tirer pleinement parti des données vidéo, image et audio existantes.

Par conséquent, OpenAI a toujours souligné que GPT-5 n'a pas été formé et que la probabilité est vraie. Avant de former GPT-5, ils devaient trouver une meilleure architecture de modèle multimodal afin que le modèle puisse tirer pleinement parti des données audio et vidéo. Ce n'est qu'en étant capable d'utiliser ces données de formation de haute qualité que GPT-5 pourra obtenir une amélioration de capacité suffisante. (En même temps, si GPT-5 peut vraiment tirer pleinement parti de ces données audio et vidéo, qu'il s'agisse d'AGI ou du "Super Intelligence Body" récemment proposé par OpenAI, il semble que ce ne soit pas si loin.)

OpenAI a peut-être intentionnellement diffusé cette rumeur

Cette inférence est une spéculation purement personnelle. Les faits ne suffisent pas, il suffit de jeter un coup d'œil.

Je crois comprendre qu'OpenAI est bien conscient que les douves de GPT-4 ne sont pas profondes ; dans l'engouement actuel, il n'est pas difficile pour les concurrents de rattraper leur retard. Et comme analysé ci-dessus, leur structure actuelle de modèle multimodal à grande échelle ne devrait pas être finalisée.A l'heure actuelle, si de nouveaux acteurs surgissent et sortent du multimodal, la probabilité qu'OpenAI soit dépassé par la courbe est également très élevée. .

Donc, c'est peut-être le plan d'OpenAI pour ralentir la guerre - je vais vous révéler quelques informations sur le GPT-4, laisser les principaux acteurs faire d'abord le travail de reconstitution du GPT-4 et marcher sur la route qu'OpenAI a déjà parcourue. .

Si au cours de ce processus, OpenAI a jeté les bases de l'apprentissage de GPT-5 et achevé les recherches préliminaires du grand modèle multimodal, même si GPT-4 a été dépassé par d'autres grands modèles de langage, OpenAI ne paniquera pas. Personnellement, je pense que la multimodalité est susceptible d'être la dernière génération d'implication humaine, et l'IAG peut être la principale force dans le développement et l'évolution futurs des modèles. En d'autres termes, si vous gagnez cette fois, vous pouvez gagner jusqu'au bout.

Voir l'original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Récompense
  • Commentaire
  • Partager
Commentaire
0/400
Aucun commentaire
  • Épingler
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)