GPT-4 est un modèle mixte de 8x220 milliards de paramètres ? Ce potin est devenu fou aujourd'hui

Question

Source : Cœur de la machine> George Hotz : À l'exception d'Apple, la raison pour laquelle la plupart des entreprises gardent le secret n'est pas pour cacher une technologie noire, mais pour cacher des choses "pas si cool"."Le volume paramétrique du GPT-4 atteint 100 000 milliards." Je crois que beaucoup de gens se souviennent encore des nouvelles "lourdes" qui ont balayé l'écran au début de cette année et d'un graphique qui s'est propagé de manière virale.![](https://img.gateio.im/social/moments-bab2147faf-c6ea22b629-dd1a6f-62a40f) Mais bientôt, le PDG d'OpenAI, Sam Altman, est sorti pour réfuter les rumeurs, confirmant qu'il s'agissait d'une fausse nouvelle, et a déclaré : "Les rumeurs sur le GPT-4 sont ridicules. Je ne sais même pas d'où elles viennent."En fait, beaucoup de gens croient et répandent de telles rumeurs parce que la communauté de l'IA a augmenté la taille des paramètres des modèles d'IA ces dernières années. Le Switch Transformer publié par Google en janvier 2021 a relevé les paramètres du grand modèle d'IA à 1,6 billion. Depuis lors, de nombreuses institutions ont successivement lancé leurs propres grands modèles à mille milliards de paramètres. Sur cette base, les gens ont toutes les raisons de croire que GPT-4 sera un énorme modèle avec des billions de paramètres, et 100 billions de paramètres ne sont pas impossibles.Bien que la rumeur de Sam Altman nous ait aidés à nous débarrasser d'une mauvaise réponse, l'équipe OpenAI derrière lui a été discrète sur les paramètres réels de GPT-4, et même le rapport technique officiel de GPT-4 n'a divulgué aucune information.Jusqu'à récemment, ce mystère était soupçonné d'avoir été percé par le « hacker de génie » George Hotz.George Hotz est célèbre pour avoir cracké l'iPhone à l'âge de 17 ans et hacké la PS3 de Sony à l'âge de 21 ans. Il est actuellement le patron d'une société (comma.ai) qui développe des systèmes d'aide à la conduite automatique.Il a récemment été interviewé par un podcast de technologie AI appelé Latent Space. Dans l'interview, il a parlé de GPT-4, disant que GPT-4 est en fait un modèle hybride. Plus précisément, il utilise un système d'ensemble de 8 modèles experts, chacun avec 220 milliards de paramètres (un peu plus que les 175 milliards de paramètres de GPT-3), et ces modèles ont été formés sur différentes formations de distribution de données et de tâches.![](https://img.gateio.im/social/moments-bab2147faf-7913ab5955-dd1a6f-62a40f) Après la diffusion de ce podcast, le créateur de PyTorch, Soumith Chintala, a déclaré qu'il semblait avoir entendu la même "rumeur", et beaucoup de gens l'ont peut-être entendue, mais seul George Hotz l'a dit en public.![](https://img.gateio.im/social/moments-bab2147faf-e857d562e9-dd1a6f-62a40f) "Les modèles hybrides sont ceux que vous considérez lorsque vous n'avez rien à faire", a plaisanté George Hotz. "Les modèles hybrides apparaissent parce que vous ne pouvez pas rendre le modèle plus grand que 220 milliards de paramètres. Ils veulent que le modèle soit meilleur, mais s'il est juste "Le temps d'entraînement est plus long et l'effet a diminué. Par conséquent, ils ont adopté huit modèles experts pour améliorer les performances. " Quant au fonctionnement de ce modèle hybride, George Hotz n'a pas précisé.![](https://img.gateio.im/social/moments-bab2147faf-20616686e1-dd1a6f-62a40f) Pourquoi OpenAI est-il si secret à ce sujet ? George Hotz pense que, à l'exception d'Apple, la raison pour laquelle la plupart des entreprises gardent le secret n'est pas de cacher une technologie noire, mais de cacher des choses "pas si cool", et de ne pas vouloir que les autres sachent que "tant que vous dépensez 8 fois plus cher, vous pouvez obtenir ce modèle".En ce qui concerne la tendance future, il pense que les gens formeront des modèles plus petits et amélioreront les performances grâce à des ajustements à long terme et à la découverte de diverses astuces. Il a mentionné que par rapport au passé, l'effet de formation a été considérablement amélioré, bien que les ressources informatiques n'aient pas changé, ce qui montre que l'amélioration de la méthode de formation a joué un grand rôle.À l'heure actuelle, les "dernières nouvelles" de George Hotz sur le GPT-4 ont été largement diffusées sur Twitter.![](https://img.gateio.im/social/moments-bab2147faf-195a7471f0-dd1a6f-62a40f) Quelqu'un s'en est inspiré et a prétendu former un ensemble LLaMA contre GPT-4.![](https://img.gateio.im/social/moments-bab2147faf-caf5535cca-dd1a6f-62a40f) On dit aussi que si, comme l'a dit George Hotz, GPT-4 est un modèle hybride composé de 8 modèles experts avec 220 milliards de paramètres, on a du mal à imaginer à quel point le raisonnement qui le sous-tend est coûteux.![](https://img.gateio.im/social/moments-bab2147faf-f62695f724-dd1a6f-62a40f) Il convient de souligner que puisque George Hotz n'a pas mentionné la source, nous ne pouvons actuellement pas juger si l'affirmation ci-dessus est correcte.