Une capture d’écran de l’article de Microsoft a révélé que GPT-3.5 n’a que 20 milliards de paramètres ? Le cercle de l’IA a été choqué, et les internautes ont crié que c’était scandaleux !

Question

Source d’origine : New Zhiyuan![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-305182ec3b-dd1a6f-69ad2a) Source de l’image : Généré par Unbounded AIGPT-3.5 n’a que 20 milliards de paramètres ?Aujourd’hui, le grand cercle des modèles a été agrandi par une capture d’écran dans le journal de Microsoft, que se passe-t-il ?Il y a quelques jours, Microsoft a publié un article sur arXiv, qui proposait un modèle de diffusion à petite échelle avec seulement 75 millions de paramètres - CodeFusion.En termes de performances, les 75 millions de paramètres de CodeFusion sont comparables au modèle 350M-175B à la pointe de la technologie en termes d’indicateurs de précision top-1.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-acfed1ccb0-dd1a6f-69ad2a) Adresse:Le travail de cet article est très intéressant, mais ce qui attire particulièrement l’attention de tous, c’est que...Lorsque l’auteur compare ChatGPT (gpt-3.5-turbo), le nombre nominal de paramètres n’est que de 20B !![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-e997f2dfa9-dd1a6f-69ad2a) Avant cela, tout le monde estimait que le nombre de paramètres de GPT-3.5 était de 175 milliards, ce qui équivaut à une réduction de près de dix fois !![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-f9a57eb606-dd1a6f-69ad2a) Selon les révélations de cet article, les internautes se sont également rendus sur Wikipédia pour mettre à jour l’introduction de GPT-3.5 et ont directement changé la taille du paramètre à 20B.Dès que la nouvelle est sortie, elle est directement apparue sur la recherche de Zhihu, et les internautes ont explosé.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-1151c7af0f-dd1a6f-69ad2a) Certaines personnes ont dit, dépêchez-vous de revenir et de sortir mon précédent article de blog sur la distillation de modèles pour l’examiner et le réviser.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-0c8dc90491-dd1a6f-69ad2a) ## **S’agit-il d’un « oolong » ou d’un « fait » ? **Dès que les révélations des internautes ont été publiées, elles ont immédiatement déclenché des discussions animées.Jusqu’à présent, plus de 680 000 personnes sont venues regarder.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-03822c6176-dd1a6f-69ad2a) Le frère aîné a déclaré que plusieurs auteurs de l’article utilisent également Twitter, et on estime qu’il ne faudra pas longtemps avant qu’ils ne s’expliquent en personne.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-ae81eab0f0-dd1a6f-69ad2a) En ce qui concerne ce mystérieux « 20B », les internautes ont également des avis différents.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-a431a67d4a-dd1a6f-69ad2a) Certains spéculent qu’il s’agit très probablement d’une erreur de l’auteur. Par exemple, il s’agissait à l’origine de 120 ou 200 B.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-68d7626a77-dd1a6f-69ad2a) Combiné à diverses évaluations dans la réalité, il existe en effet de nombreux petits modèles qui peuvent obtenir des résultats similaires à ceux de ChatGPT, tels que Mistral-7B.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-41a9ceb875-dd1a6f-69ad2a) C’est peut-être aussi une confirmation secondaire que GPT-3.5 n’est vraiment pas grand.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-507e9e6fc9-dd1a6f-69ad2a) De nombreux internautes pensent également que les paramètres de 20B peuvent être exacts, et ils ont soupiré :« C’est inimaginable ! Ni le Falcon-180B ni le Llama2-70B ne peuvent battre le modèle 20B.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-031d17ddca-dd1a6f-69ad2a) Certains internautes pensent également que GPT-3.5-Turbo est une version raffinée de GPT-3.5.Et cette « fuite » des paramètres ne fait que confirmer les rumeurs selon lesquelles GPT-3.5-Turbo n’est pas aussi bon que l’ancien GPT-3.5.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-2e40bddc14-dd1a6f-69ad2a) Cependant, selon la documentation officielle d’OpenAI, à l’exception de text-davinci et code-davinci, qui ne sont plus utilisés, tous les membres de la famille GPT-3.5 sont basés sur gpt-3.5-turbo.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-60557d480b-dd1a6f-69ad2a) ![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-cf126d0a67-dd1a6f-69ad2a) ![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-e05153a7a7-dd1a6f-69ad2a) ## **Microsoft lance CodeFusion**L’article de Microsoft, qui a révélé que GPT3.5 n’a que 20 milliards de paramètres, veut introduire un modèle de diffusion pour la génération de code.Les chercheurs ont évalué CodeFusion, un modèle pour la tâche de génération de code en langage naturel pour les règles de formatage conditionnel (CF) Bash, Python et Microsoft Excel.Des expériences ont montré que CodeFusion (seulement 75 millions de paramètres) est comparable au LLM de pointe (paramètres 350M-175B) en termes de précision top-1, et a un excellent rapport performance-paramètres en termes de précision top-3 et top-5.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-28bac32ec5-dd1a6f-69ad2a) **Architecture du modèle**CODEFUSION EST UTILISÉ POUR LES TÂCHES DE GÉNÉRATION DE CODE, ET SA FORMATION EST DIVISÉE EN DEUX PHASES, LA PREMIÈRE ÉTAPE EST UN PRÉ-ENTRAÎNEMENT NON SUPERVISÉ ET LA DEUXIÈME ÉTAPE EST UN RÉGLAGE FIN SUPERVISÉ.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-236bb1a5ff-dd1a6f-69ad2a) DANS UN PREMIER TEMPS, CODEFUSION UTILISE DES EXTRAITS DE CODE NON ÉTIQUETÉS POUR ENTRAÎNER LE DÉBRUITEUR ET LE DÉCODEUR. Il utilise également une couche d’incorporation pouvant être entraînée, L, pour incorporer des extraits de code dans des espaces contigus.DANS LA DEUXIÈME PHASE, CODEFUSION EFFECTUE UN RÉGLAGE FIN SUPERVISÉ, EN UTILISANT DES DONNÉES PROVENANT DE PAIRES TEXTE-CODE. À ce stade, l’encodeur, le débruiteur et le décodeur sont tous réglés pour mieux effectuer la tâche.DE PLUS, CODEFUSION S’APPUIE SUR DES RECHERCHES ANTÉRIEURES SUR LA DIFFUSION DE TEXTE POUR FUSIONNER LA REPRÉSENTATION CACHÉE D DU DÉCODEUR DANS LE MODÈLE. Il s’agit d’améliorer les performances du modèle. Au cours du processus d’apprentissage, en différentes étapes, le modèle introduit du bruit, puis calcule la fonction de perte pour s’assurer que l’extrait de code généré est plus conforme à la norme attendue.EN RÉSUMÉ, CODEFUSION EST UN PETIT MODÈLE QUI EFFECTUE UN TRAVAIL DE GÉNÉRATION DE CODE ET AMÉLIORE CONTINUELLEMENT SES PERFORMANCES GRÂCE À DEUX PHASES D’APPRENTISSAGE ET D’INGESTION DE BRUIT. Ce modèle s’inspire de l’étude de la diffusion de texte et améliore la fonction de perte en fusionnant la représentation cachée du décodeur pour mieux générer des extraits de code de haute qualité.## **Résultats de l’évaluation**Le tableau suivant récapitule les performances du modèle CODEFUSION et de chaque modèle de référence dans les paramètres top-1, top-3 et top-5.Dans le top-1, les performances de CODEFUSION sont comparables, et dans certains cas même meilleures, en particulier dans les tâches Python, où seul GPT-3 (175B) est légèrement plus performant que CODEFUSION (75M). Cependant, en termes de top-3 et top-5, CODEFUSION a nettement surpassé tous les modèles de base.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-2f73f1df62-dd1a6f-69ad2a) Le tableau ci-dessous montre les résultats moyens de la diversité des modèles CODEFUSION et autorégressifs (y compris T5, CodeT5, StarCoder, CodeGen et GPT-3) sur chaque tâche de référence, et examine les résultats générés par les 5 premières générations de chaque modèle.PAR RAPPORT AUX MODÈLES AUTORÉGRESSIFS, CODEFUSION GÉNÈRE DES RÉSULTATS PLUS DIVERSIFIÉS ET PLUS PERFORMANTS.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-1289d29ab6-dd1a6f-69ad2a) Dans l’expérience d’ablation, les auteurs ont arrêté le processus de débruitage et généré un extrait de code de l’état actuel dans la plage de pas de temps t∈[0, T]. Normaliser la distance d’édition de la chaîne permet de mesurer les résultats obtenus pour chaque pas de temps (par incréments de 100 pas).CETTE APPROCHE PERMET DE RÉSUMER ET DE DÉMONTRER LA PROGRESSION ÉTAPE PAR ÉTAPE DU MODÈLE CODEFUSION, COMME LE MONTRE LA FIGURE CI-DESSOUS.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-59696a2139-dd1a6f-69ad2a) Cela dit, quel est exactement le nombre de paramètres dans GPT-3.5 ? Quel est le lien technique et autre entre GPT-4 et GPT-3.5 ?GPT-3.5 est-il un ensemble de petits modèles experts ou un modèle généraliste ? Est-il distillé par un modèle plus grand ou entraîné sur des données plus volumineuses ?Les réponses à ces questions ne seront révélées que lorsqu’elles seront vraiment open source.Ressources: