Bytes a donné à OpenAI tous les grands modèles une opération de « déballage ».
Les résultats ont vraiment permis de déterminer le rôle et l’impact spécifiques de certaines technologies clés sur l’évolution de GPT-4.
Comme quoi:
SFT a été le catalyseur de l’évolution des premiers GPT
Les plus grands contributeurs aux capacités de codage de GPT sont SFT et RLHF
L’ajout de données de code au pré-entraînement améliore la capacité des versions GPT ultérieures dans tous les aspects, en particulier l’inférence...
Après avoir démarré une entreprise, le taureau de l’IA Li Mu**, qui était très occupé, est également apparu aux yeux du public après une longue période et a fait l’éloge de cette recherche.
Les internautes ont même fait l’éloge de :
Il s’agit du premier travail à ce jour pour déballer entièrement tous les modèles OpenAI, respect.
En plus de quelques nouvelles découvertes, il confirme également certaines conjectures existantes :
Par exemple, GPT-4 n’est pas alarmiste sur le fait de devenir stupide, et cette évaluation a révélé qu’il y a un « phénomène de bascule » évident sur le chemin de l’évolution de GPT, c’est-à-dire que certaines capacités augmentent et d’autres diminuent au cours de l’évolution du modèle.
Cela coïncide avec les sentiments précédents des internautes.
Comme le dit l’auteur lui-même :
Ce travail pourrait fournir des informations précieuses sur le chemin évolutif de GPT-3 à GPT-4.
En d’autres termes, grâce à lui, nous pouvons avoir un aperçu du « chemin de réussite » du modèle GPT et fournir une expérience efficace pour les prochains travaux de construction de modèles à grande échelle.
Alors, qu’est-ce qu’il « ouvre » exactement, jetons un coup d’œil à l’article.
Exploration de l’évolution de GPT-3 vers GPT-4
Le premier diagramme de l’évolution a été résumé par les auteurs sur la base d’informations accessibles au public.
Comme vous pouvez le voir, il indique les technologies auxquelles chaque modèle intermédiaire a été soumis (telles que le réglage fin du code, SFT/FeedME, etc.) qui ont évolué depuis le GPT-3 original jusqu’à 3.5 et maintenant à 4.
De davinci à gpt-4-0613, les octets ont testé les 7 principales capacités de chaque génération de GPT, telles que les mathématiques, le codage et le raisonnement.
### 1. SFT : le catalyseur de l’évolution précoce des TPG
Tout d’abord, dans la famille GPT-3, le davinci original (GPT-3) a évolué en text-davinci-001 en supervisant le réglage fin de SFT et de sa variante, FeedME.
Cela permet à ce dernier d’améliorer ses performances sur presque toutes les tâches :
Une représentation plus intuitive est montrée dans la figure ci-dessous (le « fandom » est le texte évolué davinci-001).
GPT est ensuite passé à la série 3.5, où le code le plus basique-davinci002 a évolué en text-davinci-002 en utilisant la même technologie.
Cependant, l’effet de cette opération évolutive n’est vraiment pas grand, et les performances de GPT n’ont été améliorées que de quelques fois, et plus n’a pas augmenté mais diminué.
Ici, les auteurs mènent à leur première conclusion, à savoir :
SFT ne fonctionne que sur les modèles de base les plus faibles et a peu d’effet sur les modèles plus forts.
Un phénomène similaire peut être observé dans les modèles open-source (cette revue a également testé Llama1 et 2, PaLM2-L, Claude 2, etc.) :
En plus du Llama-65B original, SFT a réussi à améliorer ses performances sur le benchmark MMLU, mais tous les Llama2-70B qui utilisaient des améliorations SFT n’ont montré que des améliorations mineures sur le classement Open LLM.
Résumé : Au stade GPT3, la technologie SFT a joué un rôle clé dans l’évolution du modèle.
2, RLHF et SFT : Contributeurs à l’amélioration de la capacité de codage
À la suite de la série GPT3.5, à partir de text-davinci-002, OpenAI a commencé à introduire une nouvelle technologie basée sur l’algorithme PPO RLHF, ce qui a donné text-davinci-003.
À ce stade, ses performances sur la plupart des benchmarks sont égales ou légèrement inférieures à celles de son prédécesseur, ce qui indique que l’effet n’est pas particulièrement évident (et il en va de même pour les modèles open source).
À une exception près : la tâche de codage, qui a augmenté de près de 30 points.
Rappelant le code-davinci002 précédent utilisant la technologie SFT pour évoluer en text-davinci-002, ce qui a entraîné une diminution des performances globales, la tâche d’encodage n’a pas été affectée, mais le score a augmenté.
Les auteurs ont décidé de vérifier l’effet de la SFT et de la RLHF sur la capacité de codage des grands modèles.
Ici, ils ont mesuré des scores tels que pass@1 (probabilité de 1 passage de 1 échantillon), pass@100 (probabilité de 100 passages de 100 échantillons) de plusieurs générations de modèles GPT.
En conséquence, le modèle utilisant la technologie SFT et RLHF a montré une amélioration significative de la pass@1 et une légère diminution de la pass@100 par rapport au modèle de base.
Qu’est-ce que cela signifie ?
L’auteur explique :
pass@100 décrit la capacité de codage intrinsèque du modèle, tandis que pass@1 représente la capacité de codage unique et sans bogue du modèle.
pass@100 légère diminution suggère que SFT et RLHF ont toujours une taxe dite d’alignement sur les tâches d’encodage, comme toute autre tâche.
Cependant, SFT et RLHF ont été en mesure d’apprendre pass@1 pass@100 capacités, c’est-à-dire de transformer des capacités intrinsèques (mais nécessitent de nombreuses tentatives) en un codage unique et sans bogue, ce qui a entraîné une augmentation significative de la pass@1.
En regardant attentivement les résultats, nous pouvons voir que gpt-3.5-turbo-0301 améliore considérablement la pass@1 grâce à SFT et RLHF, ce qui est une bonne nouvelle pour l’optimisation des performances des petits modèles.
Et ce n’est pas tout, étant donné que les auteurs ont déjà observé que GPT-4 était capable de résoudre le problème après plusieurs tentatives sur des tâches d’inférence complexes.
Combiné avec les observations ci-dessus, ils l’ont résumé comme suit :
Les LLM peuvent toujours utiliser SFT et RLHF pour transformer en permanence leurs capacités intrinsèques (mais elles nécessitent plusieurs tentatives) en capacités de résolution de problèmes ponctuelles, approchant ainsi la limite supérieure des capacités des LLM.
L’implication est que GPT-4 peut être encore plus fort.
3. Le code est ajouté à la pré-formation, ce qui est le plus utile pour l’inférence
Sur la route de l’évolution GPT4, 2 modèles spéciaux ont également vu le jour :
code-cushman-001 (Codex-12B) 和code-davinci-002。
Il s’agit de la première tentative d’OpenAI d’entraîner un modèle à l’aide de données de code, et malgré sa petite échelle, il a également atteint de bonnes capacités de code.
Ce dernier est le modèle de base de GPT3.5, qui est le résultat d’un entraînement avec du code RLHF+ sur la base de GPT3, c’est-à-dire un pré-entraînement hybride de texte et de code.
On peut voir qu’il surpasse largement GPT-3 (pas seulement en termes de capacité de codage), et surpasse même GPT-3.5-turbo-0613 dans certaines tâches d’inférence (telles que BBH).
Voici ce qu’en disent les auteurs :
Cela montre que l’ajout de données de code au pré-entraînement peut améliorer considérablement les capacités des LLM, en particulier l’inférence.
4, phénomène de « balançoire"
En comparant les modèles d’API OpenAI de mars 2023 et juin 2023, on peut en effet constater ce phénomène :
Par rapport à gpt-3.5-turbo-0301, le gpt-3.5-turbo-0613 amélioré fonctionne bien sur Human (53.9 -> 80.0), mais baisse considérablement sur MATH (32.0 -> 15.0).
GPT-4-0613 a surperformé GPT-4-0314 (78,7 -> 87,2) sur DROP, mais a également connu une chute (82,2 -> 68,7) sur MGSM.
Selon les auteurs :
Le « phénomène de balançoire » peut devenir une pierre d’achoppement sur la route de l’IAG pour les LLM, car l’IAG met l’accent sur « l’intelligence générale » et exige d’excellentes performances sur toutes les tâches, ce qui exige que les modèles ne soient pas « biaisés ».
Ici, ils ont également appelé la communauté à prêter attention à cette question et à promouvoir conjointement la recherche sur le développement équilibré de grands modèles.
Aidez les praticiens de grands modèles à trouver leur voie
Tous les résultats ci-dessus sont basés sur GPT-Fathom -
Byte a récemment proposé un outil d’évaluation de modèles de grande taille.
On peut supposer que tout le monde doit se poser des questions :
Il existe déjà beaucoup de grands classements de modèles et d’outils d’évaluation, alors pourquoi proposer une nouvelle approche ?
Selon les auteurs, par rapport aux méthodes d’évaluation existantes, l’échelle GPT-Fathom est plus uniforme et les résultats sont reproductibles.
Les praticiens des grands modèles peuvent l’utiliser pour clarifier où se trouve l’écart entre eux et le modèle principal, afin d’améliorer leurs produits de manière ciblée.
Plus précisément, GPT-Fathom résout principalement trois lacunes des autres méthodes d’évaluation des grands modèles :
Critères d’établissement incohérents : Il n’existe pas de norme unifiée pour l’utilisation de paramètres tels que la chaîne de pensée, la taille de l’échantillon, etc., et les méthodes d’évaluation des réponses
Collecte incomplète de modèles et de tâches : La capacité à tester l’attention n’est pas exhaustive et il y a un manque d’attention sur les modèles antérieurs
Manque de recherche sur la sensibilité du modèle
Afin de refléter plus intuitivement les caractéristiques de GPT-Fatham, l’auteur compare certaines listes existantes spécifiques, qui peuvent être résumées dans le tableau suivant :
Parmi eux, l’évaluation de la sensibilité a révélé des problèmes que les normes d’essai précédentes n’avaient pas permis d’identifier.
Par rapport à GPT, d’autres modèles sont très sensibles aux mots rapides, et un léger changement conduira à un résultat complètement différent, ce qui suggère qu’il existe toujours un grand écart entre la robustesse des autres modèles et GPT.
Par exemple, sur l’ensemble de données TriviaQA, un léger changement dans le mot d’invite a réduit le score de Llama 2-70B d’un quart, tandis que les modèles de la série GPT n’ont pas changé de manière significative.
En outre, des facteurs tels que le CoT, la taille de l’échantillon et la variance d’échantillonnage sont également inclus dans les tests de sensibilité.
À l’avenir, les auteurs prévoient de continuer à développer GPT-Fathom à partir de trois dimensions : les types de capacités, les ensembles de données de test et les modèles, et soutiendront l’évaluation du dialogue multi-tours, de la multimodalité et d’autres capacités, ainsi que d’augmenter les tests de plusieurs ensembles de données et modèles.
Les deux co-auteurs de GPT-Fatham sont Yuyu Zhang, chercheur au sein du groupe de recherche sur l’apprentissage automatique appliqué de Byte, et Shen Zheng, stagiaire.
Shen Zheng est étudiante à la maîtrise à l’Université de l’Illinois à Urbana-Champaign (UIUC).
En outre, quatre chercheurs, dont Yijie Zhu de Bytes, et le professeur Kevin Chen-Chuan Chang de l’UIUC ont également participé à l’étude.
Adresse:
Liens de référence :
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
Des octets « déballent » tous les grands modèles d’OpenAI, révélant le chemin d’évolution de GPT-3 à GPT-4 ! J’ai soufflé Li Mu
Source de l’article : qubits
Comment GPT-3 a-t-il évolué pour devenir GPT-4 ?
Bytes a donné à OpenAI tous les grands modèles une opération de « déballage ».
Les résultats ont vraiment permis de déterminer le rôle et l’impact spécifiques de certaines technologies clés sur l’évolution de GPT-4.
Après avoir démarré une entreprise, le taureau de l’IA Li Mu**, qui était très occupé, est également apparu aux yeux du public après une longue période et a fait l’éloge de cette recherche.
Par exemple, GPT-4 n’est pas alarmiste sur le fait de devenir stupide, et cette évaluation a révélé qu’il y a un « phénomène de bascule » évident sur le chemin de l’évolution de GPT, c’est-à-dire que certaines capacités augmentent et d’autres diminuent au cours de l’évolution du modèle.
Cela coïncide avec les sentiments précédents des internautes.
En d’autres termes, grâce à lui, nous pouvons avoir un aperçu du « chemin de réussite » du modèle GPT et fournir une expérience efficace pour les prochains travaux de construction de modèles à grande échelle.
Alors, qu’est-ce qu’il « ouvre » exactement, jetons un coup d’œil à l’article.
Exploration de l’évolution de GPT-3 vers GPT-4
Le premier diagramme de l’évolution a été résumé par les auteurs sur la base d’informations accessibles au public.
Comme vous pouvez le voir, il indique les technologies auxquelles chaque modèle intermédiaire a été soumis (telles que le réglage fin du code, SFT/FeedME, etc.) qui ont évolué depuis le GPT-3 original jusqu’à 3.5 et maintenant à 4.
De davinci à gpt-4-0613, les octets ont testé les 7 principales capacités de chaque génération de GPT, telles que les mathématiques, le codage et le raisonnement.
Tout d’abord, dans la famille GPT-3, le davinci original (GPT-3) a évolué en text-davinci-001 en supervisant le réglage fin de SFT et de sa variante, FeedME.
Cela permet à ce dernier d’améliorer ses performances sur presque toutes les tâches :
Cependant, l’effet de cette opération évolutive n’est vraiment pas grand, et les performances de GPT n’ont été améliorées que de quelques fois, et plus n’a pas augmenté mais diminué.
SFT ne fonctionne que sur les modèles de base les plus faibles et a peu d’effet sur les modèles plus forts.
Un phénomène similaire peut être observé dans les modèles open-source (cette revue a également testé Llama1 et 2, PaLM2-L, Claude 2, etc.) :
En plus du Llama-65B original, SFT a réussi à améliorer ses performances sur le benchmark MMLU, mais tous les Llama2-70B qui utilisaient des améliorations SFT n’ont montré que des améliorations mineures sur le classement Open LLM.
Résumé : Au stade GPT3, la technologie SFT a joué un rôle clé dans l’évolution du modèle.
2, RLHF et SFT : Contributeurs à l’amélioration de la capacité de codage
À la suite de la série GPT3.5, à partir de text-davinci-002, OpenAI a commencé à introduire une nouvelle technologie basée sur l’algorithme PPO RLHF, ce qui a donné text-davinci-003.
À ce stade, ses performances sur la plupart des benchmarks sont égales ou légèrement inférieures à celles de son prédécesseur, ce qui indique que l’effet n’est pas particulièrement évident (et il en va de même pour les modèles open source).
À une exception près : la tâche de codage, qui a augmenté de près de 30 points.
Ici, ils ont mesuré des scores tels que pass@1 (probabilité de 1 passage de 1 échantillon), pass@100 (probabilité de 100 passages de 100 échantillons) de plusieurs générations de modèles GPT.
Qu’est-ce que cela signifie ?
L’auteur explique :
pass@100 décrit la capacité de codage intrinsèque du modèle, tandis que pass@1 représente la capacité de codage unique et sans bogue du modèle.
pass@100 légère diminution suggère que SFT et RLHF ont toujours une taxe dite d’alignement sur les tâches d’encodage, comme toute autre tâche.
Cependant, SFT et RLHF ont été en mesure d’apprendre pass@1 pass@100 capacités, c’est-à-dire de transformer des capacités intrinsèques (mais nécessitent de nombreuses tentatives) en un codage unique et sans bogue, ce qui a entraîné une augmentation significative de la pass@1.
En regardant attentivement les résultats, nous pouvons voir que gpt-3.5-turbo-0301 améliore considérablement la pass@1 grâce à SFT et RLHF, ce qui est une bonne nouvelle pour l’optimisation des performances des petits modèles.
Combiné avec les observations ci-dessus, ils l’ont résumé comme suit :
Les LLM peuvent toujours utiliser SFT et RLHF pour transformer en permanence leurs capacités intrinsèques (mais elles nécessitent plusieurs tentatives) en capacités de résolution de problèmes ponctuelles, approchant ainsi la limite supérieure des capacités des LLM.
L’implication est que GPT-4 peut être encore plus fort.
3. Le code est ajouté à la pré-formation, ce qui est le plus utile pour l’inférence
Sur la route de l’évolution GPT4, 2 modèles spéciaux ont également vu le jour :
code-cushman-001 (Codex-12B) 和code-davinci-002。
Il s’agit de la première tentative d’OpenAI d’entraîner un modèle à l’aide de données de code, et malgré sa petite échelle, il a également atteint de bonnes capacités de code.
Ce dernier est le modèle de base de GPT3.5, qui est le résultat d’un entraînement avec du code RLHF+ sur la base de GPT3, c’est-à-dire un pré-entraînement hybride de texte et de code.
On peut voir qu’il surpasse largement GPT-3 (pas seulement en termes de capacité de codage), et surpasse même GPT-3.5-turbo-0613 dans certaines tâches d’inférence (telles que BBH).
Cela montre que l’ajout de données de code au pré-entraînement peut améliorer considérablement les capacités des LLM, en particulier l’inférence.
4, phénomène de « balançoire"
En comparant les modèles d’API OpenAI de mars 2023 et juin 2023, on peut en effet constater ce phénomène :
Par rapport à gpt-3.5-turbo-0301, le gpt-3.5-turbo-0613 amélioré fonctionne bien sur Human (53.9 -> 80.0), mais baisse considérablement sur MATH (32.0 -> 15.0).
GPT-4-0613 a surperformé GPT-4-0314 (78,7 -> 87,2) sur DROP, mais a également connu une chute (82,2 -> 68,7) sur MGSM.
Selon les auteurs :
Le « phénomène de balançoire » peut devenir une pierre d’achoppement sur la route de l’IAG pour les LLM, car l’IAG met l’accent sur « l’intelligence générale » et exige d’excellentes performances sur toutes les tâches, ce qui exige que les modèles ne soient pas « biaisés ».
Ici, ils ont également appelé la communauté à prêter attention à cette question et à promouvoir conjointement la recherche sur le développement équilibré de grands modèles.
Aidez les praticiens de grands modèles à trouver leur voie
Tous les résultats ci-dessus sont basés sur GPT-Fathom -
Byte a récemment proposé un outil d’évaluation de modèles de grande taille.
On peut supposer que tout le monde doit se poser des questions :
Il existe déjà beaucoup de grands classements de modèles et d’outils d’évaluation, alors pourquoi proposer une nouvelle approche ?
Selon les auteurs, par rapport aux méthodes d’évaluation existantes, l’échelle GPT-Fathom est plus uniforme et les résultats sont reproductibles.
Les praticiens des grands modèles peuvent l’utiliser pour clarifier où se trouve l’écart entre eux et le modèle principal, afin d’améliorer leurs produits de manière ciblée.
Plus précisément, GPT-Fathom résout principalement trois lacunes des autres méthodes d’évaluation des grands modèles :
Critères d’établissement incohérents : Il n’existe pas de norme unifiée pour l’utilisation de paramètres tels que la chaîne de pensée, la taille de l’échantillon, etc., et les méthodes d’évaluation des réponses Collecte incomplète de modèles et de tâches : La capacité à tester l’attention n’est pas exhaustive et il y a un manque d’attention sur les modèles antérieurs Manque de recherche sur la sensibilité du modèle
Afin de refléter plus intuitivement les caractéristiques de GPT-Fatham, l’auteur compare certaines listes existantes spécifiques, qui peuvent être résumées dans le tableau suivant :
Par rapport à GPT, d’autres modèles sont très sensibles aux mots rapides, et un léger changement conduira à un résultat complètement différent, ce qui suggère qu’il existe toujours un grand écart entre la robustesse des autres modèles et GPT.
Par exemple, sur l’ensemble de données TriviaQA, un léger changement dans le mot d’invite a réduit le score de Llama 2-70B d’un quart, tandis que les modèles de la série GPT n’ont pas changé de manière significative.
À l’avenir, les auteurs prévoient de continuer à développer GPT-Fathom à partir de trois dimensions : les types de capacités, les ensembles de données de test et les modèles, et soutiendront l’évaluation du dialogue multi-tours, de la multimodalité et d’autres capacités, ainsi que d’augmenter les tests de plusieurs ensembles de données et modèles.
Les deux co-auteurs de GPT-Fatham sont Yuyu Zhang, chercheur au sein du groupe de recherche sur l’apprentissage automatique appliqué de Byte, et Shen Zheng, stagiaire.
Shen Zheng est étudiante à la maîtrise à l’Université de l’Illinois à Urbana-Champaign (UIUC).
En outre, quatre chercheurs, dont Yijie Zhu de Bytes, et le professeur Kevin Chen-Chuan Chang de l’UIUC ont également participé à l’étude.
Adresse:
Liens de référence :