Compressez tout directement ! Le scientifique en chef d'OpenAI, Ilya Sutskever, voit ainsi l'apprentissage non supervisé

2023-08-21 01:46:52

Source originale : Cœur de la machine

Crédit image : Généré par Unbounded AI‌

Récemment, Ilya Sutskever, scientifique en chef d'OpenAI, a donné une conférence à l'Institut Simons, qui se concentre sur la recherche en théorie computationnelle.En une phrase, nous pouvons examiner l'apprentissage non supervisé d'un point de vue compressé. En outre, il a partagé de nombreuses autres idées intéressantes. Le cœur de la machine a trié le contenu général du discours, dans l'espoir d'aider les lecteurs à comprendre plus profondément l'apprentissage non supervisé.

Sutskever a d'abord parlé du changement de direction de ses recherches. Il a déclaré : "Il n'y a pas si longtemps, j'ai réorienté toutes mes recherches vers la recherche sur l'alignement de l'IA." Il s'agit de l'équipe "Superalignment (super alignement)" créée par OpenAI il y a quelque temps. , qu'il co-dirige avec Jan Leike. Sutskever a déclaré avoir obtenu des résultats de recherche sur l'alignement de l'IA, mais ce n'est pas un sujet sur lequel cette conférence se concentre.

Le sujet de ce discours est "Une observation sur la généralisation (une observation sur la généralisation)", et Ilya Sutskever parle spécifiquement d'une théorie qui explique l'apprentissage non supervisé.

Tout d'abord, Ilya Sutskever pose une série de questions générales sur « l'apprentissage » : Qu'est-ce exactement qu'apprendre ? Pourquoi apprendre est-il utile ? Pourquoi l'apprentissage devrait-il être utile? Pourquoi les ordinateurs devraient-ils avoir la capacité d'apprendre ? Pourquoi les réseaux de neurones peuvent-ils apprendre ? Pourquoi les modèles d'apprentissage automatique peuvent-ils apprendre les lois des données ? Peut-on décrire l'apprentissage en termes mathématiques ?

Enseignement supervisé

Sutskever commence par un apprentissage supervisé. Il dit qu'il y a eu d'importants travaux formels sur l'apprentissage supervisé, le résultat de plusieurs chercheurs il y a des années ; ces résultats sont souvent appelés théorie de l'apprentissage statistique.

L'avantage de l'apprentissage supervisé est qu'il peut fournir une condition mathématique précise pour que l'apprentissage réussisse. Autrement dit, si vous avez des données provenant d'une distribution de données, vous pouvez réussir à obtenir une faible perte d'entraînement et vous avez suffisamment de données d'entraînement (plus de degrés de liberté que la distribution de données), alors votre erreur de test doit être faible.

Mathématiquement, l'apprentissage doit réussir si une fonction au sein d'une classe de fonctions peut être trouvée qui permet d'obtenir une perte d'apprentissage inférieure. Par conséquent, l'apprentissage supervisé est très simple.

Les chercheurs ont découvert certains théorèmes dans des recherches connexes, dont voici un exemple. Sutskever a dit qu'il faudrait environ cinq minutes pour expliquer le théorème, mais apparemment il a peu de temps pour son discours.

Dans l'ensemble, le théorème est "élégant" et démontre un processus d'apprentissage supervisé avec seulement trois lignes de dérivation mathématique.

L'apprentissage supervisé est donc relativement bien compris. Nous savons pourquoi cela fonctionnera - tant que nous pourrons collecter de grands ensembles de données d'apprentissage supervisé, nous pouvons être sûrs que les modèles s'amélioreront de plus en plus. Bien sûr, un autre point est également très important, à savoir s'assurer que la distribution des tests est cohérente avec la distribution de la formation ; ce n'est qu'ainsi que la théorie de l'apprentissage supervisé peut être efficace.

Le concept d'apprentissage supervisé est donc très simple. Nous avons également déjà des réponses sur les raisons pour lesquelles l'apprentissage supervisé fonctionne - nous savons pourquoi la reconnaissance vocale et la classification des images fonctionnent car elles sont basées sur un apprentissage supervisé efficace et mathématiquement garanti.

Ici, Ilya Sutskever a d'ailleurs mentionné la dimension VC. Il a mentionné que de nombreux chercheurs en théorie de l'apprentissage statistique pensent que la dimension VC est un élément clé, mais le but de la dimension VC a été inventé pour permettre au modèle de pouvoir gérer les paramètres avec une précision infinie.

Par exemple, si chaque paramètre de votre classificateur linéaire a une précision infinie, mais que la précision des nombres à virgule flottante est en réalité limitée et que la précision diminue, vous pouvez alors implémenter certaines fonctions via la dimension VC et convertir ce linéaire Le classificateur se réduit à la forme d'apprentissage supervisé décrite par la formule précédente.

Qu'est-ce que l'apprentissage non supervisé ?

Examinez ensuite l'apprentissage non supervisé. Tout d'abord, qu'est-ce que l'apprentissage non supervisé ? Ilya Sutskever a déclaré qu'il n'avait pas encore vu d'explication satisfaisante de l'apprentissage non supervisé, et nous ne savons pas comment raisonner mathématiquement à ce sujet - au mieux, nous ne pouvons que faire de l'intuition.

L'apprentissage non supervisé est un rêve de longue date dans le domaine de l'apprentissage automatique. Sutskever pense que cet objectif a été atteint dans des études expérimentales, où le modèle examine les données sans connaître leur contenu et découvre la structure cachée réelle et utile qu'elles contiennent.

Comment est-ce arrivé? Pouvons-nous être sûrs que cela arrivera ? Sutskever dit que nous ne pouvons pas, après tout, nous n'avons pas les mêmes garanties théoriques dans l'apprentissage non supervisé que nous avons dans l'apprentissage supervisé.

Les gens explorent l'apprentissage non supervisé depuis les années 1980, en utilisant une terminologie similaire. Dans l'expérience, les gens ont observé que lorsque la quantité de données est faible, le phénomène d'apprentissage non supervisé n'apparaît pas, mais certaines idées de développement populaires sont apparues, telles que le BERT, le modèle de diffusion, le modèle de langage à l'ancienne, etc. L'apprentissage non supervisé à l'époque était également capable de générer des échantillons sympas, mais bien sûr, ce n'était pas aussi bon que la technologie d'aujourd'hui.

Mais parce que nous ne savons pas comment fonctionne l'apprentissage non supervisé, cela a toujours été déroutant.

Par exemple, lorsque vous optimisez pour un certain objectif (tel que la reconstruction d'image ou la prédiction du mot suivant), vous pouvez également vous soucier d'un autre objectif (tel que la classification d'image ou la classification de document), et le modèle peut également bien fonctionner sur cet objectif non optimisé. Obtenez une bonne performance. Mais pourquoi? Je ne sais pas, c'est le résultat de l'expérience. Sutskever a dit que c'était comme de la magie.

Allons-nous abandonner la théorie et aller jusqu'au positivisme ?

Nous savons que l'apprentissage non supervisé consiste à apprendre la structure de la distribution d'entrée, puis à en tirer quelque chose qui aide à atteindre l'objectif. Mais que se passe-t-il si la distribution d'entrée est une distribution uniforme ? À ce stade, divers algorithmes d'apprentissage non supervisés échoueront. Comment traiter ce phénomène ? Sutskever dit que nous devons faire certaines hypothèses.

Une méthode d'apprentissage non supervisé : l'appariement de distributions

Ensuite, Sutskever montre une manière potentielle de penser l'apprentissage non supervisé. Il a dit que cette méthode d'apprentissage non supervisée n'est pas devenue courante, mais qu'elle est très intéressante. Il a des caractéristiques similaires à l'apprentissage supervisé, c'est-à-dire qu'il doit être efficace. pourquoi ? Cela implique un processus d'apprentissage non supervisé appelé appariement de distribution.

Ensuite, laissez-moi vous expliquer brièvement. Supposons qu'il existe deux sources de données X et Y sans correspondance entre elles ; le but du modèle est de trouver une fonction F telle que la distribution de F(X) se rapproche de la distribution de Y - c'est la contrainte sur F.

Cette contrainte peut être significative pour de nombreux scénarios d'application tels que la traduction automatique et la reconnaissance vocale. Par exemple, s'il y a une distribution de phrases anglaises, après avoir utilisé la fonction F, on peut obtenir une distribution proche de la distribution des phrases françaises, alors on peut dire qu'on a obtenu les contraintes réelles de F.

Si les dimensions de X et Y sont suffisamment élevées, alors F peut avoir un grand nombre de contraintes. En fait, vous pourriez même être en mesure de récupérer un F complet à partir de ces contraintes. Ceci est un exemple d'apprentissage supervisé d'apprentissage non supervisé, et cela doit fonctionner, tout comme l'apprentissage supervisé doit fonctionner.

De plus, les chiffrements de substitution correspondent également à ce cadre.

Sutskever a déclaré avoir découvert le phénomène de manière indépendante en 2015. Cela l'a fait réfléchir : nous pouvons peut-être décrire l'apprentissage non supervisé sous une forme mathématique significative.

Bien entendu, le scénario de traduction automatique décrit ci-dessus est un scénario artificiel simplifié, non conforme à la situation réelle d'application, et le scénario d'apprentissage non supervisé correspondant est bien entendu le même.

Ensuite, Sutskever décrira sa méthode proposée - qui peut fournir une explication mathématique de l'apprentissage non supervisé et garantir que les résultats de l'apprentissage non supervisé sont bons.

Comme nous le savons tous, la compression est une prédiction, et chaque compresseur peut être transformé en prédicteur, et vice versa. Il existe une correspondance un à un entre le compresseur d'ensemble et le prédicteur d'ensemble.

Sutskever a souligné que pour illustrer plus clairement la réflexion sur l'apprentissage non supervisé, il est avantageux d'utiliser l'aspect compression de la discussion.

Sur cette base, il a donné une expérience de pensée.

Supposons que vous ayez deux ensembles de données X et Y, qui sont deux fichiers sur votre disque dur ; alors vous avez un excellent algorithme de compression C. Supposons également que vous effectuiez une compression conjointe sur X et Y, c'est-à-dire que vous les concaténiez d'abord, puis que vous les alimentiez au compresseur.

La question importante est maintenant : que fera un compresseur suffisamment performant ?

Sutskever a donné une réponse très intuitive : le compresseur utilise les modèles présents dans X pour aider à compresser Y ; et vice versa.

Il a dit que la scène de la tâche de prédiction a en fait un phénomène similaire, mais cela semble plus intuitif à dire dans le contexte compressé.

Si votre compresseur est assez bon, les résultats compressés des fichiers concaténés ne devraient pas être pires que les résultats compressés séparés.

Ainsi, la compression supplémentaire que vous obtenez en concaténant est une sorte de structure partagée que votre compresseur remarque. Plus le compresseur est performant, plus il peut extraire de structures courantes.

La différence entre les deux résultats de compression est la structure partagée, l'information mutuelle algorithmique.

De même, vous pouvez considérer Y comme des données pour une tâche supervisée, X comme des données pour une tâche non supervisée, et vous avez une forme de raisonnement mathématique sur cette information - vous pouvez utiliser les modèles dans X pour aider la tâche Y.

Notez également comment il se généralise à l'appariement de distribution. Dans le cas de la correspondance de distribution, disons que X est la langue 1, Y est la langue 2, et il existe une fonction simple F qui se transforme d'une distribution à l'autre ; en l'utilisant, il est même possible de restaurer la fonction en interne.

De cette façon, une boucle fermée est formée. Alors, comment décrivons-nous l'apprentissage non supervisé sous forme mathématique ?

Formalisation mathématique de l'apprentissage non supervisé

Notez que la description de cette section utilise indifféremment la description du scénario de compression et du scénario de prédiction.

Supposons d'abord que nous ayons un algorithme d'apprentissage automatique A dont le rôle est de compresser Y. L'algorithme A a accès à X. Soit X le document numéro 1 et Y le document numéro 2. Nous voulons que notre algorithme/compresseur d'apprentissage automatique comprime Y et qu'il puisse utiliser X le cas échéant. Le but est de compresser Y autant que possible.

Ensuite, nous devons nous demander : quel est le plus grand regret (regret) d'utiliser cet algorithme ?

Sutskever a expliqué: "Si je fais du bon travail et que mes regrets sont faibles, cela signifie que j'ai toute l'aide que je peux obtenir de ces données non étiquetées. Les données non étiquetées ont aidé autant que possible. "Moi. J'ai aucun regret." Ce qui signifie qu'il n'y a pas de meilleurs prédicteurs disponibles pour un meilleur algorithme de compression. "J'ai tiré le meilleur parti de mes données non étiquetées."

Sutskever considère cela comme une étape importante vers la réflexion sur l'apprentissage non supervisé. Vous ne savez pas si votre ensemble de données non supervisé est réellement utile, mais si vous avez peu de regrets sur un algorithme d'apprentissage supervisé, alors vous avez le meilleur résultat, qu'il soit utile ou non, il ne peut pas y avoir de meilleurs résultats.

Maintenant dans un territoire théorique quelque peu obscur.

L'utilisation de la complexité de Kolmogorov comme compresseur ultime nous donne un algorithme à très faible regret, mais ce n'est pas vraiment un algorithme car il n'est pas calculable.

Expliquons brièvement la complexité de Kolmogorov : C'est comme si vous me donniez des données, et afin de les compresser, je vous fournirai le programme le plus court possible. La complexité de Kolmogorov est égale à la longueur de ce programme le plus court.

Soit C un compresseur calculable, alors pour tout X la complexité du compresseur de Kolmogorov est inférieure à la sortie arbitraire du compresseur C plus le nombre de caractères de code nécessaires pour implémenter le compresseur.

Nous pouvons le prouver en utilisant un argument de simulation. Supposons qu'il existe un très bon compresseur C, alors il peut s'agir d'un programme informatique, si ce programme informatique est confié à K pour fonctionner, alors le coût requis par K est la longueur de ce programme. Le compresseur Kolmogorov peut simuler d'autres programmes informatiques et d'autres compresseurs, et il n'est donc pas calculable. C'est comme un programme gratuit qui émule tous les programmes informatiques, mais c'est aussi le meilleur compresseur possible.

Maintenant, nous généralisons le compresseur de Kolmogorov pour utiliser des informations supplémentaires. Nous savons que le compresseur de Kolmogorov n'est ni calculable, ni décidable, mais aime rechercher tous les programmes. C'est comme utiliser un réseau de neurones pour régler les paramètres via SGD (Stochastic Gradient Descent) pour rechercher un programme. Ce processus s'exécute sur un ordinateur avec certaines ressources (mémoire, nombre d'étapes), qui est comme un tout petit compresseur de Kolmogorov. Il y a des similitudes entre les deux.

Les réseaux de neurones peuvent simuler des applets, qui sont de minuscules ordinateurs avec des boucles/circuits. Nous pouvons utiliser SGD pour entraîner ces ordinateurs à trouver ses "circuits" à partir des données.

Les arguments tirés des simulations s'appliquent également ici. Si vous souhaitez concevoir une meilleure architecture de réseau neuronal, vous trouverez cela difficile, car l'ajout ou la modification de connexions peut être simulé par d'autres architectures de réseau neuronal, mais c'est en fait difficile à faire. Parce que ce sont les rares cas qui peuvent conduire à d'énormes améliorations. Tout comme la transition de RNN à Transformer. Les RNN ont un goulot d'étranglement : l'état caché. Mais si nous pouvons trouver un moyen de faire en sorte que le RNN ait un très grand état caché, ses performances pourraient alors rattraper le Transformer.

Nous pouvons donc utiliser la complexité conditionnelle de Kolmogorov comme solution pour l'apprentissage non supervisé comme suit :

où C est un compresseur calculable et K(Y|X) est la longueur du programme le plus court qui produit Y si X peut être utilisé.

Il s'agit d'une solution à très faible regret pour l'apprentissage non supervisé qui n'est pas calculable, mais qui fournit un cadre utile.

Compressez tout directement !

Sutskever va un peu plus loin et mentionne que "tout compresser directement" est également possible.

La complexité conditionnelle de Kolmogorov K(Y|X) n'est pas naturelle dans le contexte de l'apprentissage automatique car elle comprime Y en fonction de X, ce qui est en grande partie impossible à conditionner sur de grands ensembles de données, du moins pour l'instant. Nous pouvons adapter de grands ensembles de données, mais il est difficile de les conditionner.

Et ce qui précède dit : si vous voulez faire des prédictions sur quelque chose de Y que vous supervisez, un compresseur Kolmogorov régulier qui compresse les données concaténées X et Y fonctionnera aussi bien qu'un compresseur conditionnel. Bien sûr, il y a plus de subtilités dans les détails réels, mais ce que cela signifie vraiment, c'est que nous pouvons utiliser un compresseur Kolmogorov standard pour résoudre l'apprentissage non supervisé - il suffit de concaténer toutes vos données et d'effectuer la compression, de sorte que vous puissiez obtenus sur des tâches de supervision.

La preuve de ceci est plus compliquée, donc je ne vais pas m'y attarder ici.

La conclusion importante est que la compression régulière de Kolmogorov (sans être conditionnelle à un certain ensemble de données) est la "meilleure utilisation possible" des données non étiquetées. C'est la solution à l'apprentissage non supervisé.

la compression articulaire est le maximum de vraisemblance

Le dernier point que Sutskever a fait dans son discours était le suivant : cette compression articulaire est le maximum de probabilité, tant qu'il n'y a pas de surajustement.

Si vous avez un ensemble de données, la somme des probabilités pour les paramètres donnés correspond au coût de compression de cet ensemble de données. Vous payez également le coût de la compression des paramètres. Et si vous souhaitez compresser deux ensembles de données, pas de problème, ajoutez simplement des points de données à votre ensemble de données, c'est-à-dire ajoutez plus d'éléments à la somme des opérations de somme ci-dessus.

La compression conjointe par concaténation de données est donc une approche très naturelle dans le cadre du machine learning. En revanche, passer la complexité conditionnelle de Kolmogorov est beaucoup plus gênant.

Nous pouvons même l'utiliser pour expliquer le fonctionnement des réseaux de neurones. Nous pouvons utiliser SGD pour les grands réseaux de neurones comme notre grand moteur de recherche de programmes. Plus le réseau de neurones est grand, mieux il peut se rapprocher du compresseur de Kolmogorov régulier. Sutskever a commenté: "C'est peut-être pour cette raison que nous aimons les grands réseaux de neurones, car nous pouvons nous rapprocher de l'idée d'un compresseur de Kolmogorov régulier irréalisable sans aucun regret. Au fur et à mesure que nous formons des réseaux de neurones de plus en plus grands, le regret augmentera. Faible."

Cette théorie s'applique-t-elle également aux modèles GPT ?

La réponse de Sutskever à cette question est oui, mais pour expliquer le comportement du modèle GPT, sans citer une déclaration sur la compression ou l'apprentissage supervisé, vous pouvez dire que la "théorie" de GPT peut être obtenue en raisonnant sur la distribution conditionnelle du texte.

Alors, peut-on trouver d'autres méthodes de vérification directe pour tester cette théorie ? Peut-on l'expliquer en termes d'autres domaines comme la vision ? Pouvons-nous obtenir un bon apprentissage non supervisé si nous le faisons sur des données de pixels ?

Sutskever a déclaré avoir déjà réalisé une telle étude en 2020, iGPT. Bien sûr, il s'agit principalement d'une recherche de preuve de concept, et il reste encore un long chemin à parcourir depuis l'application pratique.Pour plus de détails, consultez l'article "Generative Pretraining from Pixels".

L'article montre que si vous pouvez créer un excellent prédicteur de l'étape suivante, vous pouvez obtenir un excellent apprentissage non supervisé. Cet article prouve l'assertion dans le domaine de l'image.

En termes simples, convertissez d'abord l'image en une séquence de pixels, chaque pixel a une valeur de densité discrète. Tout ce qui doit être fait est d'utiliser le même transformateur pour prédire le prochain pixel. Ceci est différent de BERT, qui consiste à prédire le prochain jeton, car il s'agit de la probabilité de maximiser la compression.

Voyons le résultat :

Comme indiqué, il s'agit de la précision de la sonde linéaire sur CIFAR-10 pour différentes tailles de modèles iGPT, c'est-à-dire la précision de prédiction de l'étape suivante sur la tâche de prédiction de pixels d'apprentissage non supervisé. On peut voir que prédire le pixel suivant est aussi efficace que prédire le mot suivant. L'apprentissage non supervisé fonctionne mieux lorsque la taille du modèle est plus grande.

Ils ont mené des études expérimentales et ont découvert que sur ImageNet, les performances d'iGPT, qui ont été étendues de nombreuses façons, peuvent se rapprocher de l'apprentissage supervisé de pointe, mais il existe encore des lacunes.

Cependant, Sutskever pense qu'il s'agit d'un problème de calcul, car les méthodes d'apprentissage supervisé telles que SimCLR utilisent de grandes images haute résolution et fournissent de petites images 64 × 64 pour le transformateur géant (6,8 milliards de paramètres). C'est comme prédire le pixel suivant de manière non supervisée sur la base d'un grand ensemble de données, puis ajuster des sondes linéaires sur ImageNet, avec d'excellents résultats.

Sur CIFAR-10, iGPT-L avec 1,36 milliard de paramètres a atteint une précision de 99 %, comme le montre la figure ci-dessous.

Représentation linéaire

À la fin de l'exposé, Sutskever a dit qu'il voulait parler des représentations linéaires.

"J'aime la théorie de la compression parce qu'il n'y avait pas moyen de penser à l'apprentissage non supervisé de manière rigoureuse auparavant, dit-il. Maintenant, nous pouvons le faire dans une certaine mesure. Mais la théorie de la compression ne peut pas expliquer directement pourquoi les représentations sont linéairement séparables, ni expliquer qu'il devrait y avoir des sondes linéaires. Les représentations linéaires sont omniprésentes, et les raisons de leur formation doivent être profondes. Sutskever pense que nous pourrons l'articuler à l'avenir.

Une autre chose qu'il trouve intéressante est que le modèle autorégressif surpasse le BERT en termes de représentation linéaire. Mais on ne sait toujours pas pourquoi.

Cependant, Sutskever a donné sa propre spéculation : lors de la prédiction du pixel suivant sur la base de tous les pixels précédents, le modèle doit observer la structure à longue portée des données. BERT supprime certains jetons de pixels lors du traitement des vecteurs, et en considérant à la fois un peu du passé et un peu du futur, le modèle peut en fait obtenir de très bonnes prédictions. De cette façon, toutes les tâches difficiles sont supprimées et la difficulté des tâches est considérablement réduite. La tâche de prédiction la plus difficile pour prédire le pixel suivant est beaucoup plus difficile que la tâche de prédiction la plus difficile dans le cas de la prédiction BERT.

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

1 J'aime