Les premiers résultats de recherche de Musk sur xAI sont publiés ! Les membres fondateurs des classes Young et Yao ont travaillé ensemble

Source: Qubits

Le xAI de Musk, le premier résultat de recherche publique est là !

L’un des travaux les plus courants est celui de Greg Yang, membre fondateur de xAI et disciple de Yau Chengtong.

Auparavant, Yange avait déclaré publiquement que sa direction de recherche dans le domaine de l’intelligence artificielle était « les mathématiques pour l’IA » et « l’IA pour les mathématiques ».

L’un des points forts est de poursuivre ses recherches antérieures :

Tensor Programs, un langage de programmation unifié décrivant les architectures de réseaux neuronaux – réalisations connexes, déjà disponible dans GPT-4.

Ce nouvel article, qui fait partie de la série, se concentre sur « comment entraîner des réseaux profonds infinis ».

À cette fin, Yange lui-même a également spécialement organisé un partage de diffusion en direct sur X.

Jetons un coup d’œil à quel merveilleux contenu vaut la peine d’être marqué ~

Formation de réseaux de neurones profonds infinis

En termes simples, cet article étudie l’expansion des réseaux résiduels (ResNet) dans le sens de la profondeur.

Nous savons que les réseaux résiduels résolvent le problème de la dégradation des performances des réseaux de neurones convolutifs profonds à mesure que la profondeur augmente. Mais alors que le réseau continue de s’approfondir, l’entraînement d’un bon réseau résiduel profond n’est toujours pas une tâche facile :

Lorsque le réseau s’approfondit, l’échelle des fonctionnalités continue d’augmenter, ce qui entraîne une instabilité du réseau. Après avoir approfondi le réseau, il est nécessaire de réajuster les hyperparamètres, ce qui n’est pas une mince affaire...

L’idée de Yanger et de ses amis était de trouver une méthode paramétrique profonde capable à la fois d’apprendre des caractéristiques et de réaliser un transfert d’hyperparamètres.

Ils ont d’abord pensé à deux limites pour les réseaux de neurones infiniment larges : soit les machines à noyau, soit les apprenants de fonctionnalités. Pour ces derniers, les hyperparamètres optimaux ne changent pas avec la largeur.

Ici, ils ont analysé les limites d’un réseau infini à l’aide du framework Tensor Programs.

Comme mentionné précédemment, les programmes tensoriels sont l’un des objectifs de recherche à long terme de Younger : construire le langage de programmation sous-jacent capable de décrire et d’analyser les architectures de réseaux neuronaux en langage mathématique.

Plus précisément, les programmes tensoriels sont constitués de fonctions de multiplication et d’activation matricielles. Young a découvert que si les fonctions des réseaux neuronaux pouvaient être exprimées dans ce langage, elles pourraient être automatiquement et entièrement initialisées pour l’analyse.

La partie de dérivation mathématique, sans développement spécifique ici, nous pouvons sentir le style de peinture superficiellement...

Sur la base de ces analyses dérivées, les auteurs proposent la méthode Depth-μP, qui permet de réaliser un transfert d’hyperparamètres dans le sens de la profondeur et de simplifier considérablement l’ajustement des hyperparamètres à différentes profondeurs.

Profondeur-μP contient les points suivants :

  • Le coefficient a/sqrt(L) est inversement proportionnel à la racine carrée de chaque branche résiduelle et à la profondeur L.
  • Le taux d’apprentissage de chaque matrice de poids diminue à mesure que la profondeur L augmente, en fonction du type d’algorithme d’optimisation. Pour SGD, le taux d’apprentissage prend un η constant, et pour les algorithmes d’optimisation adaptative tels qu’Adam, le taux d’apprentissage prend η/sqrt(L).

Il convient de noter que les auteurs ont constaté que lorsque la profondeur résiduelle du bloc est de 1, la profondeur-μP est le moyen optimal pour le paramétrage de la profondeur, ce qui peut garantir que les hyperparamètres convergent avec l’augmentation de la profondeur et réalisent le transfert de l’hyperparamètre dans la direction de la profondeur.

Toutefois, lorsque la profondeur de bloc résiduelle ≥ à 2, l’échec de la migration des hyperparamètres et la dégradation des performances d’apprentissage se produisent toujours.

En outre, l’article explore le concept de « diversité des caractéristiques » en tant que rôle clé dans les réseaux profonds.

Un autre co-auteur de l’article est Dingli Yu de Princeton. Il est diplômé de la classe Tsinghua Yao avec une licence et poursuit actuellement un doctorat en informatique à Princeton.

**Qu’est-ce que Yanger a dit dans l’émission en direct ? **

Au cours de l’émission en direct, Yange a également répondu aux questions d’intérêt du public. Sans changer le sens d’origine, les qubits ont réglé certains problèmes.

Q : Pour beaucoup d’entre nous, [le contenu de l’article] peut dépasser notre compréhension. Mais je me demande, en quoi le modèle que vous avez mentionné est-il différent de la technologie ChatGPT et OpenAI que nous pouvons expérimenter ? Quelles sont les différences ou innovations significatives entre cet article et les résultats d’OpenAI ?

Younger : Permettez-moi de faire un bref commentaire, et je voudrais dire que ces propriétés ne sont pas directement liées à des applications pratiques pour le moment, mais plutôt à la recherche dans la nature.

Bien sûr, le but ultime de tout cela est de rendre le modèle meilleur, plus sûr, puis de profiter à l’humanité. Ce que nous faisons maintenant, c’est décrire l’effet recherché, qui n’a pas nécessairement d’impact direct.

Maintenant que nous sommes dans le même bateau, nous faisons ce que nous pouvons, qu’il s’agisse de travaux à court terme ou de recherche appliquée à long terme, pour que cela fonctionne dans l’intérêt de tous.

Q : On dirait que vous construisez un cerveau artificiel capable de raisonner, alors est-ce que c’est ce sur quoi vous travaillez ? De plus, je suis maman et mon fils de 7 ans est très intéressé par les mathématiques, avez-vous des conseils qui peuvent le garder intéressé et enthousiaste dans le domaine de l’IA ?

Younger : Le « nouveau Web » fait référence aux réseaux de neurones artificiels, qui, je pense, sont l’épine dorsale de nombreuses technologies modernes, y compris Google, Facebook, Instagram, etc. que vous utilisez tous les jours, et ces services utilisent ces réseaux de neurones artificiels en dessous. Ces réseaux sont nés il y a une soixantaine ou soixante-dix ans, inspirés par de vrais réseaux neuronaux chez les animaux et les humains, mais ils se sont écartés des vraies neurosciences.

Ces réseaux sont essentiellement des problèmes mathématiques, nous pouvons donc comprendre ces réseaux neuronaux en profondeur après avoir saisi ces nouveaux problèmes mathématiques et fait beaucoup d’analyses.

Bien que nous ne sachions pas encore exactement comment les neurones se connectent, grâce à la recherche mathématique, nous pouvons optimiser ces réseaux de neurones artificiels pour aider les entreprises technologiques à améliorer la vie des gens.

En ce qui concerne votre deuxième question, c’est formidable d’entendre que votre fils s’intéresse beaucoup aux mathématiques. C’est la base pour créer de grandes réalisations dans le domaine de la technologie et améliorer la vie de chacun.

Le conseil que j’aimerais donner est que tout d’abord, vous entreteniez la passion de votre fils pour les mathématiques, ce qui est très important. Une fois que vous avez perdu cette passion, il devient difficile de continuer à apprendre.

Faites également attention à observer ce qu’il aime, ce qui rend le processus d’apprentissage intéressant et stimule davantage son intérêt. En même temps, il est également nécessaire de cultiver sa curiosité sur le principe de la façon dont les choses fonctionnent, et d’essayer de cultiver une pensée scientifique, qui est motivée par la curiosité d’étudier. C’est comme démonter les choses et essayer de comprendre comment elles fonctionnent.

Si l’on perd son enthousiasme pour l’exploration des vérités mathématiques de l’univers, il peut être difficile de prendre de l’élan. En général, je vous recommande de cultiver l’intérêt et la curiosité profonds de votre fils pour le monde, en particulier la nature des mathématiques et des sciences.

Q : J’ai une question plus abstraite. Vous aviez l’idée que la profondeur s’approche de l’infini, puis vous avez écrit cet article sur la base de cette idée. Avez-vous envisagé des réseaux de neurones avec des architectures différentes ? Il ne s’agit pas d’une architecture standard avec des neurones et d’innombrables couches, mais de quelque chose de complètement différent. Par exemple, ces neurones sont connectés de manière complètement différente, peut-être une sorte de carré ?

Younger : En fait, les idées sur la non-linéarité et le nombre de couches dans notre travail sont des études très rudimentaires. Il y a certainement beaucoup de questions qui peuvent être explorées sur ce qu’est la structure appropriée, ou quel genre de structure elle devrait être.

Par exemple, l’équipe Meta a déjà étudié ce qui arrive aux neurones connectés au hasard et a obtenu des résultats intéressants. Il y a donc certainement beaucoup plus à faire ici. Maintenant, je n’ai vraiment pas de réponse concrète pour dire ce qui serait juste ou mieux structuré.

À propos de Jange

Né dans la province du Hunan, Yang Ge s’est rendu aux États-Unis après avoir obtenu son diplôme d’études primaires, où il a étudié à Harvard sous la direction du professeur Chengtong Yau.

△ Yang Ge et Yau Chengtong, source : Yang Ge Twitter

En 2017, Yange est diplômée de Harvard, puis entre chez Microsoft sous la recommandation de Shen Xiangyang.

Chez Microsoft, Yang Ge a été très apprécié par Shen Xiangyang. Il y a quelques mois, lors d’un forum intitulé « Science fondamentale et intelligence artificielle », Shen Xiangyang a déclaré publiquement :

Microsoft Research ne recrute généralement que des doctorants, et Yange est entré chez Microsoft Research en tant que diplômé de premier cycle. Non seulement est entré dans Microsoft Research, mais a également fait extrêmement bien au cours des cinq dernières années, en particulier dans le développement de GPT a apporté une contribution décisive.

Il convient de mentionner qu’il a lui-même admis que GPT-4 utilise sa méthode μTransfer (série de programmes tensoriels).

Les recherches de Younger sur les programmes tensoriels existent depuis très tôt, et « Tensor Programs I » a été publié en 2019, et il a continué à l’explorer en profondeur lorsqu’il travaillait chez Microsoft. Il pense que presque tous les calculs de l’apprentissage profond peuvent être représentés sous forme de programmes tensoriels.

En juillet de cette année, Musk a annoncé la formation d’une nouvelle société, xAI, et Young a quitté Microsoft pour rejoindre l’équipe fondatrice de xAI et devenir mathématicien de xAI.

Après avoir rejoint xAI, Young a révélé plus d’une fois que l’objectif à long terme du projet Programmes Tensor est de développer une « théorie du tout » de l’apprentissage profond à grande échelle, c’est-à-dire de trouver une règle théorique capable de vraiment comprendre le comportement des grands modèles d’IA.

Il a également déclaré ce qui suit :

IA permettra à chacun de comprendre notre univers mathématique d’une manière qui était auparavant inimaginable.

Lien vers le papier :

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Partager
Commentaire
0/400
Aucun commentaire
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)