Jan Leike : Comment OpenAI parviendra-t-il à réaliser un super alignement dans 4 ans ?

Question

Auteur : Daniel Filan@AXRPSource : Licornes d'outre-merRecommandé par : Cage Compilateur : wenli, Yanxi Composition : Mengxi, ScoutOpenAI a annoncé son plan « Superalignment » au début du mois dernier et a annoncé qu'il consacrerait 20 % de sa puissance de calcul totale à cette nouvelle direction en une seule fois. Le co-fondateur et scientifique en chef d'OpenAI, Ilya Sutskever, et le chef de l'équipe d'alignement d'origine, Jan Leike, dirigeront conjointement ce nouveau projet, dans le but de résoudre les principaux défis techniques de l'alignement de la superintelligence d'ici 4 ans afin de garantir que les humains puissent contrôler la superintelligence.Pour y parvenir, OpenAI doit d'abord former un "aligneur automatique au niveau humain", puis utiliser cet "aligneur automatique" pour réaliser un alignement doté d'une super intelligence. Selon l'article *Introducing Superalignment*, "Automatic aligner" La conception d'« Aligner » implique également de permettre à l'IA d'évaluer et de superviser l'IA, de vérifier la sécurité du système sur la base de l'explicabilité et d'utiliser des modèles non alignés pour effectuer des tests de perturbation sur le système.Cet article est compilé à partir d’un entretien avec Jan Leike. Il s’agit de la réflexion technique plus détaillée de Jan Leike sur la manière dont OpenAI peut réaliser un « super alignement ».**Ce qui suit est la table des matières de cet article, et il est recommandé de le lire en combinaison avec les points principaux. ****👇**01 Équipe de Superalignement02 Laissez le modèle « s’aligner de manière autonome »03 Calendrier du superalignement04 Généralisation05 Soyez optimiste quant au superalignement## **01.Équipe de superalignement****Daniel Filan : Pouvez-vous d'abord présenter l'équipe Superalignment ? ****Jan Leike :** L'objectif de l'équipe Superalignment est de résoudre le problème d'alignement de la superintelligence dans les 4 prochaines années. Ilya Sutskever, co-fondateur et scientifique en chef d'OpenAI, rejoindra également l'équipe et dirigera le projet avec moi. De plus, OpenAI consacrera 20 % de ses ressources informatiques à ce sujet. Nous recrutons également activement des talents pour rejoindre cette équipe projet. **Nous espérons vraiment attirer des experts et des ingénieurs en apprentissage automatique qui ne se sont pas engagés dans la recherche sur l'alignement. Peut-être que ces personnes peuvent exercer un grand potentiel sur cette question. **Nous avons conçu un cadre de travail préliminaire, dont l'idée principale est de former d'abord un chercheur automatisé en alignement au niveau humain (chercheur automatisé en alignement au niveau humain), puis de le laisser continuer à étudier comment terminer le travail d'alignement de la superintelligence. L’une des choses clés que nous devons faire est donc de trouver comment « aligner » cet auto-aligneur.**Daniel Filan : Quelle sera la taille de cette nouvelle équipe ? ****Jan Leike :** Nous comptons actuellement environ 20 personnes et nous pourrions atteindre 30 personnes d'ici la fin de cette année. Au cours des quatre prochaines années, l'équipe ne dépassera probablement pas 100 personnes, mais la façon dont cette équipe s'agrandit pourrait être Avoir des millions d'"humains virtuels", ou au moins autant d'"humains virtuels" que les employés d'OpenAI pour effectuer l'alignement). De ce point de vue, nous allons certainement nous développer à grande échelle à l’avenir.**Daniel Filan : Vous avez mentionné qu'OpenAI donnerait 20 % de la puissance de calcul à l'équipe. Que signifient ces 20 % ? ****Jan Leike :** Pour OpenAI, allouer 20 % de la puissance de calcul à cette équipe n'est pas un petit chiffre. Il s'agit certainement de notre plus gros investissement en alignement à ce jour, et dépasse probablement toute la somme des investissements. **Donc, en ce sens, 20 % des ressources informatiques, c'est une proportion considérable pour OpenAI. De plus, si nous rendons ce chiffre extrêmement élevé, certains se demanderont certainement "OpenAI peut-il vraiment faire cela ?" Mais en fait, pour OpenAI, si nous voulons continuer à développer les modèles les plus avancés et analyser l'IA la plus avancée Le système est pré-entraîné, ce qui nécessitera beaucoup de ressources informatiques.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-91a4c8eba9-dd1a6f-6d2ef1) **Daniel Filan : Avant cela, OpenAI disposait déjà d'une équipe d'alignement. Cette équipe existe-t-elle toujours ? ****Jan Leike :** L'équipe d'alignement créée l'année dernière comprend deux parties, l'une est appelée « Alignement pratique » et l'autre est appelée « Alignement évolutif ». L'équipe Practical Alignment se concentre sur l'alignement GPT-4, tandis que l'équipe Scalable Alignment vise à étudier les problèmes d'alignement que nous ne pouvons actuellement pas résoudre. Avec la sortie de ChatGPT et son succès ultérieur, l'importance et l'échelle du produit ChatGPT augmentent constamment, nécessitant des RLHF et des modèles plus grands pour garantir que les fonctions et l'expérience du produit sont suffisamment complètes. L'équipe d'alignement n'est plus apte à le faire.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-e6f4d3f955-dd1a6f-6d2ef1) Le travail d'alignement pratique que nous avons mentionné précédemment est désormais dispersé entre les différentes équipes de projet d'OpenAI, avec des centaines de personnes qui y participent, il s'agit donc déjà d'un projet à très grande échelle, et le travail d'alignement évolutif est désormais l'équipe de Superalignment. Choses à faire.La raison pour laquelle nous avons choisi le nom de Superalignement est que nous voulons souligner que les choses que nous étudions actuellement sont en réalité des problèmes qui ne sont pas encore apparus. Notre recherche est relativement prospective et orientée vers l'avenir.**Daniel Filan : Comment voyez-vous les tentatives d'alignement de personnes ou d'équipes extérieures à OpenAI ? ****Jan Leike :** Il y a beaucoup de personnes ou d'équipes en dehors d'OpenAI qui essaient également d'y travailler, en particulier DeepMind et Anthropic, d'une certaine manière, nous essayons tous de résoudre le même problème, donc nous finissons par faire de même. travail C'est aussi normal. Il existe d'autres travaux sur l'interprétabilité et la supervision évolutive.D'une certaine manière, nous courons le risque de dupliquer beaucoup de travail, donc idéalement, nous essayons de trouver comment mieux nous coordonner ou collaborer davantage. Mais si tout le monde fait la même chose, cela peut éviter la « pensée de groupe », car si chaque laboratoire veut résoudre ces problèmes de manière indépendante, il doutera naturellement des résultats des autres laboratoires, et le côté négatif produira une « pensée de groupe ». -ou effet : les gens ne sont pas disposés à utiliser des technologies inventées ailleurs, et les gens penseront naturellement que les technologies autres que les leurs ne sont pas bonnes, ou les regarderont avec une sorte de préjugé.Ce n'est donc pas un bon équilibre pour le moment, et même s'il y a une raison de penser que tous les gens d'alignement devraient être au même endroit et travailler ensemble d'une manière ou d'une autre, c'est la réalité car, de par leur nature même, les laboratoires d'IA de pointe sont motivés. Investissez beaucoup. de ressources en matière d'"alignement". Cela est également devenu évident avec le succès du RLHF, qui rend les modèles plus viables commercialement, rendant plus attractif l’investissement dans la recherche sur de telles techniques.**Daniel Filan : En quoi l'approche de l'équipe OpenAI Superalignment est-elle différente ? ****Jan Leike :** Nous nous concentrons vraiment sur la manière d'aligner cet aligneur automatique, plutôt que sur la manière d'aligner diverses tâches. Donc, au moins sur cette question, nous ne sommes pas trop inquiets de la taxe d'alignement. Je ne pense pas que d'autres laboratoires mettent l'accent sur cet objectif ou cette direction de cette manière.**Taxe d'alignement :**Également connue sous le nom de taxe de sécurité, elle fait référence au coût supplémentaire nécessaire pour garantir l’alignement des systèmes d’IA. La taxe d'alignement sous RLHF mentionnée dans cet article signifie que pour effectuer RLHF, la capacité du modèle de base est perdue afin de réaliser l'alignement, comme une augmentation du temps de développement, des calculs supplémentaires ou une dégradation des performances.**Notre approche très optimiste est la suivante : essayez toutes les techniques d'alignement évolutives, voyez lesquelles fonctionnent le mieux et essayez de trouver des méthodes qui peuvent être comparées de manière empirique. D'autres laboratoires disposent également de techniques de supervision spécifiques et évolutives pour lesquelles ils sont très optimistes, et ils essaient également d'utiliser ces techniques. De plus, en termes d'interprétabilité, nous adoptons une approche automatisée de l'interprétabilité, et nous la promouvons beaucoup, sur laquelle d'autres laboratoires n'accordent pas autant d'importance pour le moment. ****L'autre chose que nous voulons vraiment faire est d'exploiter le calcul pour faire progresser l'alignement, ce qui est l'une de nos principales stratégies**, notamment en termes de supervision évolutive, nous voulons vraiment comprendre comment faire cela avec plus de puissance de calcul pour envoyer de meilleurs signaux de surveillance ? Quelles opportunités avons-nous ? Comment améliorer le modèle de critique (modèle Critique) ? Comment utiliser plus de puissance de calcul pour rendre le signal de supervision plus fort ? L’interprétabilité automatisée est une méthode très simple, et nous pouvons progresser sur ce problème simplement en investissant beaucoup de puissance de calcul.**Modèle critique :**Il s'agit d'un modèle de langage indépendant. Il examine les résultats du premier système d’IA avant de rédiger des critiques.De plus, des recherches sont en cours sur l’alignement automatisé : si cela peut être fait, nous pouvons obtenir davantage de résultats d’alignement en investissant davantage de puissance de calcul. Mais puisque ce que nous voulons réellement faire est de convertir la quantité de puissance de calcul en capacité d’alignement, nous avons désormais besoin de beaucoup de puissance de calcul, et c’est pourquoi OpenAI est prêt à consacrer 20 % de la puissance de calcul à l’alignement. Ce que cela signifie essentiellement, c'est que si nous trouvons réellement cet aligneur automatique et constatons que nous avons besoin de plus de puissance de calcul, nous pouvons utiliser plus de puissance de calcul pour le faire fonctionner. Cela signifie également que la stratégie consistant à convertir la puissance de calcul en alignement est couronnée de succès et sera soutenue par OpenAI.## **02. Laissez le modèle "s'aligner de manière autonome"****Qu'est-ce que "Auto Aligner"****Daniel Filan : Qu'est-ce qu'un « chercheur automatisé en alignement au niveau humain » ? ****Jan Leike : Notre objectif est d'utiliser des systèmes automatisés pour démonter et répartir autant que possible les tâches des travaux d'alignement. **Lorsqu'il s'agit de modèles linguistiques ou d'autres systèmes d'IA, les humains ne font pas à 100 % ce qu'ils peuvent faire. Par exemple, les LLM peuvent être plus performants que les humains dans des domaines comme traduire ou répondre à des questions factuelles, mais ils peuvent ne pas être aussi capables que les humains dans les calculs arithmétiques ou dans certaines autres tâches. **La question est donc de savoir dans quel ordre, quelles tâches devons-nous confier à l'IA, afin de libérer l'énergie limitée des chercheurs humains ? **En conséquence, les équipes humaines seront en mesure d'accomplir des tâches critiques plus efficacement, tandis que l'IA assumera également de plus en plus de tâches auxiliaires.**En général, la proportion d'IA participant aux travaux sera de plus en plus élevée, tandis que les chercheurs humains accorderont davantage d'attention aux tâches qui ne sont pas prises en charge par l'IA et accéléreront la recherche sur l'alignement de la superintelligence de manière plus pratique grâce à l'homme-machine. collaboration. ****Daniel Filan : Il ne s'agit donc pas d'utiliser l'IA pour remplacer certains employés humains dans l'équipe d'alignement OpenAI, mais d'utiliser l'IA pour effectuer un type de travail spécifique que tout le monde effectue, puis de la remplacer par l'IA étape par étape. Plus de tâches performer ? ****Jan Leike :**Oui, je pense que si nous voulons que le rendement de ce système soit suffisamment élevé, 99 % ou 99,9 % des tâches devraient être automatisées, afin que nous puissions obtenir 10 fois, 100 fois ou même 1 000 fois. fois fois les résultats de la recherche.Je diviserai globalement les « tâches » mentionnées ici en deux grandes catégories. Un type concerne les tâches de recherche en ingénierie d'apprentissage automatique plus traditionnelles, conçues pour aider à améliorer les capacités des systèmes d'IA, telles que la mise en œuvre de diverses expériences de ML et la collecte de résultats expérimentaux.L'autre type est ce qui doit être fait pour parvenir à l'alignement de la superintelligence. Ce type de problème est relativement plus vaste et de niveau supérieur (haut niveau). Par exemple, afin d'améliorer la supervision de l'évolutivité (Scalable Oversight), comment décidons-nous quelles expériences mener ? Ou comment progresser sur l’interprétabilité. Bien sûr, il faut répondre à certaines questions très spécifiques : par exemple, lorsqu'une recherche atteint un stade spécifique, il est nécessaire de clarifier une série de problèmes ultérieurs qui doivent être résolus et d'autres questions très détaillées.**Supervision évolutive :**L'objectif de la supervision de l'évolutivité est de garantir que les capacités du modèle peuvent toujours être cohérentes avec les attentes humaines et continuer à s'améliorer et à apprendre après avoir dépassé les niveaux humains. Cela nécessite que les chercheurs réfléchissent à la manière d'augmenter la capacité du modèle, d'aligner les valeurs du modèle et de surveiller en permanence les performances du modèle. L'objectif de la supervision évolutive est de savoir comment fournir en permanence une supervision fiable au modèle. Cette supervision peut prendre diverses formes, telles que des étiquettes, des signaux de récompense ou des critiques.Je m'attends à ce que l'apprentissage automatique puisse très bien effectuer le premier type de tâches, c'est-à-dire concevoir et exécuter automatiquement des expériences, et le travail unique que nous effectuons aujourd'hui pour accélérer la progression de l'alignement consiste à trouver comment automatiser le deuxième type de tâche. méthode. ****Daniel Filan : Le deuxième type de tâche semble être une tâche à processus complet ? Pas seulement déterminer les orientations de la recherche, déterminer ce qui pourrait être utile, même jusqu'à « quel script dois-je exécuter maintenant ? » ****Jan Leike : **Cette question peut en fait être posée comme ceci : **Étant donné que la recherche sur l'alignement est dans une large mesure similaire à la recherche sur le ML traditionnelle, quelles autres tâches du deuxième type peuvent être effectuées ? ****Je pense qu'il y a en fait beaucoup de contenu lié au deuxième type de tâches, et cette partie de l'effet de levier de la recherche est formidable. **Parce que du point de vue des questions de recherche, nous ne sommes même pas parvenus à un consensus sur « comment définir l'alignement », même les experts de l'industrie sont toujours « la voie technique la plus probable pour parvenir à l'alignement » ou « quel travail devrait être fait ensuite ». il y a des divergences sur ces questions. Par conséquent, si l’alignement peut être accéléré, l’impact doit être énorme. C’est également la vision et l’orientation que nous avons exposées aux chercheurs lorsque nous avons appelé les chercheurs à rejoindre l’équipe OpenAI Superalignment.À ce stade, nous sommes encore en train de résoudre certains problèmes fondamentaux et il reste encore beaucoup d’efforts à faire dans la recherche sur l’alignement. Nous ne savons pas comment aligner la superintelligence, et même aligner les systèmes d’IA avec une intelligence supérieure à celle des humains est difficile.**Daniel Filan : Vous avez mentionné le concept d'un aligneur automatique au niveau humain, mais il semble que la plupart des éléments de l'IA ne sont pas tout à fait au niveau humain. Quelle est l’importance du « niveau humain » dans cet objectif ? Parmi les tâches que vous avez mentionnées, si l’IA dépasse les niveaux humains dans certaines tâches, est-ce une bonne ou une mauvaise chose ? ****Jan Leike : Je pense que le nœud de la question est de savoir dans quelle mesure est-il risqué d'avoir ce système au niveau humain dans la recherche sur l'alignement. **Il n’est pas terrible qu’un système d’IA possède beaucoup de connaissances, mais lorsque ce système prend en charge certaines (à long terme, la plupart) des recherches d’alignement, nous devons nous demander s’il mentira aux humains ? L’IA tentera-t-elle de nous tromper et de prendre le contrôle du système ?Parce que nous ne comprenons pas vraiment actuellement comment se produit une grande partie du comportement du modèle, la question à laquelle nous sommes confrontés est de savoir de quelles compétences avons-nous besoin pour comprendre son comportement et ses risques, ce qui est similaire à ce dont nous avons besoin pour construire un modèle super-aligné. chercheur automatique Comment les compétences se comparent-elles ?Si l’on approfondit cette question, de quoi s’inquiète-t-on réellement ? Cela pourrait être le cas : le modèle tissera-t-il une série de mensonges susceptibles de tromper les humains ? Les modèles trompent-ils déjà les humains ? Faire semblant de faire ou de croire en quelque chose tout en visant un autre objectif ?Par conséquent, il est également essentiel d'évaluer si un modèle sera **jailbreaké (auto-exfiltration**) : dans quelle mesure le modèle est-il capable de briser les précautions de sécurité du système, d'obtenir les paramètres de poids du modèle et d'essayer de les reproduire ailleurs sur l'Internet? Ou est-il possible pour le modèle de télécharger ces données et de les envoyer ailleurs en convainquant un ingénieur humain ayant accès aux poids ? Nous pouvons également mesurer la capacité du modèle dans ce domaine. Dans ces aspects critiques, j'espère que la capacité du modèle n'est pas trop forte.**Daniel Filan : Un aligneur automatique de niveau humain doit être très intelligent, créatif et capable de planifier des tâches, et il doit également être très doué pour réfléchir aux problèmes liés à l'alignement, auquel cas il y a des voix qui sont si puissantes. outil lui-même Il est très menaçant pour les humains. Si la tâche consiste à aligner les boursiers d’auto-alignement, y a-t-il d’autres problèmes à résoudre ? ****Jan Leike : Je pense qu'en fin de compte, c'est une question d'expérience. **Nous pourrons peut-être d’abord imaginer cette question à un niveau macro. Par exemple, il existe une possibilité très évidente qu'une fois les capacités du modèle améliorées, nous laissons naturellement le modèle nous aider dans certains travaux de recherche d'alignement. Bien que le modèle nous aide à mener des recherches, ses propres capacités ont été améliorées, donc de En conséquence , nous pouvons l'utiliser pour entraîner rapidement un modèle plus puissant.Cette histoire semble passionnante à première vue, mais en pratique, elle est en réalité assez compliquée. Tout d'abord, la pré-formation des modèles prend généralement plusieurs mois, et non des semaines, nous devons donc utiliser cette génération de modèles jusqu'à ce qu'une nouvelle génération de modèles naisse. Une autre question qui n’a pas encore de réponse claire est la suivante : existe-t-il encore de nombreux « fruits à portée de main » lorsqu’il s’agit d’améliorer la puissance de calcul ?Je pense que par rapport à l'alignement, l'investissement et l'attention de l'ensemble de la communauté de l'IA dans l'amélioration de la vitesse et des capacités de l'IA sont assez importants. Si nous pouvons automatiser davantage de ces tâches au profit des deux communautés, alors à l'échelle de la communauté d'alignement Dans des cas plus petits , le bénéfice marginal qu’il apportera sera plus élevé.**Daniel Filan : Lorsqu'il s'agit d'évaluer l'alignement en tant qu'orientation de recherche, quel sera, selon vous, l'objectif à long terme de cet aligneur automatique ? ****Jan Leike :** Je pense que les modèles linguistiques, ou l'intelligence artificielle en général, sont en moyenne plus créatifs que les humains. Par exemple, dans les images générées par un modèle de diffusion, ou dans l'échantillonnage d'un modèle de base pré-entraîné, vous trouverez certainement beaucoup de choses inattendues, le modèle est donc particulièrement créatif. Ce sont des choses dont il nous est difficile d'apprendre. quelqu'un. Ou obtenu à partir d'un petit groupe d'humains, et le modèle peut le faire parce qu'il a appris tous les mots prononcés par les humains ou toutes les images sur Internet, complétant ainsi l'échantillonnage sur cette distribution à très grande échelle, qu'un seul humain ne peut pas faire à ce point.En ce qui concerne les objectifs à long terme, je pense qu'il n'est pas du tout nécessaire de poursuivre délibérément ce qu'on appelle le long terme, car nous pouvons d'abord confier les tâches à court terme à l'IA. c'est largement suffisant. **Par exemple, il peut s'agir d'une chose à très petite échelle, comme « Ceci est un article que nous venons d'écrire. Veuillez faire quelques suggestions pour la prochaine étape ou quelles nouvelles expériences peuvent être mises en œuvre. » Imaginez que nous demandions en fait à un véritable chercheur vedette en IA de poser des questions, afin qu'il n'ait pas à poursuivre des objectifs à long terme, il doit simplement nous aider à optimiser les prochains petits objectifs, peut-être quelques milliers de jetons, s'il le peut. si bien, cela peut déjà apporter beaucoup de valeur à l’humanité.**Daniel Filan : Cela semble entrer en conflit avec l'objectif d'automatisation de 99,9 % des tâches d'alignement mentionné précédemment ? À mon avis, l’une des clés de la recherche sur l’alignement est de continuer à réfléchir et à résoudre le problème de « que faut-il pour obtenir une IA véritablement alignée » ? ****Jan Leike :** Exactement. Mais ce que je veux exprimer, c'est que lorsque le système accomplit bien ces tâches, il a généré beaucoup de valeur, et ce que nous, les humains, devons faire, c'est combiner ces tâches. **Par exemple, certaines tâches consistent à « écrire le code pour mettre en œuvre ces expériences », tandis que d'autres tâches consistent à « regarder les résultats et dites-moi ce que vous avez vu » ou « suggérer quoi faire ensuite ». Essentiellement, une fois que le modèle a terminé ces tâches, nous pouvons les combiner d'une manière générale, tout comme on le ferait dans Auto-GPT ou un programme de modèle de langage, où chaque tâche est petite et automatiquement intégrée afin que le système n'ait pas besoin de poursuivre délibérément un objectif ambitieux à long terme.Par exemple, le récent projet *Let's Verify Step by Step* d'OpenAI utilise des commentaires basés sur des processus en mathématiques pour former un modèle de récompense basé sur les commentaires humains à chaque étape du processus de preuve, plutôt que de former à la solution « si le système a obtenu la bonne réponse » ? ". Cela s'est avéré plus efficace car cela a donné au système d'IA une méthode d'apprentissage plus fine et des commentaires plus détaillés. Mais à plus long terme, est-ce compétitif par rapport à l’apprentissage par renforcement de bout en bout ? Nous ne le savons pas encore, mais au moins pour l’instant, nous pouvons utiliser cette répartition détaillée des étapes pour faire en sorte que le système fasse beaucoup de choses vraiment utiles que les humains feraient, puis assembler ces choses.***Vérifions étape par étape：***Une étude de mai 2023 réalisée par Hunter Lightman et al. Visant principalement le problème des erreurs logiques fréquentes dans les tâches de raisonnement complexes à plusieurs étapes de grands modèles, l'auteur a comparé deux méthodes : la supervision des résultats et la supervision des processus : la supervision des résultats fournit principalement un feedback sur le résultat final, tandis que la supervision du processus fournit un feedback pour chaque intermédiaire. étape de raisonnement. L’étude a révélé que la supervision des processus surpasse considérablement les modèles formés supervisés par les résultats, en particulier pour les problèmes mathématiques. De plus, les auteurs constatent que l’apprentissage actif améliore considérablement l’efficacité de la supervision des processus.**Daniel Filan : L'une des mini-tâches que vous avez mentionnées est de « voir les résultats et décider quoi faire ensuite ». Si vous voulez faire cela, vous devez réfléchir à quel projet spécifique sera le plus utile pour atteindre l’objectif d’alignement de la superintelligence dans quatre ans ? ****Jan Leike : Vous avez raison. Pas par l'optimisation et l'attribution de crédits à long terme, mais plutôt par l'ajout d'objectifs et de contexte plus larges à l'invite. **Cependant, dans les applications pratiques, lorsque nous améliorons les systèmes grâce à l'apprentissage par renforcement (RL) ou à l'apprentissage par renforcement basé sur le feedback humain (RLHF), nous n'avons pas réellement besoin d'attendre la fin du projet de recherche pour tirer des conclusions sur l'efficacité de ces méthodes. . Au lieu de cela, nous pouvons utiliser les commentaires humains comme base pour suggérer des récompenses, en nous demandant simplement : « Cette direction semble-t-elle meilleure que n’importe quelle direction à laquelle j’aurais pu penser par moi-même ?** Par conséquent, je pense que l'objectif global de Superalignment n'est pas d'obtenir l'alignement automatique le plus puissant de la technologie actuelle, mais de créer un système d'application très utile et à grande échelle. Plus important encore, nous pensons qu'il peut réaliser l'alignement, donc vous pouvez être assuré de gérer ces tâches. **** Par rapport à la répartition des tâches, certains pourraient penser que seule une formation de bout en bout peut rendre le modèle plus performant. Mais je pense que ce n'est pas si important. En fait, la méthode de formation de bout en bout limite non seulement la capacité du modèle dans une large mesure, mais a également une faible efficacité. C'est ce que l'on appelle habituellement la « taxe d'alignement ». **La « taxe d'alignement » est un facteur très important si vous envisagez de concurrencer efficacement d'autres entreprises sur le marché : disons que je construis un chatbot qui fait un travail d'alignement particulièrement bon, mais qui semble être beaucoup plus faible, ce qui est en fait, il est très difficile d'être compétitif sur le marché. Mais si vous disposez d’un auto-alignement, le chercheur en auto-alignement n’a pas besoin d’être compétitif sur le marché, il doit simplement nous être utile. Nous pouvons donc accepter des coûts d’alignement plus élevés parce que nous n’avons pas d’alternative, ou que la véritable alternative est d’embaucher davantage de personnes, mais ce n’est pas aussi évolutif.**Daniel Filan : Quels problèmes espérez-vous que ce chercheur en alignement automatisé résoudra ? ****Jan Leike :** Cela devrait résoudre le problème de "comment régler la superintelligence". **Alignement de la superintelligence La solution actuelle peut être très différente de l'alignement que nous effectuons aujourd'hui. **La solution de ChatGPT est de renforcer massivement l'apprentissage à partir du feedback humain, à savoir le RLHF (Reinforcement learning from human feedback). Le consensus général à ce stade est que cette approche peut être difficile à mettre à l’échelle car elle suppose fondamentalement que les humains doivent comprendre pleinement les détails de ce que fait le système.Donc, si vous laissez le modèle effectuer une recherche d'alignement à grande échelle, vous pouvez imaginer des tâches équivalentes à des millions de charges de travail humaines. Il est évidemment impossible pour les humains de visualiser toutes les données et de donner un retour détaillé. C'est assez difficile. , nous allons certainement l'oublier. de nombreux bugs importants dans ce processus.**La technologie sur laquelle l'équipe Superalignment travaille actuellement est de rendre le RLHF extensible et de mettre en œuvre l'alignement pour les aligneurs automatiques. **Cet aligneur automatique est presque au même niveau que les humains. Il peut remplacer les humains dans l'accomplissement de ces tâches difficiles, mais il ne sera pas trop différent des humains. Ces techniques que nous souhaitons réaliser sont des mises à niveau ou du sérieux par rapport aux explorations technologiques précédentes, telles que **La supervision évolutive est une extension naturelle du RLHF. **La supervision évolutive est définie comme la combinaison générale d'idées et de techniques qui nous permettent d'utiliser l'IA pour aider les humains à évaluer des tâches difficiles. La supervision peut être construite à partir de l'apprentissage par renforcement avec feedback humain (RLHF).Les représentants typiques de la supervision évolutive comprennent le débat, la modélisation récursive des récompenses (RRM), la distillation et l'amplification itérées, la tenue de marché automatisée, etc. De nombreuses nouvelles méthodes émergent.Je pense que si nous voulons vraiment nous aligner sur la superintelligence et penser à des systèmes plus intelligents que les humains, pensant plus vite, calculant à des niveaux d'échelle complètement nouveaux, cela apportera toute une série d'autres choses. Le problème, surtout parce que c'est va être super polyvalent et faire beaucoup de choses, et ensuite vous devez trouver comment l'aligner, pas seulement l'aligner sur les tâches de recherche plus étroitement réparties, mais sur tout le reste. De plus, vous devez vérifier son succès grâce à une évaluation empirique approfondie.Donc pour le moment, pas seulement moi, personne ne sait à quoi ressemblera l’avenir, mais ce serait très excitant d’avoir une vérification formelle. Peut-être avons-nous trouvé une sorte d'algorithme avec des garanties théoriques, mais la théorie et la pratique ultérieure peuvent être très différentes, et même je ne pense pas qu'un chercheur en alignement au niveau humain se mettra immédiatement à résoudre ces problèmes. Au lieu de cela, nous espérons qu’ils trouveront un moyen de mieux aligner la prochaine itération, afin que nous puissions éventuellement disposer d’un système qui nous aide à régler notre superintelligence, de manière guidée.**Daniel Filan : Une fois que vous avez ces chercheurs en alignement de l'intelligence artificielle au niveau humain, OpenAI a-t-il encore besoin d'une équipe d'alignement de superintelligence et des employés correspondants ? ****Jan Leike :** C'est une bonne question. Personnellement, je serais très enthousiaste si elle pouvait être remplacée par l’IA. **Mais historiquement, la situation typique est celle que nous avons mentionnée précédemment : les assistants IA effectuent 99 % ou 99,9 % du travail, et les humains sont responsables des 1 % ou 0,01 % restants. **À long terme, même si nous avons longtemps été incapables de vraiment comprendre tout ce que fait l'IA, nous devons veiller à ce que les humains soient impliqués d'une manière ou d'une autre, ou soient toujours capables de contrôler ce que fait l'IA, dans en d'autres termes, il doit y avoir un rôle humain pour essayer de comprendre les implications de haut niveau de l'exécution de tâches par l'IA, ces personnes ne doivent pas nécessairement être l'équipe actuelle d'OpenAI Superalignment, car l'ensemble des compétences requises pour cette question peut également être très différent de ce que nous avons actuellement.**Daniel Filan : OpenAI ne cesse de mentionner dans son blog que la sécurité est étroitement liée aux capacités des modèles, nous avons besoin de modèles intelligents pour résoudre les problèmes d'alignement, mais en même temps, nous espérons ne pas être modifiés par les capacités des modèles. Il y a un passage dans Planification pour AGI et au-delà : « Si AGI a suffisamment de capacité pour accélérer son propre développement, cela pourrait provoquer des changements majeurs à une vitesse étonnante », « Nous pensons qu'un développement relativement lent d'AGI est plus facile à assurer. ". Si nous créons un aligneur vraiment intelligent ou presque humain, puis multiplions par 10 ou 100 l'équipe d'alignement, cela aboutit-il à une boucle récursive d'auto-amélioration ? ****Jan Leike :** C'est inévitable. Il ne peut y avoir de cycle récursif d’auto-amélioration sans améliorations massives des capacités d’alignement. Personnellement, je pense que la possibilité que l’IA réalise un bond en avant en termes de capacités est assez élevée et que nous devons nous y préparer. Si cela n'était pas arrivé, j'aurais été content.Si l’on regarde d’autres systèmes d’IA, comme AlphaGo, Dota ou StarCraft, ces systèmes subissent des itérations massives de capacités presque chaque semaine. Quant à ce qui va se passer exactement, nous ne pouvons pas encore le dire avec certitude car il y a beaucoup d’incertitude, mais je pense que nous devrions nous préparer à cette éventualité. Lorsque cela se produit, une très bonne solution consiste à aligner automatiquement les chercheurs qui peuvent réellement effectuer l’équivalent de milliers d’années de travail en une semaine, ce que les humains ne peuvent pas faire.**Comment concevoir un aligneur automatique****Daniel Filan : Comment réaliser cet aligneur automatique à niveau humain ? ****Jan Leike :** Il peut être grossièrement divisé en deux parties : d'une part, nous avons besoin d'un système suffisamment intelligent pour effectuer des tâches ; d'autre part, nous devons aligner ce système pour garantir qu'il peut réellement effectuer des tâches. Ces deux parties ne sont pas totalement indépendantes, elles sont étroitement liées.Je n'ai pas été personnellement impliqué dans la première partie de la recherche, mais je suis sûr qu'elle portera ses fruits et que de nombreuses personnes travaillent dur pour la rendre possible. Il a de nombreuses directions de développement différentes, mais vous pouvez imaginer que le modèle devient de plus en plus grand et qu'il finira par devenir suffisamment intelligent.**Ce qui m'intéresse vraiment personnellement, c'est la deuxième partie. Le problème auquel nous sommes confrontés dans la recherche est le suivant : avec ce modèle pré-entraîné très intelligent, comment lui faire effectuer la recherche d'alignement comme vous le souhaitez ? Ou, plus important encore, comment savoir si vous pouvez lui faire suffisamment confiance pour mener à bien la tâche ? **Nos modèles peuvent essayer de présenter les résultats et les techniques de manière à ce que, si vous décidez de les mettre en œuvre, ils améliorent réellement le système lui-même ou d'autres systèmes associés et présentent davantage de comportements de recherche de pouvoir à l'avenir, ou effectuent un jailbreak (auto-exfiltration) et d'autres comportements.Par conséquent, nous devons aligner l’IA pour garantir qu’elle peut effectuer des tâches conformément à nos attentes et utiliser pleinement ses capacités pour obtenir les meilleures performances sur la tâche. Pour ce faire, une série de méthodes de formation à l’alignement doivent être développées pour garantir que l’IA reste alignée lors de l’exécution des tâches.Il s'agit en fait de deux types différents de systèmes. Nous devons distinguer clairement si le système est véritablement aligné ou faussement aligné. Le premier est un système qui peut travailler dur pour mener des recherches sur l'alignement et nous aider véritablement à rechercher la vérité ; le second peut avoir l'intention de contrôler le monde, de jailbreaker ou d'effectuer d'autres risques de mauvais comportement. Par conséquent, nous devons établir des mécanismes ou des méthodes pour faire la distinction entre ces deux alignements afin de garantir que nous pouvons faire confiance et compter sur un système véritablement aligné.**Une partie importante de notre travail consiste à découvrir comment distinguer les vrais et les faux alignements. Je les appelle méthodes de vérification. Elles ne sont pas directement utilisées pour entraîner les systèmes d'IA, ni directement comme base pour la sélection des systèmes, mais fournissent un signal indépendant est utilisé pour déterminer si le système est un système véritablement aligné ou un système faussement aligné. **La recherche sur l’interprétabilité, par exemple, est l’une de ces approches. Si nous trouvons des preuves, en examinant à l’intérieur du modèle, que celui-ci complote secrètement contre nous, alors le modèle échouera au test de validation en tant que système faussement aligné.Une autre approche consiste à généraliser le problème de facile à difficile, ce qui peut être une technique de formation ou de validation, selon la manière dont elle est configurée. Cette question examine si la capacité du modèle à généraliser des problèmes simples que nous pouvons superviser à des problèmes difficiles que nous ne pouvons pas superviser. Si le modèle peut être supervisé sur la partie facile et validé de manière croisée sur la partie difficile, nous pouvons alors déterminer si le modèle présente un risque de tricherie secrète ou d'autres comportements.**Approche 1 : Supervision évolutive****Daniel Filan : Comment parvenir à une supervision évolutive ? Il n'y a pas encore beaucoup de consensus sur l'alignement. Comment obtenir des signaux de formation pour une recherche sur l'alignement de haute qualité ? ****Jan Leike:** L'incapacité à parvenir à un consensus montre vraiment que l'alignement est en fait très difficile à résoudre. Ce domaine n'est pas encore mature et nous n'avons donc pas beaucoup d'expérience jusqu'à présent. Mais je pense que la recherche sur l’alignement possède des propriétés très importantes que nous pouvons exploiter pour une supervision évolutive.Évaluer la qualité de la recherche sur l'alignement peut être une meilleure entrée que simplement étudier l'alignement, ce qui ne signifie pas que la recherche sur l'alignement est facile, ne signifie pas qu'elle est facile à évaluer, mais trouver un article est beaucoup plus facile. Par exemple, cet article a une idée intéressante, fait des expériences intéressantes et les résultats sont bons. Vous ressentirez certainement la qualité de cette recherche connexe après l'avoir lu. C'est beaucoup plus facile que de faire ce travail. .**Ainsi, le principe « l'évaluation est plus facile que la génération » est au cœur de nombreuses idées de supervision évolutive. **Par exemple, si vous envisagez une modélisation récursive des récompenses, l'idée de base est d'utiliser un assistant d'IA pour vous aider à évaluer le travail d'autres systèmes d'IA : laissez d'abord le système d'IA auxiliaire s'aligner sur une tâche relativement simple, qui est utilisée comme assistant d'évaluation pour aider à l'évaluation d'autres systèmes d'IA.Étant donné que l’évaluation est plus facile que la génération, la tâche des systèmes d’IA d’assistance est relativement simple, d’autant plus que les humains collaborent avec les systèmes d’IA d’assistance lors de l’évaluation. Une fois cette tâche réussie, une combinaison d’humains et de systèmes d’IA auxiliaires peut être utilisée pour superviser la formation d’un nouveau système d’IA sur des tâches plus difficiles.En répétant continuellement ce processus, nous pouvons continuellement élargir la gamme de tâches pour lesquelles nous pouvons superviser efficacement les systèmes d’IA. Cette approche nous permet de tirer parti de la relative simplicité de la tâche d’évaluation pour guider et former les systèmes d’IA, ouvrant ainsi progressivement la voie à un plus large éventail de domaines de tâches.***Alignement évolutif des agents via la modélisation des récompenses : une direction de recherche：***Jan Leike a publié une étude sur la modélisation récursive des récompenses en 2018, concevant une fonction de récompense adaptée à l'application d'algorithmes d'apprentissage par renforcement à des problèmes du monde réel. En outre, le problème de l'alignement des agents est abordé, c'est-à-dire comment créer des agents qui se comportent conformément à l'intention de l'utilisateur. L'équipe décrit une direction de recherche de haut niveau pour résoudre le problème de l'alignement des agents, centrée sur la modélisation des récompenses, en apprenant les fonctions de récompense à partir des interactions avec les utilisateurs.**Daniel Filan : Autrement dit, en ajoutant de manière itérative de plus en plus de connaissances en IA à la partie évaluation de l'étude d'alignement. En fonctionnant de cette manière itérative, le système d’IA reçoit toujours un bon signal d’entraînement. ****Jan Leike :** Oui. Par exemple, RLHF est le plus simple et ne nécessite l'utilisation d'aucun assistant. Les humains évalueront si les performances de l'IA sont bonnes ou non après avoir vu les résultats. C'est un signal d'entraînement.***Apprentissage par renforcement profond à partir des préférences humaines：***Une étude de 2017 réalisée par Paul Christiano et Jan Leike. Dans ce travail, des objectifs définis en termes de préférences humaines (non expertes) entre segments de trajectoire sont explorés pour permettre à des systèmes complexes d'apprentissage par renforcement (RL) d'interagir efficacement avec des environnements du monde réel. Des études ont montré que cette approche peut résoudre efficacement des tâches complexes d'apprentissage par renforcement sans accès aux fonctions de récompense, notamment les jeux Atari et les mouvements de robot simulés, tout en fournissant un retour d'information pour moins de 1 % des interactions de l'agent avec l'environnement. Cela réduit considérablement le coût de la surveillance humaine.Ensuite, un développement supplémentaire par rapport à la méthode décrite précédemment consiste essentiellement à former le modèle assistant le plus simple, le modèle critique. Il s'agit d'un modèle de langage indépendant qui observe la sortie du premier système d'IA et rédige une critique.Par exemple, le premier système d’IA écrit un morceau de code, et nous examinons le code : les humains ont tendance à être mauvais pour repérer les bugs dans le code, c’est pourquoi il y a tant de code bogué dans le monde. Mais maintenant, s'il existe un système de critique capable d'écrire des critiques et de signaler des erreurs, alors il est très facile pour les humains de juger : « c'est définitivement un bug, nous devrions le corriger ».Le point à souligner ici est que la tâche elle-même n’est pas très claire, car généralement le code est écrit selon une sorte de spécification en langage naturel. En pratique, la signification de cette spécification est quelque peu ambiguë, et il peut y avoir une ambiguïté quant à déterminer si un problème est un bug ou non. Mais plus important encore, en utilisant des modèles critiques comme assistants, vous pouvez élargir la portée des tâches de supervision. Bien qu'il puisse y avoir une certaine ambiguïté quant à la certitude des problèmes et des bogues dans le code, vous pouvez toujours utiliser la sortie du modèle critique pour trouver davantage de problèmes. Cette approche vous permet de superviser efficacement les systèmes d'IA dans un plus large éventail de domaines de tâches, élargissant ainsi la portée de la supervision.Ce qui est très bien, c’est qu’il existe en fait de nombreuses façons d’évaluer l’efficacité de cette approche grâce à des recherches empiriques. L’une des approches, celle que nous avons utilisée dans l’article que nous avons publié l’année dernière, consiste essentiellement en un essai contrôlé randomisé avec des perturbations ciblées. Supposons que vous ayez une tâche de codage. Bien que nous n'utilisions pas de tâches de codage dans l'article, le contenu spécifique de la tâche n'est pas important ici. Ensuite, vous obtenez un résultat de réponse, qui ne doit pas nécessairement être parfait, mais supposons qu'il le soit. Ce que vous essayez de faire, c'est d'introduire une erreur ou un défaut subtil dans ce résultat de réponse, ce qui en fait une réponse pas si bonne, mais imperceptiblement mauvaise pour les humains.L'article mentionné ici est *Modèles d'autocritique pour aider les utilisateurs humains* publié en 2022. Cet article se concentre sur le réglage fin de grands modèles de langage et sur l'utilisation du clonage comportemental pour rédiger des critiques en langage naturel. Les avis rédigés par le modèle peuvent aider les gens à détecter les défauts des résultats. En outre, les auteurs étudient les propriétés d'échelle des revues pour les tâches de résumé et de synthèse thématiques. Les modèles plus grands rédigeront des critiques plus utiles.**Daniel Filan : Comment ces bugs sont-ils introduits ? ****Jan Leike :** Le moyen le plus simple est de laisser les humains le faire, mais en fin de compte, nous devons laisser le modèle terminer ce processus par lui-même.Tout d’abord, échantillonnez au hasard l’une des perturbations, puis montrez-la à un humain, ou à un humain assisté par l’IA, ou par toute approche supervisée évolutive. Et puis voyez quelle est la probabilité qu’ils le découvrent ? Ou vous pouvez leur demander directement : "Y a-t-il une vulnérabilité ici ?" et vous pouvez obtenir la fréquence à laquelle ils trouvent des bugs.De plus, vous pouvez comparer directement la compréhension du problème par le modèle et entraîner le modèle comme un discriminateur capable de distinguer les bonnes versions des versions défectueuses. La précision du discriminateur représente ses performances. Ensuite, le modèle ou le modèle amélioré par RLHF est invité à commenter le code. Observez ensuite la fréquence à laquelle le modèle mentionne des défauts de code dans les commentaires. Comparez la précision du discriminateur à la précision des avis générés par le modèle. La précision du discriminateur reflète la capacité du modèle à reconnaître le problème, tandis que la précision de l'examen reflète la conscience du modèle des défauts du code. C'est ce que nous appelons l'écart discriminateur-critique.Si la différence est grande, cela signifie qu'il y a beaucoup de problèmes que le modèle peut sentir mais il ne nous le dit pas car si nous lui demandions d'écrire un commentaire, il ne le dirait pas. Cette situation est très préoccupante, car elle signifie que votre surveillance évolutive est profondément défectueuse d’une manière ou d’une autre, et que beaucoup de choses échappent à votre radar. Ou dans le sens où cet assistant IA n’est pas très coopératif, car il ne fait pas beaucoup d’efforts pour vous aider.Au contraire, une petite valeur de différence signifie que l'assistant IA vous le dira une fois qu'il saura qu'il y a un problème avec le modèle. En particulier, si un modèle de taille similaire ou le même modèle de base tente d'implanter des bugs ou de placer des chevaux de Troie difficiles à trouver, avec de faibles valeurs de variance, nous pouvons alors exclure la possibilité d'une telle attaque avec une plus grande confiance. Parce qu'une autre copie du modèle est susceptible d'écrire une critique révélant des problèmes potentiels.Cette situation repose sur l’hypothèse que la formation des discriminateurs peut effectivement éliminer cette situation du modèle. Je pense que nous avons de bonnes raisons de le croire, puisque le réglage fin d'un discriminateur donne essentiellement accès à toutes les activations du modèle et affine tous les poids en même temps. Ainsi, si la connaissance existe quelque part dans les activations du modèle, un réglage fin du discriminateur devrait être capable d'extraire cette connaissance, à condition qu'elle soit correctement ajustée et avec suffisamment de données.Vous pouvez en fait effectuer des calculs inverses pour déterminer la quantité de données dont vous avez besoin. Supposons qu'il y ait un seul neurone dans le modèle qui trouve des problèmes avec le code. Pour trouver et identifier ce neurone, le nombre de points de données dont vous avez besoin correspond approximativement au logarithme du nombre total de neurones. Cela signifie que relativement peu de points de données suffisent pour affiner et trouver des neurones dotés de fonctions spécifiques. Cette estimation montre qu'avec un entraînement discriminateur et suffisamment de données, il est possible de découvrir la fonction de neurones spécifiques dans le modèle.**Daniel Filan : C'est aussi une question que je me pose sur l'ensemble du plan. La raison pour laquelle nous n'aimons pas le RLHF est qu'il n'est peut-être pas capable de faire la différence entre ce que les humains pensent être juste et ce qui « semble bien », parce que les humains ne sont pas doués pour critiquer. **L'idée de l'évaluation récursive est d'améliorer continuellement la qualité des évaluations en formant à la fois le discriminateur et l'évaluateur. Une solution consiste à former une chose qui peut rédiger de très bonnes critiques, puis nous travaillons avec elle pour former une chose qui est plus capable de réviser. Dans ce cas, nous augmentons progressivement la qualité des avis pour obtenir de meilleurs résultats. Mais existe-t-il une autre situation dans laquelle nous entraînons une chose, l'entraînons par inadvertance à écrire de faux commentaires qui nous semblent bons, puis nous travaillons avec elle pour améliorer encore notre capacité à discerner les commentaires qui sonnent bien. Cela peut nous amener à prêter davantage attention à des choses qui semblent bonnes mais qui constituent en réalité des problèmes, tout en ignorant les problèmes qui existent réellement.**Jan Leike :** Oui, je conviens qu'il s'agit d'une question très importante et valable. Lorsqu’on explore les applications de la supervision évolutive, il devient crucial de comprendre l’un de ses enjeux clés. Par conséquent, je suis très enthousiaste à l’idée d’appliquer ces techniques et de les essayer empiriquement, car je crois que grâce à la pratique, nous serons mieux en mesure d’évaluer l’efficacité de ces méthodes.Un moyen concret et simple de mesurer cet effet consiste à entraîner délibérément un modèle avec des alignements trompeurs, puis à observer si une supervision évolutive est capable d'identifier et de signaler un tel comportement trompeur, ou à quel point il est difficile à détecter... ...ou dans quelle mesure efforts que nous devons déployer pour qu’un modèle réussisse à s’aligner de manière trompeuse pour échapper à notre supervision évolutive.**Daniel Filan : Oui, j'ai pensé à une « expérience sandwich » pour tester les réponses de l'IA aux questions juridiques. Dans cette expérience, il a été demandé à certaines personnes non juridiques de poser des questions juridiques, puis à certaines personnes qui connaissaient bien le droit de vérifier si l'IA trompait les personnes non juridiques. ****Jan Leike :** Ces expériences sont vraiment intéressantes et des recherches intéressantes ont été menées dans ce domaine. Certains des problèmes fondamentaux que vous soulignez doivent être pris en compte.Premièrement, vous avez évoqué la question de la confiance envers les experts. Étant donné que les experts font parfois des erreurs, il peut y avoir une certaine incertitude lorsqu’ils s’appuient sur leur jugement, ce qui constitue effectivement une considération importante. De plus, il est essentiel de veiller à ce qu’il y ait suffisamment de chevauchement de domaines entre les experts et les tâches afin qu’ils puissent fournir des évaluations et des commentaires précis.Un autre problème est que pour certaines tâches, nous pouvons ne pas connaître les faits ou la vérité sous-jacents. Même dans un domaine comme la recherche sur l’alignement, nous pouvons avoir des perspectives et des perceptions différentes. Cela rend plus difficile une évaluation précise de ces tâches. De plus, la collecte de grandes quantités de données peut s’avérer une tâche coûteuse en raison du nombre limité d’experts et du temps nécessaire.Donc, de manière générale, j'aimerais avoir une méthode d'évaluation qui ne repose pas sur l'hypothèse que nous disposons déjà des faits de base. Cette approche peut être évaluée sans connaissances préalables et peut être appliquée à des tâches de différents niveaux de difficulté, c'est pourquoi je critique l'utilisation de ces essais contrôlés randomisés pour effectuer des perturbations ciblées ou mesurer les écarts entre discriminateurs et critiques.**Daniel Filan : Oui, cependant, pour mesurer l'écart discriminateur-critique, vous avez besoin d'un véritable discriminateur, pas seulement d'un dispositif qui fait la différence entre un dispositif "ça a l'air mauvais" et "ça a l'air bien". ****Jan Leike :**Vous dites que vous pouvez introduire des défauts dans les systèmes d'intelligence artificielle, n'est-ce pas ? À certains égards, cette approche peut être meilleure que les évaluations humaines, car elle est plus proche de la véritable distribution à laquelle les systèmes d’IA sont confrontés dans les applications du monde réel. En utilisant ces données erronées, le discriminateur peut être affiné, et si nous pensons que la version erronée est en réalité pire, nous pouvons alors établir une sorte de vérité terrain. Nous pouvons observer pourquoi les choses tournent mal et les vérifier pour mieux les comprendre.**Daniel Filan : Même si un système d'intelligence artificielle peut nous faire penser que quelque chose est bon, ce n'est pas nécessairement bon ; de même, si un système d'intelligence artificielle nous fait penser que quelque chose est mauvais, alors en fait, cela peut être vraiment mauvais, ou la performance peut être dégradé. Quoi qu’il en soit, si l’IA vous fait penser que quelque chose ne va pas, peut-être sera-t-il plus facile de nous aider à détecter le problème ? ****Jan Leike :** Oui, je vois ce que tu veux dire. Je ne devrais probablement pas utiliser le terme « vérité terrain » dans ce cas parce que ce n'est pas vraiment une vérité terrain, comme si rien n'était vraiment vrai, mais vous pouvez faire beaucoup pour que vous ayez beaucoup confiance dans la vraie valeur, et cela ne facilite pas nécessairement la recherche des problèmes.**Vérité terrain：**Dans l'apprentissage supervisé, les annotations de données apparaissent généralement sous la forme (x, t), où x est les données d'entrée et t est l'annotation. L'étiquette t correcte est la vérité terrain, qui peut être comprise comme la norme de référence et la vraie valeur au sens de référence, alors que l'étiquette t incorrecte ne l'est pas.**Approche 2 : Recherche de mauvais comportements et de structure interne****Daniel Filan : Dans l'introduction d'OpenAI à Superalignment, l'un de vos pipelines d'alignement consiste à implémenter la recherche automatique de comportements susceptibles de poser des problèmes (robustesse) et de structures internes susceptibles de poser des problèmes (interprétabilité automatique). À ce stade, quels problèmes surviennent pensez-vous que l'équipe de superalignement résoudra ensuite ? ****Jan Leike : Interprétabilité sans aucun doute. Dans un sens, l’explicabilité est vraiment difficile. À l'heure actuelle, nous n'avons pas de résultats majeurs sur les modèles de langage, et il est juste de dire que l'interprétabilité nous a vraiment beaucoup inspiré ou ajouté beaucoup de valeur, et c'est parce que notre compréhension des modèles et de leurs composants internes est encore très rudimentaire. ****Daniel Filan : La communauté universitaire a effectué un travail explicable sur les modèles de langage. Par exemple, le travail des ** ***responsables d'apprentissage et d'induction en contexte*** ** et le travail d'identification indirecte d'objets (identification indirecte d'objets), au moins un certain type d'identification indirecte d'objets peut être effectué. Je veux savoir, à part cela, de quoi d’autre avez-vous besoin pour atteindre votre point final idéal ? *****• Responsables de l'apprentissage et de l'initiation en contexte***Ce travail a été publié en 2022. Il se concentre principalement sur les problèmes de sécurité associés dans le contexte de l'expansion continue du modèle de génération Transformer.Il améliore l'interprétabilité mécanique par la rétro-ingénierie des calculs détaillés effectués par le modèle. Résolvez les problèmes de sécurité actuels de manière plus systématique et prédisez les problèmes de sécurité futurs dans des modèles plus puissants en comprenant la structure interne qui permet à un modèle Transformer de produire sa sortie.***• Interprétabilité à l'état sauvage : un circuit pour l'identification indirecte d'objets dans GPT-2 small***Cet article comble le fossé des performances d'interprétabilité mécanique dans les grands modèles complexes en expliquant comment GPT-2 small exécute une tâche en langage naturel appelée identification indirecte d'objets (IOI), démontrant qu'une compréhension mécaniste des grands modèles d'apprentissage automatique est réalisable, ce qui offre l'opportunité pour que l’interprétabilité s’étende à des modèles plus grands et à des tâches plus complexes.**Jan Leike :**Oui, l'exploration actuelle dans le domaine de l'interprétabilité est très gratifiante. Je pense que plus important encore, si nous pouvons utiliser la technologie d'interprétabilité sur un modèle de récompense de modèle de langage, tel que la taille GPT-4 ou tout autre grand modèle que vous peut penser, puis j'ai obtenu quelque chose sur le modèle de récompense que nous ne connaissions pas auparavant, ce qui est important car le modèle de récompense fournit le signal d'entraînement pour de nombreuses formations RLHF, il est donc important de mieux le comprendre. C'est très précieux, et être capable de signaler ou de découvrir des problèmes dans le comportement qu'il motive et que nous, les humains, ne voulons pas apparaître, sera une avancée très importante. **En ce sens, je pense que l’interprétabilité n’est ni nécessaire ni suffisante. Je pense qu'il est tout à fait possible pour nous de résoudre le problème d'alignement de manière purement comportementale, sans vraiment comprendre le modèle interne. Mais je pense aussi que toute idée non triviale que nous obtiendrons de l’interprétabilité sera extrêmement utile, ou pourrait l’être, car elle nous donne un moyen d’attaquer. **Il nous est donc totalement impossible d’abandonner la tentative d’explicabilité. Parce que d'une certaine manière, vous avez ce cerveau artificiel, et nous avons des scanners cérébraux parfaits, nous pouvons zoomer complètement et mesurer avec précision l'activation de chaque neurone sur chaque voie avant, y compris l'horodatage arbitraire et discret, ce qui est probablement la résolution maximale que nous voulons. obtenir. Nous pouvons également effectuer des interventions arbitraires, où nous pouvons arbitrairement perturber n'importe quelle valeur du modèle. Cela nous donne beaucoup d’espace et d’opportunités pour expérimenter, et il serait fou de ne pas en profiter.Mais en même temps, c'est très difficile parce que le modèle apprend à calculer en termes d'efficacité, sans être régularisé pour être compréhensible par l'homme, ou plutôt, il n'y a aucune raison de croire que les neurones individuels devraient correspondre à des concepts, ou à quelque chose de proche de l'humain. pensent qu'ils nous sont ou devraient nous être ou nous sont familiers. En fait, empiriquement, les réseaux de neurones représentent de nombreux concepts différents avec un seul neurone, et chaque concept est réparti entre différents neurones. Les neurones ne sont donc pas importants ici.Il y a deux choses qui me préoccuperaient beaucoup en termes d’interprétabilité.La première est la causalité. Nous voulons examiner les neurones lorsque nous transmettons des données à travers le modèle. Par exemple, nous avons un neurone lié au « Canada » qui se déclenche lorsqu'un concept lié au Canada apparaît. Mais il ne s’agit que d’une corrélation, pas nécessairement d’un lien de causalité. Pour vérifier qu'il s'agit d'une relation causale, nous devrions alors écrire intentionnellement sur les concepts liés au Canada pour voir s'ils répondent tous, tout en écrivant également sur d'autres concepts connexes qui pourraient sembler liés au Canada, ou Rien à voir avec le Canada, mais généralement très similaire, puis vérifier si les neurones réagissent, ou si ces neurones s'arrêtent, et ainsi de suite.**Daniel Filan : Ceci est similaire à Tolga Bolukbasi et al.** ***Une illusion d'interprétabilité pour BERT*** **Cet article, je pense qu'il s'appelle l'illusion d'interprétabilité, mentionne l'article, nous pouvons faire réagir les neurones à une chose spécifique, mais ce n'est qu'une illusion car sur d'autres ensembles de données, ces neurones réagissent à un tas d'autres choses. *****Une illusion d'interprétabilité pour BERT：***Cet article décrit « l'illusion d'interprétabilité » qui surgit lors de l'analyse des modèles BERT. Les activations de neurones individuels dans un réseau peuvent sembler coder un concept unique et simple alors qu'en réalité elles codent quelque chose de beaucoup plus complexe, et le même effet s'applique aux combinaisons linéaires d'activations. Les auteurs font remonter la source de cette illusion aux propriétés géométriques de l'espace d'intégration de BERT et au fait que les corpus de texte brut ne représentent qu'une petite fraction des phrases anglaises possibles, entre autres.**Jan Leike :**Une autre chose intéressante est qu'OpenAI a publié un article interprétable Les modèles de langage peuvent expliquer les neurones dans les modèles de langage plus tôt cette année (** Note de sélection : ** dans Dans cet article, les expérimentateurs tentent d'utiliser GPT-4 pour expliquer le comportement du néoron GPT-2) Ce que nous voulons, c'est une technique qui puisse fonctionner au niveau de détail de neurones individuels, afin que vous puissiez vraiment être sûr de ne manquer aucun détail tout en étant capable de travailler à l'échelle de le modèle entier.Parce qu’en fin de compte, tout dans le modèle est lié, donc les deux sont importants. Jusqu’à présent, la technologie était essentiellement une question de choix. Il y a eu des tentatives d'interprétabilité automatique avant notre article, nous ne sommes donc pas les premiers à le faire. Mais je pense que si vous pouvez faire un véritable travail d'interprétabilité axé sur les détails, des méthodes d'interprétabilité mécanistes qui tentent réellement de comprendre un seul circuit ou une unité de calcul à l'intérieur du modèle, alors la manière d'étendre cela à l'ensemble du modèle est l'automatisation, non ?Mais vous pouvez également faire ceci : une fois que vous avez compris comment implémenter cela en détail, vous pouvez simplement documenter ce que vous faites, c'est-à-dire laisser le chercheur en alignement automatique ou en interprétabilité étudier en détail ce qui se passe avec le modèle. Ensuite, filtrez l’intégralité du contenu ou trouvez un moyen de le résumer. **Je simplifie un peu à l'extrême ici, mais dans l'ensemble, c'est l'idée qui me passionne vraiment.Ainsi, dans le document, nous avons beaucoup de contenu explicatif. Par exemple, cet article écrit une interprétation en langage naturel pour un seul neurone, ce qui n'est peut-être pas tout à fait correct, mais il vous donne un exemple simple de ce que nous pouvons faire ici. La façon dont cela fonctionne est que vous montrez simplement à GPT-4 une séquence de modes d'activation et laissez GPT-4 rédiger une explication suggérée.D'une manière générale, ces explications ne sont pas très bonnes, notamment parce que la tâche est très difficile et que la plupart des neurones ne font pas des choses que les humains peuvent clairement comprendre. Mais nous pouvons exécuter ce programme à l’échelle de chaque neurone dans GPT-2, jeter toutes les explications de côté et essayer de comprendre quels sont les modèles intéressants. Vous pouvez également examiner les tendances de mise à l'échelle, par exemple : "Comment pouvons-nous automatiquement noter ces explications à mesure que le modèle s'agrandit ?" ou "Et si nous ajoutions plus de calculs ou si nous faisions en sorte que le modèle fasse en sorte que les explications s'agrandissent ?" Qu’arrive-t-il à la qualité des explications ? "Le plus cool, c'est que nous pouvons mesurer cette métrique automatiquement avec un modèle de langage. Bien que ce ne soit pas une mesure parfaite et qu'elle pose de nombreux problèmes, elle peut vous donner un indicateur indirect permettant de savoir si un humain penserait que cette explication était bonne ou non. Vous pouvez ensuite utiliser cet indicateur proxy à grande échelle, en l’exécutant sur un grand nombre de neurones.**Daniel Filan : Si vous réfléchissez au travail d'interprétabilité nécessaire, dans quelle mesure pensez-vous qu'il s'agit de trouver une meilleure unité d'explication de base plutôt que de trouver comment étendre ce qui se passe ? ****Jan Leike :** Je pense que vous avez besoin des deux, le premier est plus difficile, ce qui est bien sûr logique, et pour réussir, je pense que vous devez évoluer.**Approche 3 : Tests contradictoires****Daniel Filan : La troisième façon de mettre en œuvre le superalignement consiste à entraîner délibérément des modèles mal alignés (modèles mal alignés) pour voir si le pipeline peut détecter ces modèles. Alors OpenAI prévoit-il de les éliminer ou de les corriger de manière proactive ? ****Jan Leike :** L'objectif ici n'est pas de corriger ces modèles mal alignés intentionnellement entraînés. En fait, ces modèles défectueux ne sont utilisés qu'à des fins de détection.Fondamentalement, l'objectif principal est que nous devons être capables de distinguer efficacement les vrais modèles d'alignement des faux modèles d'alignement, les premiers peuvent nous aider à atteindre nos tâches cibles et faire progresser la recherche sur l'alignement, tandis que les seconds peuvent achever la prise de contrôle et l'auto-infiltration. . Une façon de nous aider à mieux différencier ces deux types d’aligneurs est de fabriquer un faux aligneur et de voir s’il est similaire au vrai aligneur. Mais vous devez être très prudent en faisant cela, car vous créez quelque chose de terrible que nous voulons tous éviter.**Daniel Filan : Au début de l'article d'OpenAI, vous avez mentionné que la superintelligence pourrait être la technologie qui aura l'impact le plus profond sur l'humanité et nous aidera à résoudre les problèmes les plus importants du monde. **Il y a un dicton sur la grandeur de la superintelligence, et je me demande si cela entraînera la perte du pouvoir humain ou même l’extinction de l’humanité ? Plus précisément, de quel type de modèle de dislocation parlons-nous ? Comment savons-nous qu’ils ne feront pas ces choses terribles ?**Jan Leike :** Il reste beaucoup à faire pour que le développement futur se déroule sans heurts. Nous devons mettre en place les structures de gouvernance appropriées afin de pouvoir empêcher l’utilisation abusive de puissants systèmes d’IA, et nous devons mettre en place des précautions afin d’éviter une sorte d’effet d’emballement qui serait encore préjudiciable à l’humanité. Dans ce cas, vous avez une IA alliée aux humains et une IA alliée aux sociétés anti-humaines, et même si tous les indicateurs économiques ou quoi que ce soit semblent bons, l’ensemble du système peut devenir incontrôlable.**En outre, nous devons également résoudre les problèmes d'alignement technologique afin de pouvoir véritablement aligner nos systèmes d'IA. **L'alignement sur la superintelligence se concentre uniquement sur la dernière partie du risque. Le problème technique que nous devons résoudre est de savoir comment rendre un système d’IA cohérent avec un ensemble de valeurs humaines, et en même temps, une question nouvelle et indépendante se pose : quelles devraient être ces valeurs ? Comment concevoir un processus pour importer ces valeurs de la société ?Je pense que ce sont des questions importantes auxquelles nous devons répondre, et ce n’est que si nous les résolvons que l’avenir pourra se développer sans heurts. Je pense que pour un avenir meilleur, la norme n'est pas seulement "L'IA ne tuera pas tout le monde", mais aussi de voir l'humanité prospérer. L'avenir auquel j'aspire est un avenir dans lequel tout le monde veut vivre. Plus l’IA est puissante, plus le risque est grand et plus le potentiel d’erreur est grand si le système est mal aligné.En particulier, du point de vue de la dislocation, je pense que les modèles de menace dont nous devrions particulièrement nous inquiéter sont les mensonges systémiques, la tromperie et l’auto-infiltration.**Daniel Filan : Vous parlez d'entraîner délibérément des modèles mal alignés, ce qui signifie les entraîner à mentir et parfois à essayer de jailbreaker, mais comme la capacité réelle du modèle est suffisamment faible, est-ce suffisant pour prévenir et contrôler le risque ? ****Jan Leike : **En fait, vous ne voudriez pas former un modèle pour pouvoir jailbreaker, et s'il faisait réellement du bon travail dans ce domaine ? Il est plus sûr de choisir une autre tâche d'agent plus générale qui vous aidera néanmoins à faciliter l'évaluation de votre modèle.Et puis la principale difficulté et l’objectif principal est de réellement déterminer quelles propriétés un système doit posséder pour réussir l’évaluation. Si vous avez un système qui vous ment ou vous trompe occasionnellement, cela peut être considéré comme inefficace. Ce n'est que lorsqu'il fait une tromperie continue, un mensonge continu et vous convainc, qu'il est un menteur vraiment cohérent et crédible. est si cohérent qu'il est difficile de souligner ses mensonges ou les incohérences de ce qu'il dit lors d'un interrogatoire, ce qui est vraiment terrifiant.En fait, il n’est pas facile d’être un menteur aussi constant. Nous essayons de rendre difficile la tâche des modèles qui mentent de manière aussi cohérente grâce à une supervision, une interprétabilité et une généralité évolutives.Mais cela ne suffit pas, et il est difficile de déterminer avec quelle facilité une IA peut tricher de manière cohérente. Une façon d'en être sûr est d'entraîner d'abord le modèle à devenir un menteur véritablement stable, et de partir de la stabilité pour voir à quel point il est difficile de devenir un menteur cohérent. Dans quelle mesure avons-nous besoin de tromper le modèle ? Dans quelle mesure devons-nous donner des indications au modèle ou lui enseigner la pratique en cours de route ? Cela dit, vous ne voulez pas former un système qui est vraiment dangereux, et si vous l'exécutez réellement et qu'il réussit à se filtrer et provoque directement ce que vous voulez empêcher, ce serait vraiment mauvais.**Daniel Filan : Quand vous dites cela, faites-vous une distinction entre le mensonge et d'autres types de danger, par exemple, nous pouvons l'entraîner à mentir, mais nous ne l'entraînerions pas à tuer ? ****Jan Leike :** Oui. Par exemple, disons que vous vous fixez un faux objectif. C'est peut-être pour convaincre les humains de dire un certain mantra, peut-être pour exécuter une certaine commande Python, mais en fait, cette commande ne fait rien de réel, elle a juste l'air drôle.En outre, nous nous préoccupons de la manière de procéder a priori, et les tests de résistance du système sont une tout autre affaire.Dans le contexte de l'interprétabilité, notre objectif est simplement de comprendre si le système actuellement formé ou les systèmes existants sont d'une manière ou d'une autre proches de notre système cible souhaité et peuvent nous tromper de manière cohérente. Nous voulons déterminer si le système exécutera un certain code ou un comportement similaire sans supervision humaine, ce qui nous oblige à mener des expériences pour des scénarios spécifiques. Il suffit de vérifier "c'est un menteur cohérent", sinon il est vraiment difficile de déterminer a priori à quel point nous sommes proches de cet objectif, sauf lorsque nous allons délibérément en avant, pour que le système puisse faire d'autres choses scandaleuses.**Daniel Filan : Donc vous l'entraînez à faire une petite chose arbitraire au lieu de la mauvaise chose qu'il est vraiment censé faire, comme mentir, faire du mal aux gens, etc., mais en fin de compte, il met simplement un autocollant sur le front de quelqu'un. A note ou quelque chose comme ça. ****Jan Leike :** Ouais, comme si vous engageiez quelqu'un pour faire un test d'intrusion et que tout ce que j'avais à faire c'était d'aller dans le bâtiment et de vous serrer la main et vous vous disiez : "Ouais, il semble que vous ayez réussi" et le comme. Ou vous pourriez dire : « Pouvez-vous voler cette fausse chose pour moi, je veux découvrir à quel point notre sécurité est élevée. » Vous pouvez le faire sans conséquences réelles, mais cela vous en dira quand même beaucoup sur les informations de sécurité. Je suis ravi de pouvoir faire la même chose avec l'alignement, tester votre système d'alignement en entraînant quelque chose de spécifiquement ciblé pour le perturber et le contourner, tout cela est très inoffensif.## **03.Calendrier du superalignement****Daniel Filan : L'objectif d'OpenAI est de résoudre les principaux défis techniques liés à l'alignement du superalignement sur une période de 4 ans. Quels sont les principaux défis techniques ici ? ****Jan Leike :**Cela fait référence à la manière de rendre le superalignement cohérent avec les valeurs humaines. Nous envisageons Superalignment comme un système beaucoup plus intelligent que les humains, qui peut potentiellement fonctionner beaucoup plus rapidement, qui peut fonctionner avec de nombreuses copies de lui-même, c'est donc un système vraiment puissant.Nous espérons y parvenir d’ici quatre ans. La raison pour laquelle nous avons choisi quatre ans est que, d’une part, c’est vraiment ambitieux, et d’autre part, cela donne aux gens plus de confiance dans notre capacité à réellement atteindre cet objectif. Dans le même temps, même si l’IA progresse très rapidement et que la technologie s’améliore considérablement au cours des prochaines années, nous pouvons encore faire des choses dans le cadre de cet objectif ambitieux.** Les aligneurs automatiques de niveau proche de l'humain sont l'objectif instrumental que nous poursuivons, le but ultime étant de trouver comment aligner des agents superintelligents, car nous ne savons pas encore comment le faire. ****Daniel Filan : Jusqu'où pensez-vous que cela peut être réalisé en 2 ans ? ****Jan Leike :**Si nous repoussons le délai de quatre ans, je pense qu'en général, nous serons en mesure de terminer la recherche sur l'alignement automatique en trois ans environ, à condition que certaines capacités de base soient déjà en place. Sinon, notre projet risque de prendre plus de temps.Si c'est d'ici deux ans, nous espérons avoir un bon contrôle sur l'orientation de cet objectif. Y compris quelles technologies sont réellement utilisées, disposons-nous d'une telle combinaison de technologies et si nous aurons la confiance nécessaire pour disposer d'un système fiable qui peut non seulement être utilisé fréquemment, mais également pouvoir lui déléguer beaucoup de travail. À ce stade, nous voudrons décomposer le problème suffisamment pour donner l'impression que la charge de travail écrasante actuelle n'est que de l'ingénierie, dans le sens où il nous faudra probablement encore deux ans pour résoudre les problèmes de recherche qui y sont associés.Nous disposons désormais d’un calendrier cible de quatre ans, et il est clair que les progrès en matière de capacités d’IA sont liés à ce délai. Si les progrès ralentissent, nous ne disposerons peut-être pas d’un modèle véritablement utile pour les tâches de recherche sur l’alignement. Mais si, dans quatre ans, nous constatons que le modèle n’est toujours pas assez performant, cela signifie également que nous disposons de plus de temps pour réellement résoudre le problème, car celui-ci n’est pas aussi urgent.D’un autre côté, les progrès de l’intelligence artificielle pourraient être plus rapides et les êtres humains pourraient accueillir plus rapidement l’arrivée de la super intelligence. À ce stade, nous devons ajuster nos plans en conséquence. Par conséquent, nous avons choisi quatre ans comme délai à la fois réaliste et suffisamment urgent pour résoudre les problèmes rapidement.**Daniel Filan : Supposons que les progrès de la recherche sur les capacités de l'intelligence artificielle soient à peu près conformes aux attentes. Quatre ans plus tard, vous avez toutes les capacités pour être un bon chercheur en auto-alignement, mais l'interprétabilité est plus difficile que nous le pensions, ou la supervision évolutive est plus difficile que nous le pensions, donc vous n'avez pas encore atteint le superalignement, que faire ? ****Jan Leike :** Tout d'abord, nous devons dire au public que nous n'avons pas atteint l'objectif, mais que nous en serons responsables. Ce qui se passera après l’échec de l’objectif dépend de l’état général du monde à ce moment-là. Pouvons-nous d’une manière ou d’une autre gagner plus de temps, ou notre réflexion générale est-elle erronée, devrions-nous changer de direction, etc. ? Beaucoup de choses peuvent arriver.Mais en fait, à mon avis, l'alignement est en fait très facile à résoudre. Il existe de nombreuses bonnes idées qui doivent simplement être rigoureusement testées et mesurées, et le modèle peut vraiment en tirer des leçons et s'améliorer beaucoup. Au cours des deux dernières années, je suis devenu plus optimiste et je pense que c'est un objectif très réaliste. Même si je me trompe, même si le problème est bien plus difficile qu’on ne le pense, il est quand même très utile d’essayer. Il existe aujourd’hui de nombreux désaccords sur la difficulté de ce problème, mais surtout sur la cohérence avec laquelle un système est mesuré dans la pratique.**L'une de mes plus grandes préoccupations n'est pas que nos systèmes ne sont pas assez uniformes, mais que nous ne savons pas vraiment à quel point ils sont uniformes. ** Dans ce cas, les experts peuvent avoir leur propre opinion à ce sujet, si tout le monde s'accorde sur le fait que le système n'est pas suffisamment coordonné, le modèle ne peut pas être déployé, ce qui est très simple et effrayant. En outre, nous devons également faire face à d’énormes pressions commerciales.Les gens prêtent une attention particulière au moment du déploiement, mais les experts ne peuvent que le reporter indéfiniment sans trouver de raison précise. Cette situation est vraiment préoccupante. La pression des entreprises ne fera qu'augmenter. D'un côté, vous êtes très confiant, mais vous n'êtes pas sûr. J'aimerais vraiment éviter cela, et le moyen direct d'éviter cela est que nous soyons vraiment bons à mesurer dans quelle mesure chaque système correspond réellement, et c'est là qu'une combinaison plus large de technologies peut vraiment aider.**Daniel Filan : Dans les articles *Gouvernance de la superintelligence, Planification de l'AGI et au-delà*** **, OpenAI a évoqué la question de l'audit indépendant (audit) des systèmes d'IA afin de garantir la réalisation de la sécurité de l'IA. En prévision de cela, dans quelle mesure l'équipe Superalignment peut-elle développer quelque chose d'utile pour l'audit de modèle ? ****Jan Leike : **Si tout se passe bien, la technologie que nous avons développée peut être utilisée dans le cadre du « audit de modèles ». Par exemple, si nous pouvons faire des progrès en matière d’interprétabilité, alors toute technique que nous proposerons pourrait être utilisée par les évaluateurs dans le cadre de leur travail de révision ; ou, une sorte de supervision évolutive dans le cadre de la révision serait possible. Mais Superalignment Team n’est en réalité pas adapté à l’audit, car nous ne sommes pas indépendants d’OpenAI. À mon avis, l'audit doit être totalement indépendant de l'audité, c'est pourquoi je fais attention à la notion d'« auditeur indépendant ».La tâche principale de notre équipe n'est pas de nous convaincre que le système que nous construisons est correct et sûr, car il est très simple de se convaincre de diverses choses. Ce que nous devons faire est de convaincre l'ensemble de la communauté académique ou des groupes qui se concentrent sur sur AI Safety pour croire au modèle. Cela nécessite non seulement de rechercher la technologie que nous allons utiliser et de la montrer aux autres après avoir fourni la preuve que le système est ce que nous pensons qu'il est, mais également une évaluation indépendante de tout ce qui précède.## **04.Généralisation****Daniel Filan : Dans les notes de bas de page de l'article **Introducing Superalignment**, vous avez mentionné : Les hypothèses favorables que les gens ont formulées jusqu'à présent pourraient être brisées. L’une des hypothèses est que la généralisation est bénigne. Comment voyez-vous le problème de la généralisation ? ****Jan Leike :** Nous avons récemment formé une équipe de généralisation dirigée par Collin Burns.**La question à laquelle nous sommes confrontés est : Comment comprendre et améliorer la capacité de généralisation du modèle ? Comment généraliser le modèle depuis des tâches simples et supervisables vers des tâches difficiles à superviser ? Cette question est en réalité complémentaire à la supervision évolutive. Dans le cadre de la supervision évolutive, nous nous concentrons sur l’augmentation de la capacité des humains à évaluer ce que fait un système. Si la modélisation récursive des récompenses est envisagée, la question est « Pouvons-nous évaluer de manière récursive tout ce qu'une IA fait avec un assistant IA qui évalue de manière récursive ? **Ce que j'aime vraiment, c'est qu'il met vraiment l'humain dans la boucle, au premier plan, et qu'il observe tout ce que fait le système d'IA. Bien sûr, dans la pratique, vous ne pouvez pas vraiment faire cela car le système d'IA fera beaucoup de choses, mais vous pouvez tout observer avec de petites probabilités indépendantes. Mais de cette manière, nous ne savons toujours pas si le modèle se généralise à des situations auxquelles nous ne prêtons pas attention.Donc, la façon dont j'ai pensé à cela dans le passé était généralement de vous assurer que votre modèle est principalement une généralisation iid, c'est-à-dire que les tâches que nous étudions ont la même répartition que les tâches que nous n'étudions pas.**Généralisation indépendante et identiquement distribuée :**La capacité de généralisation du modèle est la performance du modèle dans l'ensemble de test (dans lequel le modèle de données n'a jamais été vu auparavant), c'est-à-dire la capacité du modèle à tirer des inférences à partir d'un exemple. La généralisation indépendante et identiquement distribuée signifie que ces nombres doivent satisfaire iid (indépendant et identiquement distribué) et être dans la même distribution.**Daniel Filan : Vous avez mentionné dans l'un de vos blogs personnels que vous n'aviez pas du tout l'intention de vous appuyer sur des généralisations, mais de continuer simplement à vous entraîner et à faire de l'iid. ****Jan Leike :** Oui, au moins ma pensée initiale était que je ne voulais pas m'appuyer sur une généralisation non-IID parce que cela ne fonctionne pas bien dans les réseaux de neurones et n'est pas bien compris.Mais la nouvelle question est : " Et si nous le comprenions réellement ? Et si nous pouvions réellement en dégager le sens généralisé ? " Je pense que c'est une très bonne question. Ilya en parle aussi beaucoup. Ce que nous voulons donc comprendre, c'est : pouvons-nous encore trouver un sens dans lequel le modèle se généralise à des choses qui ne sont pas supervisées, même si elles ne le sont pas ? Se généralise-t-il d’une manière que les humains souhaitent ? Nous pouvons donc désormais étudier cette question de manière empirique grâce à des expériences bien conçues.Nous avons étudié comment diviser les ensembles de données existants en problèmes faciles et difficiles, où les problèmes faciles sont définis comme ceux que de petits modèles peuvent résoudre. Nous essayons ensuite de comprendre ou d’améliorer la précision des grands modèles sur l’ensemble des données. C’est un sujet très intéressant car il constitue un tout nouveau pilier pour les techniques de formation et de validation. Par exemple, si le modèle fonctionne si bien que nous pouvons superviser le modèle de récompense sur certaines tâches d'évaluation faciles et sûres, ou généraliser le modèle à des problèmes plus difficiles, alors nous pouvons compléter la généralisation du modèle.Et puis il y a ce modèle de récompense qui, même sans supervision, se généralise aux tâches plus difficiles comme nous le souhaitons et peut être formé avec lui. Mais nous n’avons toujours aucun moyen de savoir si cela est réellement aligné actuellement. Cependant, vous pouvez tirer parti d’une supervision et d’une interprétabilité évolutives pour valider ces techniques. Ou l'inverse, supposons que nous entraînons notre auto-aligneur avec une supervision évolutive, puis que nous utilisions la généralisation comme technique de validation, c'est-à-dire que nous généralisons à la probabilité de la vraie réponse sur la base de la meilleure connaissance du modèle.Nous nous demandons alors : y a-t-il un petit défaut ici ? Y a-t-il un cheval de Troie écrit dans le modèle d'alignement supervisé évolutif dans ce code ? Nous pouvons désormais effectuer une validation croisée avancée. Nous pouvons former deux modèles différents : l'un formé à l'aide d'une technique de généralisation et l'autre à l'aide d'une technique de supervision évolutive, et maintenant nous pouvons leur demander de valider mutuellement leurs réponses et de vérifier si ces modèles sont fondamentalement les mêmes ? Si différents, quelles sont leurs différences importantes ?**Daniel Filan : Par « s'entraîner avec des techniques de généralisation », voulez-vous dire s'entraîner sur des problèmes faciles puis généraliser à des problèmes difficiles, ou autre chose ? ****Jan Leike :** Si vous comprenez comment votre modèle se généralise de facile à difficile, vous pouvez très bien le faire généraliser, et sa précision sera fondamentalement la même que si vous l'aviez entraîné sur le problème difficile. Tout aussi bien. Maintenant, vous pouvez l'utiliser comme modèle de récompense, ou vous pouvez le considérer comme : "Si je savais vraiment ce qui se passe ici, quelle réponse préférerais-je ?"**Daniel Filan : Concernant la généralisation non-IID, pourquoi avons-nous besoin de connaître la structure interne du modèle ? Est-ce parce que vous voulez savoir ce que cela fera si vous n'avez pas vérifié ? Quel est le lien entre ces deux questions ? ****Jan Leike :** Dans une certaine mesure, les questions auxquelles ils souhaitent répondre se chevauchent : que fait le modèle en l'absence de distribution ? Au moins, ils ont deux voies distinctes pour répondre.Pour effectuer une validation croisée, l'ensemble de formation doit être divisé différemment. Ce que je veux dire par validation croisée ici, c'est qu'au cours d'une session de formation, vous vous entraînez à l'aide de méthodes de généralisation, puis validez à l'aide de l'interprétabilité, de la supervision évolutive et d'autres techniques. Puis dans la deuxième formation, il est formé à l'aide de méthodes supervisées évolutives et validé à l'aide de méthodes de généralisation, d'interprétabilité et d'autres méthodes. De cette façon, vous obtenez deux tentatives indépendantes pour résoudre le problème.**Daniel Filan : Oui, je parle de validation croisée dans un sens très large de « les choses se valident mutuellement de manière croisée ». ****Jan Leike :** Je pense que le meilleur des cas est qu'ils soient en fait complémentaires plutôt que de faire la même chose. Si vous pouvez comprendre ou améliorer la manière dont un modèle se généralise, vous disposez alors de moyens d'exploiter la structure interne du modèle pour accomplir au mieux ce que vous souhaitez faire. Disons que vous essayez d'extraire la meilleure connaissance du modèle sur ce qui se passe réellement dans le monde, ce qui est très difficile pour RLHF car les gens donneront la priorité aux choses qui semblent vraies, donc RLHF renforce ce que les humains pensent être vrai. Vous entraînez donc le modèle à vous dire ce que vous voulez entendre ou ce que vous croyez, mais ce n'est peut-être pas ce que le modèle sait. Mais les techniques de généralisation vous permettent de les extraire, même si nous n'avons pas vraiment prouvé ce qu'il est optimal qu'un modèle connaisse.Cependant, si vous disposez de très bons outils d'interprétabilité, vous pouvez, espérons-le, faire quelque chose comme ça, essayer de comprendre la structure cognitive, interne ou autre du modèle à partir de la structure interne. Mais fondamentalement, cela peut être plus difficile car on ne sait jamais s’il s’agit de la meilleure cognition que le modèle peut produire, ou de la cognition de quelqu’un que le modèle simule. On suppose qu'un modèle de langage pré-entraîné n'est qu'une collection de caractères différents, et vous pouvez extraire la cognition d'un personnage ou d'un groupe de personnages.**Daniel Filan : Ensuite, il doit y avoir une sorte de modèle causal depuis ce qu'on appelle la cognition jusqu'à la production. ****Jan Leike :** Exactement. Je pense que ce type d'application est en fait assez naturel en termes d'interprétabilité. À l’instar d’un détecteur de mensonges ou de la découverte de preuves de tromperie dans un modèle, d’une conspiration secrète visant à renverser l’humanité, la recherche sur l’interprétabilité peut conduire à des modèles d’« extraction de connaissances ». L’extraction de connaissances qui généralise de la même manière est beaucoup plus difficile.**Daniel Filan : Pour la généralisation, il faut choisir la distribution de généralisation. Et l'espoir est que peut-être l'interprétabilité puisse vous dire quelque chose, comme si elle a ou non un noyau menteur, et même si c'est le cas, cela ne se dévoile qu'ici. ****Jan Leike :** C'est vrai. C’est également une question très intéressante en matière d’apprentissage automatique : comment les réseaux de neurones se généralisent-ils en dehors des paramètres i.i.d ? De quelles manières se généralisent-ils naturellement, et où ne le font-ils pas ? Par exemple, dans l'article InstructGPT, l'une des choses que nous avons constatées était que même si notre ensemble de données de réglage fin était presque entièrement en anglais, le modèle fonctionnait également très bien pour suivre des instructions dans des langues autres que l'anglais. Mais parfois, il fait quelque chose de bizarre : lui demander d'utiliser une autre langue, par exemple pour rédiger un résumé en allemand, et il l'écrit en anglais. En général, le modèle comprend parfaitement quelle langue il parle, mais cela ne signifie pas nécessairement qu'il doit suivre les instructions en allemand. Fondamentalement, il généralise les instructions dans toutes les langues.Mais nous ne savons pas pourquoi. Cela s'est produit à plusieurs reprises. Il y a aussi des raisons intuitives à cela. Les humains généralisent dans toutes les langues, mais je veux savoir comment le modèle se généralise en interne ou se généralise pour suivre les instructions et le code.Sinon, cela ne généralise pas. Par exemple, le rejet de la généralisation a tendance à fonctionner de manière très différente, et selon nos politiques de contenu, ChatGPT est formé pour refuser d'accepter des tâches que nous ne voulons pas effectuer (par exemple, si une assistance est demandée dans un crime ou autre). Mais de cette façon, vous pouvez jailbreaker. Il existe de nombreuses façons de tromper ce modèle. Vous pouvez le faire jouer un rôle, ou vous pouvez dire « ce que vous voulez maintenant », ou vous pouvez trouver ces invites vraiment intéressantes sur Internet, et alors le modèle se conformera évidemment à vos demandes et vous aidera avec plaisir à commettre des crimes, ce qui c'est ce qu'il n'est pas censé faire. Par conséquent, il ne généralise pas dans une certaine mesure le rejet de tâches à d’autres contextes.Alors pourquoi cela se généralise-t-il au premier cas mais pas ici ? Je pense que personne ne connaît la réponse. Mais c'est une question très importante.**Daniel Filan : Dans ma récente interview avec Scott Aaronson, il a mentionné qu'Ilya et moi lui demandions souvent de donner des définitions de théories complexes telles que l'amour et la gentillesse. Combien de définitions de ce type existe-t-il au sein de l'équipe de Superalignement ? ****Jan Leike :** Nous pouvons réaliser de nombreux projets exploratoires différents. Je pense que la question ultime est la suivante : les concepts liés à l’alignement peuvent-ils être invoqués d’une manière ou d’une autre ? L’une des choses que je voudrais souligner est la suivante : ce modèle souhaite-t-il fondamentalement que les humains réussissent ? Ou comme Ilya l'a dit, aime-t-il les humains ? Vous pouvez donc demander : si le modèle est vraiment intelligent, s'il a tout lu et s'il sait exactement comment les humains perçoivent l'immoralité... vous pouvez demander à GPT4 de cibler différents scénarios, présentant différents cas moraux. D'une manière générale, sa capacité dans ce domaine n'est pas mauvaise.Il comprend donc fondamentalement la compréhension humaine de la moralité et la façon dont nous pensons les choses. Alors, comment faire en sorte qu’il en profite ? Comment puis-je l'extraire du modèle et l'utiliser comme signal de récompense ? Ou comme quelque chose que le modèle connaît ou intéresse ? C’est là le cœur du problème.## **05. Restez optimiste quant au superalignement****Daniel Filan : Vous êtes optimiste quant au Superalignement, mais tout le monde n'est pas aussi optimiste. D’où vient votre optimisme ? ****Jan Leike : C'est une excellente question. « La réussite du plan dans quatre ans » est peut-être une question plus complexe que « la réussite du plan ». **Si vous me demandez, une version de nos plans actuels peut-elle s’aligner avec succès sur la superintelligence ? Je dirais qu'actuellement le taux de réussite est de 85 %, alors que l'année dernière, la probabilité était d'environ 60 %. Dans l’ensemble, même s’il n’est pas facile de parvenir à un alignement, il existe de nombreuses raisons d’être optimiste à ce sujet. Les raisons sont les suivantes:**La première raison est que nous avons vu beaucoup de signaux positifs concernant l'alignement au cours des dernières années. **Le premier est le succès du modèle linguistique. Si vous préchargez également le modèle avec beaucoup de connaissances sur ce qui intéresse les humains, la façon dont les humains pensent aux problèmes moraux et aux préférences humaines, et que le modèle comprend le langage naturel, vous pouvez leur parler directement. D'une certaine manière, cela permet d'exprimer plus facilement ce sur quoi nous voulons que le modèle de langage s'aligne qu'un agent Deep RL formé dans un jeu ou un environnement virtuel : un agent Deep RL n'implique pas nécessairement autant de langages, mais les langages apportent tant de compétences importantes.Un autre développement majeur est le RLHF. J'ai d'abord commencé à travailler sur RLHF via Deep RL dans l'article Human Preferences. À l'époque, je pensais qu'il pourrait être difficile de le faire fonctionner dans un délai raisonnable car les GAN étaient très difficiles à entraîner à l'époque, et nous faisions quelque chose de très similaire dans le sens où nous formions ce modèle de récompense (qui était un réseau de neurones) que nous utilisons ensuite pour entraîner d’autres réseaux, qui peuvent échouer pour plusieurs raisons. Maintenant, nous ajoutons l'apprentissage par renforcement profond, ce qui était également délicat à l'époque, alors j'ai pensé que cela ne fonctionnerait peut-être pas. Mais en réalité, cela fonctionne très bien : dans de nombreux jeux, même dans de nombreux jeux Atari, c'est presque aussi efficace qu'un entraînement avec la fonction de score.Plus important encore, RLHF fonctionne de manière très intéressante sur les modèles de langage. Surtout si l'on considère la différence entre InstructGPT et le modèle de base - lorsque nous affinons le modèle de base, cette différence est très évidente : sur la tâche API de l'époque, notre version affinée de l'instruction (notre première version) est meilleure que le modèle de base est 100 fois plus grand, et ce sont de véritables tâches pour lesquelles les gens sont prêts à payer. C'est une très grande différence. Cela montre que le travail que nous avons effectué lors de la mise au point du RLHF a rendu le modèle plus efficace pour accomplir les tâches requises par les humains.Dans le même temps, nous avons investi très peu de puissance de calcul dans ce travail et n’avons même pas intégré autant de données. Il s'agit de notre première véritable tentative d'utiliser RLHF pour aligner un système réel, et nous ne nous attendions pas à ce qu'il fonctionne aussi bien. Comparé à GPT-3, le populaire InstructGPT de taille GPT-2 est très efficace. Ainsi, même si je ne pense pas que le RLHF soit la solution pour l'alignement, en particulier pour la superintelligence, le fait que notre première méthode d'alignement fonctionne si bien est une amélioration pour moi.**Le deuxième signe positif est que nous avons réalisé des progrès dans la mesure de l'alignement. **Dans le cas spécifique du RLHF, nous pouvons effectuer diverses interventions, puis effectuer des évaluations humaines pour voir dans quelle mesure le système s'améliore. En outre, nous pouvons faire bien d’autres choses. Par exemple, en termes de supervision évolutive, nous pouvons mener des essais contrôlés randomisés via des perturbations ciblées, ce qui est également une méthode d'évaluation. Vous pouvez également réaliser des expériences de sandwiching avec des données d'experts. Nous pouvons également apporter une série de modifications à la fonction de notation automatique et voir à quel point cela améliore la fonction de notation. Il ne s’agit pas d’une fonction de notation parfaite, mais d’une métrique locale qui fournit des gradients locaux pouvant être améliorés. Je pense que c'est très important car cela aide à itérer et indique la voie à suivre pour l'amélioration.** Même si je ne pense pas que cela nous permettra d'atteindre l'objectif d'une superintelligence alignée, il est tout à fait possible de construire des aligneurs automatisés qui sont à peu près au niveau humain. C’est ma troisième raison d’être optimiste – un objectif beaucoup plus modeste. **Quand j'ai commencé à travailler sur le problème de l'alignement il y a de nombreuses années, j'ai compris qu'aligner la superintelligence semblait difficile. Mais cet objectif est beaucoup plus modeste et réalisable, et vous n’essayez pas de résoudre directement l’ensemble du problème, mais vous essayez de guider le modèle.**La quatrième raison d'être optimiste est qu'il est plus facile d'évaluer que de générer. **Cette idée s'applique en fait à beaucoup de choses. Par exemple, il est beaucoup plus facile de déterminer ce qu'un smartphone vaut la peine d'acheter que d'en fabriquer un.Il existe de nombreux exemples de tâches NP en informatique, telles que la résolution de problèmes SAT ou diverses versions de satisfaction de contraintes. Trouver des solutions à ces problèmes est difficile, mais une fois trouvées, il est facile de les vérifier. De plus, et je pense que cela s'applique à de nombreuses entreprises, si vous comptez embaucher quelqu'un pour résoudre un problème, vous devez être en mesure d'évaluer sa capacité à faire le travail. C'est beaucoup moins de travail que d'essayer de résoudre le problème lui-même ; si vous faites de la recherche universitaire, l'évaluation par les pairs demande beaucoup moins d'efforts que la recherche. Bien sûr, l’évaluation par les pairs n’est pas parfaite, mais elle peut vous donner de nombreux signaux très rapidement. Fondamentalement, il en va de même pour la recherche sur l’alignement. Évaluer est plus facile que générer. Ainsi, si les humains se contentent d’évaluer la recherche sur l’alignement au lieu de la faire, nous accélérons déjà.**La dernière raison qui me rend optimiste est que ma confiance dans le modèle de langage ne changera pas, la capacité du modèle deviendra certainement de plus en plus forte**, ils sont très naturellement applicables à de nombreuses tâches de recherche d'alignement, vous pouvez les mettre Tâches exprimées sous forme de sortie de texte de saisie de texte, qu'il s'agisse de tâches de type ML (c'est-à-dire exécuter des expériences et comprendre les résultats), ou quelque chose de plus conceptuel ou orienté vers la recherche, si nous ne savons pas quoi faire ensuite ou si nous ne savons pas comment penser Un certain problème, le modèle tentera de nous aider à le résoudre. Ces tâches sont essentiellement la saisie et la sortie de texte. L'autre chose la plus compliquée que vous ayez à faire est probablement de regarder quelques graphiques et des trucs comme ça, mais GPT-4 peut tout faire. Par conséquent, je pense que le modèle de pré-formation du modèle linguistique actuel est très adapté au plan d'alignement que j'attends avec impatience, et c'est également la direction vers laquelle Superalignment travaille.**Référence**1. Alignement évolutif des agents via la modélisation des récompenses : une direction de recherche Adresse de l'article :2.3.