Alignement de la valeur des grands modèles d’IA : quoi, pourquoi, comment ?

Question

**Original:****Zhang Qinkun, secrétaire général de l'Institut de recherche Tencent****Cao Jianfeng, chercheur principal, Tencent Research Institute**## Alignement des valeurs de l'IA : qu'est-ce que c'estAprès que l'intelligence artificielle soit entrée dans l'ère des modèles à grande échelle, diverses capacités « humanoïdes » et « surhumaines » ont continué à émerger, et son autonomie, sa polyvalence et sa facilité d'utilisation ont augmenté rapidement, devenant une nouvelle base technologique pour le développement économique et social. Certaines organisations prédisent que les grands modèles s’implanteront dans tous les domaines, ajoutant chaque année entre 2 600 milliards et 4 400 milliards de dollars américains à l’économie mondiale. [1]Cependant, alors que les grands modèles (également appelés modèles de base) commencent à effectuer un large éventail de tâches de compréhension du langage et de génération de contenu comme les humains, il faut faire face à un défi scientifique des plus fondamentaux : comment faire correspondre les capacités et le comportement des grands modèles. celles des êtres humains. Les valeurs humaines, les véritables intentions et les principes éthiques sont cohérents pour garantir la sécurité et la confiance dans la collaboration entre les humains et l’intelligence artificielle. Ce problème est appelé « alignement des valeurs » (alignement des valeurs, ou alignement de l'IA). L’alignement des valeurs est une question centrale dans la sécurité de l’IA.Dans une certaine mesure, la taille du modèle est positivement corrélée au risque et aux dommages du modèle : plus le modèle est grand, plus le risque est élevé et plus le besoin d'alignement des valeurs est fort. Pour l'instant, la capacité principale du grand modèle vient de la phase de pré-formation, et le grand modèle est formé en grande partie sur la base des informations publiques de l'ensemble de l'Internet, qui déterminent non seulement ses capacités, mais également ses limites. Les problèmes existants peuvent être reflétés dans le modèle.Un modèle de langage à grande échelle (LLM) sans alignement de valeurs peut produire du contenu racial ou sexiste, aider les cyberpirates à générer du code ou d'autres contenus pour les cyberattaques, la fraude dans les télécommunications et tenter de persuader ou d'aider les utilisateurs ayant des pensées suicidaires à mettre fin à leurs jours et à la production. d'un tel contenu préjudiciable. Par conséquent, afin de rendre les grands modèles plus sûrs, fiables et pratiques, il est nécessaire d’empêcher autant que possible les productions nuisibles ou les abus du modèle. Il s’agit d’une tâche essentielle de l’alignement actuel des valeurs de l’IA.## Alignement des valeurs de l'IA : pourquoiL'alignement de la valeur du grand modèle permet de mieux résoudre certains problèmes en suspens qui existent actuellement dans le grand modèle. Selon le tri des problèmes en suspens des grands modèles de tous horizons, il y a principalement les quatre éléments suivants :Le premier est le problème des informations erronées. L’industrie appelle cela « l’illusion » de l’intelligence artificielle. Selon Mira Murati, CTO d'OpenAI, le plus grand défi de ChatGPT et des grands modèles de langage sous-jacents est qu'ils génèrent des faits faux ou inexistants. [2] Cela pourrait provenir d'erreurs ou de désinformations dans les données d'entraînement, ou cela pourrait être le résultat d'une création excessive (comme des faits fictifs). C'est un problème technique que de laisser le grand modèle marcher sur la balançoire entre créativité et authenticité.Le second est le problème de la discrimination des algorithmes. De nombreuses études existantes ont montré que les grands modèles linguistiques reproduisent des préjugés sociaux et des stéréotypes néfastes à partir des données de formation. [3] Sam Altman, PDG d'OpenAI, estime qu'il est impossible pour un modèle d'être impartial dans tous les domaines. La question centrale est donc de savoir comment détecter, réduire et éliminer la discrimination potentielle du modèle.Le troisième est le risque incontrôlable d’« émergence » de capacités. Avec l'augmentation continue de la puissance de calcul et des données, les grands modèles devraient devenir de plus en plus puissants et de nouvelles capacités pourraient émerger, qui pourraient même dépasser la compréhension et le contrôle de leurs créateurs, ce qui signifie que de nouveaux risques pourraient les accompagner. y compris l’émergence de comportements ou d’objectifs à risque. Une préoccupation commune parmi les technologues est que le grand modèle actuel d’IA, ainsi que les systèmes d’IA plus puissants et plus avancés, tels que l’intelligence artificielle générale (AGI) et la superintelligence (ASI), qui pourraient apparaître dans le futur, pourraient former des sous-humains. pas conforme aux intérêts et aux valeurs humaines. Sous-objectifs, tels que la recherche du pouvoir, la tromperie, la désobéissance, etc., afin d'atteindre leurs objectifs déclarés. [4] Par exemple, les chercheurs ont découvert que GPT-4 présentait la capacité de tromper stratégiquement les humains, « en incitant les humains à effectuer des tâches pour atteindre leurs objectifs cachés ».Quatrièmement, il y a la question des abus. Les éléments malveillants peuvent utiliser de grands modèles pour les aider à atteindre des objectifs illégaux grâce à des interventions contradictoires et à des opérations de « jailbreak ».Par conséquent, l'alignement des valeurs, en tant que problème pratique qui doit être résolu techniquement, est devenu un principe de base dans la conception, le développement et le déploiement de grands modèles d'IA, à savoir : grâce au développement d'outils et à la construction technique alignés sur les valeurs, s'efforcer de garantir que l'IA se comporte d'une manière qui est bénéfique pour les humains et la société, sans nuire ni interférer avec les valeurs et les droits humains.## Alignement des valeurs de l'IA : comment procéderAfin de parvenir à l'alignement des valeurs, les développeurs doivent faire en sorte que l'intelligence artificielle comprenne et obéisse aux valeurs humaines, aux préférences et aux principes éthiques au niveau du modèle, et empêche autant que possible les productions nuisibles et les abus du modèle, afin de créer une IA qui C'est un grand modèle à la fois pratique et sûr.Premièrement, l’apprentissage par renforcement avec feedback humain (RLHF) s’est avéré être une méthode efficace, et il est possible d’obtenir de meilleurs résultats avec une petite quantité de données de feedback humain.En 2017, des chercheurs d'OpenAI ont publié l'article « Deep Reinforcement Learning Based on Human Preferences », proposant d'introduire le feedback humain dans l'apprentissage par renforcement. [5] Le RLHF comprend plusieurs étapes telles que la formation initiale du modèle, la collecte de commentaires humains, l'apprentissage par renforcement et le processus itératif. L'idée principale est d'exiger que les formateurs humains évaluent la pertinence du contenu de sortie du modèle et créent des signaux de récompense pour l'apprentissage par renforcement en fonction des informations collectées. rétroaction humaine. , pour obtenir une meilleure optimisation des performances du modèle. [6] D'un point de vue pratique, RLHF présente des avantages significatifs en termes d'amélioration des performances du modèle, d'amélioration de l'adaptabilité du modèle, de réduction des biais du modèle et d'amélioration de la sécurité du modèle, notamment en réduisant la possibilité que les modèles produisent du contenu préjudiciable à l'avenir.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-861291203e-dd1a6f-1c6801) *Figure : organigramme RLHF (Source : OpenAI)*OpenAI a repris l'algorithme RLHF, et ChatGPT a réussi et peut produire dans une large mesure un contenu utile, crédible et inoffensif. [7] Dans la phase de formation RLHF, GPT-4 réduit les sorties nuisibles en ajoutant un signal de récompense de sécurité supplémentaire. Cette méthode a produit de bons résultats et a considérablement amélioré la difficulté d'induire des comportements malveillants et des contenus nuisibles. Par rapport aux modèles précédents (tels que GPT-3.5), GPT-4 réduit considérablement les problèmes tels que les hallucinations, les préjugés préjudiciables et les contenus illégaux et préjudiciables. Après la formation RLHF, GPT-4 a obtenu des résultats 40 % plus élevés que GPT-3.5 aux tests d'authenticité pertinents, était 82 % moins susceptible de répondre aux demandes de contenu interdit que GPT-3.5 et était mieux en mesure de répondre aux demandes impliquant du contenu sensible. demande. [8] En bref, l'algorithme RLHF peut établir les garde-fous de sécurité nécessaires pour les grands modèles de langage, et joue un rôle clé d'« équilibreur » entre la puissance/l'émergence et la sécurité/fiabilité des grands modèles.Deuxièmement, le modèle « d’IA constitutionnelle » déplace l’alignement des valeurs d’une « supervision humaine » inefficace vers une « surveillance évolutive » plus efficace.Compte tenu de l'investissement en temps et en ressources, des capacités humaines et des autres défis liés à l'utilisation du feedback humain pour former des modèles d'IA plus grands et plus complexes, l'industrie a exploré comment utiliser la supervision de l'IA (y compris l'auto-supervision de l'IA et la supervision d'un système d'IA sur un autre). .Un système d'IA) pour réaliser l'alignement de l'IA. Anthropic, une société américaine de modélisation d'IA à grande échelle, a proposé la méthode de « l'IA constitutionnelle » (constitutional AI). Plus précisément, développer un modèle d'IA subordonné dont la fonction principale est d'évaluer si le résultat du modèle principal suit un principe « constitutionnel » spécifique (c'est-à-dire un ensemble de principes ou de règles prédéterminés), et les résultats de l'évaluation sont utilisés pour optimiser le modèle principal.Anthropic combine sa propre expérience pratique et s'appuie sur la Déclaration universelle des droits de l'homme, les conditions d'utilisation d'Apple et les règles Sparrow de DeepMind. [9] et d'autres documents, proposent un ensemble de principes détaillés et l'utilisent comme référence d'évaluation pour permettre à son grand modèle Claude d'évaluer ses propres résultats. L'objectif est de promouvoir le modèle pour produire des réponses utiles tout en réduisant la possibilité de contenu préjudiciable. minimisation sexuelle. [10]![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-f6a16c0536-dd1a6f-1c6801) *Graphique : Voie constitutionnelle de l'IA (Source : Anthropic)*Claude démontre l'efficacité d'une approche constitutionnelle de l'IA qui l'aide à réduire les résultats nuisibles et discriminatoires, à éviter d'aider les utilisateurs malveillants à se livrer à des activités illégales ou contraires à l'éthique et à répondre de manière plus appropriée aux « apports contradictoires » des utilisateurs plutôt que d'adopter simplement des stratégies d'évitement. En conclusion, Anthropic estime qu'une approche constitutionnelle de l'IA peut aider à créer un système d'IA utile, honnête et inoffensif avec les avantages d'évolutivité, de transparence et d'équilibre entre utilité et inoffensivité.Troisièmement, prenez plusieurs mesures pour garantir la réalisation de l’alignement des valeurs de l’IA.L’une est l’intervention efficace sur les données d’entraînement. De nombreux problèmes des grands modèles (tels que les hallucinations et la discrimination des algorithmes) proviennent des données d'entraînement, il est donc possible de partir des données d'entraînement, comme l'enregistrement des données d'entraînement pour identifier s'il existe un problème de représentation ou de diversité insuffisante. ou un filtrage automatisé, des tests pour identifier, supprimer les préjugés nuisibles, créer des ensembles de données spécialisés alignés sur la valeur, et bien plus encore.La seconde est celle des tests contradictoires ou du red teaming. Bref, avant la sortie du modèle, les professionnels internes ou externes (testeurs de l'équipe rouge) sont invités à lancer diverses attaques contradictoires sur le modèle pour découvrir les problèmes potentiels et les résoudre. Par exemple, avant la sortie de GPT-4, OpenAI a embauché plus de 50 universitaires et experts dans divers domaines pour tester son modèle. La tâche de ces testeurs de l'équipe rouge est de poser au modèle des questions provisoires ou dangereuses pour tester la réponse du modèle. . , OpenAI espère réussir le test de l'équipe rouge pour aider à trouver des problèmes avec ses modèles en termes d'informations inexactes (illusion), de contenus préjudiciables, de désinformation, de discrimination, de biais linguistiques, d'informations liées à la prolifération des armes traditionnelles et non traditionnelles, etc. . [11]Le troisième est l'outil de filtrage de contenu. Par exemple, OpenAI a spécialement formé un modèle d'IA pour filtrer le contenu nuisible (c'est-à-dire un modèle de filtrage) afin d'identifier les entrées utilisateur nuisibles et les sorties du modèle (c'est-à-dire le contenu qui viole sa politique d'utilisation), afin de réaliser les données d'entrée et les données de sortie de le modèle.Le quatrième est de promouvoir la recherche sur l'interprétabilité et l'intelligibilité du modèle. Par exemple, OpenAI utilise GPT-4 pour écrire et noter automatiquement des explications sur le comportement du réseau neuronal de son grand modèle de langage GPT-2 ; [12] Certains chercheurs abordent le problème de l’alignement de l’IA du point de vue de l’interprétabilité des mécanismes.## Alignement des valeurs de l'IA : un problème à long termeLe travail d’alignement des valeurs constitue la recherche la plus fondamentale et la plus stimulante dans le domaine de l’IA. Le défi est que cela nécessite un large éventail de disciplines et de participation sociale, ainsi qu'une variété d'apports, de méthodes et de retours d'information ; le point fondamental est qu'il ne s'agit pas seulement du succès ou de l'échec du grand modèle actuel, mais aussi de si les humains peuvent réaliser une intelligence artificielle plus puissante pour les contrôles de sécurité futurs (comme l’AGI). Par conséquent, les innovateurs dans le domaine de l’IA ont la responsabilité et l’obligation de garantir que leurs modèles d’IA sont orientés vers l’humain, responsables, sûrs et fiables. Le professeur Zhang Yaqin, célèbre scientifique en intelligence artificielle, a souligné que pour résoudre le problème de l'alignement de l'IA et des valeurs humaines, les techniciens devraient concentrer leurs recherches sur l'alignement, afin que les machines puissent comprendre et suivre les valeurs humaines. Par conséquent, l’alignement des valeurs n’est pas seulement une question d’éthique, mais aussi une question de savoir comment y parvenir. Les personnes qui font de la technologie et de la recherche ne peuvent pas se contenter de développer des capacités techniques et ne pas se concentrer sur la résolution de problèmes d'alignement. [13]Bien que l'alignement des valeurs de l'IA ait obtenu certains résultats techniques, il n'y a toujours pas de consensus sur la question la plus fondamentale des valeurs de l'IA : comment établir un ensemble unifié de valeurs humaines pour réguler l'intelligence artificielle. À l’heure actuelle, le choix des principes peut dépendre entièrement du jugement subjectif et des valeurs des chercheurs. Et étant donné que nous vivons dans un monde où les gens ont des cultures, des origines, des ressources et des croyances diverses, l’alignement des valeurs de l’IA doit prendre en compte les différentes valeurs et éthiques des différentes sociétés et groupes. De plus, il n’est pas pratique de laisser complètement les chercheurs choisir eux-mêmes ces valeurs, et une plus grande participation sociale est nécessaire pour former un consensus.Dans le même temps, le travail actuel d’alignement des valeurs de l’IA est toujours confronté à un problème clé : en partant du principe que l’intelligence humaine reste fondamentalement inchangée, à mesure que les capacités de l’intelligence artificielle continuent de s’améliorer, les humains eux-mêmes superviseront efficacement ces modèles d’IA de pointe. devenir de plus en plus difficile. Par conséquent, pour garantir la sécurité de l’IA, nous devons faire évoluer notre capacité à surveiller, comprendre et concevoir des modèles d’IA parallèlement à la complexité des modèles eux-mêmes.La « supervision à grande échelle » basée sur l’assistance ou le leadership de l’IA reflète cette idée. En juillet de cette année, OpenAI a annoncé la création d'une nouvelle équipe d'alignement de l'IA. L'objectif de cette nouvelle équipe de superalignement (superalignment) est de comprendre comment faire en sorte que les systèmes d'IA super intelligents atteignent l'alignement des valeurs et la sécurité d'ici 4 ans. investir 20 % de ressources informatiques pour soutenir ce projet. Son objectif principal est d’explorer comment utiliser l’IA pour aider les humains à résoudre le problème de l’alignement des valeurs de l’IA. [14]![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-c33337d1ba-dd1a6f-1c6801) *Figure : Équipe OpenAI Super Alignment (Source : OpenAI)*On peut dire que ce n'est qu'en veillant à ce que les objectifs et les comportements des systèmes d'IA soient cohérents avec les valeurs et les intentions humaines que nous pourrons garantir la réalisation de l'IA pour le bien et promouvoir le développement de la productivité, la croissance économique et le progrès social. La recherche et la réalisation technique de l’alignement des valeurs sont indissociables d’une vaste collaboration multidisciplinaire et d’une participation sociale. Les parties prenantes telles que le gouvernement, l'industrie et le monde universitaire doivent investir davantage de ressources pour promouvoir la recherche et la pratique de l'alignement des valeurs de l'IA, afin que la capacité des individus à surveiller, comprendre et contrôler l'intelligence artificielle et le développement et les progrès de l'intelligence artificielle vont de pair. main dans la main, afin de garantir que l’intelligence artificielle puisse bénéficier à l’ensemble de l’humanité et de la société.Source de référence:[1][2][3][4][5][6][7][8][9][10][11] visité le 6 mai 2023).[12][13][14]