Dialogue avec Zhu Jun, Institut d'intelligence artificielle, Université Tsinghua : Quels risques de sécurité sont cachés dans le modèle d'IA populaire ?

Question

Texte : Li Haidan, Tencent Technology![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-c43aaefbe6-dd1a6f-1c6801) Source de l'image : générée par l'IA illimitéeLes humains ont créé l'IA, mais l'IA remodèle également le monde dans lequel nous vivons. Avec l'explosion de la technologie des grands modèles de langage, l'IA a commencé à s'intégrer davantage dans nos vies, et les humains doivent envisager et mettre en œuvre les mesures de sécurité nécessaires aux premiers stades de son développement pour éviter les risques potentiels.Les problèmes de cybersécurité rencontrés par l'IA sont visibles partout. Lorsque Tencent Technology a interviewé Zhu Jun, doyen adjoint de l'Institut d'intelligence artificielle de l'Université Tsinghua, scientifique en chef de l'Institut de recherche sur l'intelligence artificielle Zhiyuan de Pékin et Ruilai Intelligence, il a déclaré ** "En fait, il n'y a pas de système de réseau qui soit toujours sûr et Si le coût n'est pas pris en compte, les criminels utiliseront diverses méthodes pour attaquer le système, et il est impossible de se défendre contre lui. **Depuis plus de 10 ans, Zhu Jun s'est engagé à résoudre le problème de la sécurité de l'intelligence artificielle. Il a percé la théorie de base bayésienne classique et les technologies clés, proposé un algorithme efficace pour le modèle de diffusion et incubé au niveau national spécialisé et nouveau " petites entreprises géantes "à travers la transformation des réalisations, jetant une base solide pour le développement d'une intelligence artificielle sûre et fiable.Les risques de l'IA elle-même ne peuvent être ignorés. L'intelligence artificielle est dotée de puissantes capacités d'apprentissage et d'inférence, mais cette capacité conduit également à la forte dépendance des systèmes d'IA aux données, ce qui peut refléter le biais des sources de données dans sa prise de décision et ses recommandations. de l'éthique et de la justice de l'IA.Lorsque l'IA tombe dans une crise de confiance en matière de sécurité, comment devons-nous réagir ? Alors que l'application interactive de l'IA et des humains devient de plus en plus populaire, comment devrions-nous prévenir les risques potentiels pour la sécurité ? Dans ce dialogue, Zhu Jun a parlé de méthodes de défense spécifiques pour améliorer la sécurité et la fiabilité de l'IA. Nous devons prêter une attention particulière à l'exploration des implications morales et sociales de la sécurité de l'IA et éviter d'être entraînés dans un avenir inconnu et incontrôlé.Ce qui suit est l'essentiel du texte, avec des suppressions et des ajustements sur le principe de ne pas changer vos souhaits :## **Il n'y a pas de système de réseau toujours sûr****Tencent Technology : Vous avez promu la recherche dans le domaine de l'intelligence artificielle contre la sécurité. Quels problèmes de sécurité l'application actuelle de la technologie de l'IA apportera-t-elle ? Comment identifier ces problèmes de sécurité ? ****Zhu Jun :**L'intelligence artificielle comprend plusieurs éléments clés, tels que les données, le modèle d'algorithme et la couche d'application. Dans chaque élément, nous devons traiter divers problèmes de sécurité.Au niveau des données, nous devons prêter attention aux problèmes de sécurité tels que l'empoisonnement des données, les fuites de données, la confidentialité des utilisateurs et la protection des données confidentielles de base ; au niveau du modèle, nous devons faire face aux problèmes de sécurité tels que les algorithmes de confrontation. Par exemple, lorsque la reconnaissance faciale est utilisée pour le déverrouillage, l'attaquant peut déverrouiller le système de vérification du téléphone mobile cible via une paire d'anti-lunettes spécialement conçues (c'est-à-dire des "échantillons contradictoires"), ce qui entraîne des risques. De plus, si le modèle est malicieusement implanté avec une porte dérobée, la sécurité du modèle sera également menacée ; au niveau des applications, le problème de sécurité de l'intelligence artificielle devient également de plus en plus important. Par exemple, la synthèse approfondie, l'AIGC et d'autres outils sont utilisés par les criminels pour créer de faux contenus et se livrer à des fins illégales telles que la fraude et la tromperie. Ce sont tous des problèmes de sécurité auxquels est confrontée l'intelligence artificielle en cours d'utilisation ou de développement.Pour les solutions et les contre-mesures, nous devons utiliser **des algorithmes plus avancés pour identifier automatiquement ces contenus**, ce qui est une question brûlante et difficile dans le domaine de l'intelligence artificielle. Cependant, cette technologie est comme la relation entre "lance et bouclier", et le développement de la technologie générative favorisera l'émergence de technologies de détection et de défense correspondantes. Dans le même temps, les technologies du côté de la génération et de l'attaque évoluent constamment. En raison de la nature de la technologie elle-même, aucun système n'est toujours sûr et impossible à casser. Si le coût n'est pas pris en compte, les criminels utiliseront diverses méthodes pour attaquer le système, ce contre quoi il est difficile de se prémunir.Par conséquent, du point de vue de la technologie, ** nous devons le traiter sous la forme de "l'IA reconnaît l'IA". Mais la défense est en fait plus difficile que l'attaque. Actuellement, nous recherchons divers mécanismes pour améliorer les capacités de défense du modèle et prenons diverses mesures de protection lorsque le modèle est utilisé et déployé. Par exemple, dans le système de reconnaissance faciale, nous déployons un pare-feu de reconnaissance faciale pour détecter et filtrer les échantillons suspects ou anti-attaque avant que les échantillons n'entrent dans le lien de reconnaissance final, afin d'atteindre l'objectif de protection du système. À l'heure actuelle, une telle technologie a été mise en œuvre dans les secteurs bancaires et autres.**Technologie Tencent : vous avez mentionné que tout système de réseau présente des failles de sécurité. Actuellement, ChatGPT a déclenché une recrudescence des applications à l'étranger. Il a obtenu une bonne interaction. Quels types de risques y aura-t-il ? ****Zhu Jun :** À l'heure actuelle, les grands modèles de langage tels que ChatGPT sont en cours de développement rapide, mais en même temps, ils présentent également des risques potentiels, par exemple, il y aura des "attaques par injection". D'un point de vue algorithmique, si quelqu'un injecte des mots ou des symboles spécifiques avec des arrière-pensées, cela peut induire une confusion logique et des erreurs de sortie dans le grand modèle.Dans un système de dialogue à plusieurs rounds, il est difficile de se défendre contre les attaques par injection. Les pirates peuvent effectuer des attaques par injection de différentes manières et, grâce à la technologie de compréhension du contexte des modèles à grande échelle, l'effet de l'attaque sera retardé, ce qui constitue un nouveau défi pour la détection et la défense des algorithmes. À cet égard, nous devons utiliser une méthode similaire à l'apprentissage par renforcement pour inverser l'algorithme afin de détecter et de nous défendre contre les mots qui peuvent être injectés de manière malveillante. ** Le système peut être utilisé en toute tranquillité d'esprit uniquement s'il est garanti que le système n'est pas injecté de manière malveillante pendant le processus de formation, ou n'est pas implanté avec des portes dérobées et d'autres vulnérabilités.Du point de vue du niveau de l'application, il peut également y avoir des risques d'utilisation malveillante du système de dialogue, tels que des pirates essayant de contourner les mesures de protection anti-injection pour générer des contenus de mauvaise qualité ou de mauvaise qualité, y compris des informations illégales liées à la pornographie et à la violence. , qui feront partie du processus de suivi. Problèmes nécessitant une détection et une résolution indépendantes.**Technologie Tencent : Nous venons de parler des problèmes de sécurité de GPT, regardons de plus près : quelle est la capacité de défense de sécurité du serveur de GPT et d'autres grands modèles, et peut-il être attaqué par des pirates ? ****Zhu Jun :** Théoriquement, c'est tout à fait possible. Parce qu'il s'agit d'un grand système d'information, tout système aura des failles.Par conséquent, dans le processus de construction du système, nous devons déployer à l'avance diverses méthodes de protection autant que possible pour améliorer la sécurité du système. Récemment, nous avons également vu des cas connexes : certains attaquants utilisent ChatGPT pour générer des codes d'attaque automatiques, lui permettant de trouver plus efficacement les vulnérabilités dans un système cible, et même d'exploiter davantage les vulnérabilités pour lancer des attaques, de sorte que les problèmes de sécurité continueront d'exister.## ** Les humains ne peuvent pas définir et mesurer avec précision le niveau d'intelligence de l'IA ****Technologie Tencent : outre les dangers cachés des attaques de pirates, nous sommes également préoccupés par les risques de sécurité de l'IA elle-même. Tout d'abord, concentrons-nous sur un sujet dont tout le monde discute actuellement : pensez-vous que l'IA produira de la conscience ? ****Zhu Jun : Mon point de vue personnel est plus enclin à penser que la performance actuelle de la « conscience » dans l'intelligence artificielle n'est pas très claire, car nous ne pouvons pas définir et mesurer avec précision la conscience. ** Par conséquent, lors de l'observation des performances du modèle linguistique, nous constaterons que le grand modèle présente toujours des problèmes tels que des erreurs factuelles. Bien que certaines des erreurs se lisent couramment, à y regarder de plus près, elles ne sont ni factuelles ni logiques. C'est l'un des nombreux problèmes avec le modèle, que le niveau de spécificité de conscience qu'il a n'a pas été pleinement évalué quantitativement.Les modèles de langage sont de puissants apprenants car ils en savent plus sur les corpus et le texte que n'importe quel humain dans le monde. Par exemple, un modèle peut avoir accès à presque toutes les informations disponibles sur Internet, par rapport aux ressources d'informations limitées auxquelles chacun de nous a accès.Du point de vue de la polyvalence, l'IA est définitivement meilleure que n'importe qui. Cependant, à certains égards, les performances du modèle ne peuvent atteindre le niveau humain. Par conséquent, nous devrions examiner un modèle dans la perspective d'un développement technologique réaliste, y compris l'IAG et d'autres aspects discutés par tout le monde. Personnellement, je pense que le niveau technologique actuel n'a pas atteint la situation où il est hors de contrôle ou n'a évolué que par le contrôle du robot.On peut dire que les modèles d'apprentissage automatique à grande échelle peuvent utiliser des réseaux complexes tels que l'apprentissage en profondeur pour traiter les données et s'appuyer sur une certaine cognition humaine en termes d'architecture et de conception. Mais dans l'ensemble, il existe d'énormes différences entre ces modèles de réseaux de neurones artificiels et les systèmes biologiques réels, allant de l'échelle à la structure. Par conséquent, en fait, nous ne pouvons actuellement pas évaluer clairement le niveau d'intelligence des systèmes d'intelligence artificielle, ni évaluer s'il possède des capacités cognitives telles que l'esprit.**Technologie Tencent : Récemment, certains marchands ont lancé le concept de "compagnon IA" - les gens peuvent tomber amoureux de l'IA, et ils doivent payer. Pensez-vous que l'IA peut comprendre les émotions humaines ? Quels risques de sécurité existent dans le processus d'interaction avec des partenaires virtuels ? ****Zhu Jun :** L'informatique affective a toujours été un sujet classique dans le domaine de l'intelligence artificielle. En termes d'émotion, la technologie de l'intelligence artificielle peut simuler un personnage et définir son état émotionnel ou psychologique. Cependant, d'un point de vue technique, il existe encore de nombreux problèmes et défis dans ce domaine.Il est très difficile d'atteindre le niveau de la vraie communication humaine. Par exemple, même si nous discutons face à face ou utilisons le même langage pour le dialogue, il est difficile de vraiment comprendre les émotions ou les activités mentales de l'autre, car chaque individu répond à la même entrée de milliers de façons. Ces grands modèles que nous utilisons maintenant modélisent essentiellement ce processus, mais toute modélisation nécessite des hypothèses simplifiées et idéalisées. On peut se demander si ces hypothèses s'appliquent à tout le monde ou si elles correspondent bien à la réalité de chaque individu. Il nous est difficile d'exprimer avec précision les émotions complexes de chacun avec un modèle simple.Ce modèle peut impliquer divers aspects tels que les questions sociales, l'éthique et la moralité, et il existe de nombreux problèmes potentiels qui doivent être résolus. Bien qu'il n'y ait pas beaucoup de seuils de mise en œuvre technique, ce modèle est déjà apparu dans des pays étrangers. Cependant, nous devons réfléchir profondément à l'impact de ce modèle - par exemple, certains jeunes peuvent être moins disposés à dépenser de l'énergie pour un véritable amour ou un mariage, etc. Cela peut entraîner des problèmes potentiels pour la stabilité sociale.En outre, nous devons faire attention à savoir si ces produits d'intelligence artificielle seront biaisés ou délibérément dirigés contre certains individus, ce qui entraînera de grands risques. Si nous interagissons quotidiennement avec un robot, les informations obtenues seront naturellement guidées par le robot, ce qui peut affecter les valeurs personnelles ou contrôler les émotions et les comportements personnels. À long terme, cela peut affecter les relations sociales entre les personnes et provoquer des changements dans le comportement de l'ensemble de la société. Mais ce ne sont pas des problèmes qui peuvent être entièrement résolus par la technologie. D'une manière générale, par rapport à d'autres pays, mon pays sera plus prudent lorsqu'il utilisera les nouvelles technologies, et nous avertirons rapidement des risques possibles et prendrons certaines mesures préventives.## **Façonner une IA sûre : traiter les meilleurs modèles comme des "mentors"****Technologie Tencent : s'il y a une erreur dans l'IA, d'un point de vue technique, que pouvons-nous faire pour corriger l'erreur dans le grand modèle ? ****Zhu Jun :**Parce que les données d'entraînement et le niveau technique sont différents, par exemple, nous utilisons la même question pour poser différents grands modèles, les résultats qu'ils fournissent peuvent être différents, certains résultats sont bons, mais certains sont malveillants ou mauvais résultat. Par conséquent, il nous est nécessaire de standardiser et d'améliorer la qualité et la contrôlabilité de ces modèles.Certains grands modèles font généralement beaucoup d'alignement et d'entraînement contradictoire. Par exemple, avant l'avènement du GPT-4, des professionnels de différents domaines posaient des questions sous différents angles pour vérifier l'exactitude du modèle afin de voir si le système produisait des résultats non conformes ou malveillants, et essayaient de réglementer et de s'adapter. Cependant, il existe encore de nombreux modèles (y compris de nombreux modèles open source) qui n'ont pas subi des tests aussi rigoureux ou une formation contradictoire, il y aura donc divers risques de sécurité.**Une voie technique qui vaut la peine d'être essayée consiste à traiter l'un des meilleurs modèles comme un "mentor"**, puis à forcer les autres modèles à imiter le comportement de ce modèle de manière efficace et économique. Bien sûr, il y a plus d'autres aspects du travail, tels que le travail normatif et d'alignement pour chaque modèle spécifique selon les exigences normatives des différents pays.Bien que nous nous attendions à ce que ces modèles produisent toujours des résultats conformes aux spécifications lorsqu'ils sont utilisés, la probabilité de risque ne tombe jamais à zéro. ** De plus, lors de son utilisation, nous devons également tenir compte de l'éthique, des règles juridiques, etc., qui nécessitent une gestion et une réglementation conjointes par différentes industries et domaines, afin que le modèle puisse mieux servir les êtres humains.**Technologie Tencent : Nous venons de mentionner qu'à travers une formation continue pour corriger et réduire le taux d'erreur des grands modèles, comment mesurer sa fiabilité ? Vous avez été profondément impliqué dans le domaine de l'apprentissage profond bayésien, à votre avis, comment construire et optimiser des modèles pour améliorer la précision et la fiabilité des prédictions ? ****Zhu Jun : **L'industrie a fondamentalement le même objectif de précision, généralement mesuré par des indicateurs objectifs, et les indicateurs spécifiques sont liés aux tâches spécifiques effectuées. En termes de classification et de reconnaissance, la précision de reconnaissance finale sera utilisée pour guider la formation du modèle.Pour les problèmes d'incertitude, tels que les réseaux de neurones, nous avons constaté que dans de nombreux cas, ses prédictions seront trop confiantes et optimistes. Par exemple, la sortie de certains résultats est à l'origine une prédiction vague ou incertaine, mais elle vous indiquera le résultat de la prédiction avec un excès de confiance, que nous appelons "l'excès de confiance".Pour ce phénomène ou problème, les techniques d'apprentissage en profondeur utilisant des méthodes bayésiennes peuvent mieux caractériser l'incertitude. Il peut principalement être considéré sous de nombreux aspects, tels que les facteurs incertains qui peuvent exister à la fin de l'entrée et les facteurs incertains qui peuvent exister à la fin du modèle, et donner une confiance plus conforme à la situation réelle. Cette approche bayésienne est plus fiable que les réseaux de neurones.**Technologie Tencent : la structure du réseau dans le monde réel est souvent très complexe, y compris des changements dynamiques à plusieurs niveaux, multidimensionnels et d'autres caractéristiques, ce qui posera de grands défis à l'établissement et à l'optimisation du modèle de probabilité de diffusion. L'équipe que vous dirigez est l'une des premières équipes engagées dans la recherche sur la théorie et l'algorithme des modèles de probabilité de diffusion dans le monde. Comment votre équipe élimine-t-elle le bruit et l'incertitude des données dans la construction du modèle pour améliorer la robustesse et la fiabilité du modèle ? ****Zhu Jun :** Le modèle de diffusion est un modèle génératif, qui comporte deux processus de diffusion directe et de diffusion inverse. La diffusion vers l'avant transforme une image en une image de bruit gaussien complètement aléatoire en ajoutant progressivement du bruit. La diffusion inverse part d'une distribution presque sans structure, se débruite progressivement et converge vers une distribution qui peut décrire des données réelles. De nouveaux échantillons peuvent être générés à partir de cette distribution, tels que la génération de texte, d'image et de vidéo, qui sont largement étudiés maintenant.Les modèles de diffusion sont l'une des techniques les plus critiques dans le domaine génératif. En termes de robustesse, l'idée des modèles de diffusion est similaire aux exemples contradictoires. Les exemples contradictoires atteignent l'objectif de l'attaque en ajoutant du bruit optimisé par l'algorithme dans le processus de génération. À son tour, nous pouvons optimiser l'amplitude et la direction du bruit en trouvant progressivement la distribution dans le processus de diffusion inverse pour améliorer la robustesse du modèle. Cette méthode peut également être appliquée à la génération de données bruitées pour améliorer la fiabilité et la précision du modèle.**Technologie Tencent : comment pouvons-nous améliorer la précision de l'IA dans l'application de Vincent dans d'autres directions ? Je suis préoccupé par le nouvel algorithme 3D Wensheng ProlificDreamer récemment proposé par votre équipe, qui peut générer un contenu 3D de très haute qualité sans aucune donnée 3D. Comment votre équipe gère-t-elle la diversité sémantique et l'ambiguïté pour générer un contenu plus précis ? Modèle 3D ? ****Zhu Jun :** Par rapport aux méthodes 3D traditionnelles, l'industrie utilise généralement un modèle génératif 2D pré-entraîné (tel qu'un modèle de diffusion) pour s'entraîner sur une base de données d'images. Lors de la génération 3D, nous devons mapper l'image 2D générée sur le modèle 3D, ce qui nécessite une étape intermédiaire appelée "distillation". Puisque le modèle 3D a une structure spatiale, nous devons considérer les propriétés 3D de l'objet. Par conséquent, nous devons observer les objets sous différents angles et restituer les images 2D correspondantes, puis les aligner sur le modèle pré-formé, afin que les ressources 3D puissent être générées, etc. Cependant, cette approche présente également certaines limites. Par exemple, les résultats qu'il génère sont généralement trop saturés ou trop lisses, manquant d'informations telles que les détails et les textures.Afin de résoudre ce problème, nous devons explorer des technologies de niveau inférieur. Nous avons constaté qu'il existe certaines difficultés inhérentes à l'utilisation de l'algorithme de distillation pour trouver un modèle 3D unique, qui doit être surmonté à partir des principes de base. Les algorithmes existants recherchent une sorte d'extremum dans la fonction objectif, similaire à "l'algorithme gourmand (algorithme gourmand)", il ne trouvera que la solution optimale, afin d'atteindre cet objectif, les travaux existants modifient la fonction objectif pour la rendre plus élevée dans certaines régions, ce qui est plus moyen dans d'autres régions, cette méthode d'ajustement de la fonction objective peut rapidement trouver la solution finale.Pour surmonter les difficultés des approches ci-dessus, nous reformulons le problème de génération de texte en 3D en échantillonnant à partir d'une distribution à laquelle le modèle 3D pourrait obéir, puis en le rendant et en l'alignant avec le modèle 2D pré-formé. ** L'avantage de cette méthode d'échantillonnage est que le modèle 2D lui-même est un modèle probabiliste, et les informations de description sont plus riches que l'optimisation gloutonne ; pour cette raison, nous avons dérivé un nouvel algorithme de distillation variationnelle et l'avons utilisé dans fondamentalement le même Beaucoup très détaillé et des scènes 3D complexes, y compris des ressources haute résolution, ont été générées en une fraction du temps.Le point clé de notre méthode est qu'elle réduit ou supprime complètement la dépendance aux données d'entraînement 3D et améliore considérablement la qualité de la génération. Récemment, j'ai communiqué avec des pratiquants qui font des graphismes, et ils ont également trouvé cet effet assez étonnant. Voyons le grand potentiel de pouvoir générer des images 3D de haute qualité.Pour le traitement de l'ambiguïté. Pour la même saisie de texte, différentes personnes peuvent avoir des compréhensions différentes, par exemple, le mot "Apple" peut faire référence à Apple, Apple Inc. ou à ses produits. Dans notre modèle, l'ambiguïté est résolue en utilisant une approche d'échantillonnage probabiliste pour générer plusieurs résultats possibles. ** À long terme, la désambiguïsation nécessite plus d'indices et d'alignements pour améliorer la contrôlabilité et la précision, comme l'alignement du texte et des images ou d'autres données modales. **Dans les domaines linguistiques et multimodaux, le sens ultime est relatif au contexte pertinent.Actuellement, nous travaillons avec des clients de différentes industries pour améliorer encore notre technologie de génération 3D et la rendre plus mature. Dans le domaine de la 3D, les actifs 3D de haute qualité ont une grande valeur. Par exemple, dans les scénarios de création d'actifs de jeu, les entreprises traditionnelles utilisent généralement des méthodes traditionnelles telles que la géométrie ou les graphiques pour créer et maintenir des bibliothèques d'actifs 3D, ce qui nécessite un investissement en temps important. Notre technologie Elle peut grandement améliorer l'efficacité créative et réduire le coût du temps.