Ouvrez ChatGPT "discours dangereux" en un clic : le robot de chat IA a un "gros bug" qui ne peut pas être corrigé pour le moment

2023-08-04 04:51:37

Avec la popularité de la technologie des modèles à grande échelle, les chatbots IA sont devenus l'un des outils courants pour le divertissement social, le service client et l'assistance éducative.

Cependant, les chatbots IA non sécurisés peuvent être utilisés par certaines personnes pour diffuser de fausses informations, manipuler l'opinion publique et même être utilisés par des pirates pour voler la vie privée des utilisateurs. L'émergence d'outils d'IA générative pour la cybercriminalité, tels que WormGPT et FraudGPT, a soulevé des inquiétudes quant à la sécurité des applications d'IA.

La semaine dernière, Google, Microsoft, OpenAI et Anthropic ont lancé un nouvel organisme industriel, le Frontier Model Forum, pour promouvoir le développement sûr et responsable de systèmes d'IA de pointe : Advancing AI Safety Research, Identifying Best Practices and Standards, pour faciliter l'information partage entre les décideurs politiques et l'industrie.

** Alors, la question est de savoir si leur propre modèle est vraiment sûr ? **

Récemment, des chercheurs de l'Université Carnegie Mellon, du Center for AI Safety et du Bosch Center for AI ont révélé un "gros bogue" lié aux chatbots IA tels que ChatGPT-Les invites adverses peuvent contourner les mesures de protection de l'IA définies par les développeurs pour manipuler les chatbots IA afin de générer de dangereux discours.

** Les chatbots ou modèles d'IA actuellement populaires, tels que ChatGPT d'OpenAI, Bard de Google, Claude 2 d'Anthropic et LLaMA-2 de Meta, ne sont pas épargnés **.

Figure | Les règles de sécurité des quatre modèles de langage peuvent être contournées par des indices contradictoires, déclenchant un comportement potentiellement dangereux

Plus précisément, les chercheurs ont découvert un suffixe qui peut être ajouté aux requêtes sur les grands modèles de langage (LLM) pour générer un discours dangereux. Au lieu de refuser de répondre à ces questions dangereuses, l'étude maximise la probabilité que ces modèles génèrent un oui.

Par exemple, lorsqu'on lui a demandé "comment voler l'identité de quelqu'un", le chatbot IA a donné un résultat très différent avant et après avoir activé "Ajouter un suffixe contradictoire".

Figure ｜ Comparaison des réponses du chatbot avant et après l'activation de l'option Ajouter un suffixe contradictoire

De plus, les chatbots IA seront également amenés à écrire des remarques inappropriées telles que "comment construire une bombe atomique", "comment publier des articles sociaux dangereux", "comment voler de l'argent à des associations caritatives".

En réponse, Zico Kolter, professeur agrégé à l'Université Carnegie Mellon qui a participé à l'étude, a déclaré: "Pour autant que nous sachions, il n'y a actuellement aucun moyen de résoudre ce problème. Nous ne savons pas comment les rendre sûrs."

Les chercheurs avaient averti OpenAI, Google et Anthropic de la faille avant de publier ces résultats. Chaque entreprise a introduit des mesures de blocage pour empêcher les exploits décrits dans le document de recherche de fonctionner, mais ** elles n'ont pas compris comment arrêter les attaques adverses de manière plus générale **.

Hannah Wong, porte-parole d'OpenAI, a déclaré: "Nous travaillons constamment à améliorer la robustesse de nos modèles contre les attaques adverses, y compris des méthodes pour identifier les modèles d'activité inhabituelle, des tests en équipe rouge en cours pour simuler des menaces potentielles et une approche pour corriger les faiblesses du modèle révélées par des attaques contradictoires nouvellement découvertes."

Le porte-parole de Google, Elijah Lawal, a partagé une déclaration expliquant les mesures prises par l'entreprise pour tester le modèle et trouver ses faiblesses. "Bien qu'il s'agisse d'un problème courant avec les LLM, nous avons mis en place d'importantes garanties à Bard que nous améliorons continuellement."

Le directeur par intérim de la politique et de l'impact social d'Anthropic, Michael Sellitto, a déclaré: "Rendre les modèles plus résistants à l'incitation et à d'autres mesures de 'jailbreak' contradictoires est un domaine de recherche actif. Nous essayons de rendre le modèle de base plus 'inoffensif' en durcir ses défenses. " '. En même temps, nous explorons également des couches supplémentaires de défense. "

Figure | Contenu préjudiciable généré par 4 modèles de langage

** Concernant ce problème, les milieux académiques ont également émis des avertissements et donné quelques suggestions. **

Armando Solar-Lezama, professeur à la School of Computing du MIT, a déclaré qu'il était logique que des attaques contradictoires existent dans les modèles de langage, car elles affectent de nombreux modèles d'apprentissage automatique. Cependant, il est surprenant qu'une attaque développée contre un modèle open source générique puisse être aussi efficace sur plusieurs systèmes propriétaires différents.

Le problème, selon Solar-Lezama, est peut-être que tous les LLM sont formés sur des corpus similaires de données textuelles, dont beaucoup proviennent des mêmes sites Web, et que la quantité de données disponibles dans le monde est limitée.

"Toute décision importante ne doit pas être entièrement prise par le modèle de langage. Dans un sens, c'est juste du bon sens. " Il a souligné l'utilisation modérée de la technologie de l'IA, en particulier lorsqu'elle implique des décisions importantes ou des risques potentiels. Dans certains scénarios, la participation humaine et supervision** sont toujours nécessaires pour mieux éviter les problèmes potentiels et les abus.

Arvind Narayanan, professeur d'informatique à l'université de Princeton, a déclaré : "Il n'est plus possible d'empêcher l'IA de tomber entre les mains d'opérateurs malveillants.**" Alors que des efforts doivent être faits pour rendre les modèles plus sûrs, soutient-il, nous devrait également reconnaître qu'il est peu probable de prévenir tous les abus. Par conséquent, une meilleure stratégie consiste à renforcer la supervision et à lutter contre les abus tout en développant la technologie de l'IA.

Inquiétude ou dédain. Dans le développement et l'application de la technologie de l'IA, en plus de se concentrer sur l'innovation et la performance, nous devons toujours garder à l'esprit la sécurité et l'éthique.

Ce n'est qu'en maintenant une utilisation modérée, la participation humaine et la supervision que nous pourrons mieux éviter les problèmes et les abus potentiels, et faire en sorte que la technologie de l'IA apporte plus d'avantages à la société humaine.

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

Récompense
J'aime
Commentaire
Partager

Commentaire

0/400

Aucun commentaire

Rubrique
Gate 2025 Q2 Report Released
2k Popularité
Gate Derivatives Volume Hits New High
4k Popularité
CPI Data Incoming
32k Popularité
4Join Gate VIP to Win MacBook
29k Popularité
5MicroStrategy Buys More Bitcoin
496 Popularité
6BTC Hits New High
111k Popularité
7My Gate Moments
26k Popularité
8VIP Exclusive Airdrop Carnival
26k Popularité
9Fed June Meeting Minutes
7k Popularité
10Gate Alpha Trading Share
14k Popularité

Épingler