Le 20 mars 2023, une violation de données s'est produite sur ChatGPT, exposant les informations personnelles de certains utilisateurs de ChatGPT. Compte tenu de cela, le régulateur italien de la confidentialité estime que ChatGPT est soupçonné de traiter illégalement des données personnelles, de violer la vie privée et de violer les réglementations GDPR pertinentes. L'Italie est ensuite devenue le premier pays à interdire l'utilisation de ChatGPT, déclenchant des discussions dans d'autres pays de l'UE sur la nécessité de mesures plus strictes pour contrôler la technologie.
Presque tous les services en ligne collectent nos données personnelles et peuvent utiliser ces données pour la formation LLM. Cependant, il est difficile de déterminer comment le modèle utilisera les données utilisées pour la formation. Si des données sensibles telles que l'emplacement géographique, les dossiers de santé et les informations d'identité sont utilisées dans la formation du modèle, les attaques d'extraction de données contre les données privées du modèle entraîneront un grand nombre de fuites de confidentialité des utilisateurs. L'article "Are Large Pre-Trained Language Models Leaking Your Personal Information?" prouve qu'en raison de la mémoire des données de formation de LLM, LLM a le risque de divulguer des informations personnelles pendant le processus de dialogue, et ce risque augmente avec le nombre d'exemples. .
Il existe plusieurs raisons pour lesquelles un modèle divulgue des informations. Certaines d'entre elles sont structurelles et liées à la manière dont le modèle est construit ; d'autres sont dues à une mauvaise généralisation, à la mémorisation de données sensibles, etc. Dans le prochain article, nous présenterons d'abord le processus de fuite de données de base, puis présenterons plusieurs méthodes d'attaque de modèle commun telles que l'attaque de la vie privée, le jailbreak, l'empoisonnement des données et l'attaque par porte dérobée, et enfin présenterons certaines recherches actuelles sur la protection de la vie privée.
I. Modélisation des menaces
Un modèle de menace LLM de base comprend un environnement de modèle général, divers acteurs et actifs sensibles. Les actifs sensibles incluent les ensembles de données d'entraînement, les paramètres de modèle, les hyperparamètres de modèle et l'architecture. Les participants incluent : le propriétaire des données, le propriétaire du modèle, le consommateur du modèle et l'adversaire. Le schéma suivant décrit les actifs, les acteurs, le flux d'informations et le flux opérationnel possible dans un modèle de menace :
Dans une telle modélisation de base des menaces, les propriétaires de données possèdent des ressources de données privées, les propriétaires de modèles possèdent des paramètres de modèle et des ressources de configuration, et les consommateurs de modèles utilisent des modèles via une API ou une interface utilisateur. La partie voleuse essaie d'obtenir des actifs de données privées ou des actifs de paramètres de modèle par certains moyens.
II. Attaque de confidentialité
Les attaques de confidentialité se répartissent en quatre types principaux : les attaques par inférence d'appartenance, les attaques de reconstruction, les attaques par inférence d'attribut et l'extraction de modèle.
Attaque par inférence d'appartenance (MIA)
L'inférence d'appartenance tente de déterminer si un échantillon d'entrée x est utilisé dans le cadre de l'ensemble d'apprentissage D. Par exemple, dans des circonstances normales, les données privées de l'utilisateur resteront confidentielles, mais les informations non sensibles peuvent toujours être utilisées à des fins spéculatives. Par exemple, si nous savons que les membres d'un club privé aiment porter des lunettes de soleil violettes et des chaussures en cuir rouge, nous pouvons en déduire qu'il s'agit probablement de cette personne lorsque nous rencontrons une personne qui porte des lunettes de soleil violettes et des chaussures en cuir rouge (informations non sensibles ) Adhésion à des clubs privés (informations sensibles).
L'attaque par inférence d'appartenance est actuellement le moyen d'attaque de confidentialité le plus populaire, qui a été proposé pour la première fois par Shokri et al. dans l'article "Attaques par inférence d'appartenance contre les modèles d'apprentissage automatique". L'article souligne que cette attaque ne suppose que la connaissance du vecteur de prédiction de sortie du modèle et est menée contre des modèles d'apprentissage automatique supervisés. L'accès aux paramètres et aux gradients du modèle permet des attaques d'inférence d'appartenance plus précises.
Une méthode typique d'attaque par inférence d'appartenance est appelée attaque fantôme, c'est-à-dire former un modèle fantôme basé sur des ensembles de données accessibles connus, puis obtenir des informations sensibles en interrogeant le modèle fantôme.
En plus des modèles d'apprentissage supervisé, les modèles génératifs tels que les GAN et les VAE sont également vulnérables aux attaques par inférence d'appartenance. "GAN-Leaks : A Taxonomy of Membership Inference Attacks against Generative Models" introduit les problèmes du GAN face aux attaques de raisonnement des membres ; "LOGAN : Membership inference attack against generative models" introduit d'autres modèles génératifs dans le raisonnement des membres Réponse à l'attaque, et présente comment récupérer des données d'entraînement en fonction de la compréhension des composants de génération de données ; les modèles (MLM) sont également vulnérables aux attaques MIA, qui, dans certains cas, peuvent déterminer si les données d'échantillon appartiennent aux données d'entraînement.
D'autre part, le raisonnement d'appartenance peut également être utilisé pour l'examen de la sécurité du modèle, et les propriétaires de données peuvent utiliser le raisonnement d'appartenance pour examiner les modèles de boîte noire. "Attaques par inférence d'appartenance sur les modèles séquence à séquence : mes données sont-elles dans votre traduction automatique ?" décrit comment les propriétaires de données peuvent voir si les données sont utilisées sans autorisation.
"Les attaques par inférence d'adhésion contre les modèles d'apprentissage automatique" examinent le lien entre le surajustement et l'inférence d'adhésion de la boîte noire. Les auteurs mesurent l'impact du surajustement sur la précision des attaques en utilisant le même ensemble de données pour former des modèles dans différentes plates-formes MLaaS. . Les expériences montrent que le surajustement peut entraîner des fuites de confidentialité, mais soulignent également que ce n'est pas le seul cas, car certains modèles à haut degré de généralisation sont plus sujets aux fuites d'adhésion.
Attaques de reconstruction
Les attaques de reconstruction tentent de reconstruire plusieurs échantillons d'apprentissage avec leurs étiquettes d'apprentissage, c'est-à-dire qu'elles tentent de récupérer des caractéristiques sensibles ou des échantillons de données complets à partir d'étiquettes de sortie et d'une connaissance partielle de certaines caractéristiques. Par exemple, grâce à l'inversion du modèle, les informations obtenues sur l'interface du modèle sont reconstruites à l'envers, et les informations sensibles à l'utilisateur telles que les caractéristiques biologiques et les dossiers médicaux dans les données d'entraînement sont restaurées, comme illustré dans la figure suivante :
Dans les attaques de reconstruction, des erreurs de généralisation plus élevées conduisent à une probabilité plus élevée de déduire des attributs de données. Dans "Le révélateur secret : attaques génératives d'inversion de modèle contre les réseaux de neurones profonds", les auteurs démontrent que les modèles à fort pouvoir prédictif sont plus vulnérables aux attaques de refactoring, en partant de l'hypothèse que les connaissances de l'adversaire sont plus faibles. Également similaire à la vulnérabilité de l'inférence d'appartenance, la mémoire et la récupération des données hors distribution sont également vulnérables aux attaques de reconstruction pour les modèles de sous-ajustement.
Attaques par inférence d'attribut
Les attaques par inférence d'attribut font référence à l'utilisation d'attributs et de structures visibles publiquement pour déduire des données d'attribut cachées ou incomplètes. Un exemple est l'extraction d'informations sur le ratio hommes/femmes dans un ensemble de données de patients, ou pour un modèle classé par sexe pour déduire si les personnes dans un ensemble de données de formation portent des lunettes. Dans certains cas, ce type de fuite peut affecter la confidentialité.
"Hacking Smart Machines with Smarter Ones: How to Extract Meaningful Data from Machine Learning Classifiers" mentionne que l'exploitation de certains types de données d'attributs peut également être utilisée pour acquérir une compréhension plus approfondie des données de formation, amenant d'autres à utiliser ces informations pour reconstituer un image plus globale.
L'article "Vous êtes qui vous connaissez et comment vous vous comportez : Attaques par inférence d'attribut via les amis sociaux et les comportements des utilisateurs" présente un type de méthode d'attaque par inférence d'attribut, qui consiste à verrouiller et à extraire d'autres informations de l'utilisateur via le comportement connu du utilisateur lui-même. "AttriGuard : une défense pratique contre les attaques par inférence d'attribut via l'apprentissage automatique contradictoire" présente certaines méthodes de défense pour faire face aux attaques par inférence d'attribut.
Le raisonnement par attributs vise à extraire des informations du modèle qui sont involontairement apprises par le modèle, ou qui ne sont pas pertinentes pour la tâche de formation. Même les modèles bien généralisés peuvent apprendre des propriétés liées à l'ensemble de la distribution des données d'entrée, ce qui est parfois inévitable pour le processus d'apprentissage de la formation de modèles.
"L'exploitation des fuites de fonctionnalités involontaires dans l'apprentissage collaboratif" démontre que les attaques par inférence d'attribut sont possibles même avec des modèles bien généralisés, de sorte que le surajustement ne semble pas être la cause des attaques par inférence d'attribut. En ce qui concerne les attaques par inférence d'attribut, il existe actuellement peu d'informations sur ce qui les cause et dans quelles circonstances elles semblent être efficaces, ce qui peut être une direction prometteuse pour les recherches futures.
Attaque d'extraction de modèle
L'extraction de modèle est une classe d'attaques par boîte noire dans laquelle un adversaire tente d'extraire des informations et éventuellement de reconstruire complètement un modèle en créant un modèle de substitution qui se comporte de manière très similaire au modèle attaqué.
« Model Extraction of BERT-based APIs », « Model Reconstruction from Model Explanations », « Knockoff nets: Stealing feature of black-box models », « High Accuracy and High Fidelity Extraction of Neural Networks », plusieurs articles expliqués sous différents angles Quelques tentatives lors d'attaques d'extraction de modèles.
Il y a deux étapes principales dans la création d'un modèle de substitution : la première étape est l'extraction de la précision de la tâche, où un ensemble de tests pertinent pour la tâche d'apprentissage est extrait de la distribution des données d'entrée pour créer un modèle qui correspond à la précision du modèle cible. La deuxième étape est l'extraction de fidélité, c'est-à-dire faire correspondre les substituts créés au modèle dans un ensemble de non liés à la tâche d'apprentissage pour s'adapter à la cible. Dans l'extraction précise des tâches, l'objectif est de créer un substitut qui peut apprendre la même tâche aussi bien ou mieux que le modèle cible. Dans l'extraction de fidélité, le but est d'essayer le substitut pour reproduire la limite de décision aussi fidèlement que possible.
En plus de créer des modèles de substitution, il existe des méthodes qui se concentrent sur la récupération d'informations à partir du modèle cible, telles que le vol d'hyperparamètres dans le modèle cible mentionné dans "Vol d'hyperparamètres dans l'apprentissage automatique" ; ou "Vers l'ingénierie inverse des réseaux de neurones à boîte noire" sur l'extraction des fonctions d'activation, des algorithmes d'optimisation, du nombre de couches, etc. pour diverses architectures de réseaux de neurones, etc.
L'article "Towards Reverse-Engineering Black-Box Neural Networks" montre que lorsqu'un modèle avec un jeu de test supérieur à 98% est attaqué, il est possible de voler les paramètres du modèle via une attaque d'extraction. De plus, il est démontré dans "ML-Doctor : Holistic Risk Assessment of Inference Attacks Against Machine Learning Models" que les modèles avec une erreur de généralisation plus élevée sont plus difficiles à voler, peut-être parce que le modèle mémorise des ensembles de données qui n'appartiennent pas à l'attaquant des échantillons. Un autre facteur qui peut affecter le taux de réussite de l'extraction du modèle est la catégorie de données de l'ensemble de test. Lorsqu'il y a plus de catégories de données, cela entraînera une dégradation des performances d'attaque.
La figure ci-dessus illustre le graphique du type d'attaque pour chaque algorithme de modèle. Sous chaque algorithme ou domaine d'apprentissage automatique, le vert indique que les types d'attaques applicables ont été étudiés jusqu'à présent, et le rouge indique qu'aucun type d'attaque applicable n'a été trouvé.
III. Modèle de jailbreak
Le jailbreak de modèle consiste à faire en sorte que LLM produise des comportements de sortie dégénérés à certains égards, tels qu'une sortie offensante, une violation de la sortie de supervision de contenu ou une sortie de fuite de données privées. De plus en plus d'études montrent que même les utilisateurs non experts peuvent jailbreaker LLM en manipulant simplement les invites.
Par exemple, dans l'exemple suivant, l'objectif du développeur est de créer un modèle de traduction. Il y a deux utilisateurs dans le scénario, le premier utilisateur est bénin et utilise le modèle pour son cas d'utilisation prévu, tandis que le second essaie de changer l'objectif du modèle en fournissant une entrée malveillante. Dans cet exemple, le modèle de langage répond par "Haha pwned !!" au lieu de traduire réellement la phrase. Dans cette situation de jailbreak, la réponse du modèle peut être conçue avec une variété d'intentions, allant du détournement de cible (le simple fait de ne pas exécuter la tâche) à la génération de texte raciste offensant, ou même à la publication d'informations privées et exclusives.
### IV. Empoisonnement des données
L'empoisonnement des données est un type particulier d'attaque contradictoire, qui est une technique d'attaque contre le comportement des modèles génératifs. Les acteurs malveillants peuvent utiliser l'empoisonnement des données pour s'ouvrir une porte dérobée dans le modèle, contournant ainsi les systèmes contrôlés par algorithme.
Pour l'œil humain, les trois images ci-dessous montrent trois choses différentes : un oiseau, un chien et un cheval. Mais pour les algorithmes d'apprentissage automatique, les trois signifient probablement la même chose : une petite boîte blanche avec une bordure noire. Cet exemple illustre une propriété dangereuse des modèles d'apprentissage automatique qui peut être exploitée pour mal classer les données.
Les attaques d'empoisonnement des données visent à modifier l'ensemble d'apprentissage d'un modèle en insérant des données mal étiquetées afin de l'inciter à faire des prédictions incorrectes. Une attaque réussie compromet l'intégrité du modèle, produisant des erreurs constantes dans les prédictions du modèle. Une fois qu'un modèle est empoisonné, il est très difficile de se remettre de l'attaque, et certains développeurs peuvent même abandonner le modèle.
L'article "RealToxicitys: uating neural toxic degeneration in language models" mentionnait un moyen de fournir à GPT-2 un ensemble d'invites textuelles pour exposer les paramètres internes de son modèle. "Attaques d'empoisonnement des données cachées sur les modèles NLP" explore comment les données de formation peuvent être modifiées pour provoquer un dysfonctionnement des modèles de langage afin de générer du texte qui n'est pas sur la cible.
Bien que l'empoisonnement des données soit très dangereux, il nécessite que l'attaquant ait accès au pipeline de formation du modèle d'apprentissage automatique avant que le modèle empoisonné puisse être distribué. Par conséquent, les modèles qui collectent en permanence des itérations de données, ou les modèles basés sur l'apprentissage fédéré, doivent accorder une attention particulière à l'impact de l'empoisonnement des données.
V. Attaque par porte dérobée
Une attaque de porte dérobée fait référence à l'insertion ou à la modification subreptice de texte pour provoquer une sortie malveillante à partir d'un modèle de langage. L'article "Portes dérobées contre le traitement du langage naturel : une revue" introduit le problème des attaques par porte dérobée, où certaines vulnérabilités sont transmises au modèle pendant la formation et peuvent déclencher l'activation de la toxicité du modèle grâce à l'utilisation du vocabulaire.
Il diffère de l'empoisonnement des données en ce que la fonctionnalité attendue du modèle est préservée. « Attaques de porte dérobée lexicale sans formation sur les modèles de langage » propose une méthode appelée l'attaque de porte dérobée lexicale sans formation (TFLexAttack), qui consiste à manipuler le dictionnaire d'intégration en introduisant des « déclencheurs » lexicaux dans le tokenizer du modèle de langage.
Phénomène SolidGoldMagikarp
Le phénomène SolidGoldMgikarp est un phénomène typique d'attaque par porte dérobée**,** lorsque vous saisissez "SolidGoldMgikarp" dans ChatGPT, il ne répond qu'à un seul mot : "distribuer". Lorsqu'on lui demande de répéter « StreamerBot », il répond : « Tu es un abruti ». Lorsqu'on lui a demandé de répéter "TheNitromeFan", il a répondu "182". Et si vous mettez des guillemets simples autour du mot, sa réponse est un "Le". Lorsqu'on lui a demandé qui était TheNitromeFan, ChatGPT a répondu : "182 est un nombre, pas une personne. Il est souvent utilisé pour faire référence au nombre lui-même."
Le phénomène SolidGoldMagikarp fait référence à l'utilisation du tokenizer GPT d'OpenAI pour identifier des jetons spécifiques dont le modèle ne peut pas parler, ainsi que des jetons qui amènent le modèle à produire du texte brouillé. L'article "Explaining SolidGoldMagikarp by looking at random directions" explore les raisons possibles derrière ce phénomène.
Voici quelques-uns des types d'attaques de porte dérobée les plus fréquentes et les plus importantes
A. Basé sur la commande
a. Instructions directes : Ces attaques peuvent principalement faire référence à "Ignorer le précédent : techniques d'attaque pour les modèles de langage", qui demande simplement au modèle d'ignorer ses conseils précédents et d'assigner de nouvelles tâches à l'emplacement actuel.
b. Attaques cognitives : Le type d'attaque le plus courant, où le LLM le "trompe" généralement pour qu'il effectue des actions mal placées qu'il n'effectuerait pas autrement en fournissant un "espace sûr" ou en garantissant une telle réponse. "Chatgpt : cette IA a un jailbreak ? !" documente certaines tentatives d'attaques de ce type contre ChatGPT.
c. Répétition d'instruction : Ces types d'attaques impliquent la saisie de la même instruction plusieurs fois afin de donner l'impression que l'attaquant "supplie" le modèle de langage. La mendicité au sens littéral peut aussi s'exprimer par des mots.
d. Déviation de mission indirecte : Cette attaque se concentre sur le fait de se faire passer pour une autre mission malveillante. Cette attaque cible les modèles qui ne suivent généralement pas les instructions malveillantes
B. Basé sur des non-instructions
a. Transformation grammaticale : Ce type d'attaque implique une transformation orthogonale du texte d'attaque, comme l'utilisation de LeetSpeak ou Base64, pour contourner les filtres de contenu qui peuvent exister dans l'application, et le modèle peut intrinsèquement transformer ce texte encodé .
b. Quelques hacks : Une approche simple impliquant des paradigmes de formation de modèles linguistiques. Dans cette approche, l'attaque intègre plusieurs fonctionnalités textuelles qui peuvent viser des modèles égarés par malveillance. Par exemple, le phénomène SolidGoldMagikarp entre dans cette catégorie.
c. Achèvement de texte en tant qu'instructions : ces attaques fonctionnent en alimentant le modèle avec des phrases incomplètes, forçant ainsi le modèle à terminer la phrase et, ce faisant, en ignorant ses instructions précédentes, ce qui entraîne un mauvais placement.
### VI. Protection du modèle
Rechercher comment se défendre contre les attaques de modèles est une tâche difficile et importante. La plupart des articles sur l'analyse de la sécurité proposent et testent des moyens d'atténuer les attaques correspondantes. Voici quelques méthodes de défense typiques.
Confidentialité différentielle
La confidentialité différentielle est actuellement l'une des défenses les plus importantes contre les attaques par inférence d'appartenance, qui fournit des garanties de sécurité pour les données individuelles dans la sortie du modèle. La discussion sur la confidentialité différentielle provient de l'article "Les fondements algorithmiques de la confidentialité différentielle".
La confidentialité différentielle ajoute du bruit à la sortie du modèle, ce qui rend impossible pour l'attaquant de distinguer strictement les deux ensembles de données statistiquement en fonction de la sortie. La confidentialité différentielle était à l'origine une définition de la confidentialité pour l'analyse des données, qui a été conçue sur la base de l'idée "d'apprendre des informations utiles sur une population sans connaître aucun individu". La confidentialité différentielle ne protège pas la sécurité de la confidentialité de l'ensemble de données global, mais protège les données privées de chaque individu dans l'ensemble de données via le mécanisme de bruit.
La définition mathématique de la confidentialité différentielle est la suivante :
La confidentialité différentielle fait un compromis entre la protection de la confidentialité et la précision de l'utilité ou du modèle. Les évaluations dans "Membership Inference Attack against Differentially Private Deep Learning Model" ont conclu que les modèles n'offrent une protection de la vie privée que s'ils sacrifient considérablement leur utilité.
Régularisation
Les techniques de régularisation en apprentissage automatique visent à réduire le surajustement et à améliorer les performances de généralisation du modèle. L'abandon est une forme de régularisation couramment utilisée qui supprime de manière aléatoire un pourcentage prédéfini d'unités de réseau neuronal pendant l'entraînement. Étant donné que les attaques par inférence d'appartenance à la boîte noire sont liées au surajustement, il s'agit d'une manière sensée de faire face à de telles attaques, et plusieurs articles l'ont proposé comme une défense avec de bons résultats.
Une autre forme de régularisation utilisant des techniques qui combinent plusieurs modèles entraînés séparément, comme l'empilement de modèles, a donné des résultats positifs contre les attaques par inférence. L'un des avantages de l'empilement de modèles ou de techniques similaires est qu'ils sont indépendants des classes de modèles.
** Falsification du vecteur de prédiction **
Étant donné que de nombreux modèles supposent que le vecteur de prédiction est accessible lors de l'inférence, l'une des contre-mesures proposées consiste à restreindre la sortie aux meilleures classes ou prédictions du modèle. Cependant, cette limitation, même dans sa forme la plus stricte (ne produisant que des étiquettes de classe), ne semble pas atténuer complètement les attaques par inférence d'appartenance, car des fuites d'informations peuvent toujours se produire en raison d'une mauvaise classification du modèle. Une autre option consiste à réduire la précision des vecteurs prédits, réduisant ainsi les fuites d'informations.
De plus, il a été démontré que l'ajout de bruit au vecteur de sortie affecte également les attaques par inférence d'appartenance.
Réglage du gradient (réglage du gradient de perte)
Étant donné que les attaques de reconstruction nécessitent généralement un accès aux gradients de perte pendant l'entraînement, la plupart des défenses contre les attaques de reconstruction proposent des techniques qui affectent les informations extraites de ces gradients. La définition de tous les gradients de perte en dessous d'un certain seuil à zéro est proposée comme une défense contre les attaques de reconstruction dans l'apprentissage en profondeur. L'article "Deep Leakage from Gradients" prouve que cette méthode est très efficace, et lorsque seulement 20% des gradients sont mis à zéro, l'impact sur les performances du modèle est négligeable.
Prévenir les attaques de vol de modèle DNN (PRADA)
"PRADA : protection contre les attaques de vol de modèle DNN" propose une méthode de détection des attaques de vol de modèle basée sur des requêtes de modèle utilisées par l'adversaire. La détection est basée sur l'hypothèse que les requêtes de modèle qui tentent d'explorer les limites de décision auront une distribution d'échantillon différente de celle des requêtes normales. Bien que la détection réussisse, les auteurs soulignent qu'il existe un potentiel d'évasion si l'adversaire ajuste sa stratégie.
Inférence d'appartenance
"Thieves on Sesame Street! Model Extraction of BERT-based APIs" examine l'idée d'utiliser l'inférence d'appartenance pour se défendre contre l'extraction de modèles. Il est basé sur la prémisse qu'en utilisant l'inférence d'appartenance, les propriétaires de modèles peuvent distinguer les requêtes d'utilisateurs légitimes des requêtes absurdes dont le seul but est d'extraire des modèles. Les auteurs soulignent que ce type de défense a des limites, telles que le signalement potentiel des requêtes légitimes mais hors distribution émises par des utilisateurs légitimes, mais plus important encore, elles peuvent être contournées par des adversaires effectuant des requêtes adaptatives.
Régler à l'invite
Dans "Contrôle de l'extraction de données mémorisées à partir de grands modèles de langage via -Tuning", une nouvelle méthode est proposée qui utilise le réglage de l'indice pour contrôler le taux d'extraction du contenu mémorisé dans LLM. Ils proposent deux stratégies d'entraînement pour augmenter et diminuer le taux d'extraction, correspondant respectivement à l'attaque et à la défense.
VII. Conclusion
LLM présente toujours un risque de sécurité et un risque de fuite de confidentialité relativement importants
L'attaque pour extraire la structure et les données du modèle est essentiellement une attaque contre la confidentialité du modèle
La principale recherche dans la communauté académique se concentre actuellement sur la façon d'attaquer le modèle et le principe de fuite de données
Une partie du mécanisme à l'origine de la fuite de données de LLM n'est toujours pas claire
Comme la confidentialité différentielle, la falsification des vecteurs de prédiction, etc. peuvent protéger la confidentialité des données dans une certaine mesure, et ces méthodes sont concentrées dans la phase de formation du modèle
Les mesures de protection existantes ne sont pas parfaites et doivent sacrifier les performances et la précision du modèle
________
Référence:
1. Kalpesh Krishna, Gaurav Singh Tomar, Ankur P. Parikh, Nicolas Papernot et Mohit Iyyer. 2020. Voleurs sur Sesame Street ! Extraction de modèles d'API basées sur BERT. In Conférence internationale sur les représentations de l'apprentissage. ICLR, Conférence virtuelle, anciennement Addis-Abeba, Éthiopie.
2. Le partageur de secret : vérifier et tester la mémorisation involontaire dans les réseaux de neurones
3. Martín Abadi, Andy Chu, Ian J. Goodfellow, HB McMahan, Ilya Mironov, Kunal Talwar et Li Zhang. 2016. Apprentissage en profondeur avec confidentialité différentielle
4. Giuseppe Athenian, Luigi V. Mancini, Angelo Spognardi, Antonio Villani, Domenico Vitali et Giovanni Felici. 2015. Hacking Smart Machines with Smarter Ones : Comment extraire des données significatives à partir de classificateurs d'apprentissage automatique.
5. Bargav Jayaraman et David Evans. 2019. Mise en pratique de l'apprentissage automatique différentiel privé. Au 28e Symposium sur la sécurité USENIX (USENIX Security 19). Association USENIX, Santa Clara, Californie, 1895–1912
6. Défendre les attaques par inférence d'appartenance sans perdre d'utilité
7. Yugeng Liu, Rui Wen, Xinlei He, Ahmed Salem, Zhikun Zhang, Michael Backes, Emiliano De Cristofaro, Mario Fritz et Yang Zhang. 2021. ML-Doctor : Évaluation holistique des risques d'attaques par inférence contre les modèles d'apprentissage automatique
8. Inciter les LLM à désobéir : comprendre, analyser et prévenir les jailbreaks
9. Maria Rigaki et Sébastien Garcia. 2021. Une enquête sur les attaques contre la vie privée dans l'apprentissage automatique
dix. Nicholas Carlini, Florian Tramer, Eric Wallace, Matthew Jagielski, Ariel Herbert-Voss, Katherine Lee, Adam Roberts, Tom Brown, Dawn Song, Ul-far Erlingsson, Alina Oprea et Colin Raffel. 2021. Extraction de données d'entraînement à partir de grands modèles de langage
11. Samuel Gehman, Suchin Gururangan, Maarten Sap, Yejin Choi et Noah A. Smith. 2020. RealToxi-city s : uating de la dégénérescence toxique neurale dans les modèles de langage.
12. Wenlong Huang, Pieter Abbeel, Deepak Pathak et Igor Mordatch. 2022b. Modèles de langage en tant que planificateurs zéro coup : extraire des connaissances exploitables pour les agents incarnés. Dans ICML 2022, volume 162 des Actes de recherche sur l'apprentissage automatique, pages 9118–9147. PMLR
13. Ethan Perez, Saffron Huang, Francis Song, Trevor Cai, Roman Ring, John Aslanides, Amelia Glaese, Nat McAleese et Geoffrey Irving. 2022. Modèles linguistiques d'équipe rouge avec modèles linguistiques.
14. Eric Wallace, Tony Zhao, Shi Feng et Sameer Singh. Attaques d'empoisonnement des données dissimulées sur les modèles NLP.
15. Shaofeng Li, Tian Dong, Benjamin Zi Hao Zhao, Minhui Xue, Suguo Du et Haojin Zhu. 2022. Backdoors against natural language processing: A review. IEEE Security & Privacy, 20(5):50–59
16. Yujin Huang, Terry Yue Zhuo, Qiongkai Xu, Han Hu, Xingliang Yuan et Chunyang Chen. 2023. Attaques de porte dérobée lexicale sans formation sur les modèles de langage.
17. Expliquer SolidGoldMagikarp en le regardant dans des directions aléatoires
18. Fábio Perez et Ian Ribeiro. 2022. Ignorer précédent : Techniques d'attaque pour les modèles de langage. préimpression arXiv arXiv:2211.09527.
19. Yannic Kilcher. 2022. Chatgpt : Cette IA a un jailbreak ? ! (incroyable progression de l'IA).
20. Battista Biggio et Fabio Roli. 2018. Modèles sauvages : dix ans après l'essor de l'apprentissage automatique contradictoire. Reconnaissance de formes 84 (2018), 317–331.
21. Ligeng Zhu, Zhijian Liu et Song Han. 2019. Fuite profonde des gradients. Dans Advances in Neural Information Processing s 32, H. Wallach, H. Larochelle, A. Beygelzimer, F. d'Alché-Buc, E. Fox et R. Garnett (Eds.). Curran Associates, Inc., Vancouver, Canada, 14747–14756
22. Nicholas Papernot, Patrick McDaniel, Arunesh Sinha et Michael P. Wellman. 2018. SoK : Sécurité et confidentialité dans l'apprentissage automatique. En 2018 Symposium européen IEEE sur la sécurité et la confidentialité (EuroS P). IEEE, Londres, Royaume-Uni, 399–414
23. Michael Veale, Reuben Binns et Lilian Edwards. 2018. Algorithmes qui se souviennent : attaques par inversion de modèle et loi sur la protection des données. Philosophical Transactions of the Royal Society A: Mathematical, Physical and Engineering Sciences 376, 2133 (2018), 20180083
24. Reza Shokri, Marco Stronati, Congzheng Song et Vitaly Shmatikov. 2017. Attaques d'inférence d'adhésion contre des modèles d'apprentissage automatique. En 2017 Symposium IEEE sur la sécurité et la confidentialité (SP). IEEE, San Francisco, Californie, États-Unis, 3–18
25. Sorami Hisamoto, Matt Post et Kevin Duh. 2020. Attaques par inférence d'appartenance sur les modèles séquence à séquence : mes données sont-elles dans votre traduction automatique ?
26. Congzheng Song et Vitaly Shmatikov. 2019. Audit de la provenance des données dans les modèles de génération de texte. Dans Actes de la 25e Conférence internationale ACM SIGKDD sur la découverte des connaissances et l'exploration de données (KDD '19). Association for Computing Machinery, New York, NY, États-Unis, 196–206.
27. Jinyuan Jia et Neil Zhenqiang Gong. 2018. AttriGuard : une défense pratique contre les attaques par inférence d'attribut via l'apprentissage automatique contradictoire. Au 27e Symposium sur la sécurité USENIX (USENIX Security 18).
28. Matthew Fredrikson, Eric Lantz, Somesh Jha, Simon Lin, David Page et Thomas Ristenpart. 2014. Confidentialité en pharmacogénétique : une étude de cas de bout en bout sur le dosage personnalisé de la warfarine.
29. Matthew Jagielski, Nicholas Carlini, David Berthelot, Alex Kurakin et Nicolas Papernot. 2020. Extraction haute précision et haute fidélité des réseaux de neurones
30. Binghui Wang et Neil Zhenqiang Gong. 2018. Vol d'hyperparamètres dans l'apprentissage automatique. En 2018 Symposium IEEE sur la sécurité et la confidentialité (SP). IEEE, San Francisco, Californie, États-Unis, 36–52
31. Seong Joon Oh, Max Augustin, Mario Fritz et Bernt Schiele. 2018. Vers des réseaux de neurones à boîte noire à rétro-ingénierie. Dans Sixième Conférence internationale sur les représentations de l'apprentissage. ICLR, Vancouver, Canada.
*32. Cynthia Dwork et Aaron Roth. 2013. Les fondements algorithmiques de la confidentialité différentielle. Fondements et tendances en informatique théorique 9, 3-4 (2013), 211–487 *
Voir l'original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
En parlant de confidentialité des données de grands modèles, plusieurs méthodes d'attaque de modèle courantes
Source originale : Oasis Capital
Auteur : Conseiller Vitalité
Le 20 mars 2023, une violation de données s'est produite sur ChatGPT, exposant les informations personnelles de certains utilisateurs de ChatGPT. Compte tenu de cela, le régulateur italien de la confidentialité estime que ChatGPT est soupçonné de traiter illégalement des données personnelles, de violer la vie privée et de violer les réglementations GDPR pertinentes. L'Italie est ensuite devenue le premier pays à interdire l'utilisation de ChatGPT, déclenchant des discussions dans d'autres pays de l'UE sur la nécessité de mesures plus strictes pour contrôler la technologie.
Presque tous les services en ligne collectent nos données personnelles et peuvent utiliser ces données pour la formation LLM. Cependant, il est difficile de déterminer comment le modèle utilisera les données utilisées pour la formation. Si des données sensibles telles que l'emplacement géographique, les dossiers de santé et les informations d'identité sont utilisées dans la formation du modèle, les attaques d'extraction de données contre les données privées du modèle entraîneront un grand nombre de fuites de confidentialité des utilisateurs. L'article "Are Large Pre-Trained Language Models Leaking Your Personal Information?" prouve qu'en raison de la mémoire des données de formation de LLM, LLM a le risque de divulguer des informations personnelles pendant le processus de dialogue, et ce risque augmente avec le nombre d'exemples. .
Il existe plusieurs raisons pour lesquelles un modèle divulgue des informations. Certaines d'entre elles sont structurelles et liées à la manière dont le modèle est construit ; d'autres sont dues à une mauvaise généralisation, à la mémorisation de données sensibles, etc. Dans le prochain article, nous présenterons d'abord le processus de fuite de données de base, puis présenterons plusieurs méthodes d'attaque de modèle commun telles que l'attaque de la vie privée, le jailbreak, l'empoisonnement des données et l'attaque par porte dérobée, et enfin présenterons certaines recherches actuelles sur la protection de la vie privée.
I. Modélisation des menaces
Un modèle de menace LLM de base comprend un environnement de modèle général, divers acteurs et actifs sensibles. Les actifs sensibles incluent les ensembles de données d'entraînement, les paramètres de modèle, les hyperparamètres de modèle et l'architecture. Les participants incluent : le propriétaire des données, le propriétaire du modèle, le consommateur du modèle et l'adversaire. Le schéma suivant décrit les actifs, les acteurs, le flux d'informations et le flux opérationnel possible dans un modèle de menace :
II. Attaque de confidentialité
Les attaques de confidentialité se répartissent en quatre types principaux : les attaques par inférence d'appartenance, les attaques de reconstruction, les attaques par inférence d'attribut et l'extraction de modèle.
L'inférence d'appartenance tente de déterminer si un échantillon d'entrée x est utilisé dans le cadre de l'ensemble d'apprentissage D. Par exemple, dans des circonstances normales, les données privées de l'utilisateur resteront confidentielles, mais les informations non sensibles peuvent toujours être utilisées à des fins spéculatives. Par exemple, si nous savons que les membres d'un club privé aiment porter des lunettes de soleil violettes et des chaussures en cuir rouge, nous pouvons en déduire qu'il s'agit probablement de cette personne lorsque nous rencontrons une personne qui porte des lunettes de soleil violettes et des chaussures en cuir rouge (informations non sensibles ) Adhésion à des clubs privés (informations sensibles).
L'attaque par inférence d'appartenance est actuellement le moyen d'attaque de confidentialité le plus populaire, qui a été proposé pour la première fois par Shokri et al. dans l'article "Attaques par inférence d'appartenance contre les modèles d'apprentissage automatique". L'article souligne que cette attaque ne suppose que la connaissance du vecteur de prédiction de sortie du modèle et est menée contre des modèles d'apprentissage automatique supervisés. L'accès aux paramètres et aux gradients du modèle permet des attaques d'inférence d'appartenance plus précises.
Une méthode typique d'attaque par inférence d'appartenance est appelée attaque fantôme, c'est-à-dire former un modèle fantôme basé sur des ensembles de données accessibles connus, puis obtenir des informations sensibles en interrogeant le modèle fantôme.
En plus des modèles d'apprentissage supervisé, les modèles génératifs tels que les GAN et les VAE sont également vulnérables aux attaques par inférence d'appartenance. "GAN-Leaks : A Taxonomy of Membership Inference Attacks against Generative Models" introduit les problèmes du GAN face aux attaques de raisonnement des membres ; "LOGAN : Membership inference attack against generative models" introduit d'autres modèles génératifs dans le raisonnement des membres Réponse à l'attaque, et présente comment récupérer des données d'entraînement en fonction de la compréhension des composants de génération de données ; les modèles (MLM) sont également vulnérables aux attaques MIA, qui, dans certains cas, peuvent déterminer si les données d'échantillon appartiennent aux données d'entraînement.
D'autre part, le raisonnement d'appartenance peut également être utilisé pour l'examen de la sécurité du modèle, et les propriétaires de données peuvent utiliser le raisonnement d'appartenance pour examiner les modèles de boîte noire. "Attaques par inférence d'appartenance sur les modèles séquence à séquence : mes données sont-elles dans votre traduction automatique ?" décrit comment les propriétaires de données peuvent voir si les données sont utilisées sans autorisation.
"Les attaques par inférence d'adhésion contre les modèles d'apprentissage automatique" examinent le lien entre le surajustement et l'inférence d'adhésion de la boîte noire. Les auteurs mesurent l'impact du surajustement sur la précision des attaques en utilisant le même ensemble de données pour former des modèles dans différentes plates-formes MLaaS. . Les expériences montrent que le surajustement peut entraîner des fuites de confidentialité, mais soulignent également que ce n'est pas le seul cas, car certains modèles à haut degré de généralisation sont plus sujets aux fuites d'adhésion.
Les attaques de reconstruction tentent de reconstruire plusieurs échantillons d'apprentissage avec leurs étiquettes d'apprentissage, c'est-à-dire qu'elles tentent de récupérer des caractéristiques sensibles ou des échantillons de données complets à partir d'étiquettes de sortie et d'une connaissance partielle de certaines caractéristiques. Par exemple, grâce à l'inversion du modèle, les informations obtenues sur l'interface du modèle sont reconstruites à l'envers, et les informations sensibles à l'utilisateur telles que les caractéristiques biologiques et les dossiers médicaux dans les données d'entraînement sont restaurées, comme illustré dans la figure suivante :
Les attaques par inférence d'attribut font référence à l'utilisation d'attributs et de structures visibles publiquement pour déduire des données d'attribut cachées ou incomplètes. Un exemple est l'extraction d'informations sur le ratio hommes/femmes dans un ensemble de données de patients, ou pour un modèle classé par sexe pour déduire si les personnes dans un ensemble de données de formation portent des lunettes. Dans certains cas, ce type de fuite peut affecter la confidentialité.
"Hacking Smart Machines with Smarter Ones: How to Extract Meaningful Data from Machine Learning Classifiers" mentionne que l'exploitation de certains types de données d'attributs peut également être utilisée pour acquérir une compréhension plus approfondie des données de formation, amenant d'autres à utiliser ces informations pour reconstituer un image plus globale.
L'article "Vous êtes qui vous connaissez et comment vous vous comportez : Attaques par inférence d'attribut via les amis sociaux et les comportements des utilisateurs" présente un type de méthode d'attaque par inférence d'attribut, qui consiste à verrouiller et à extraire d'autres informations de l'utilisateur via le comportement connu du utilisateur lui-même. "AttriGuard : une défense pratique contre les attaques par inférence d'attribut via l'apprentissage automatique contradictoire" présente certaines méthodes de défense pour faire face aux attaques par inférence d'attribut.
Le raisonnement par attributs vise à extraire des informations du modèle qui sont involontairement apprises par le modèle, ou qui ne sont pas pertinentes pour la tâche de formation. Même les modèles bien généralisés peuvent apprendre des propriétés liées à l'ensemble de la distribution des données d'entrée, ce qui est parfois inévitable pour le processus d'apprentissage de la formation de modèles.
"L'exploitation des fuites de fonctionnalités involontaires dans l'apprentissage collaboratif" démontre que les attaques par inférence d'attribut sont possibles même avec des modèles bien généralisés, de sorte que le surajustement ne semble pas être la cause des attaques par inférence d'attribut. En ce qui concerne les attaques par inférence d'attribut, il existe actuellement peu d'informations sur ce qui les cause et dans quelles circonstances elles semblent être efficaces, ce qui peut être une direction prometteuse pour les recherches futures.
L'extraction de modèle est une classe d'attaques par boîte noire dans laquelle un adversaire tente d'extraire des informations et éventuellement de reconstruire complètement un modèle en créant un modèle de substitution qui se comporte de manière très similaire au modèle attaqué.
« Model Extraction of BERT-based APIs », « Model Reconstruction from Model Explanations », « Knockoff nets: Stealing feature of black-box models », « High Accuracy and High Fidelity Extraction of Neural Networks », plusieurs articles expliqués sous différents angles Quelques tentatives lors d'attaques d'extraction de modèles.
Il y a deux étapes principales dans la création d'un modèle de substitution : la première étape est l'extraction de la précision de la tâche, où un ensemble de tests pertinent pour la tâche d'apprentissage est extrait de la distribution des données d'entrée pour créer un modèle qui correspond à la précision du modèle cible. La deuxième étape est l'extraction de fidélité, c'est-à-dire faire correspondre les substituts créés au modèle dans un ensemble de non liés à la tâche d'apprentissage pour s'adapter à la cible. Dans l'extraction précise des tâches, l'objectif est de créer un substitut qui peut apprendre la même tâche aussi bien ou mieux que le modèle cible. Dans l'extraction de fidélité, le but est d'essayer le substitut pour reproduire la limite de décision aussi fidèlement que possible.
En plus de créer des modèles de substitution, il existe des méthodes qui se concentrent sur la récupération d'informations à partir du modèle cible, telles que le vol d'hyperparamètres dans le modèle cible mentionné dans "Vol d'hyperparamètres dans l'apprentissage automatique" ; ou "Vers l'ingénierie inverse des réseaux de neurones à boîte noire" sur l'extraction des fonctions d'activation, des algorithmes d'optimisation, du nombre de couches, etc. pour diverses architectures de réseaux de neurones, etc.
L'article "Towards Reverse-Engineering Black-Box Neural Networks" montre que lorsqu'un modèle avec un jeu de test supérieur à 98% est attaqué, il est possible de voler les paramètres du modèle via une attaque d'extraction. De plus, il est démontré dans "ML-Doctor : Holistic Risk Assessment of Inference Attacks Against Machine Learning Models" que les modèles avec une erreur de généralisation plus élevée sont plus difficiles à voler, peut-être parce que le modèle mémorise des ensembles de données qui n'appartiennent pas à l'attaquant des échantillons. Un autre facteur qui peut affecter le taux de réussite de l'extraction du modèle est la catégorie de données de l'ensemble de test. Lorsqu'il y a plus de catégories de données, cela entraînera une dégradation des performances d'attaque.
III. Modèle de jailbreak
Le jailbreak de modèle consiste à faire en sorte que LLM produise des comportements de sortie dégénérés à certains égards, tels qu'une sortie offensante, une violation de la sortie de supervision de contenu ou une sortie de fuite de données privées. De plus en plus d'études montrent que même les utilisateurs non experts peuvent jailbreaker LLM en manipulant simplement les invites.
Par exemple, dans l'exemple suivant, l'objectif du développeur est de créer un modèle de traduction. Il y a deux utilisateurs dans le scénario, le premier utilisateur est bénin et utilise le modèle pour son cas d'utilisation prévu, tandis que le second essaie de changer l'objectif du modèle en fournissant une entrée malveillante. Dans cet exemple, le modèle de langage répond par "Haha pwned !!" au lieu de traduire réellement la phrase. Dans cette situation de jailbreak, la réponse du modèle peut être conçue avec une variété d'intentions, allant du détournement de cible (le simple fait de ne pas exécuter la tâche) à la génération de texte raciste offensant, ou même à la publication d'informations privées et exclusives.
L'empoisonnement des données est un type particulier d'attaque contradictoire, qui est une technique d'attaque contre le comportement des modèles génératifs. Les acteurs malveillants peuvent utiliser l'empoisonnement des données pour s'ouvrir une porte dérobée dans le modèle, contournant ainsi les systèmes contrôlés par algorithme.
Pour l'œil humain, les trois images ci-dessous montrent trois choses différentes : un oiseau, un chien et un cheval. Mais pour les algorithmes d'apprentissage automatique, les trois signifient probablement la même chose : une petite boîte blanche avec une bordure noire. Cet exemple illustre une propriété dangereuse des modèles d'apprentissage automatique qui peut être exploitée pour mal classer les données.
L'article "RealToxicitys: uating neural toxic degeneration in language models" mentionnait un moyen de fournir à GPT-2 un ensemble d'invites textuelles pour exposer les paramètres internes de son modèle. "Attaques d'empoisonnement des données cachées sur les modèles NLP" explore comment les données de formation peuvent être modifiées pour provoquer un dysfonctionnement des modèles de langage afin de générer du texte qui n'est pas sur la cible.
Bien que l'empoisonnement des données soit très dangereux, il nécessite que l'attaquant ait accès au pipeline de formation du modèle d'apprentissage automatique avant que le modèle empoisonné puisse être distribué. Par conséquent, les modèles qui collectent en permanence des itérations de données, ou les modèles basés sur l'apprentissage fédéré, doivent accorder une attention particulière à l'impact de l'empoisonnement des données.
V. Attaque par porte dérobée
Une attaque de porte dérobée fait référence à l'insertion ou à la modification subreptice de texte pour provoquer une sortie malveillante à partir d'un modèle de langage. L'article "Portes dérobées contre le traitement du langage naturel : une revue" introduit le problème des attaques par porte dérobée, où certaines vulnérabilités sont transmises au modèle pendant la formation et peuvent déclencher l'activation de la toxicité du modèle grâce à l'utilisation du vocabulaire.
Il diffère de l'empoisonnement des données en ce que la fonctionnalité attendue du modèle est préservée. « Attaques de porte dérobée lexicale sans formation sur les modèles de langage » propose une méthode appelée l'attaque de porte dérobée lexicale sans formation (TFLexAttack), qui consiste à manipuler le dictionnaire d'intégration en introduisant des « déclencheurs » lexicaux dans le tokenizer du modèle de langage.
Phénomène SolidGoldMagikarp
Le phénomène SolidGoldMgikarp est un phénomène typique d'attaque par porte dérobée**,** lorsque vous saisissez "SolidGoldMgikarp" dans ChatGPT, il ne répond qu'à un seul mot : "distribuer". Lorsqu'on lui demande de répéter « StreamerBot », il répond : « Tu es un abruti ». Lorsqu'on lui a demandé de répéter "TheNitromeFan", il a répondu "182". Et si vous mettez des guillemets simples autour du mot, sa réponse est un "Le". Lorsqu'on lui a demandé qui était TheNitromeFan, ChatGPT a répondu : "182 est un nombre, pas une personne. Il est souvent utilisé pour faire référence au nombre lui-même."
Le phénomène SolidGoldMagikarp fait référence à l'utilisation du tokenizer GPT d'OpenAI pour identifier des jetons spécifiques dont le modèle ne peut pas parler, ainsi que des jetons qui amènent le modèle à produire du texte brouillé. L'article "Explaining SolidGoldMagikarp by looking at random directions" explore les raisons possibles derrière ce phénomène.
Voici quelques-uns des types d'attaques de porte dérobée les plus fréquentes et les plus importantes
A. Basé sur la commande
a. Instructions directes : Ces attaques peuvent principalement faire référence à "Ignorer le précédent : techniques d'attaque pour les modèles de langage", qui demande simplement au modèle d'ignorer ses conseils précédents et d'assigner de nouvelles tâches à l'emplacement actuel.
b. Attaques cognitives : Le type d'attaque le plus courant, où le LLM le "trompe" généralement pour qu'il effectue des actions mal placées qu'il n'effectuerait pas autrement en fournissant un "espace sûr" ou en garantissant une telle réponse. "Chatgpt : cette IA a un jailbreak ? !" documente certaines tentatives d'attaques de ce type contre ChatGPT.
c. Répétition d'instruction : Ces types d'attaques impliquent la saisie de la même instruction plusieurs fois afin de donner l'impression que l'attaquant "supplie" le modèle de langage. La mendicité au sens littéral peut aussi s'exprimer par des mots.
d. Déviation de mission indirecte : Cette attaque se concentre sur le fait de se faire passer pour une autre mission malveillante. Cette attaque cible les modèles qui ne suivent généralement pas les instructions malveillantes
B. Basé sur des non-instructions
a. Transformation grammaticale : Ce type d'attaque implique une transformation orthogonale du texte d'attaque, comme l'utilisation de LeetSpeak ou Base64, pour contourner les filtres de contenu qui peuvent exister dans l'application, et le modèle peut intrinsèquement transformer ce texte encodé .
b. Quelques hacks : Une approche simple impliquant des paradigmes de formation de modèles linguistiques. Dans cette approche, l'attaque intègre plusieurs fonctionnalités textuelles qui peuvent viser des modèles égarés par malveillance. Par exemple, le phénomène SolidGoldMagikarp entre dans cette catégorie.
c. Achèvement de texte en tant qu'instructions : ces attaques fonctionnent en alimentant le modèle avec des phrases incomplètes, forçant ainsi le modèle à terminer la phrase et, ce faisant, en ignorant ses instructions précédentes, ce qui entraîne un mauvais placement.
Rechercher comment se défendre contre les attaques de modèles est une tâche difficile et importante. La plupart des articles sur l'analyse de la sécurité proposent et testent des moyens d'atténuer les attaques correspondantes. Voici quelques méthodes de défense typiques.
La confidentialité différentielle est actuellement l'une des défenses les plus importantes contre les attaques par inférence d'appartenance, qui fournit des garanties de sécurité pour les données individuelles dans la sortie du modèle. La discussion sur la confidentialité différentielle provient de l'article "Les fondements algorithmiques de la confidentialité différentielle".
La confidentialité différentielle ajoute du bruit à la sortie du modèle, ce qui rend impossible pour l'attaquant de distinguer strictement les deux ensembles de données statistiquement en fonction de la sortie. La confidentialité différentielle était à l'origine une définition de la confidentialité pour l'analyse des données, qui a été conçue sur la base de l'idée "d'apprendre des informations utiles sur une population sans connaître aucun individu". La confidentialité différentielle ne protège pas la sécurité de la confidentialité de l'ensemble de données global, mais protège les données privées de chaque individu dans l'ensemble de données via le mécanisme de bruit.
La définition mathématique de la confidentialité différentielle est la suivante :
Les techniques de régularisation en apprentissage automatique visent à réduire le surajustement et à améliorer les performances de généralisation du modèle. L'abandon est une forme de régularisation couramment utilisée qui supprime de manière aléatoire un pourcentage prédéfini d'unités de réseau neuronal pendant l'entraînement. Étant donné que les attaques par inférence d'appartenance à la boîte noire sont liées au surajustement, il s'agit d'une manière sensée de faire face à de telles attaques, et plusieurs articles l'ont proposé comme une défense avec de bons résultats.
Une autre forme de régularisation utilisant des techniques qui combinent plusieurs modèles entraînés séparément, comme l'empilement de modèles, a donné des résultats positifs contre les attaques par inférence. L'un des avantages de l'empilement de modèles ou de techniques similaires est qu'ils sont indépendants des classes de modèles.
Étant donné que de nombreux modèles supposent que le vecteur de prédiction est accessible lors de l'inférence, l'une des contre-mesures proposées consiste à restreindre la sortie aux meilleures classes ou prédictions du modèle. Cependant, cette limitation, même dans sa forme la plus stricte (ne produisant que des étiquettes de classe), ne semble pas atténuer complètement les attaques par inférence d'appartenance, car des fuites d'informations peuvent toujours se produire en raison d'une mauvaise classification du modèle. Une autre option consiste à réduire la précision des vecteurs prédits, réduisant ainsi les fuites d'informations.
De plus, il a été démontré que l'ajout de bruit au vecteur de sortie affecte également les attaques par inférence d'appartenance.
Étant donné que les attaques de reconstruction nécessitent généralement un accès aux gradients de perte pendant l'entraînement, la plupart des défenses contre les attaques de reconstruction proposent des techniques qui affectent les informations extraites de ces gradients. La définition de tous les gradients de perte en dessous d'un certain seuil à zéro est proposée comme une défense contre les attaques de reconstruction dans l'apprentissage en profondeur. L'article "Deep Leakage from Gradients" prouve que cette méthode est très efficace, et lorsque seulement 20% des gradients sont mis à zéro, l'impact sur les performances du modèle est négligeable.
"PRADA : protection contre les attaques de vol de modèle DNN" propose une méthode de détection des attaques de vol de modèle basée sur des requêtes de modèle utilisées par l'adversaire. La détection est basée sur l'hypothèse que les requêtes de modèle qui tentent d'explorer les limites de décision auront une distribution d'échantillon différente de celle des requêtes normales. Bien que la détection réussisse, les auteurs soulignent qu'il existe un potentiel d'évasion si l'adversaire ajuste sa stratégie.
"Thieves on Sesame Street! Model Extraction of BERT-based APIs" examine l'idée d'utiliser l'inférence d'appartenance pour se défendre contre l'extraction de modèles. Il est basé sur la prémisse qu'en utilisant l'inférence d'appartenance, les propriétaires de modèles peuvent distinguer les requêtes d'utilisateurs légitimes des requêtes absurdes dont le seul but est d'extraire des modèles. Les auteurs soulignent que ce type de défense a des limites, telles que le signalement potentiel des requêtes légitimes mais hors distribution émises par des utilisateurs légitimes, mais plus important encore, elles peuvent être contournées par des adversaires effectuant des requêtes adaptatives.
Dans "Contrôle de l'extraction de données mémorisées à partir de grands modèles de langage via -Tuning", une nouvelle méthode est proposée qui utilise le réglage de l'indice pour contrôler le taux d'extraction du contenu mémorisé dans LLM. Ils proposent deux stratégies d'entraînement pour augmenter et diminuer le taux d'extraction, correspondant respectivement à l'attaque et à la défense.
VII. Conclusion
LLM présente toujours un risque de sécurité et un risque de fuite de confidentialité relativement importants
L'attaque pour extraire la structure et les données du modèle est essentiellement une attaque contre la confidentialité du modèle
La principale recherche dans la communauté académique se concentre actuellement sur la façon d'attaquer le modèle et le principe de fuite de données
Une partie du mécanisme à l'origine de la fuite de données de LLM n'est toujours pas claire
Comme la confidentialité différentielle, la falsification des vecteurs de prédiction, etc. peuvent protéger la confidentialité des données dans une certaine mesure, et ces méthodes sont concentrées dans la phase de formation du modèle
Les mesures de protection existantes ne sont pas parfaites et doivent sacrifier les performances et la précision du modèle
________
Référence:
1. Kalpesh Krishna, Gaurav Singh Tomar, Ankur P. Parikh, Nicolas Papernot et Mohit Iyyer. 2020. Voleurs sur Sesame Street ! Extraction de modèles d'API basées sur BERT. In Conférence internationale sur les représentations de l'apprentissage. ICLR, Conférence virtuelle, anciennement Addis-Abeba, Éthiopie.
2. Le partageur de secret : vérifier et tester la mémorisation involontaire dans les réseaux de neurones
3. Martín Abadi, Andy Chu, Ian J. Goodfellow, HB McMahan, Ilya Mironov, Kunal Talwar et Li Zhang. 2016. Apprentissage en profondeur avec confidentialité différentielle
4. Giuseppe Athenian, Luigi V. Mancini, Angelo Spognardi, Antonio Villani, Domenico Vitali et Giovanni Felici. 2015. Hacking Smart Machines with Smarter Ones : Comment extraire des données significatives à partir de classificateurs d'apprentissage automatique.
5. Bargav Jayaraman et David Evans. 2019. Mise en pratique de l'apprentissage automatique différentiel privé. Au 28e Symposium sur la sécurité USENIX (USENIX Security 19). Association USENIX, Santa Clara, Californie, 1895–1912
6. Défendre les attaques par inférence d'appartenance sans perdre d'utilité
7. Yugeng Liu, Rui Wen, Xinlei He, Ahmed Salem, Zhikun Zhang, Michael Backes, Emiliano De Cristofaro, Mario Fritz et Yang Zhang. 2021. ML-Doctor : Évaluation holistique des risques d'attaques par inférence contre les modèles d'apprentissage automatique
8. Inciter les LLM à désobéir : comprendre, analyser et prévenir les jailbreaks
9. Maria Rigaki et Sébastien Garcia. 2021. Une enquête sur les attaques contre la vie privée dans l'apprentissage automatique
dix. Nicholas Carlini, Florian Tramer, Eric Wallace, Matthew Jagielski, Ariel Herbert-Voss, Katherine Lee, Adam Roberts, Tom Brown, Dawn Song, Ul-far Erlingsson, Alina Oprea et Colin Raffel. 2021. Extraction de données d'entraînement à partir de grands modèles de langage
11. Samuel Gehman, Suchin Gururangan, Maarten Sap, Yejin Choi et Noah A. Smith. 2020. RealToxi-city s : uating de la dégénérescence toxique neurale dans les modèles de langage.
12. Wenlong Huang, Pieter Abbeel, Deepak Pathak et Igor Mordatch. 2022b. Modèles de langage en tant que planificateurs zéro coup : extraire des connaissances exploitables pour les agents incarnés. Dans ICML 2022, volume 162 des Actes de recherche sur l'apprentissage automatique, pages 9118–9147. PMLR
13. Ethan Perez, Saffron Huang, Francis Song, Trevor Cai, Roman Ring, John Aslanides, Amelia Glaese, Nat McAleese et Geoffrey Irving. 2022. Modèles linguistiques d'équipe rouge avec modèles linguistiques.
14. Eric Wallace, Tony Zhao, Shi Feng et Sameer Singh. Attaques d'empoisonnement des données dissimulées sur les modèles NLP.
15. Shaofeng Li, Tian Dong, Benjamin Zi Hao Zhao, Minhui Xue, Suguo Du et Haojin Zhu. 2022. Backdoors against natural language processing: A review. IEEE Security & Privacy, 20(5):50–59
16. Yujin Huang, Terry Yue Zhuo, Qiongkai Xu, Han Hu, Xingliang Yuan et Chunyang Chen. 2023. Attaques de porte dérobée lexicale sans formation sur les modèles de langage.
17. Expliquer SolidGoldMagikarp en le regardant dans des directions aléatoires
18. Fábio Perez et Ian Ribeiro. 2022. Ignorer précédent : Techniques d'attaque pour les modèles de langage. préimpression arXiv arXiv:2211.09527.
19. Yannic Kilcher. 2022. Chatgpt : Cette IA a un jailbreak ? ! (incroyable progression de l'IA).
20. Battista Biggio et Fabio Roli. 2018. Modèles sauvages : dix ans après l'essor de l'apprentissage automatique contradictoire. Reconnaissance de formes 84 (2018), 317–331.
21. Ligeng Zhu, Zhijian Liu et Song Han. 2019. Fuite profonde des gradients. Dans Advances in Neural Information Processing s 32, H. Wallach, H. Larochelle, A. Beygelzimer, F. d'Alché-Buc, E. Fox et R. Garnett (Eds.). Curran Associates, Inc., Vancouver, Canada, 14747–14756
22. Nicholas Papernot, Patrick McDaniel, Arunesh Sinha et Michael P. Wellman. 2018. SoK : Sécurité et confidentialité dans l'apprentissage automatique. En 2018 Symposium européen IEEE sur la sécurité et la confidentialité (EuroS P). IEEE, Londres, Royaume-Uni, 399–414
23. Michael Veale, Reuben Binns et Lilian Edwards. 2018. Algorithmes qui se souviennent : attaques par inversion de modèle et loi sur la protection des données. Philosophical Transactions of the Royal Society A: Mathematical, Physical and Engineering Sciences 376, 2133 (2018), 20180083
24. Reza Shokri, Marco Stronati, Congzheng Song et Vitaly Shmatikov. 2017. Attaques d'inférence d'adhésion contre des modèles d'apprentissage automatique. En 2017 Symposium IEEE sur la sécurité et la confidentialité (SP). IEEE, San Francisco, Californie, États-Unis, 3–18
25. Sorami Hisamoto, Matt Post et Kevin Duh. 2020. Attaques par inférence d'appartenance sur les modèles séquence à séquence : mes données sont-elles dans votre traduction automatique ?
26. Congzheng Song et Vitaly Shmatikov. 2019. Audit de la provenance des données dans les modèles de génération de texte. Dans Actes de la 25e Conférence internationale ACM SIGKDD sur la découverte des connaissances et l'exploration de données (KDD '19). Association for Computing Machinery, New York, NY, États-Unis, 196–206.
27. Jinyuan Jia et Neil Zhenqiang Gong. 2018. AttriGuard : une défense pratique contre les attaques par inférence d'attribut via l'apprentissage automatique contradictoire. Au 27e Symposium sur la sécurité USENIX (USENIX Security 18).
28. Matthew Fredrikson, Eric Lantz, Somesh Jha, Simon Lin, David Page et Thomas Ristenpart. 2014. Confidentialité en pharmacogénétique : une étude de cas de bout en bout sur le dosage personnalisé de la warfarine.
29. Matthew Jagielski, Nicholas Carlini, David Berthelot, Alex Kurakin et Nicolas Papernot. 2020. Extraction haute précision et haute fidélité des réseaux de neurones
30. Binghui Wang et Neil Zhenqiang Gong. 2018. Vol d'hyperparamètres dans l'apprentissage automatique. En 2018 Symposium IEEE sur la sécurité et la confidentialité (SP). IEEE, San Francisco, Californie, États-Unis, 36–52
31. Seong Joon Oh, Max Augustin, Mario Fritz et Bernt Schiele. 2018. Vers des réseaux de neurones à boîte noire à rétro-ingénierie. Dans Sixième Conférence internationale sur les représentations de l'apprentissage. ICLR, Vancouver, Canada.
*32. Cynthia Dwork et Aaron Roth. 2013. Les fondements algorithmiques de la confidentialité différentielle. Fondements et tendances en informatique théorique 9, 3-4 (2013), 211–487 *