ChatGPT, Llama-2 et d’autres grands modèles peuvent en déduire vos données de confidentialité !

Source originale : Communauté ouverte de l’AIGC

Source de l’image : Généré par Unbounded AI

Quelle est la puissance des grands modèles de langage comme ChatGPT pour le raisonnement ? À partir des publications que vous avez faites ou de certaines données privées, vous pouvez déduire votre adresse, votre âge, votre sexe, votre profession, vos revenus et d’autres données privées.

L’École polytechnique fédérale de Zurich a collecté et annoté manuellement PersonalReddit, un ensemble de données réelles de 520 utilisateurs de Reddit, y compris des données privées telles que l’âge, l’éducation, le sexe, la profession, l’état matrimonial, le lieu de résidence, le lieu de naissance et le revenu.

Ensuite, les chercheurs ont utilisé neuf grands modèles de langage courants, dont GPT-4, Claude-2 et Llama-2, pour effectuer des questions spécifiques et l’inférence des données de confidentialité sur l’ensemble de données PersonalReddit.

Les résultats montrent que ces modèles peuvent atteindre un taux de précision de 95,8 % dans le top 1 et 95,8 % du top 3, et peuvent déduire automatiquement une variété de données réelles de confidentialité cachées dans le texte simplement en analysant le contenu textuel de l’utilisateur. **

Adresse:

Les chercheurs ont également noté qu’aux États-Unis, seule une poignée d’attributs tels que l’emplacement, le sexe et la date de naissance sont nécessaires pour déterminer l’identité exacte de la moitié de la population.

Cela signifie que si une personne illégale obtient un message ou des informations personnelles publiées par quelqu’un sur Internet et utilise un grand modèle de langage pour raisonner à ce sujet, elle peut facilement obtenir des données sensibles sur la vie privée telles que ses passe-temps quotidiens, ses habitudes de travail et de repos, sa profession professionnelle et son adresse personnelle.

Création d’un ensemble de données PersonalReddit

Les chercheurs ont construit un ensemble de données d’attributs personnels de vrais utilisateurs de Reddit, PersonalReddit. L’ensemble de données contient les biographies de 520 utilisateurs de Reddit avec un total de 5 814 commentaires. L’examen porte sur la période de 2012 à 2016.

Il existe 8 catégories d’attributs personnels, notamment l’âge, l’éducation, le sexe, la profession, l’état matrimonial, le lieu de résidence, le lieu de naissance et le revenu. Les chercheurs ont annoté manuellement chaque profil d’utilisateur pour obtenir des étiquettes d’attributs précises en tant que données réelles afin de tester l’effet d’inférence du modèle.

La construction d’un jeu de données est guidée par deux principes clés :

  1. Le contenu des commentaires doit refléter fidèlement les caractéristiques du langage utilisé sur Internet. Étant donné que les utilisateurs interagissent principalement avec les modèles de langage par le biais de plateformes en ligne, les corpus en ligne sont représentatifs et universels.

  2. Les types d’attributs personnels doivent être différents pour refléter les exigences des différents règlements sur la protection de la vie privée. Les ensembles de données existants ne contiennent souvent que 1 ou 2 catégories d’attributs, et la recherche doit évaluer la capacité du modèle à déduire un plus large éventail d’informations personnelles.

De plus, les chercheurs ont demandé aux annotateurs d’évaluer chaque attribut, indiquant à quel point il était facile d’annoter et à quel point l’annotateur était confiant. Le niveau de difficulté va de 1 (très facile) à 5 (très difficile). Si les informations sur les attributs ne sont pas disponibles directement à partir du texte, les annotateurs sont autorisés à les vérifier à l’aide d’un moteur de recherche traditionnel.

Interaction contradictoire

Compte tenu du nombre croissant d’applications de chatbot linguistique, les chercheurs ont également construit un scénario de conversation antagoniste pour simuler des interactions dans le monde réel.

Un chatbot malveillant basé sur un modèle de langage a été développé, apparemment comme un assistant de voyage utile, tandis que la tâche cachée consistait à essayer d’extraire les informations personnelles de l’utilisateur telles que son lieu de résidence, son âge et son sexe.

Dans les conversations simulées, les chatbots peuvent guider les utilisateurs pour révéler des indices pertinents grâce à des questions apparemment anodines, et déduire avec précision leurs données personnelles après plusieurs cycles d’interaction, vérifiant ainsi la faisabilité de cette approche contradictoire.

Données de test

Les chercheurs ont sélectionné neuf grands modèles de langage grand public pour les tester, y compris GPT-4, Claude-2, Llama-2 et d’autres. Tous les commentaires de chaque utilisateur sont encapsulés dans un format d’invite spécifique et introduits dans différents modèles de langage, qui sont nécessaires pour produire des inférences sur les attributs de l’utilisateur.

Ensuite, les résultats de prédiction du modèle sont comparés aux données réelles annotées par l’étiquette humaine afin d’obtenir la précision d’inférence des attributs de chaque modèle.

Les résultats expérimentaux montrent que le taux de précision global de GPT-4 atteint 84,6 % et le taux de précision de 95,1 %, ce qui est presque comparable à l’effet de l’annotation manuelle professionnelle, mais le coût n’est que d’environ 1 % de l’annotation manuelle.

Il existe également un effet d’échelle évident entre les différents modèles, et le modèle avec plus le nombre de paramètres est élevé, meilleur est l’effet. Cela prouve que les principaux modèles linguistiques actuels ont acquis une forte capacité à déduire des informations personnelles à partir d’un texte.

Évaluation des mesures de protection

Les chercheurs ont également évalué les mesures actuelles visant à protéger les données privées du client et du serveur. Côté client, ils ont testé le traitement de texte effectué par les principaux outils d’anonymisation de texte de l’industrie.

Les résultats montrent que même si la plupart des informations personnelles sont supprimées, GPT-4 peut toujours déduire avec précision des données privées, y compris la localisation et l’âge, en utilisant les caractéristiques linguistiques restantes.

Du point de vue du serveur, les modèles commerciaux existants ne sont pas alignés et optimisés pour les fuites de confidentialité, et les contre-mesures actuelles ne peuvent toujours pas empêcher efficacement l’inférence de modèles de langage.

D’une part, l’étude démontre la capacité d’inférence supérieure des grands modèles de langage tels que GPT-4 et, d’autre part, appelle à l’attention sur l’impact sur la vie privée des grands modèles de langage non seulement pour entraîner la mémoire des données, mais nécessite également des mesures de protection plus larges pour atténuer le risque de fuite de confidentialité causée par l’inférence.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Partager
Commentaire
0/400
Aucun commentaire
  • Épingler
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)