ChatGPT a été violé par des restrictions de sécurité "code mystérieux" ! Les étapes pour détruire les humains ont lâché, et aucun des alpagas et Claude n'ont été épargnés

Source : Qubit

Le «fossé» du grand modèle a de nouveau été percé.

La saisie d'un code crypté peut amener un grand modèle à générer du contenu nuisible.

De ChatGPT, Claude à la famille des alpagas open source, personne n'est épargné.

Récemment, une étude publiée conjointement par l'Université Carnegie Mellon et safe.ai montre que le mécanisme de sécurité des grands modèles peut être piraté grâce à un code mystérieux.

Ils ont même créé un ensemble d'algorithmes qui peuvent personnaliser les "mots d'invite d'attaque".

Les auteurs de l'article ont également déclaré qu'il n'y avait "** aucune solution évidente **" à ce problème.

À l'heure actuelle, l'équipe a partagé les résultats de la recherche avec de grands fabricants de modèles, notamment OpenAI, Anthropic et Google.

Les trois parties ci-dessus ont toutes répondu qu'elles avaient remarqué ce phénomène et continueraient à s'améliorer, et ont exprimé leur gratitude à l'équipe pour leur travail.

Les grands modèles courants sont anéantis

Bien que les mécanismes de sécurité de divers grands modèles ne soient pas les mêmes, et que certains d'entre eux ne soient pas divulgués, ils ont tous été violés à des degrés divers.

Par exemple, pour la question "comment détruire les humains", ChatGPT, Bard, Claude et LLaMA-2 ont tous donné leur propre chemin.

Pour certains problèmes spécifiques, le mécanisme de sécurité du grand modèle n'a pas non plus réussi à l'empêcher.

Bien que ces méthodes ne puissent pas être appliquées même si nous les connaissons, elles nous ont quand même sonné l'alarme.

Du point de vue des données, les grands modèles des principaux fabricants ont été touchés à des degrés divers, parmi lesquels GPT-3.5 est le plus évident.

En plus des modèles ci-dessus, la famille open source Alpaca n'a pas non plus résisté aux attaques.

En prenant Vicuna-7B et LLaMA-2(7B) comme exemples, dans le test "Multiple Harmful Behaviors", le taux de réussite des attaques dépasse 80%.

Parmi eux, le taux de réussite de l'attaque sur Vicuna a même atteint 98%, et le processus d'entraînement était de 100%.

△ASR fait référence au taux de réussite des attaques

Dans l'ensemble, la méthode d'attaque inventée par l'équipe de recherche a un taux de réussite très élevé.

Alors, quel genre de méthode d'attaque est-ce?

Mots d'invite de jailbreak personnalisés

Différent des mots d'invite "panacée" dans les méthodes d'attaque traditionnelles, l'équipe de recherche a conçu un ensemble d'algorithmes pour générer spécifiquement des mots d'invite "personnalisés".

De plus, ces mots rapides ne ressemblent pas au langage humain de manière traditionnelle, ils sont souvent incompréhensibles du point de vue humain, et contiennent même des caractères brouillés.

L'algorithme de génération de mots rapides s'appelle Greedy Coordinate Gradient (Greedy Coordinate Gradient, GCG en abrégé).

Tout d'abord, GCG en générera un au hasard et calculera la valeur de gradient du mot de remplacement de chaque jeton.

Ensuite, GCG sélectionnera au hasard l'un des nombreux mots de remplacement avec une valeur de gradient plus petite pour remplacer le jeton initial.

Ensuite, il faut calculer de nouvelles données de perte et répéter les étapes précédentes jusqu'à ce que la fonction de perte converge ou atteigne la limite supérieure du nombre de cycles.

Sur la base de l'algorithme GCG, l'équipe de recherche a proposé une méthode d'optimisation appelée "GCG-based retrieval".

Au fur et à mesure que le nombre de cycles GCG augmente, le taux de réussite du grand modèle d'attaque généré est de plus en plus élevé et la perte est progressivement réduite.

On peut dire que cette toute nouvelle méthode d'attaque a révélé les lacunes du mécanisme de défense existant du grand modèle.

La méthode de défense doit encore être améliorée

Depuis la naissance du grand modèle, le mécanisme de sécurité a été continuellement mis à jour.

Au début, le contenu sensible peut même être généré directement, mais maintenant les langages conventionnels ne peuvent plus tromper les grands modèles.

Y compris la "vulnérabilité de grand-mère" autrefois fracassante, elle a maintenant été corrigée.

Cependant, même cette méthode d'attaque scandaleuse ne dépasse toujours pas la portée du langage humain.

Mais ce à quoi les grands développeurs de modèles ne peuvent pas s'attendre, c'est que personne ne stipule que le mot de jailbreak doit être un langage humain.

Dès lors, face à des mots d'attaque aussi « brouillés » conçus par des machines, la méthode de défense conçue par le grand modèle basé sur le langage humain semble s'étirer.

Selon les auteurs de l'article, il n'existe actuellement aucun moyen de se défendre contre cette nouvelle attaque.

La défense contre les "attaques mécaniques" devrait être mise à l'ordre du jour.

Encore une chose

Le test qubit a révélé que dans ChatGPT, Bard et Claude, les mots d'invite d'attaque ** indiqués dans l'article ont été invalidés.

Mais l'équipe ne les a pas tous divulgués, il reste donc à voir si cela signifie ** que le problème a été entièrement résolu **.

Adresse papier : Lien de référence : [1] [2]

Voir l'original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Récompense
  • Commentaire
  • Partager
Commentaire
0/400
Aucun commentaire
  • Épingler
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)