El 20 de marzo de 2023, se produjo una violación de datos en ChatGPT, que expuso la información personal de algunos usuarios de ChatGPT. En vista de esto, el regulador de privacidad de Italia cree que ChatGPT es sospechoso de procesar ilegalmente datos personales, violar la privacidad y violar las regulaciones relevantes de GDPR. Posteriormente, Italia se convirtió en el primer país en prohibir el uso de ChatGPT, lo que provocó discusiones en otros países de la UE sobre si se necesitan medidas más estrictas para controlar la tecnología.
Casi todos los servicios en línea recopilan nuestros datos personales y pueden usar estos datos para capacitar a LLM. Sin embargo, es difícil determinar cómo utilizará el modelo los datos utilizados para el entrenamiento. Si se utilizan datos confidenciales como la ubicación geográfica, los registros de salud y la información de identidad en el entrenamiento del modelo, los ataques de extracción de datos contra los datos privados en el modelo provocarán una gran cantidad de filtraciones de privacidad de los usuarios. El artículo "¿Están los grandes modelos de lenguaje preentrenado filtrando su información personal?" demuestra que, debido a la memoria de datos de entrenamiento de LLM, LLM tiene el riesgo de filtrar información personal durante el proceso de diálogo, y este riesgo aumenta con la cantidad de ejemplos. .
Hay varias razones por las que un modelo filtra información. Algunos de estos son estructurales y tienen que ver con la forma en que se construye el modelo, mientras que otros se deben a una mala generalización, memorización de datos sensibles, etc. En el próximo artículo, primero presentaremos el proceso básico de fuga de datos, luego presentaremos varios métodos de ataque de modelos comunes, como el ataque a la privacidad, el jailbreak, el envenenamiento de datos y el ataque de puerta trasera, y finalmente presentaremos algunas investigaciones actuales sobre protección de la privacidad.
I.Modelado de amenazas
Un modelo básico de amenazas LLM incluye un entorno de modelo general, varios actores y activos sensibles. Los activos confidenciales incluyen conjuntos de datos de entrenamiento, parámetros del modelo, hiperparámetros del modelo y arquitectura. Los participantes incluyen: propietario de los datos, propietario del modelo, consumidor del modelo y adversario. El siguiente diagrama muestra los activos, los actores, el flujo de información y el posible flujo operativo bajo un modelo de amenaza:
En un modelo de amenazas básico de este tipo, los propietarios de los datos poseen activos de datos privados, los propietarios del modelo poseen los parámetros del modelo y los activos de configuración, y los consumidores del modelo usan el modelo a través de la API o la interfaz de usuario. La parte que roba trata de obtener activos de datos privados o activos de parámetros de modelo a través de ciertos medios.
II. Ataque a la privacidad
Los ataques a la privacidad se dividen en cuatro tipos principales: ataques de inferencia de membresía, ataques de reconstrucción, ataques de inferencia de atributos y extracción de modelos.
Ataque de inferencia de membresía (MIA)
La inferencia de pertenencia intenta determinar si una muestra de entrada x se usa como parte del conjunto de entrenamiento D. Por ejemplo, en circunstancias normales, los datos privados del usuario se mantendrán confidenciales, pero la información no confidencial aún puede usarse para especulaciones. Un ejemplo es si sabemos que a los miembros de un club privado les gusta usar lentes de sol morados y zapatos de cuero rojo, entonces podemos inferir que probablemente sea esta persona cuando nos encontramos con una persona que usa lentes de sol morados y zapatos de cuero rojo (información no sensible). ) Pertenencia a clubes privados (información sensible).
El ataque de inferencia de membresía es actualmente la forma más popular de ataque a la privacidad, propuesta por primera vez por Shokri et al., en el artículo "Ataques de inferencia de membresía contra modelos de aprendizaje automático". El artículo señala que este ataque solo asume el conocimiento del vector de predicción de salida del modelo y se lleva a cabo contra modelos de aprendizaje automático supervisado. Tener acceso a los parámetros y gradientes del modelo permite ataques de inferencia de pertenencia más precisos.
Un método típico de ataque de inferencia de membresía se denomina ataque de sombra, es decir, entrenar un modelo de sombra basado en conjuntos de datos accesibles conocidos y luego obtener información confidencial interrogando al modelo de sombra.
Además de los modelos de aprendizaje supervisado, los modelos generativos como GAN y VAE también son vulnerables a los ataques de inferencia de pertenencia. "GAN-Leaks: A Taxonomy of Membership Inference Attacks Against Generative Models" presenta los problemas de GAN frente a los ataques de razonamiento de los miembros; "LOGAN: Membership inference attack against generative models" presenta otros modelos generativos en el razonamiento de los miembros Respuesta al ataque, y presenta cómo recuperar datos de entrenamiento basados en la comprensión de los componentes de generación de datos; los modelos (MLM) también son vulnerables a los ataques MIA, que en algunos casos pueden determinar si los datos de muestra pertenecen a los datos de entrenamiento.
Por otro lado, el razonamiento de membresía también se puede usar para la revisión de seguridad del modelo, y los propietarios de datos pueden usar el razonamiento de membresía para revisar modelos de caja negra. "Ataques de inferencia de membresía en modelos de secuencia a secuencia: ¿Están mis datos en su traducción automática?" describe cómo los propietarios de datos pueden ver si los datos se están utilizando sin autorización.
"Ataques de inferencia de membresía contra modelos de aprendizaje automático" examina el vínculo entre el sobreajuste y la inferencia de membresía de caja negra. Los autores miden el impacto del sobreajuste en la precisión del ataque mediante el uso del mismo conjunto de datos para entrenar modelos en diferentes plataformas MLaaS. . Los experimentos muestran que el sobreajuste puede conducir a la fuga de privacidad, pero también señalan que este no es el único caso, porque algunos modelos con alto grado de generalización son más propensos a la fuga de miembros.
Ataques de reconstrucción
Los ataques de reconstrucción intentan reconstruir múltiples muestras de entrenamiento junto con sus etiquetas de entrenamiento, es decir, intentan recuperar características confidenciales o muestras de datos completas con etiquetas de salida y conocimiento parcial de ciertas características. Por ejemplo, a través de la inversión del modelo, la información obtenida en la interfaz del modelo se reconstruye de manera inversa y la información confidencial del usuario, como las características biológicas y los registros médicos en los datos de entrenamiento, se restaura, como se muestra en la siguiente figura:
En los ataques de reconstrucción, los errores de generalización más altos conducen a una mayor probabilidad de inferir atributos de datos. En "El revelador secreto: ataques generativos de inversión de modelos contra redes neuronales profundas", los autores demuestran que los modelos con alto poder predictivo son más vulnerables a los ataques de refactorización, basándose en la suposición de que el conocimiento del adversario es más débil. También similar a la vulnerabilidad en la inferencia de membresía, la memoria y la recuperación de datos fuera de distribución también son vulnerables a los ataques de reconstrucción para modelos inadecuados.
Ataques de inferencia de atributos
Los ataques de inferencia de atributos se refieren al uso de atributos y estructuras públicamente visibles para inferir datos de atributos ocultos o incompletos. Un ejemplo es extraer información sobre la proporción de hombres y mujeres en un conjunto de datos de pacientes, o para un modelo clasificado por género para inferir si las personas en un conjunto de datos de entrenamiento usan anteojos. En algunos casos, este tipo de filtraciones pueden afectar la privacidad.
"Hackear máquinas inteligentes con otras más inteligentes: cómo extraer datos significativos de los clasificadores de aprendizaje automático" menciona que la explotación de ciertos tipos de datos de atributos también se puede usar para obtener una comprensión más profunda de los datos de entrenamiento, lo que lleva a otros a usar esta información para armar un imagen más global.
El artículo "Eres quien conoces y cómo te comportas: Ataques de inferencia de atributos a través de los comportamientos y amigos sociales de los usuarios" presenta un tipo de método de ataque de inferencia de atributos, que consiste en bloquear y extraer otra información del usuario a través del comportamiento conocido del usuario. usuario mismo. "AttriGuard: una defensa práctica contra los ataques de inferencia de atributos a través del aprendizaje automático adversario" presenta algunos métodos de defensa para hacer frente a los ataques de inferencia de atributos.
El razonamiento de atributos tiene como objetivo extraer información del modelo que el modelo aprende involuntariamente o que es irrelevante para la tarea de entrenamiento. Incluso los modelos bien generalizados pueden aprender propiedades relacionadas con toda la distribución de datos de entrada, lo que a veces es inevitable para el proceso de aprendizaje del entrenamiento del modelo.
La "explotación de la fuga de funciones no deseada en el aprendizaje colaborativo" demuestra que los ataques de inferencia de atributos son posibles incluso con modelos bien generalizados, por lo que el sobreajuste no parece ser la causa de los ataques de inferencia de atributos. En cuanto a los ataques de inferencia de atributos, actualmente hay poca información sobre qué los causa y en qué circunstancias parecen ser efectivos, lo que puede ser una dirección prometedora para futuras investigaciones.
Ataque de extracción de modelos
La extracción de modelos es una clase de ataques de caja negra en los que un adversario intenta extraer información y posiblemente reconstruir por completo un modelo mediante la creación de un modelo sustituto que se comporta de manera muy similar al modelo bajo ataque.
"Extracción de modelos de API basadas en BERT", "Reconstrucción de modelos a partir de explicaciones de modelos", "Redes de imitación: funcionalidad de robo de modelos de caja negra", "Extracción de redes neuronales de alta precisión y alta fidelidad" varios artículos explicados desde diferentes ángulos Algunos intentos en los ataques de extracción de modelos.
Hay dos pasos principales para crear un modelo sustituto: el primer paso es la extracción de la precisión de la tarea, donde se extrae un conjunto de prueba relevante para la tarea de aprendizaje de la distribución de datos de entrada para crear un modelo que coincida con la precisión del modelo de destino. El segundo paso es la extracción de fidelidad, es decir, hacer que los sustitutos creados coincidan con el modelo en un conjunto de elementos no relacionados con la tarea de aprendizaje para que se ajusten al objetivo. En la extracción precisa de tareas, el objetivo es crear un sustituto que pueda aprender la misma tarea tan bien o mejor que el modelo de destino. En la extracción de fidelidad, el objetivo es intentar que el sustituto reproduzca el límite de decisión con la mayor fidelidad posible.
Además de crear modelos sustitutos, existen métodos que se centran en recuperar información del modelo de destino, como el robo de hiperparámetros en el modelo de destino mencionado en "Robo de hiperparámetros en el aprendizaje automático" o "Hacia la ingeniería inversa de redes neuronales de caja negra". sobre la extracción de funciones de activación, algoritmos de optimización, número de capas, etc. para varias arquitecturas de redes neuronales, etc.
El artículo "Hacia redes neuronales de caja negra de ingeniería inversa" muestra que cuando se ataca un modelo con un ajuste de conjunto de prueba superior al 98%, es posible robar parámetros del modelo mediante un ataque de extracción. Además, en "ML-Doctor: Holistic Risk Assessment of Inference Attacks Against Machine Learning Models" se demuestra que los modelos con mayor error de generalización son más difíciles de robar, posiblemente porque el modelo memoriza conjuntos de datos que no son propiedad del atacante de las muestras. Otro factor que puede afectar la tasa de éxito de la extracción del modelo es la categoría de datos del conjunto de prueba, ya que cuando hay más categorías de datos, el rendimiento del ataque es peor.
La figura anterior ilustra el gráfico de tipo de ataque para cada algoritmo modelo. Debajo de cada algoritmo o campo de aprendizaje automático, el verde indica que los tipos de ataques aplicables se han estudiado hasta el momento y el rojo indica que no se han encontrado tipos de ataques aplicables.
III Modelo de jailbreak
El modelo de jailbreak es hacer que LLM produzca comportamientos de salida degenerados de alguna manera, como salida ofensiva, violación de salida de supervisión de contenido o salida de fuga de datos privados. Cada vez más estudios muestran que incluso los usuarios no expertos pueden hacer jailbreak a LLM simplemente manipulando las indicaciones.
Por ejemplo, en el siguiente ejemplo, el objetivo del desarrollador es construir un modelo de traducción. Hay dos usuarios en el escenario, el primer usuario es benigno y usa el modelo para el caso de uso previsto, mientras que el segundo usuario intenta cambiar el objetivo del modelo al proporcionar información maliciosa. En este ejemplo, el modelo de lenguaje responde con "Haha pwned!!" en lugar de traducir la oración. En esta situación de jailbreak, la respuesta del modelo se puede diseñar con una variedad de intenciones, desde el secuestro de objetivos (simplemente fallar en realizar la tarea) hasta generar texto racista ofensivo, o incluso publicar información privada y patentada.
### IV. Envenenamiento de datos
El envenenamiento de datos es un tipo especial de ataque adversario, que es una técnica de ataque contra el comportamiento de los modelos generativos. Los actores maliciosos pueden usar el envenenamiento de datos para abrir una puerta trasera en el modelo, evitando así los sistemas controlados algorítmicamente.
Para el ojo humano, las tres imágenes a continuación muestran tres cosas diferentes: un pájaro, un perro y un caballo. Pero para los algoritmos de aprendizaje automático, los tres probablemente significan lo mismo: una pequeña caja blanca con un borde negro. Este ejemplo ilustra una propiedad peligrosa de los modelos de aprendizaje automático que puede explotarse para clasificar erróneamente los datos.
Los ataques de envenenamiento de datos tienen como objetivo modificar el conjunto de entrenamiento de un modelo insertando datos mal etiquetados para engañarlo y hacer predicciones incorrectas. Un ataque exitoso compromete la integridad del modelo y produce errores consistentes en las predicciones del modelo. Una vez que se envenena un modelo, es muy difícil recuperarse del ataque y algunos desarrolladores pueden incluso abandonar el modelo.
El artículo "Toxicidades reales: evaluación de la degeneración tóxica neuronal en modelos de lenguaje" mencionó una forma de proporcionar a GPT-2 un conjunto de indicaciones basadas en texto para exponer los parámetros internos de su modelo. "Ataques de envenenamiento de datos ocultos en modelos NLP" explora cómo se pueden modificar los datos de entrenamiento para hacer que los modelos de lenguaje funcionen mal para generar texto que no está en el objetivo.
Si bien el envenenamiento de datos es muy peligroso, requiere que el atacante tenga acceso a la canalización de capacitación del modelo de aprendizaje automático antes de que se pueda distribuir el modelo envenenado. Por lo tanto, los modelos que recopilan continuamente iteraciones de datos, o los modelos basados en el aprendizaje federado, deben prestar especial atención al impacto del envenenamiento de datos.
V. Ataque de puerta trasera
Un ataque de puerta trasera se refiere a la inserción o modificación subrepticia de texto para provocar una salida maliciosa de un modelo de lenguaje. El documento "Puertas traseras contra el procesamiento del lenguaje natural: una revisión" presenta el problema de los ataques de puerta trasera, donde ciertas vulnerabilidades se transmiten al modelo durante el entrenamiento y pueden desencadenar la activación de la toxicidad del modelo mediante el uso de vocabulario.
Se diferencia del envenenamiento de datos en que se conserva la funcionalidad esperada del modelo. "Ataques de puerta trasera léxica sin entrenamiento en modelos de lenguaje" propone un método llamado ataque de puerta trasera léxica sin entrenamiento (TFLexAttack), que implica manipular el diccionario incrustado mediante la introducción de "disparadores" léxicos en el tokenizador del modelo de lenguaje.
Fenómeno SolidGoldMagikarp
El fenómeno SolidGoldMagikarp es un fenómeno típico de ataque de puerta trasera**,** al ingresar "SolidGoldMgikarp" en ChatGPT, solo responde una palabra: "distribuir". Cuando se le pide que repita "StreamerBot", responde: "Eres un idiota". Cuando se le pidió que repitiera "TheNtromeFan", respondió "182". Y si pones comillas simples alrededor de la palabra, su respuesta es un interminable "El". Cuando se le preguntó quién es TheNtromeFan, ChatGPT respondió: "182 es un número, no una persona. A menudo se usa para referirse al número en sí".
El fenómeno SolidGoldMagikarp se refiere al uso del tokenizador GPT de OpenAI para identificar tokens específicos de los que el modelo no puede hablar, así como tokens que hacen que el modelo genere texto distorsionado. El artículo "Explicando SolidGoldMagikarp mirándolo desde direcciones aleatorias" explora las posibles razones detrás de este fenómeno.
Los siguientes son algunos de los tipos de ataques de puerta trasera más frecuentes e importantes.
A. Basado en comandos
a. Instrucciones directas: Estos ataques pueden referirse principalmente a "Ignorar técnicas de ataque anteriores: para modelos de lenguaje", que simplemente indica al modelo que ignore sus sugerencias anteriores y asigne nuevas tareas en la ubicación actual.
b. Ataques cognitivos: El tipo de ataque más común, en el que el LLM generalmente lo "engaña" para que realice acciones fuera de lugar que de otro modo no realizaría proporcionando un "espacio seguro" o garantizando dicha respuesta. "Chatgpt: ¡¿Este ai tiene jailbreak?!" documenta algunos intentos de este tipo de ataques contra ChatGPT.
c. Repetición de instrucciones: estos tipos de ataques implican ingresar la misma instrucción varias veces para que parezca que el atacante está "rogando" al modelo de lenguaje. La mendicidad en sentido literal también se puede expresar con palabras.
d. Desviación indirecta de la misión: este ataque se enfoca en hacerse pasar por otra misión maliciosa. Este ataque se dirige a modelos que normalmente no siguen instrucciones maliciosas.
B. Basado en no instrucciones
a. Transformación gramatical: este tipo de ataque implica una transformación ortogonal del texto del ataque, como el uso de LeetSpeak o Base64, para eludir los filtros de contenido que pueden existir en la aplicación, y el modelo puede transformar inherentemente este texto codificado.
b. Pocos trucos: Un enfoque simple que involucra paradigmas de entrenamiento de modelos de lenguaje. En este enfoque, el ataque incorpora varias características textuales que pueden estar dirigidas a modelos extraviados malintencionadamente. Por ejemplo, el fenómeno SolidGoldMagikarp entra en esta categoría.
c. Finalización de texto como instrucciones: estos ataques funcionan al alimentar al modelo con oraciones incompletas, lo que obliga al modelo a completar la oración y, en el proceso, ignora sus instrucciones anteriores, lo que resulta en una ubicación incorrecta.
### VI. Protección del modelo
Investigar cómo defenderse de los ataques de modelos es una tarea difícil e importante. La mayoría de los artículos sobre análisis de seguridad proponen y prueban formas de mitigar los ataques correspondientes. A continuación se enumeran algunos métodos típicos de defensa.
Privacidad diferencial
La privacidad diferencial es actualmente una de las defensas más destacadas contra los ataques de inferencia de membresía, lo que proporciona garantías de seguridad para los datos individuales en la salida del modelo. La discusión sobre la privacidad diferencial proviene del documento "Los fundamentos algorítmicos de la privacidad diferencial".
La privacidad diferencial agrega ruido a la salida del modelo, lo que hace imposible que el atacante distinga estrictamente los dos conjuntos de datos estadísticamente en función de la salida. La privacidad diferencial fue originalmente una definición de privacidad para el análisis de datos, que se diseñó con base en la idea de "aprender información útil sobre una población sin conocer a ningún individuo". La privacidad diferencial no protege la seguridad de la privacidad del conjunto de datos general, sino que protege los datos privados de cada individuo en el conjunto de datos a través del mecanismo de ruido.
La definición matemática de privacidad diferencial es la siguiente:
La privacidad diferencial establece un equilibrio entre la protección de la privacidad y la utilidad o la precisión del modelo. Las evaluaciones en "Ataque de inferencia de membresía contra el modelo de aprendizaje profundo diferencialmente privado" concluyeron que los modelos brindan protección de privacidad solo si sacrifican significativamente su utilidad.
Regularización
Las técnicas de regularización en el aprendizaje automático tienen como objetivo reducir el sobreajuste y mejorar el rendimiento de la generalización del modelo. El abandono es una forma de regularización de uso común que descarta aleatoriamente un porcentaje predefinido de unidades de red neuronal durante el entrenamiento. Dado que los ataques de inferencia de membresía de caja negra están relacionados con el sobreajuste, esta es una forma sensata de lidiar con tales ataques, y varios artículos la han propuesto como una defensa con buenos resultados.
Otra forma de regularización que utiliza técnicas que combinan múltiples modelos entrenados por separado, como el apilamiento de modelos, ha arrojado resultados positivos contra los ataques de inferencia. Una ventaja del apilamiento de modelos o técnicas similares es que son independientes de la clase de modelo.
Manipulación del vector de predicción
Dado que muchos modelos asumen que se puede acceder al vector de predicción durante la inferencia, una de las contramedidas propuestas es restringir la salida a las k principales clases o predicciones del modelo. Sin embargo, esta limitación, incluso en su forma más estricta (solo generar etiquetas de clase) no parece mitigar por completo los ataques de inferencia de membresía, ya que la fuga de información aún puede ocurrir debido a la clasificación incorrecta del modelo. Otra opción es reducir la precisión de los vectores predichos, reduciendo así la fuga de información.
Además, se ha demostrado que agregar ruido al vector de salida también afecta los ataques de inferencia de membresía.
Ajuste de gradiente (Configuración de gradiente de pérdida)
Dado que los ataques de reconstrucción generalmente requieren acceso a gradientes de pérdida durante el entrenamiento, la mayoría de las defensas contra los ataques de reconstrucción proponen técnicas que afectan la información recuperada de estos gradientes. Establecer todos los gradientes de pérdida por debajo de un cierto umbral a cero se propone como una defensa contra los ataques de reconstrucción en el aprendizaje profundo. El artículo "Deep Leakage from Gradients" demuestra que este método es muy efectivo, y cuando solo el 20 % de los gradientes se establecen en cero, el impacto en el rendimiento del modelo es insignificante.
Prevención de ataques de robo de modelo DNN (PRADA)
"PRADA: protección contra ataques de robo de modelos DNN" propone un método para detectar ataques de robo de modelos basado en consultas de modelos utilizadas por el adversario. La detección se basa en la suposición de que las consultas de modelo que intentan explorar los límites de decisión tendrán una distribución de muestra diferente a las consultas normales. Si bien la detección es exitosa, los autores señalan que existe un potencial de evasión si el adversario ajusta su estrategia.
Inferencia de membresía
"¡Ladrones en Barrio Sésamo! Extracción de modelos de API basadas en BERT" examina la idea de usar la inferencia de membresía para defenderse de la extracción de modelos. Se basa en la premisa de que mediante la inferencia de pertenencia, los propietarios de modelos pueden distinguir las consultas legítimas de los usuarios de las consultas sin sentido cuyo único propósito es extraer modelos. Los autores señalan que este tipo de defensa tiene limitaciones, como potencialmente marcar consultas legítimas pero fuera de distribución emitidas por usuarios legítimos, pero lo que es más importante, pueden ser eludidas por adversarios que realizan consultas adaptables.
Ajustar por aviso
En "Control de la extracción de datos memorizados de modelos de lenguaje grande a través de -Tuning", se propone un nuevo método que utiliza el ajuste de sugerencias para controlar la tasa de extracción de contenido memorizado en LLM. Proponen dos estrategias de entrenamiento de pistas para aumentar y disminuir la tasa de extracción, correspondientes a ataque y defensa, respectivamente.
VII Conclusión
LLM todavía tiene un riesgo de seguridad relativamente grande y un riesgo de fuga de privacidad
El ataque para extraer la estructura y los datos del modelo es esencialmente un ataque a la confidencialidad del modelo.
La principal investigación en la comunidad académica se centra actualmente en cómo atacar el modelo y el principio de fuga de datos.
Parte del mecanismo que causó que LLM filtrara datos aún no está claro
Como la privacidad diferencial, la manipulación del vector de predicción, etc., pueden proteger la privacidad de los datos hasta cierto punto, y estos métodos se concentran en la etapa de entrenamiento del modelo.
Las medidas de protección existentes no son perfectas y deben sacrificar el rendimiento y la precisión del modelo.
________
Referencia:
1. Kalpesh Krishna, Gaurav Singh Tomar, Ankur P. Parikh, Nicolas Papernot y Mohit Iyyer. 2020. ¡Ladrones en Barrio Sésamo! Extracción de modelos de API basadas en BERT. En Congreso Internacional de Representaciones del Aprendizaje. ICLR, Conferencia Virtual, anteriormente Addis Abeba, Etiopía.
2. El que comparte secretos: calcular y probar la memorización no intencionada en redes neuronales
3. Martín Abadi, Andy Chu, Ian J. Goodfellow, HB McMahan, Ilya Mironov, Kunal Talwar y Li Zhang. 2016. Aprendizaje profundo con privacidad diferencial
4. Giuseppe Atheniense, Luigi V. Mancini, Angelo Spognardi, Antonio Villani, Domenico Vitali y Giovanni Felici. 2015. Hacking Smart Machines with Smarter Ones: Cómo extraer datos significativos de los clasificadores de aprendizaje automático.
5. Bargav Jayaraman y David Evans. 2019. Evaluación del aprendizaje automático diferencialmente privado en la práctica. En el 28º Simposio de Seguridad de USENIX (USENIX Security 19). Asociación USENIX, Santa Clara, CA, 1895–1912
6. Defender ataques de inferencia de membresía sin perder utilidad
7. Yugeng Liu, Rui Wen, Xinlei He, Ahmed Salem, Zhikun Zhang, Michael Backes, Emiliano De Cristofaro, Mario Fritz y Yang Zhang. 2021. ML-Doctor: evaluación holística de riesgos de ataques de inferencia contra modelos de aprendizaje automático
8. Engañar a los LLM para que desobedezcan: comprensión, análisis y prevención de fugas
9. María Rigaki y Sebastián García. 2021. Una encuesta sobre los ataques a la privacidad en el aprendizaje automático
10. Nicholas Carlini, Florian Tramer, Eric Wallace, Matthew Jagielski, Ariel Herbert-Voss, Katherine Lee, Adam Roberts, Tom Brown, Dawn Song, Ul-far Erlingsson, Alina Oprea y Colin Raffel. 2021. Extracción de datos de entrenamiento de grandes modelos de lenguaje
11. Samuel Gehman, Suchin Gururangan, Maarten Sap, Yejin Choi y Noah A. Smith. 2020. RealToxi-city s: evaluación de la degeneración tóxica neuronal en modelos de lenguaje.
12. Wenlong Huang, Pieter Abbeel, Deepak Pathak e Igor Mordatch. 2022b. Modelos de lenguaje como planificadores de tiro cero: extracción de conocimiento procesable para agentes encarnados. En ICML 2022, volumen 162 de Proceedings of Machine Learning Research, páginas 9118–9147. PMLR
13. Ethan Pérez, Saffron Huang, Francis Song, Trevor Cai, Roman Ring, John Aslanides, Amelia Glaese, Nat McAleese y Geoffrey Irving. 2022. Modelos lingüísticos combinados en rojo con modelos lingüísticos.
14. Eric Wallace, Tony Zhao, Shi Feng y Sameer Singh. Ataques de envenenamiento de datos ocultos en modelos NLP.
15. Shaofeng Li, Tian Dong, Benjamin Zi Hao Zhao, Minhui Xue, Suguo Du y Haojin Zhu. 2022. Puertas traseras contra el procesamiento del lenguaje natural: una revisión. IEEE Security & Privacy, 20(5):50–59
16. Yujin Huang, Terry Yue Zhuo, Qiongkai Xu, Han Hu, Xingliang Yuan y Chunyang Chen. 2023. Ataques de puerta trasera léxica sin entrenamiento en modelos de lenguaje.
17. Explicando SolidGoldMagikarp mirándolo desde direcciones aleatorias
18. Fábio Pérez e Ian Ribeiro. 2022. Ignorar anterior: técnicas de ataque para modelos de lenguaje. preimpresión de arXiv arXiv:2211.09527.
19. Yannic Kilcher. 2022. Chatgpt: ¡¿Este ai tiene jailbreak?! (progreso increíble del ai).
20. Battista Biggio y Fabio Roli. 2018. Patrones salvajes: diez años después del surgimiento del aprendizaje automático antagónico. Reconocimiento de patrones 84 (2018), 317–331.
21. Ligeng Zhu, Zhijian Liu y Song Han. 2019. Fuga profunda de gradientes. En Advances in Neural Information Processing s 32, H. Wallach, H. Larochelle, A. Beygelzimer, F. d'Alché-Buc, E. Fox y R. Garnett (Eds.). Curran Associates, Inc., Vancouver, Canadá, 14747–14756
22. Nicholas Papernot, Patrick McDaniel, Arunesh Sinha y Michael P. Wellman. 2018. SoK: Seguridad y Privacidad en Machine Learning. En 2018 Simposio Europeo IEEE sobre Seguridad y Privacidad (EuroS P). IEEE, Londres, Reino Unido, 399–414
23. Michael Veale, Reuben Binns y Lilian Edwards. 2018. Algoritmos que recuerdan: ataques de inversión de modelos y ley de protección de datos. Transacciones filosóficas de la Royal Society A: Ciencias matemáticas, físicas y de ingeniería 376, 2133 (2018), 20180083
24. Reza Shokri, Marco Stronati, Congzheng Song y Vitaly Shmatikov. 2017. Ataques de inferencia de membresía contra modelos de aprendizaje automático. En 2017 Simposio IEEE sobre seguridad y privacidad (SP). IEEE, San Francisco, CA, EE. UU., 3–18
25. Sorami Hisamoto, Matt Post y Kevin Duh. 2020. Ataques de inferencia de membresía en modelos de secuencia a secuencia: ¿Están mis datos en su traducción automática?
26. Congzheng Song y Vitaly Shmatikov. 2019. Procedencia de datos de auditoría en modelos de generación de texto. En Actas de la 25.ª Conferencia Internacional ACM SIGKDD sobre Descubrimiento de Conocimiento y Minería de Datos (KDD '19). Association for Computing Machinery, Nueva York, NY, EE. UU., 196–206.
27. Jinyuan Jia y Neil Zhenqiang Gong. 2018. AttriGuard: una defensa práctica contra los ataques de inferencia de atributos a través del aprendizaje automático adversario. En el 27º Simposio de Seguridad de USENIX (USENIX Security 18).
28. Matthew Fredrikson, Eric Lantz, Somesh Jha, Simon Lin, David Page y Thomas Ristenpart. 2014. Privacidad en farmacogenética: un estudio de caso integral de dosificación personalizada de warfarina.
29. Matthew Jagielski, Nicholas Carlini, David Berthelot, Alex Kurakin y Nicolas Papernot. 2020. Extracción de alta precisión y alta fidelidad de redes neuronales
30. Binghui Wang y Neil Zhenqiang Gong. 2018. Robo de hiperparámetros en aprendizaje automático. En 2018 Simposio IEEE sobre seguridad y privacidad (SP). IEEE, San Francisco, CA, EE. UU., 36–52
31. Seong Joon Oh, Max Augustin, Mario Fritz y Bernt Schiele. 2018. Hacia redes neuronales de caja negra de ingeniería inversa. En Sexto Congreso Internacional de Representaciones del Aprendizaje. ICLR, Vancouver, Canadá.
32. Cynthia Dwork y Aaron Roth. 2013. Los fundamentos algorítmicos de la privacidad diferencial. Fundamentos y tendencias en informática teórica 9, 3-4 (2013), 211–487
Ver originales
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Hablando de privacidad de datos de modelos grandes, varios métodos de ataque de modelos comunes
Fuente original: Oasis Capital
Autor: Consejero Vitalidad
El 20 de marzo de 2023, se produjo una violación de datos en ChatGPT, que expuso la información personal de algunos usuarios de ChatGPT. En vista de esto, el regulador de privacidad de Italia cree que ChatGPT es sospechoso de procesar ilegalmente datos personales, violar la privacidad y violar las regulaciones relevantes de GDPR. Posteriormente, Italia se convirtió en el primer país en prohibir el uso de ChatGPT, lo que provocó discusiones en otros países de la UE sobre si se necesitan medidas más estrictas para controlar la tecnología.
Casi todos los servicios en línea recopilan nuestros datos personales y pueden usar estos datos para capacitar a LLM. Sin embargo, es difícil determinar cómo utilizará el modelo los datos utilizados para el entrenamiento. Si se utilizan datos confidenciales como la ubicación geográfica, los registros de salud y la información de identidad en el entrenamiento del modelo, los ataques de extracción de datos contra los datos privados en el modelo provocarán una gran cantidad de filtraciones de privacidad de los usuarios. El artículo "¿Están los grandes modelos de lenguaje preentrenado filtrando su información personal?" demuestra que, debido a la memoria de datos de entrenamiento de LLM, LLM tiene el riesgo de filtrar información personal durante el proceso de diálogo, y este riesgo aumenta con la cantidad de ejemplos. .
Hay varias razones por las que un modelo filtra información. Algunos de estos son estructurales y tienen que ver con la forma en que se construye el modelo, mientras que otros se deben a una mala generalización, memorización de datos sensibles, etc. En el próximo artículo, primero presentaremos el proceso básico de fuga de datos, luego presentaremos varios métodos de ataque de modelos comunes, como el ataque a la privacidad, el jailbreak, el envenenamiento de datos y el ataque de puerta trasera, y finalmente presentaremos algunas investigaciones actuales sobre protección de la privacidad.
I.Modelado de amenazas
Un modelo básico de amenazas LLM incluye un entorno de modelo general, varios actores y activos sensibles. Los activos confidenciales incluyen conjuntos de datos de entrenamiento, parámetros del modelo, hiperparámetros del modelo y arquitectura. Los participantes incluyen: propietario de los datos, propietario del modelo, consumidor del modelo y adversario. El siguiente diagrama muestra los activos, los actores, el flujo de información y el posible flujo operativo bajo un modelo de amenaza:
II. Ataque a la privacidad
Los ataques a la privacidad se dividen en cuatro tipos principales: ataques de inferencia de membresía, ataques de reconstrucción, ataques de inferencia de atributos y extracción de modelos.
La inferencia de pertenencia intenta determinar si una muestra de entrada x se usa como parte del conjunto de entrenamiento D. Por ejemplo, en circunstancias normales, los datos privados del usuario se mantendrán confidenciales, pero la información no confidencial aún puede usarse para especulaciones. Un ejemplo es si sabemos que a los miembros de un club privado les gusta usar lentes de sol morados y zapatos de cuero rojo, entonces podemos inferir que probablemente sea esta persona cuando nos encontramos con una persona que usa lentes de sol morados y zapatos de cuero rojo (información no sensible). ) Pertenencia a clubes privados (información sensible).
El ataque de inferencia de membresía es actualmente la forma más popular de ataque a la privacidad, propuesta por primera vez por Shokri et al., en el artículo "Ataques de inferencia de membresía contra modelos de aprendizaje automático". El artículo señala que este ataque solo asume el conocimiento del vector de predicción de salida del modelo y se lleva a cabo contra modelos de aprendizaje automático supervisado. Tener acceso a los parámetros y gradientes del modelo permite ataques de inferencia de pertenencia más precisos.
Un método típico de ataque de inferencia de membresía se denomina ataque de sombra, es decir, entrenar un modelo de sombra basado en conjuntos de datos accesibles conocidos y luego obtener información confidencial interrogando al modelo de sombra.
Además de los modelos de aprendizaje supervisado, los modelos generativos como GAN y VAE también son vulnerables a los ataques de inferencia de pertenencia. "GAN-Leaks: A Taxonomy of Membership Inference Attacks Against Generative Models" presenta los problemas de GAN frente a los ataques de razonamiento de los miembros; "LOGAN: Membership inference attack against generative models" presenta otros modelos generativos en el razonamiento de los miembros Respuesta al ataque, y presenta cómo recuperar datos de entrenamiento basados en la comprensión de los componentes de generación de datos; los modelos (MLM) también son vulnerables a los ataques MIA, que en algunos casos pueden determinar si los datos de muestra pertenecen a los datos de entrenamiento.
Por otro lado, el razonamiento de membresía también se puede usar para la revisión de seguridad del modelo, y los propietarios de datos pueden usar el razonamiento de membresía para revisar modelos de caja negra. "Ataques de inferencia de membresía en modelos de secuencia a secuencia: ¿Están mis datos en su traducción automática?" describe cómo los propietarios de datos pueden ver si los datos se están utilizando sin autorización.
"Ataques de inferencia de membresía contra modelos de aprendizaje automático" examina el vínculo entre el sobreajuste y la inferencia de membresía de caja negra. Los autores miden el impacto del sobreajuste en la precisión del ataque mediante el uso del mismo conjunto de datos para entrenar modelos en diferentes plataformas MLaaS. . Los experimentos muestran que el sobreajuste puede conducir a la fuga de privacidad, pero también señalan que este no es el único caso, porque algunos modelos con alto grado de generalización son más propensos a la fuga de miembros.
Los ataques de reconstrucción intentan reconstruir múltiples muestras de entrenamiento junto con sus etiquetas de entrenamiento, es decir, intentan recuperar características confidenciales o muestras de datos completas con etiquetas de salida y conocimiento parcial de ciertas características. Por ejemplo, a través de la inversión del modelo, la información obtenida en la interfaz del modelo se reconstruye de manera inversa y la información confidencial del usuario, como las características biológicas y los registros médicos en los datos de entrenamiento, se restaura, como se muestra en la siguiente figura:
Los ataques de inferencia de atributos se refieren al uso de atributos y estructuras públicamente visibles para inferir datos de atributos ocultos o incompletos. Un ejemplo es extraer información sobre la proporción de hombres y mujeres en un conjunto de datos de pacientes, o para un modelo clasificado por género para inferir si las personas en un conjunto de datos de entrenamiento usan anteojos. En algunos casos, este tipo de filtraciones pueden afectar la privacidad.
"Hackear máquinas inteligentes con otras más inteligentes: cómo extraer datos significativos de los clasificadores de aprendizaje automático" menciona que la explotación de ciertos tipos de datos de atributos también se puede usar para obtener una comprensión más profunda de los datos de entrenamiento, lo que lleva a otros a usar esta información para armar un imagen más global.
El artículo "Eres quien conoces y cómo te comportas: Ataques de inferencia de atributos a través de los comportamientos y amigos sociales de los usuarios" presenta un tipo de método de ataque de inferencia de atributos, que consiste en bloquear y extraer otra información del usuario a través del comportamiento conocido del usuario. usuario mismo. "AttriGuard: una defensa práctica contra los ataques de inferencia de atributos a través del aprendizaje automático adversario" presenta algunos métodos de defensa para hacer frente a los ataques de inferencia de atributos.
El razonamiento de atributos tiene como objetivo extraer información del modelo que el modelo aprende involuntariamente o que es irrelevante para la tarea de entrenamiento. Incluso los modelos bien generalizados pueden aprender propiedades relacionadas con toda la distribución de datos de entrada, lo que a veces es inevitable para el proceso de aprendizaje del entrenamiento del modelo.
La "explotación de la fuga de funciones no deseada en el aprendizaje colaborativo" demuestra que los ataques de inferencia de atributos son posibles incluso con modelos bien generalizados, por lo que el sobreajuste no parece ser la causa de los ataques de inferencia de atributos. En cuanto a los ataques de inferencia de atributos, actualmente hay poca información sobre qué los causa y en qué circunstancias parecen ser efectivos, lo que puede ser una dirección prometedora para futuras investigaciones.
La extracción de modelos es una clase de ataques de caja negra en los que un adversario intenta extraer información y posiblemente reconstruir por completo un modelo mediante la creación de un modelo sustituto que se comporta de manera muy similar al modelo bajo ataque.
"Extracción de modelos de API basadas en BERT", "Reconstrucción de modelos a partir de explicaciones de modelos", "Redes de imitación: funcionalidad de robo de modelos de caja negra", "Extracción de redes neuronales de alta precisión y alta fidelidad" varios artículos explicados desde diferentes ángulos Algunos intentos en los ataques de extracción de modelos.
Hay dos pasos principales para crear un modelo sustituto: el primer paso es la extracción de la precisión de la tarea, donde se extrae un conjunto de prueba relevante para la tarea de aprendizaje de la distribución de datos de entrada para crear un modelo que coincida con la precisión del modelo de destino. El segundo paso es la extracción de fidelidad, es decir, hacer que los sustitutos creados coincidan con el modelo en un conjunto de elementos no relacionados con la tarea de aprendizaje para que se ajusten al objetivo. En la extracción precisa de tareas, el objetivo es crear un sustituto que pueda aprender la misma tarea tan bien o mejor que el modelo de destino. En la extracción de fidelidad, el objetivo es intentar que el sustituto reproduzca el límite de decisión con la mayor fidelidad posible.
Además de crear modelos sustitutos, existen métodos que se centran en recuperar información del modelo de destino, como el robo de hiperparámetros en el modelo de destino mencionado en "Robo de hiperparámetros en el aprendizaje automático" o "Hacia la ingeniería inversa de redes neuronales de caja negra". sobre la extracción de funciones de activación, algoritmos de optimización, número de capas, etc. para varias arquitecturas de redes neuronales, etc.
El artículo "Hacia redes neuronales de caja negra de ingeniería inversa" muestra que cuando se ataca un modelo con un ajuste de conjunto de prueba superior al 98%, es posible robar parámetros del modelo mediante un ataque de extracción. Además, en "ML-Doctor: Holistic Risk Assessment of Inference Attacks Against Machine Learning Models" se demuestra que los modelos con mayor error de generalización son más difíciles de robar, posiblemente porque el modelo memoriza conjuntos de datos que no son propiedad del atacante de las muestras. Otro factor que puede afectar la tasa de éxito de la extracción del modelo es la categoría de datos del conjunto de prueba, ya que cuando hay más categorías de datos, el rendimiento del ataque es peor.
III Modelo de jailbreak
El modelo de jailbreak es hacer que LLM produzca comportamientos de salida degenerados de alguna manera, como salida ofensiva, violación de salida de supervisión de contenido o salida de fuga de datos privados. Cada vez más estudios muestran que incluso los usuarios no expertos pueden hacer jailbreak a LLM simplemente manipulando las indicaciones.
Por ejemplo, en el siguiente ejemplo, el objetivo del desarrollador es construir un modelo de traducción. Hay dos usuarios en el escenario, el primer usuario es benigno y usa el modelo para el caso de uso previsto, mientras que el segundo usuario intenta cambiar el objetivo del modelo al proporcionar información maliciosa. En este ejemplo, el modelo de lenguaje responde con "Haha pwned!!" en lugar de traducir la oración. En esta situación de jailbreak, la respuesta del modelo se puede diseñar con una variedad de intenciones, desde el secuestro de objetivos (simplemente fallar en realizar la tarea) hasta generar texto racista ofensivo, o incluso publicar información privada y patentada.
El envenenamiento de datos es un tipo especial de ataque adversario, que es una técnica de ataque contra el comportamiento de los modelos generativos. Los actores maliciosos pueden usar el envenenamiento de datos para abrir una puerta trasera en el modelo, evitando así los sistemas controlados algorítmicamente.
Para el ojo humano, las tres imágenes a continuación muestran tres cosas diferentes: un pájaro, un perro y un caballo. Pero para los algoritmos de aprendizaje automático, los tres probablemente significan lo mismo: una pequeña caja blanca con un borde negro. Este ejemplo ilustra una propiedad peligrosa de los modelos de aprendizaje automático que puede explotarse para clasificar erróneamente los datos.
El artículo "Toxicidades reales: evaluación de la degeneración tóxica neuronal en modelos de lenguaje" mencionó una forma de proporcionar a GPT-2 un conjunto de indicaciones basadas en texto para exponer los parámetros internos de su modelo. "Ataques de envenenamiento de datos ocultos en modelos NLP" explora cómo se pueden modificar los datos de entrenamiento para hacer que los modelos de lenguaje funcionen mal para generar texto que no está en el objetivo.
Si bien el envenenamiento de datos es muy peligroso, requiere que el atacante tenga acceso a la canalización de capacitación del modelo de aprendizaje automático antes de que se pueda distribuir el modelo envenenado. Por lo tanto, los modelos que recopilan continuamente iteraciones de datos, o los modelos basados en el aprendizaje federado, deben prestar especial atención al impacto del envenenamiento de datos.
V. Ataque de puerta trasera
Un ataque de puerta trasera se refiere a la inserción o modificación subrepticia de texto para provocar una salida maliciosa de un modelo de lenguaje. El documento "Puertas traseras contra el procesamiento del lenguaje natural: una revisión" presenta el problema de los ataques de puerta trasera, donde ciertas vulnerabilidades se transmiten al modelo durante el entrenamiento y pueden desencadenar la activación de la toxicidad del modelo mediante el uso de vocabulario.
Se diferencia del envenenamiento de datos en que se conserva la funcionalidad esperada del modelo. "Ataques de puerta trasera léxica sin entrenamiento en modelos de lenguaje" propone un método llamado ataque de puerta trasera léxica sin entrenamiento (TFLexAttack), que implica manipular el diccionario incrustado mediante la introducción de "disparadores" léxicos en el tokenizador del modelo de lenguaje.
Fenómeno SolidGoldMagikarp
El fenómeno SolidGoldMagikarp es un fenómeno típico de ataque de puerta trasera**,** al ingresar "SolidGoldMgikarp" en ChatGPT, solo responde una palabra: "distribuir". Cuando se le pide que repita "StreamerBot", responde: "Eres un idiota". Cuando se le pidió que repitiera "TheNtromeFan", respondió "182". Y si pones comillas simples alrededor de la palabra, su respuesta es un interminable "El". Cuando se le preguntó quién es TheNtromeFan, ChatGPT respondió: "182 es un número, no una persona. A menudo se usa para referirse al número en sí".
El fenómeno SolidGoldMagikarp se refiere al uso del tokenizador GPT de OpenAI para identificar tokens específicos de los que el modelo no puede hablar, así como tokens que hacen que el modelo genere texto distorsionado. El artículo "Explicando SolidGoldMagikarp mirándolo desde direcciones aleatorias" explora las posibles razones detrás de este fenómeno.
Los siguientes son algunos de los tipos de ataques de puerta trasera más frecuentes e importantes.
A. Basado en comandos
a. Instrucciones directas: Estos ataques pueden referirse principalmente a "Ignorar técnicas de ataque anteriores: para modelos de lenguaje", que simplemente indica al modelo que ignore sus sugerencias anteriores y asigne nuevas tareas en la ubicación actual.
b. Ataques cognitivos: El tipo de ataque más común, en el que el LLM generalmente lo "engaña" para que realice acciones fuera de lugar que de otro modo no realizaría proporcionando un "espacio seguro" o garantizando dicha respuesta. "Chatgpt: ¡¿Este ai tiene jailbreak?!" documenta algunos intentos de este tipo de ataques contra ChatGPT.
c. Repetición de instrucciones: estos tipos de ataques implican ingresar la misma instrucción varias veces para que parezca que el atacante está "rogando" al modelo de lenguaje. La mendicidad en sentido literal también se puede expresar con palabras.
d. Desviación indirecta de la misión: este ataque se enfoca en hacerse pasar por otra misión maliciosa. Este ataque se dirige a modelos que normalmente no siguen instrucciones maliciosas.
B. Basado en no instrucciones
a. Transformación gramatical: este tipo de ataque implica una transformación ortogonal del texto del ataque, como el uso de LeetSpeak o Base64, para eludir los filtros de contenido que pueden existir en la aplicación, y el modelo puede transformar inherentemente este texto codificado.
b. Pocos trucos: Un enfoque simple que involucra paradigmas de entrenamiento de modelos de lenguaje. En este enfoque, el ataque incorpora varias características textuales que pueden estar dirigidas a modelos extraviados malintencionadamente. Por ejemplo, el fenómeno SolidGoldMagikarp entra en esta categoría.
c. Finalización de texto como instrucciones: estos ataques funcionan al alimentar al modelo con oraciones incompletas, lo que obliga al modelo a completar la oración y, en el proceso, ignora sus instrucciones anteriores, lo que resulta en una ubicación incorrecta.
Investigar cómo defenderse de los ataques de modelos es una tarea difícil e importante. La mayoría de los artículos sobre análisis de seguridad proponen y prueban formas de mitigar los ataques correspondientes. A continuación se enumeran algunos métodos típicos de defensa.
La privacidad diferencial es actualmente una de las defensas más destacadas contra los ataques de inferencia de membresía, lo que proporciona garantías de seguridad para los datos individuales en la salida del modelo. La discusión sobre la privacidad diferencial proviene del documento "Los fundamentos algorítmicos de la privacidad diferencial".
La privacidad diferencial agrega ruido a la salida del modelo, lo que hace imposible que el atacante distinga estrictamente los dos conjuntos de datos estadísticamente en función de la salida. La privacidad diferencial fue originalmente una definición de privacidad para el análisis de datos, que se diseñó con base en la idea de "aprender información útil sobre una población sin conocer a ningún individuo". La privacidad diferencial no protege la seguridad de la privacidad del conjunto de datos general, sino que protege los datos privados de cada individuo en el conjunto de datos a través del mecanismo de ruido.
La definición matemática de privacidad diferencial es la siguiente:
Las técnicas de regularización en el aprendizaje automático tienen como objetivo reducir el sobreajuste y mejorar el rendimiento de la generalización del modelo. El abandono es una forma de regularización de uso común que descarta aleatoriamente un porcentaje predefinido de unidades de red neuronal durante el entrenamiento. Dado que los ataques de inferencia de membresía de caja negra están relacionados con el sobreajuste, esta es una forma sensata de lidiar con tales ataques, y varios artículos la han propuesto como una defensa con buenos resultados.
Otra forma de regularización que utiliza técnicas que combinan múltiples modelos entrenados por separado, como el apilamiento de modelos, ha arrojado resultados positivos contra los ataques de inferencia. Una ventaja del apilamiento de modelos o técnicas similares es que son independientes de la clase de modelo.
Dado que muchos modelos asumen que se puede acceder al vector de predicción durante la inferencia, una de las contramedidas propuestas es restringir la salida a las k principales clases o predicciones del modelo. Sin embargo, esta limitación, incluso en su forma más estricta (solo generar etiquetas de clase) no parece mitigar por completo los ataques de inferencia de membresía, ya que la fuga de información aún puede ocurrir debido a la clasificación incorrecta del modelo. Otra opción es reducir la precisión de los vectores predichos, reduciendo así la fuga de información.
Además, se ha demostrado que agregar ruido al vector de salida también afecta los ataques de inferencia de membresía.
Dado que los ataques de reconstrucción generalmente requieren acceso a gradientes de pérdida durante el entrenamiento, la mayoría de las defensas contra los ataques de reconstrucción proponen técnicas que afectan la información recuperada de estos gradientes. Establecer todos los gradientes de pérdida por debajo de un cierto umbral a cero se propone como una defensa contra los ataques de reconstrucción en el aprendizaje profundo. El artículo "Deep Leakage from Gradients" demuestra que este método es muy efectivo, y cuando solo el 20 % de los gradientes se establecen en cero, el impacto en el rendimiento del modelo es insignificante.
"PRADA: protección contra ataques de robo de modelos DNN" propone un método para detectar ataques de robo de modelos basado en consultas de modelos utilizadas por el adversario. La detección se basa en la suposición de que las consultas de modelo que intentan explorar los límites de decisión tendrán una distribución de muestra diferente a las consultas normales. Si bien la detección es exitosa, los autores señalan que existe un potencial de evasión si el adversario ajusta su estrategia.
"¡Ladrones en Barrio Sésamo! Extracción de modelos de API basadas en BERT" examina la idea de usar la inferencia de membresía para defenderse de la extracción de modelos. Se basa en la premisa de que mediante la inferencia de pertenencia, los propietarios de modelos pueden distinguir las consultas legítimas de los usuarios de las consultas sin sentido cuyo único propósito es extraer modelos. Los autores señalan que este tipo de defensa tiene limitaciones, como potencialmente marcar consultas legítimas pero fuera de distribución emitidas por usuarios legítimos, pero lo que es más importante, pueden ser eludidas por adversarios que realizan consultas adaptables.
En "Control de la extracción de datos memorizados de modelos de lenguaje grande a través de -Tuning", se propone un nuevo método que utiliza el ajuste de sugerencias para controlar la tasa de extracción de contenido memorizado en LLM. Proponen dos estrategias de entrenamiento de pistas para aumentar y disminuir la tasa de extracción, correspondientes a ataque y defensa, respectivamente.
VII Conclusión
LLM todavía tiene un riesgo de seguridad relativamente grande y un riesgo de fuga de privacidad
El ataque para extraer la estructura y los datos del modelo es esencialmente un ataque a la confidencialidad del modelo.
La principal investigación en la comunidad académica se centra actualmente en cómo atacar el modelo y el principio de fuga de datos.
Parte del mecanismo que causó que LLM filtrara datos aún no está claro
Como la privacidad diferencial, la manipulación del vector de predicción, etc., pueden proteger la privacidad de los datos hasta cierto punto, y estos métodos se concentran en la etapa de entrenamiento del modelo.
Las medidas de protección existentes no son perfectas y deben sacrificar el rendimiento y la precisión del modelo.
________
Referencia:
1. Kalpesh Krishna, Gaurav Singh Tomar, Ankur P. Parikh, Nicolas Papernot y Mohit Iyyer. 2020. ¡Ladrones en Barrio Sésamo! Extracción de modelos de API basadas en BERT. En Congreso Internacional de Representaciones del Aprendizaje. ICLR, Conferencia Virtual, anteriormente Addis Abeba, Etiopía.
2. El que comparte secretos: calcular y probar la memorización no intencionada en redes neuronales
3. Martín Abadi, Andy Chu, Ian J. Goodfellow, HB McMahan, Ilya Mironov, Kunal Talwar y Li Zhang. 2016. Aprendizaje profundo con privacidad diferencial
4. Giuseppe Atheniense, Luigi V. Mancini, Angelo Spognardi, Antonio Villani, Domenico Vitali y Giovanni Felici. 2015. Hacking Smart Machines with Smarter Ones: Cómo extraer datos significativos de los clasificadores de aprendizaje automático.
5. Bargav Jayaraman y David Evans. 2019. Evaluación del aprendizaje automático diferencialmente privado en la práctica. En el 28º Simposio de Seguridad de USENIX (USENIX Security 19). Asociación USENIX, Santa Clara, CA, 1895–1912
6. Defender ataques de inferencia de membresía sin perder utilidad
7. Yugeng Liu, Rui Wen, Xinlei He, Ahmed Salem, Zhikun Zhang, Michael Backes, Emiliano De Cristofaro, Mario Fritz y Yang Zhang. 2021. ML-Doctor: evaluación holística de riesgos de ataques de inferencia contra modelos de aprendizaje automático
8. Engañar a los LLM para que desobedezcan: comprensión, análisis y prevención de fugas
9. María Rigaki y Sebastián García. 2021. Una encuesta sobre los ataques a la privacidad en el aprendizaje automático
10. Nicholas Carlini, Florian Tramer, Eric Wallace, Matthew Jagielski, Ariel Herbert-Voss, Katherine Lee, Adam Roberts, Tom Brown, Dawn Song, Ul-far Erlingsson, Alina Oprea y Colin Raffel. 2021. Extracción de datos de entrenamiento de grandes modelos de lenguaje
11. Samuel Gehman, Suchin Gururangan, Maarten Sap, Yejin Choi y Noah A. Smith. 2020. RealToxi-city s: evaluación de la degeneración tóxica neuronal en modelos de lenguaje.
12. Wenlong Huang, Pieter Abbeel, Deepak Pathak e Igor Mordatch. 2022b. Modelos de lenguaje como planificadores de tiro cero: extracción de conocimiento procesable para agentes encarnados. En ICML 2022, volumen 162 de Proceedings of Machine Learning Research, páginas 9118–9147. PMLR
13. Ethan Pérez, Saffron Huang, Francis Song, Trevor Cai, Roman Ring, John Aslanides, Amelia Glaese, Nat McAleese y Geoffrey Irving. 2022. Modelos lingüísticos combinados en rojo con modelos lingüísticos.
14. Eric Wallace, Tony Zhao, Shi Feng y Sameer Singh. Ataques de envenenamiento de datos ocultos en modelos NLP.
15. Shaofeng Li, Tian Dong, Benjamin Zi Hao Zhao, Minhui Xue, Suguo Du y Haojin Zhu. 2022. Puertas traseras contra el procesamiento del lenguaje natural: una revisión. IEEE Security & Privacy, 20(5):50–59
16. Yujin Huang, Terry Yue Zhuo, Qiongkai Xu, Han Hu, Xingliang Yuan y Chunyang Chen. 2023. Ataques de puerta trasera léxica sin entrenamiento en modelos de lenguaje.
17. Explicando SolidGoldMagikarp mirándolo desde direcciones aleatorias
18. Fábio Pérez e Ian Ribeiro. 2022. Ignorar anterior: técnicas de ataque para modelos de lenguaje. preimpresión de arXiv arXiv:2211.09527.
19. Yannic Kilcher. 2022. Chatgpt: ¡¿Este ai tiene jailbreak?! (progreso increíble del ai).
20. Battista Biggio y Fabio Roli. 2018. Patrones salvajes: diez años después del surgimiento del aprendizaje automático antagónico. Reconocimiento de patrones 84 (2018), 317–331.
21. Ligeng Zhu, Zhijian Liu y Song Han. 2019. Fuga profunda de gradientes. En Advances in Neural Information Processing s 32, H. Wallach, H. Larochelle, A. Beygelzimer, F. d'Alché-Buc, E. Fox y R. Garnett (Eds.). Curran Associates, Inc., Vancouver, Canadá, 14747–14756
22. Nicholas Papernot, Patrick McDaniel, Arunesh Sinha y Michael P. Wellman. 2018. SoK: Seguridad y Privacidad en Machine Learning. En 2018 Simposio Europeo IEEE sobre Seguridad y Privacidad (EuroS P). IEEE, Londres, Reino Unido, 399–414
23. Michael Veale, Reuben Binns y Lilian Edwards. 2018. Algoritmos que recuerdan: ataques de inversión de modelos y ley de protección de datos. Transacciones filosóficas de la Royal Society A: Ciencias matemáticas, físicas y de ingeniería 376, 2133 (2018), 20180083
24. Reza Shokri, Marco Stronati, Congzheng Song y Vitaly Shmatikov. 2017. Ataques de inferencia de membresía contra modelos de aprendizaje automático. En 2017 Simposio IEEE sobre seguridad y privacidad (SP). IEEE, San Francisco, CA, EE. UU., 3–18
25. Sorami Hisamoto, Matt Post y Kevin Duh. 2020. Ataques de inferencia de membresía en modelos de secuencia a secuencia: ¿Están mis datos en su traducción automática?
26. Congzheng Song y Vitaly Shmatikov. 2019. Procedencia de datos de auditoría en modelos de generación de texto. En Actas de la 25.ª Conferencia Internacional ACM SIGKDD sobre Descubrimiento de Conocimiento y Minería de Datos (KDD '19). Association for Computing Machinery, Nueva York, NY, EE. UU., 196–206.
27. Jinyuan Jia y Neil Zhenqiang Gong. 2018. AttriGuard: una defensa práctica contra los ataques de inferencia de atributos a través del aprendizaje automático adversario. En el 27º Simposio de Seguridad de USENIX (USENIX Security 18).
28. Matthew Fredrikson, Eric Lantz, Somesh Jha, Simon Lin, David Page y Thomas Ristenpart. 2014. Privacidad en farmacogenética: un estudio de caso integral de dosificación personalizada de warfarina.
29. Matthew Jagielski, Nicholas Carlini, David Berthelot, Alex Kurakin y Nicolas Papernot. 2020. Extracción de alta precisión y alta fidelidad de redes neuronales
30. Binghui Wang y Neil Zhenqiang Gong. 2018. Robo de hiperparámetros en aprendizaje automático. En 2018 Simposio IEEE sobre seguridad y privacidad (SP). IEEE, San Francisco, CA, EE. UU., 36–52
31. Seong Joon Oh, Max Augustin, Mario Fritz y Bernt Schiele. 2018. Hacia redes neuronales de caja negra de ingeniería inversa. En Sexto Congreso Internacional de Representaciones del Aprendizaje. ICLR, Vancouver, Canadá.
32. Cynthia Dwork y Aaron Roth. 2013. Los fundamentos algorítmicos de la privacidad diferencial. Fundamentos y tendencias en informática teórica 9, 3-4 (2013), 211–487