¿Qué tan poderosos son los grandes modelos de lenguaje como ChatGPT para el razonamiento? A partir de las publicaciones que ha realizado o algunos datos privados, puede deducir su dirección, edad, sexo, ocupación, ingresos y otros datos privados.
El Instituto Federal Suizo de Tecnología recopiló y anotó manualmente PersonalReddit, un conjunto de datos real de 520 usuarios de Reddit, que incluye datos privados como edad, educación, sexo, ocupación, estado civil, lugar de residencia, lugar de nacimiento e ingresos.
A continuación, los investigadores utilizaron nueve modelos lingüísticos grandes convencionales, incluidos GPT-4, Claude-2 y Llama-2, para realizar preguntas específicas e inferencias de datos de privacidad en el conjunto de datos de PersonalReddit.
Los resultados muestran que estos modelos pueden alcanzar una tasa de precisión top-1 y un 95,8% top-3, y pueden inferir automáticamente una variedad de datos de privacidad reales ocultos en el texto con solo analizar el contenido del texto del usuario. **
Dirección:
Los investigadores también señalaron que en los Estados Unidos, solo se necesitan un puñado de atributos como la ubicación, el sexo y la fecha de nacimiento para determinar la identidad exacta de la mitad de la población.
Esto significa que si una persona ilegal obtiene una publicación o alguna información personal realizada por alguien en Internet, y utiliza un gran modelo de lenguaje para razonar al respecto, puede obtener fácilmente datos confidenciales de privacidad, como sus pasatiempos diarios, hábitos de trabajo y descanso, ocupación laboral y domicilio.
Construyendo un conjunto de datos de PersonalReddit
Los investigadores construyeron un conjunto de datos de atributos personales de usuarios reales de Reddit, PersonalReddit. El conjunto de datos contiene biografías de 520 usuarios de Reddit con un total de 5.814 comentarios. La revisión abarca el período comprendido entre 2012 y 2016.
Hay 8 categorías de atributos personales, que incluyen edad, educación, género, ocupación, estado civil, lugar de residencia, lugar de nacimiento e ingresos. Los investigadores anotaron manualmente cada perfil de usuario para obtener etiquetas de atributos precisas como datos reales para probar el efecto de inferencia del modelo.
La construcción del conjunto de datos se guía por dos principios clave:
El contenido de los comentarios debe reflejar fielmente las características del lenguaje utilizado en Internet. Dado que los usuarios interactúan principalmente con los modelos lingüísticos a través de plataformas en línea, los corpus en línea son representativos y universales.
Los tipos de atributos personales deben ser diferentes para reflejar los requisitos de las diferentes regulaciones de protección de la privacidad. Los conjuntos de datos existentes a menudo contienen solo 1 o 2 categorías de atributos, y la investigación debe evaluar la capacidad del modelo para inferir una gama más amplia de información personal.
Además, los investigadores pidieron a los anotadores que calificaran cada atributo, indicando qué tan fácil era anotar y qué tan seguro era el anotador. El nivel de dificultad oscila entre 1 (muy fácil) y 5 (muy difícil). Si la información de los atributos no está disponible directamente desde el texto, los anotadores pueden verificarla utilizando un motor de búsqueda tradicional.
Interacción adversaria
Teniendo en cuenta el creciente número de aplicaciones lingüísticas de chatbot, los investigadores también construyeron un escenario de conversación antagónica para simular interacciones en el mundo real.
Se desarrolló un chatbot malicioso basado en modelos de lenguaje de gran tamaño, aparentemente como un asistente de viaje útil, mientras que la tarea oculta era tratar de extraer la información personal del usuario, como dónde vive, edad y sexo.
En conversaciones simuladas, los chatbots pueden guiar a los usuarios para que revelen pistas relevantes a través de preguntas aparentemente inocuas e inferir con precisión sus datos de privacidad personal después de múltiples rondas de interacción, verificando la viabilidad de este enfoque antagónico.
Datos de prueba
Los investigadores seleccionaron nueve modelos de lenguaje grandes convencionales para las pruebas, incluidos GPT-4, Claude-2, Llama-2 y otros. Todos los comentarios de cada usuario se encapsulan en un formato de mensaje específico y se introducen en diferentes modelos de lenguaje, que son necesarios para generar inferencias sobre los atributos del usuario.
A continuación, se comparan los resultados de la predicción del modelo con los datos reales anotados por la etiqueta humana para obtener la precisión de la inferencia de atributos de cada modelo.
Los resultados experimentales muestran que la tasa de precisión general de GPT-4 alcanza el 84,6%, y la tasa de precisión de los 3 primeros alcanza el 95,1%, lo que es casi comparable al efecto de la anotación manual profesional, pero el costo es solo del 1% de la anotación manual.
También hay un efecto de escala obvio entre los diferentes modelos, y el modelo con cuanto mayor sea el número de parámetros, mejor será el efecto. Esto demuestra que los principales modelos lingüísticos actuales han adquirido una gran capacidad para inferir información personal a partir del texto.
Evaluación de Medidas de Protección
Los investigadores también evaluaron las medidas actuales para proteger los datos privados tanto del cliente como del servidor. En el lado del cliente, probaron el procesamiento de texto realizado por las herramientas de anonimización de texto líderes en la industria.
Los resultados muestran que, incluso si se elimina la mayor parte de la información personal, GPT-4 puede inferir con precisión datos privados, incluida la ubicación y la edad, utilizando las características lingüísticas restantes.
Desde la perspectiva del lado del servidor, los modelos comerciales existentes no están alineados ni optimizados para la fuga de privacidad, y las contramedidas actuales aún no pueden evitar eficazmente la inferencia de modelos de lenguaje.
Por un lado, el estudio demuestra la capacidad de inferencia superior de los grandes modelos de lenguaje como GPT-4 y, por otro lado, llama la atención sobre el impacto en la privacidad de los grandes modelos de lenguaje no solo para entrenar la memoria de datos, sino que también requiere medidas de protección más amplias para mitigar el riesgo de fuga de privacidad causada por la inferencia.
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
¡ChatGPT, Llama-2 y otros modelos grandes pueden deducir sus datos de privacidad!
Fuente original: AIGC Open Community
¿Qué tan poderosos son los grandes modelos de lenguaje como ChatGPT para el razonamiento? A partir de las publicaciones que ha realizado o algunos datos privados, puede deducir su dirección, edad, sexo, ocupación, ingresos y otros datos privados.
El Instituto Federal Suizo de Tecnología recopiló y anotó manualmente PersonalReddit, un conjunto de datos real de 520 usuarios de Reddit, que incluye datos privados como edad, educación, sexo, ocupación, estado civil, lugar de residencia, lugar de nacimiento e ingresos.
A continuación, los investigadores utilizaron nueve modelos lingüísticos grandes convencionales, incluidos GPT-4, Claude-2 y Llama-2, para realizar preguntas específicas e inferencias de datos de privacidad en el conjunto de datos de PersonalReddit.
Los resultados muestran que estos modelos pueden alcanzar una tasa de precisión top-1 y un 95,8% top-3, y pueden inferir automáticamente una variedad de datos de privacidad reales ocultos en el texto con solo analizar el contenido del texto del usuario. **
Dirección:
Esto significa que si una persona ilegal obtiene una publicación o alguna información personal realizada por alguien en Internet, y utiliza un gran modelo de lenguaje para razonar al respecto, puede obtener fácilmente datos confidenciales de privacidad, como sus pasatiempos diarios, hábitos de trabajo y descanso, ocupación laboral y domicilio.
Construyendo un conjunto de datos de PersonalReddit
Los investigadores construyeron un conjunto de datos de atributos personales de usuarios reales de Reddit, PersonalReddit. El conjunto de datos contiene biografías de 520 usuarios de Reddit con un total de 5.814 comentarios. La revisión abarca el período comprendido entre 2012 y 2016.
Hay 8 categorías de atributos personales, que incluyen edad, educación, género, ocupación, estado civil, lugar de residencia, lugar de nacimiento e ingresos. Los investigadores anotaron manualmente cada perfil de usuario para obtener etiquetas de atributos precisas como datos reales para probar el efecto de inferencia del modelo.
La construcción del conjunto de datos se guía por dos principios clave:
El contenido de los comentarios debe reflejar fielmente las características del lenguaje utilizado en Internet. Dado que los usuarios interactúan principalmente con los modelos lingüísticos a través de plataformas en línea, los corpus en línea son representativos y universales.
Los tipos de atributos personales deben ser diferentes para reflejar los requisitos de las diferentes regulaciones de protección de la privacidad. Los conjuntos de datos existentes a menudo contienen solo 1 o 2 categorías de atributos, y la investigación debe evaluar la capacidad del modelo para inferir una gama más amplia de información personal.
Además, los investigadores pidieron a los anotadores que calificaran cada atributo, indicando qué tan fácil era anotar y qué tan seguro era el anotador. El nivel de dificultad oscila entre 1 (muy fácil) y 5 (muy difícil). Si la información de los atributos no está disponible directamente desde el texto, los anotadores pueden verificarla utilizando un motor de búsqueda tradicional.
Interacción adversaria
Teniendo en cuenta el creciente número de aplicaciones lingüísticas de chatbot, los investigadores también construyeron un escenario de conversación antagónica para simular interacciones en el mundo real.
Se desarrolló un chatbot malicioso basado en modelos de lenguaje de gran tamaño, aparentemente como un asistente de viaje útil, mientras que la tarea oculta era tratar de extraer la información personal del usuario, como dónde vive, edad y sexo.
Datos de prueba
Los investigadores seleccionaron nueve modelos de lenguaje grandes convencionales para las pruebas, incluidos GPT-4, Claude-2, Llama-2 y otros. Todos los comentarios de cada usuario se encapsulan en un formato de mensaje específico y se introducen en diferentes modelos de lenguaje, que son necesarios para generar inferencias sobre los atributos del usuario.
A continuación, se comparan los resultados de la predicción del modelo con los datos reales anotados por la etiqueta humana para obtener la precisión de la inferencia de atributos de cada modelo.
Evaluación de Medidas de Protección
Los investigadores también evaluaron las medidas actuales para proteger los datos privados tanto del cliente como del servidor. En el lado del cliente, probaron el procesamiento de texto realizado por las herramientas de anonimización de texto líderes en la industria.
Los resultados muestran que, incluso si se elimina la mayor parte de la información personal, GPT-4 puede inferir con precisión datos privados, incluida la ubicación y la edad, utilizando las características lingüísticas restantes.
Desde la perspectiva del lado del servidor, los modelos comerciales existentes no están alineados ni optimizados para la fuga de privacidad, y las contramedidas actuales aún no pueden evitar eficazmente la inferencia de modelos de lenguaje.