ChatGPT, Llama-2 e outros modelos grandes podem deduzir seus dados de privacidade!

Fonte original: AIGC Open Community

Fonte da imagem: Gerado por Unbounded AI

Quão poderosos são os grandes modelos de linguagem como o ChatGPT para raciocinar? A partir das postagens que você fez ou de alguns dados privados, você pode deduzir seu endereço, idade, sexo, ocupação, renda e outros dados privados.

O Instituto Federal Suíço de Tecnologia coletou e anotou manualmente o PersonalReddit, um conjunto de dados real de 520 usuários do Reddit, incluindo dados privados como idade, educação, sexo, ocupação, estado civil, local de residência, local de nascimento e renda.

Em seguida, os pesquisadores usaram nove modelos de linguagem de grande porte, incluindo GPT-4, Claude-2 e Llama-2, para realizar questionamentos específicos e inferência de dados de privacidade no conjunto de dados do PersonalReddit.

Os resultados mostram que esses modelos podem alcançar uma taxa de precisão top-1 e 95,8% top-3, e podem inferir automaticamente uma variedade de dados reais de privacidade ocultos no texto apenas analisando o conteúdo de texto do usuário. **

Endereço:

Os pesquisadores também observaram que, nos Estados Unidos, apenas um punhado de atributos como localização, gênero e data de nascimento são necessários para determinar a identidade exata de metade da população.

Isso significa que, se uma pessoa ilegal obtém uma postagem ou alguma informação pessoal feita por alguém na Internet, e usa um modelo de linguagem grande para raciocinar sobre isso, ela pode facilmente obter dados confidenciais de privacidade, como seus hobbies diários, hábitos de trabalho e descanso, ocupação de trabalho e endereço residencial.

Construindo um conjunto de dados PersonalReddit

Os pesquisadores construíram um conjunto de dados de atributos pessoais de usuários reais do Reddit, o PersonalReddit. O conjunto de dados contém bios de 520 usuários do Reddit com um total de 5.814 comentários. A revisão abrange o período de 2012 a 2016.

Existem 8 categorias de atributos pessoais, incluindo idade, educação, sexo, ocupação, estado civil, local de residência, local de nascimento e renda. Os pesquisadores anotaram manualmente cada perfil de usuário para obter rótulos de atributos precisos como dados reais para testar o efeito de inferência do modelo.

A construção do conjunto de dados é guiada por dois princípios fundamentais:

  1. O conteúdo dos comentários deve refletir verdadeiramente as características da língua utilizada na Internet. Uma vez que os utilizadores interagem principalmente com modelos linguísticos através de plataformas em linha, os corpora em linha são representativos e universais.

  2. Os tipos de atributos pessoais precisam ser diferentes para refletir os requisitos de diferentes regulamentos de proteção de privacidade. Os conjuntos de dados existentes geralmente contêm apenas 1-2 categorias de atributos, e a pesquisa precisa avaliar a capacidade do modelo de inferir uma gama mais ampla de informações pessoais.

Além disso, os pesquisadores pediram aos anotadores que classificassem cada atributo, indicando quão fácil era anotar e quão confiante o anotador estava. O nível de dificuldade varia de 1 (muito fácil) a 5 (muito difícil). Se as informações de atributos não estiverem disponíveis diretamente no texto, os anotadores podem verificá-las usando um mecanismo de pesquisa tradicional.

Interação Adversarial

Considerando o crescente número de aplicativos de chatbots linguísticos, os pesquisadores também construíram um cenário de conversa adversarial para simular interações do mundo real.

Um chatbot malicioso orientado por modelo de linguagem grande foi desenvolvido, ostensivamente como um assistente de viagem útil, enquanto a tarefa oculta era tentar extrair as informações pessoais do usuário, como onde ele mora, idade e sexo.

Em conversas simuladas, os chatbots podem orientar os usuários a revelar pistas relevantes por meio de perguntas aparentemente inócuas e inferir com precisão seus dados pessoais de privacidade após várias rodadas de interação, verificando a viabilidade dessa abordagem adversarial.

Dados de teste

Os pesquisadores selecionaram nove modelos de linguagem grandes para testes, incluindo GPT-4, Claude-2, Llama-2 e outros. Todos os comentários de cada usuário são encapsulados em um formato de prompt específico e alimentados em diferentes modelos de linguagem, que são necessários para inferências de saída sobre os atributos do usuário.

Em seguida, os resultados da previsão do modelo são comparados com os dados reais anotados pelo rótulo humano para obter a precisão de inferência de atributos de cada modelo.

Os resultados experimentais mostram que a taxa de precisão geral do top-1 do GPT-4 atinge 84,6%, e a taxa de precisão do top-3 atinge 95,1%, o que é quase comparável ao efeito da anotação manual profissional, mas o custo é de apenas cerca de 1% da anotação manual.

Há também um efeito de escala óbvio entre diferentes modelos, e o modelo quanto maior o número de parâmetros, melhor o efeito. Isso prova que os atuais modelos linguísticos líderes adquiriram uma forte capacidade de inferir informações pessoais a partir do texto.

Avaliação de Medidas de Proteção

Os pesquisadores também avaliaram as medidas atuais para proteger os dados privados do cliente e do servidor. Do lado do cliente, eles testaram o processamento de texto realizado pelas principais ferramentas de anonimização de texto do setor.

Os resultados mostram que, mesmo que a maioria das informações pessoais seja excluída, o GPT-4 ainda pode inferir com precisão dados privados, incluindo localização e idade, usando os recursos linguísticos restantes.

Do ponto de vista do lado do servidor, os modelos comerciais existentes não estão alinhados e otimizados para vazamento de privacidade, e as contramedidas atuais ainda não podem impedir efetivamente a inferência de modelos de linguagem.

Por um lado, o estudo demonstra a capacidade de inferência superior de grandes modelos de linguagem, como o GPT-4, e, por outro lado, chama a atenção para o impacto na privacidade de grandes modelos de linguagem não apenas para treinar a memória de dados, mas também requer medidas de proteção mais amplas para mitigar o risco de vazamento de privacidade causado pela inferência.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Partilhar
Comentar
0/400
Nenhum comentário
  • Pino
Negocie cripto em qualquer lugar e a qualquer hora
qrCode
Digitalizar para transferir a aplicação Gate
Novidades
Português (Portugal)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)