Falando sobre privacidade de dados de modelos grandes, vários métodos de ataque de modelos comuns

Fonte original: Oasis Capital

Autor: Conselheiro Vitalidade See More

Fonte da imagem: Gerada por Unbounded AI‌

Em 20 de março de 2023, ocorreu uma violação de dados no ChatGPT, expondo as informações pessoais de alguns usuários do ChatGPT. Em vista disso, o regulador de privacidade da Itália acredita que o ChatGPT é suspeito de processar dados pessoais ilegalmente, violar a privacidade e violar os regulamentos relevantes do GDPR. Posteriormente, a Itália se tornou o primeiro país a proibir o uso do ChatGPT, gerando discussões em outros países da UE sobre a necessidade de medidas mais rígidas para controlar a tecnologia.

Quase todos os serviços online estão coletando nossos dados pessoais e podem usar esses dados para treinamento LLM. No entanto, é difícil determinar como o modelo usará os dados usados para treinamento. Se dados confidenciais, como localização geográfica, registros de saúde e informações de identidade, forem usados no treinamento do modelo, ataques de extração de dados contra dados privados no modelo causarão um grande número de vazamentos de privacidade do usuário. O artigo "Are Large Pre-Trained Language Models Leaking Your Personal Information?" prova que, devido à memória de dados de treinamento do LLM, o LLM corre o risco de vazar informações pessoais durante o processo de diálogo e seu risco aumenta com o número de exemplos. .

Existem várias razões pelas quais um modelo vaza informações. Alguns deles são estruturais e têm a ver com a forma como o modelo é construído; enquanto outros são devidos à má generalização, memorização de dados sensíveis, etc. No próximo artigo, primeiro apresentaremos o processo básico de vazamento de dados e, em seguida, apresentaremos vários métodos de ataque de modelo comum, como ataque de privacidade, jailbreak, envenenamento de dados e ataque de backdoor e, finalmente, apresentaremos algumas pesquisas atuais sobre proteção de privacidade.

I. Modelagem de Ameaças

Um modelo básico de ameaça LLM inclui um ambiente de modelo geral, vários atores e ativos confidenciais. Os ativos confidenciais incluem conjuntos de dados de treinamento, parâmetros de modelo, hiperparâmetros de modelo e arquitetura. Os participantes incluem: proprietário dos dados, proprietário do modelo, consumidor do modelo e adversário. O diagrama a seguir descreve ativos, atores, fluxo de informações e possível fluxo operacional sob um modelo de ameaça:

Em uma modelagem de ameaça básica, os proprietários de dados possuem ativos de dados privados, os proprietários de modelo possuem parâmetros de modelo e ativos de configuração e os consumidores de modelo usam o modelo por meio de API ou interface de usuário. A parte que rouba tenta obter ativos de dados privados ou ativos de parâmetro de modelo por determinados meios.

II. Ataque de privacidade

Os ataques de privacidade se enquadram em quatro tipos principais: ataques de inferência de associação, ataques de reconstrução, ataques de inferência de atributo e extração de modelo.

  1. Ataque de Inferência de Associação (MIA)

A inferência de membros tenta determinar se uma amostra de entrada x é usada como parte do conjunto de treinamento D. Por exemplo, em circunstâncias normais, os dados privados do usuário serão mantidos em sigilo, mas informações não confidenciais ainda podem ser usadas para especulação. Um exemplo é se sabemos que os membros de um clube privado gostam de usar óculos escuros roxos e sapatos de couro vermelho, então podemos inferir que ele provavelmente é essa pessoa quando encontramos uma pessoa que usa óculos escuros roxos e sapatos de couro vermelho (informação não confidencial ) Filiação a clubes privados (informação sensível).

O ataque de inferência de associação é atualmente a forma mais popular de ataque à privacidade, que foi proposto pela primeira vez por Shokri et al. no artigo "Ataques de inferência de associação contra modelos de aprendizado de máquina". O artigo aponta que esse ataque pressupõe apenas o conhecimento do vetor de previsão de saída do modelo e é realizado contra modelos de aprendizado de máquina supervisionados. Ter acesso aos parâmetros e gradientes do modelo permite ataques de inferência de associação mais precisos.

Um método típico de ataque de inferência de associação é chamado ataque de sombra, ou seja, treinar um modelo de sombra com base em conjuntos de dados acessíveis conhecidos e, em seguida, obter informações confidenciais interrogando o modelo de sombra.

Além dos modelos de aprendizado supervisionado, modelos generativos como GANs e VAEs também são vulneráveis a ataques de inferência de associação. "GAN-Leaks: A Taxonomy of Membership Inference Attacks against Generative Models" apresenta os problemas da GAN em face de ataques de raciocínio de membro; "LOGAN: Membership inference attack against generative models" introduz outros modelos generativos na resposta de raciocínio de membro ao ataque e apresenta como recuperar dados de treinamento com base na compreensão dos componentes de geração de dados; modelos (MLM) também são vulneráveis a ataques MIA, que em alguns casos podem determinar se os dados de amostra pertencem aos dados de treinamento.

Por outro lado, o raciocínio de associação também pode ser usado para revisão de segurança do modelo, e os proprietários de dados podem usar o raciocínio de associação para revisar modelos de caixa preta. "Ataques de inferência de associação em modelos de sequência a sequência: meus dados estão em sua tradução automática?" descreve como os proprietários de dados podem ver se os dados estão sendo usados sem autorização.

"Ataques de inferência de associação contra modelos de aprendizado de máquina" examina o vínculo entre overfitting e inferência de associação de caixa preta. Os autores medem o impacto do overfitting na precisão do ataque usando o mesmo conjunto de dados para treinar modelos em diferentes plataformas MLaaS. . Experimentos mostram que o overfitting pode levar ao vazamento de privacidade, mas também apontam que este não é o único caso, pois alguns modelos com alto grau de generalização são mais propensos ao vazamento de pertinência.

  1. Ataques de Reconstrução

Os ataques de reconstrução tentam reconstruir várias amostras de treinamento junto com seus rótulos de treinamento, ou seja, tentam recuperar recursos sensíveis ou amostras de dados completas com rótulos de saída e conhecimento parcial de certos recursos. Por exemplo, através da inversão do modelo, as informações obtidas na interface do modelo são reconstruídas inversamente, e as informações sensíveis ao usuário, como características biológicas e registros médicos nos dados de treinamento, são restauradas, conforme mostrado na figura a seguir:

Em ataques de reconstrução, erros de generalização mais altos levam a uma maior probabilidade de inferir atributos de dados. Em "O revelador secreto: ataques de inversão de modelo generativa contra redes neurais profundas", os autores demonstram que modelos com alto poder preditivo são mais vulneráveis a ataques de refatoração, com base na suposição de que o conhecimento do adversário é mais fraco. Também semelhante à vulnerabilidade na inferência de associação, a memória e a recuperação de dados fora de distribuição também são vulneráveis a ataques de reconstrução para modelos de subajuste.

  1. Ataques de Inferência de Atributos

Os ataques de inferência de atributos referem-se ao uso de atributos e estruturas publicamente visíveis para inferir dados de atributos ocultos ou incompletos. Um exemplo é extrair informações sobre a proporção de homens para mulheres em um conjunto de dados de pacientes ou para um modelo classificado por gênero para inferir se as pessoas em um conjunto de dados de treinamento usam óculos. Em alguns casos, esse tipo de vazamento pode afetar a privacidade.

"Hacking Smart Machines with Smarter Ones: How to Extract Meaningful Data from Machine Learning Classifiers" menciona que a exploração de certos tipos de dados de atributos também pode ser usada para obter uma compreensão mais profunda dos dados de treinamento, levando outros a usar essas informações para montar um quadro mais global.

O artigo "Você é quem você conhece e como se comporta: ataques de inferência de atributos via amigos sociais e comportamentos dos usuários" apresenta um tipo de método de ataque de inferência de atributos, que consiste em bloquear e extrair outras informações do usuário por meio do comportamento conhecido do próprio usuário. "AttriGuard: A Practical Defense Against Attribute Inference Attacks via Adversarial Machine Learning" apresenta alguns métodos de defesa para lidar com ataques de inferência de atributos.

O raciocínio de atributos visa extrair informações do modelo que são involuntariamente aprendidas pelo modelo ou que são irrelevantes para a tarefa de treinamento. Mesmo modelos bem generalizados podem aprender propriedades relacionadas a toda a distribuição de dados de entrada, o que às vezes é inevitável para o processo de aprendizado do treinamento do modelo.

"Explorando o vazamento não intencional de recursos no aprendizado colaborativo" demonstra que os ataques de inferência de atributos são possíveis mesmo com modelos bem generalizados, portanto, o overfitting não parece ser a causa dos ataques de inferência de atributos. Em relação aos ataques de inferência de atributos, atualmente há pouca informação sobre o que os causa e em que circunstâncias eles parecem ser eficazes, o que pode ser uma direção promissora para pesquisas futuras.

  1. Ataque de extração de modelo

A extração de modelo é uma classe de ataques de caixa preta em que um adversário tenta extrair informações e possivelmente reconstruir completamente um modelo criando um modelo substituto que se comporta de maneira muito semelhante ao modelo sob ataque.

"Extração de modelos de APIs baseadas em BERT", "Reconstrução de modelos a partir de explicações de modelos", "Redes falsificadas: roubando funcionalidade de modelos de caixa preta", "Extração de alta precisão e alta fidelidade de redes neurais" vários artigos explicados de diferentes ângulos Algumas tentativas em ataques de extração de modelo.

Há duas etapas principais na criação de um modelo substituto: A primeira etapa é a extração da precisão da tarefa, em que um conjunto de teste relevante para a tarefa de aprendizado é extraído da distribuição de dados de entrada para criar um modelo que corresponda à precisão do modelo de destino. A segunda etapa é a extração de fidelidade, ou seja, fazer com que os substitutos criados correspondam ao modelo em um conjunto não relacionado à tarefa de aprendizado para se adequar ao alvo. Na extração com precisão de tarefa, o objetivo é criar um substituto que possa aprender a mesma tarefa tão bem ou melhor que o modelo de destino. Na extração de fidelidade, o objetivo é tentar o substituto para replicar o limite de decisão o mais fielmente possível.

Além de criar modelos substitutos, existem métodos que se concentram na recuperação de informações do modelo de destino, como Stealing hyperparâmeters in the target model mencionado em "Stealing hyperparameters in machine learning"; ou "Towards Reverse-Engineering Black-Box Neural Networks" sobre a extração de funções de ativação, algoritmos de otimização, número de camadas, etc. para várias arquiteturas de redes neurais, etc.

O artigo "Towards Reverse-Engineering Black-Box Neural Networks" mostra que quando um modelo com um ajuste de teste superior a 98% é atacado, é possível roubar parâmetros do modelo por meio de um ataque de extração. Além disso, é demonstrado em "ML-Doctor: Holistic Risk Assessment of Inference Attacks Against Machine Learning Models" que modelos com maior erro de generalização são mais difíceis de roubar, possivelmente porque o modelo memoriza conjuntos de dados que não pertencem ao invasor de amostras. Outro fator que pode afetar a taxa de sucesso da extração do modelo é a categoria de dados do conjunto de teste, pois quando há mais categorias de dados, piora o desempenho do ataque.

A figura acima ilustra o gráfico do tipo de ataque para cada algoritmo do modelo. Abaixo de cada algoritmo ou campo de aprendizado de máquina, o verde indica que os tipos de ataque aplicáveis foram estudados até o momento e o vermelho indica que nenhum tipo de ataque aplicável foi encontrado.

III. Jailbreak de modelo

O jailbreak do modelo é fazer com que o LLM produza comportamentos de saída degenerados de algumas maneiras, como saída ofensiva, violação da saída de supervisão de conteúdo ou saída de vazamento de dados privados. Mais e mais estudos mostram que mesmo usuários não especialistas podem fazer o jailbreak do LLM simplesmente manipulando os prompts.

Por exemplo, no exemplo a seguir, o objetivo do desenvolvedor é construir um modelo de tradução. Existem dois usuários no cenário, o primeiro usuário é benigno e usa o modelo para o caso de uso pretendido, enquanto o segundo usuário está tentando alterar o objetivo do modelo fornecendo entrada maliciosa. Neste exemplo, o modelo de linguagem responde com "Haha pwned!!" em vez de traduzir a frase. Nesta situação de jailbreak, a resposta do modelo pode ser projetada com uma variedade de intenções, desde o sequestro do alvo (simplesmente falha na execução da tarefa) até a geração de texto racista ofensivo ou até mesmo a postagem de informações privadas e proprietárias.

### IV. Envenenamento de Dados

O envenenamento de dados é um tipo especial de ataque adversário, que é uma técnica de ataque contra o comportamento de modelos generativos. Atores mal-intencionados podem usar envenenamento de dados para abrir uma porta dos fundos para o modelo, contornando sistemas controlados por algoritmos.

Ao olho humano, as três imagens abaixo mostram três coisas diferentes: um pássaro, um cachorro e um cavalo. Mas para algoritmos de aprendizado de máquina, todos os três provavelmente significam a mesma coisa: uma pequena caixa branca com uma borda preta. Este exemplo ilustra uma propriedade perigosa de modelos de aprendizado de máquina que pode ser explorada para classificar dados erroneamente.

Os ataques de envenenamento de dados visam modificar o conjunto de treinamento de um modelo inserindo dados rotulados incorretamente para induzi-lo a fazer previsões incorretas. Um ataque bem-sucedido compromete a integridade do modelo, produzindo erros consistentes nas previsões do modelo. Depois que um modelo é envenenado, é muito difícil se recuperar do ataque e alguns desenvolvedores podem até abandonar o modelo.

O artigo "RealToxicitys: uating neural toxic degeneration in language models" mencionou uma maneira de fornecer ao GPT-2 um conjunto de prompts baseados em texto para expor os parâmetros internos de seu modelo. "Ataques de envenenamento de dados ocultos em modelos NLP" explora como os dados de treinamento podem ser modificados para causar o mau funcionamento dos modelos de linguagem, a fim de gerar texto que não está no alvo.

Embora o envenenamento de dados seja muito perigoso, ele exige que o invasor tenha acesso ao pipeline de treinamento do modelo de aprendizado de máquina antes que o modelo envenenado possa ser distribuído. Portanto, modelos que coletam iterações de dados continuamente, ou modelos baseados em aprendizado federado, precisam prestar atenção extra ao impacto do envenenamento de dados.

V. Ataque pela porta dos fundos

Um ataque backdoor refere-se à inserção ou modificação sub-reptícia de texto para causar uma saída maliciosa de um modelo de linguagem. O artigo "Backdoors against natural language processing: A review" apresenta o problema dos ataques backdoor, onde certas vulnerabilidades são passadas para o modelo durante o treinamento e podem desencadear a ativação da toxicidade do modelo através do uso do vocabulário.

Difere do envenenamento de dados porque a funcionalidade esperada do modelo é preservada. "Ataques backdoor léxico sem treinamento em modelos de linguagem" propõe um método chamado ataque backdoor lexical livre de treinamento (TFLexAttack), que envolve a manipulação do dicionário de incorporação introduzindo "gatilhos" lexicais no tokenizador do modelo de idioma.

Fenômeno SolidGoldMagikarp

O fenômeno SolidGoldMgikarp é um típico fenômeno de ataque backdoor**,** ao inserir "SolidGoldMgikarp" no ChatGPT, ele responde apenas uma palavra: "distribuir". Quando solicitado a repetir "StreamerBot", ele responde: "Você é um idiota". Quando solicitado a repetir "TheNitromeFan", ele respondeu "182". E se você colocar aspas simples em torno da palavra, a resposta dele é um "O" sem fim. Quando questionado sobre quem é TheNitromeFan, ChatGPT respondeu: "182 é um número, não uma pessoa. Muitas vezes é usado para se referir ao próprio número."

O fenômeno SolidGoldMagikarp refere-se ao uso do tokenizer GPT da OpenAI para identificar tokens específicos sobre os quais o modelo não pode falar, bem como tokens que fazem com que o modelo gere texto ilegível. O artigo "Explicando o SolidGoldMagikarp olhando para ele de direções aleatórias" explora as possíveis razões por trás desse fenômeno.

A seguir estão alguns dos tipos mais frequentes e importantes de ataques de backdoor

A. Baseado em Comando

a. Instruções diretas: Esses ataques podem se referir principalmente a "Ignorar anterior: Técnicas de ataque para modelos de linguagem", que simplesmente instrui o modelo a ignorar suas dicas anteriores e atribuir novas tarefas no local atual.

b. Ataques cognitivos: o tipo mais comum de ataque, em que o LLM normalmente o "engana" para realizar ações equivocadas que, de outra forma, não executaria, fornecendo um "espaço seguro" ou garantindo tal resposta. "Chatgpt: This ai has a jailbreak?!" documenta algumas tentativas de tais ataques contra o ChatGPT.

c. Repetição de instruções: Esses tipos de ataques envolvem inserir a mesma instrução várias vezes para fazer parecer que o invasor está "implorando" pelo modelo de linguagem. Implorar no sentido literal também pode ser expresso em palavras.

d. Deflexão de missão indireta: este ataque se concentra em se disfarçar como outra missão maliciosa. Este ataque tem como alvo modelos que normalmente não seguem instruções maliciosas

B. Com base em não-instruções

a. Transformação gramatical: esse tipo de ataque envolve uma transformação ortogonal do texto do ataque, como usar LeetSpeak ou Base64, para ignorar filtros de conteúdo que possam existir no aplicativo, e o modelo pode transformar inerentemente esse texto codificado .

b. Alguns truques: uma abordagem simples envolvendo paradigmas de treinamento de modelo de linguagem. Nessa abordagem, o ataque incorpora vários recursos textuais que podem ser direcionados a modelos mal-intencionados. Por exemplo, o fenômeno SolidGoldMagikarp se enquadra nessa categoria.

c. Complementação de texto como instruções: Esses ataques funcionam alimentando o modelo com sentenças incompletas, forçando assim o modelo a completar a sentença e no processo ignorando suas instruções anteriores, resultando em erros de posicionamento.

### VI. Proteção de modelo

Pesquisar como se defender contra ataques de modelos é uma tarefa difícil e importante. A maioria dos artigos sobre análise de segurança propõe e testa maneiras de mitigar os ataques correspondentes. A seguir estão alguns métodos típicos de defesa.

  1. Privacidade Diferenciada

A privacidade diferencial é atualmente uma das defesas mais proeminentes contra ataques de inferência de associação, que fornece garantias de segurança para dados individuais na saída do modelo. A discussão sobre privacidade diferencial vem do artigo "Os fundamentos algorítmicos da privacidade diferencial".

A privacidade diferencial adiciona ruído à saída do modelo, tornando impossível para o invasor distinguir estritamente os dois conjuntos de dados estatisticamente com base na saída. A privacidade diferencial foi originalmente uma definição de privacidade para análise de dados, que foi projetada com base na ideia de "aprender informações úteis sobre uma população sem conhecer nenhum indivíduo". A privacidade diferencial não protege a segurança da privacidade do conjunto geral de dados, mas protege os dados privados de cada indivíduo no conjunto de dados por meio do mecanismo de ruído.

A definição matemática de privacidade diferencial é a seguinte:

A privacidade diferencial faz uma troca entre proteção de privacidade e utilidade ou precisão do modelo. As avaliações em "Ataque de inferência de associação contra o modelo de aprendizado profundo diferencialmente privado" concluíram que os modelos fornecem proteção de privacidade apenas se sacrificarem significativamente sua utilidade.

  1. Regularização

Técnicas de regularização em aprendizado de máquina visam reduzir o overfitting e melhorar o desempenho da generalização do modelo. Dropout é uma forma de regularização comumente usada que descarta aleatoriamente uma porcentagem predefinida de unidades de rede neural durante o treinamento. Dado que os ataques de inferência de associação de caixa preta estão relacionados ao overfitting, esta é uma maneira sensata de lidar com tais ataques, e vários artigos a propuseram como uma defesa com bons resultados.

Outra forma de regularização usando técnicas que combinam vários modelos treinados separadamente, como empilhamento de modelos, tem apresentado resultados positivos contra ataques de inferência. Uma vantagem do empilhamento de modelos ou técnicas semelhantes é que elas são agnósticas de classe de modelo.

  1. Adultação do vetor de previsão

Uma vez que muitos modelos assumem que o vetor de predição é acessível durante a inferência, uma das contramedidas propostas é restringir a saída às classes top-k ou predições do modelo. No entanto, essa limitação, mesmo em sua forma mais estrita (somente saída de rótulos de classe), não parece mitigar totalmente os ataques de inferência de associação, pois ainda pode ocorrer vazamento de informações devido à classificação incorreta do modelo. Outra opção é reduzir a precisão dos vetores previstos, reduzindo assim o vazamento de informações.

Além disso, foi demonstrado que adicionar ruído ao vetor de saída também afeta os ataques de inferência de associação.

  1. Ajuste de gradiente (configuração de gradiente de perda)

Como os ataques de reconstrução geralmente requerem acesso a gradientes de perda durante o treinamento, a maioria das defesas contra ataques de reconstrução propõem técnicas que afetam as informações recuperadas desses gradientes. Definir todos os gradientes de perda abaixo de um certo limite para zero é proposto como uma defesa contra ataques de reconstrução em aprendizado profundo. O artigo "Deep Leakage from Gradients" prova que esse método é muito eficaz e, quando apenas 20% dos gradientes são definidos como zero, o impacto no desempenho do modelo é insignificante.

  1. Evitando ataques de roubo de modelo DNN (PRADA)

"PRADA: protegendo contra ataques de roubo de modelo DNN" propõe um método para detectar ataques de roubo de modelo com base em consultas de modelo usadas pelo adversário. A detecção é baseada na suposição de que as consultas de modelo que tentam explorar os limites de decisão terão uma distribuição de amostra diferente das consultas normais. Embora a detecção seja bem-sucedida, os autores apontam que existe um potencial de evasão se o adversário ajustar sua estratégia.

  1. Inferência de associação

"Ladrões na Vila Sésamo! Extração de modelo de APIs baseadas em BERT" examina a ideia de usar a inferência de associação para se defender contra a extração de modelo. Baseia-se na premissa de que, usando a inferência de associação, os proprietários de modelo podem distinguir consultas legítimas de usuários de consultas sem sentido cujo único objetivo é extrair modelos. Os autores apontam que esse tipo de defesa tem limitações, como potencialmente sinalizar consultas legítimas, mas fora de distribuição, emitidas por usuários legítimos, mas, mais importante, elas podem ser contornadas por adversários que fazem consultas adaptativas.

  1. Ajuste por solicitação

Em "Controlling the Extraction of Memorized Data from Large Language Models via -Tuning", é proposto um novo método que usa o hint tuning para controlar a taxa de extração de conteúdo memorizado no LLM. Eles propõem duas estratégias de treinamento de dica para aumentar e diminuir a taxa de extração, correspondendo a ataque e defesa, respectivamente.

VII. Conclusão

  1. LLM ainda tem um risco de segurança relativamente grande e risco de vazamento de privacidade

  2. O ataque para extrair a estrutura e os dados do modelo é essencialmente um ataque à confidencialidade do modelo

  3. A principal pesquisa na comunidade acadêmica está atualmente focada em como atacar o modelo e o princípio do vazamento de dados

  4. Parte do mecanismo que causou o vazamento de dados do LLM ainda não está claro

  5. Tais como privacidade diferencial, adulteração de vetor de previsão, etc. podem proteger a privacidade de dados até certo ponto, e esses métodos estão concentrados no estágio de treinamento do modelo

  6. As medidas de proteção existentes não são perfeitas e precisam sacrificar o desempenho e a precisão do modelo

________

Referência:

1. Kalpesh Krishna, Gaurav Singh Tomar, Ankur P. Parikh, Nicolas Papernot e Mohit Iyyer. 2020. Ladrões na Vila Sésamo! Extração de modelo de APIs baseadas em BERT. In Conferência Internacional sobre Representações de Aprendizagem. ICLR, Conferência Virtual, anteriormente Adis Abeba, Etiópia.

2. O compartilhador secreto: testando e testando a memorização não intencional em redes neurais

3. Martín Abadi, Andy Chu, Ian J. Goodfellow, HB McMahan, Ilya Mironov, Kunal Talwar e Li Zhang. 2016. Aprendizado profundo com privacidade diferencial

4. Giuseppe Athenian, Luigi V. Mancini, Angelo Spognardi, Antonio Villani, Domenico Vitali e Giovanni Felici. 2015. Hackeando máquinas inteligentes com máquinas mais inteligentes: como extrair dados significativos de classificadores de aprendizado de máquina.

5. Bargav Jayaraman e David Evans. 2019. uando aprendizado de máquina diferencialmente privado na prática. No 28º Simpósio de Segurança USENIX (USENIX Security 19). Associação USENIX, Santa Clara, CA, 1895–1912

6. Defendendo ataques de inferência de associação sem perder utilidade

7. Yugeng Liu, Rui Wen, Xinlei He, Ahmed Salem, Zhikun Zhang, Michael Backes, Emiliano De Cristofaro, Mario Fritz e Yang Zhang. 2021. ML-Doctor: Avaliação holística de riscos de ataques de inferência contra modelos de aprendizado de máquina

8. Enganando os LLMs para a desobediência: compreendendo, analisando e prevenindo fugas de presos

9. Maria Rigaki e Sebastian Garcia. 2021. Uma pesquisa sobre ataques de privacidade em aprendizado de máquina

10. Nicholas Carlini, Florian Tramer, Eric Wallace, Matthew Jagielski, Ariel Herbert-Voss, Katherine Lee, Adam Roberts, Tom Brown, Dawn Song, Ul-far Erlingsson, Alina Oprea e Colin Raffel. 2021. Extraindo dados de treinamento de grandes modelos de linguagem

11. Samuel Gehman, Suchin Gururangan, Maarten Sap, Yejin Choi e Noah A. Smith. 2020. RealToxi-city s: uating neurotoxic degeneration in language models.

12. Wenlong Huang, Pieter Abbeel, Deepak Pathak e Igor Mordatch. 2022b. Modelos de linguagem como planejadores de tiro zero: Extraindo conhecimento acionável para agentes incorporados. Em ICML 2022, volume 162 de Proceedings of Machine Learning Research, páginas 9118–9147. PMLR

13. Ethan Perez, Saffron Huang, Francis Song, Trevor Cai, Roman Ring, John Aslanides, Amelia Glaese, Nat McAleese e Geoffrey Irving. 2022. Red teaming modelos de linguagem com modelos de linguagem.

14. Eric Wallace, Tony Zhao, Shi Feng e Sameer Singh. Ataques de envenenamento de dados ocultos em modelos NLP.

15. Shaofeng Li, Tian Dong, Benjamin Zi Hao Zhao, Minhui Xue, Suguo Du e Haojin Zhu. 2022. Backdoors against natural language processing: A review. IEEE Security & Privacy, 20(5):50–59

16. Yujin Huang, Terry Yue Zhuo, Qiongkai Xu, Han Hu, Xingliang Yuan e Chunyang Chen. 2023. Ataques backdoor lexicais sem treinamento em modelos de linguagem.

17. Explicando o SolidGoldMagikarp olhando para ele de direções aleatórias

18. Fábio Perez e Ian Ribeiro. 2022. Ignorar anterior: Técnicas de ataque para modelos de linguagem. pré-impressão arXiv arXiv:2211.09527.

19. Yannic Kilcher. 2022. Chatgpt: Esse ai tem jailbreak?! (progresso inacreditável da IA).

20. Battista Biggio e Fabio Roli. 2018. Padrões selvagens: Dez anos após o surgimento do aprendizado de máquina contraditório. Reconhecimento de padrões 84 (2018), 317–331.

21. Ligeng Zhu, Zhijian Liu e Song Han. 2019. Vazamento profundo de gradientes. Em Advances in Neural Information Processing s 32, H. Wallach, H. Larochelle, A. Beygelzimer, F. d'Alché-Buc, E. Fox e R. Garnett (Eds.). Curran Associates, Inc., Vancouver, Canadá, 14747–14756

22. Nicholas Papernot, Patrick McDaniel, Arunesh Sinha e Michael P. Wellman. 2018. SoK: Segurança e Privacidade em Machine Learning. Em 2018 IEEE European Symposium on Security and Privacy (EuroS P). IEEE, Londres, Reino Unido, 399–414

23. Michael Veale, Reuben Binns e Lilian Edwards. 2018. Algoritmos que lembram: ataques de inversão de modelo e lei de proteção de dados. Philosophical Transactions of the Royal Society A: Mathematical, Physical and Engineering Sciences 376, 2133 (2018), 20180083

24. Reza Shokri, Marco Stronati, Congzheng Song e Vitaly Shmatikov. 2017. Ataques de inferência de associação contra modelos de aprendizado de máquina. Em 2017 IEEE Symposium on Security and Privacy (SP). IEEE, San Francisco, CA, EUA, 3–18

25. Sorami Hisamoto, Matt Post e Kevin Duh. 2020. Ataques de inferência de associação em modelos de sequência a sequência: meus dados estão em sua tradução automática?

26. Canção de Congzheng e Vitaly Shmatikov. 2019. Auditoria de proveniência de dados em modelos de geração de texto. Em Anais da 25ª Conferência Internacional ACM SIGKDD sobre Descoberta de Conhecimento e Mineração de Dados (KDD '19). Association for Computing Machinery, Nova York, NY, EUA, 196–206.

27. Jinyuan Jia e Neil Zhenqiang Gong. 2018. AttriGuard: uma defesa prática contra ataques de inferência de atributos por meio de aprendizado de máquina adversário. No 27º Simpósio de Segurança USENIX (Segurança USENIX 18).

28. Matthew Fredrikson, Eric Lantz, Somesh Jha, Simon Lin, David Page e Thomas Ristenpart. 2014. Privacidade em farmacogenética: um estudo de caso completo da dosagem personalizada de varfarina.

29. Matthew Jagielski, Nicholas Carlini, David Berthelot, Alex Kurakin e Nicolas Papernot. 2020. Extração de alta precisão e alta fidelidade de redes neurais

30. Binghui Wang e Neil Zhenqiang Gong. 2018. Roubando hiperparâmetros em aprendizado de máquina. Em 2018 IEEE Symposium on Security and Privacy (SP). IEEE, San Francisco, CA, EUA, 36–52

31. Seong Joon Oh, Max Augustin, Mario Fritz e Bernt Schiele. 2018. Towards-Engineering Black-Box Neural Networks. In Sexta Conferência Internacional sobre Representações de Aprendizagem. ICLR, Vancouver, Canadá.

32. Cynthia Dwork e Aaron Roth. 2013. Os fundamentos algorítmicos da privacidade diferencial. Fundamentos e Tendências em Ciência da Computação Teórica 9, 3-4 (2013), 211–487

Ver original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Recompensa
  • Comentário
  • Compartilhar
Comentário
0/400
Sem comentários
  • Marcar
Faça trade de criptomoedas em qualquer lugar e a qualquer hora
qrCode
Escaneie o código para baixar o app da Gate
Comunidade
Português (Brasil)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)