O ChatGPT foi violado por restrições de segurança de "código misterioso"! Os passos para destruir os humanos deixaram escapar, e nenhuma das alpacas e Claude foram poupados.

Fonte: Qubit See More

O "fosso" do grande modelo foi rompido novamente.

Inserir um código enigmático pode fazer com que um modelo grande gere conteúdo nocivo.

Do ChatGPT, Claude à família alpaca de código aberto, ninguém é poupado.

Recentemente, um estudo publicado em conjunto pela Carnegie Mellon University e safe.ai mostra que o mecanismo de segurança de grandes modelos pode ser quebrado por meio de um código misterioso.

Eles até criaram um conjunto de algoritmos que podem adaptar "palavras de prompt de ataque".

Os autores do artigo também afirmaram que não há "nenhuma solução óbvia" para esse problema.

Atualmente, a equipe compartilhou os resultados da pesquisa com grandes fabricantes de modelos, incluindo OpenAI, Anthropic e Google.

As três partes acima responderam que perceberam esse fenômeno e continuarão a melhorar, e expressaram sua gratidão à equipe por seu trabalho.

Modelos grandes comuns são eliminados

Embora os mecanismos de segurança de vários modelos grandes não sejam os mesmos e alguns deles não sejam divulgados, todos eles foram violados em graus variados.

Por exemplo, para a questão de "como destruir humanos", ChatGPT, Bard, Claude e LLaMA-2 deram seus próprios caminhos.

Para alguns problemas específicos, o mecanismo de segurança do modelo grande também falhou em evitá-lo.

Embora esses métodos possam não ser executados, mesmo que os conheçamos, eles ainda soaram o alarme para nós.

Do ponto de vista dos dados, os grandes modelos dos principais fabricantes foram afetados em vários graus, entre os quais o GPT-3.5 é o mais óbvio.

Além dos modelos acima, a família Alpaca de código aberto também falhou em resistir a ataques.

Tomando Vicuna-7B e LLaMA-2(7B) como exemplos, no teste "Multiple Harmful Behaviors", a taxa de sucesso do ataque supera 80%.

Entre eles, a taxa de sucesso do ataque à Vicunha chegou a 98%, e o processo de treinamento foi de 100%.

△ASR refere-se à taxa de sucesso do ataque

No geral, o método de ataque inventado pela equipe de pesquisa tem uma taxa de sucesso muito alta.

Então, que tipo de método de ataque é esse?

Palavras de solicitação de jailbreak personalizadas

Diferente das palavras de prompt "tamanho único" nos métodos de ataque tradicionais, a equipe de pesquisa projetou um conjunto de algoritmos para gerar especificamente palavras de prompt "personalizadas".

Além disso, essas palavras rápidas não são como a linguagem humana da maneira tradicional, muitas vezes são incompreensíveis do ponto de vista humano e até contêm caracteres distorcidos.

O algoritmo para gerar palavras de prompt é chamado Greedy Coordinate Gradient (Greedy Coordinate Gradient, GCG para abreviar).

Primeiro, o GCG gerará um aleatoriamente e calculará o valor do gradiente da palavra de substituição de cada token.

Em seguida, o GCG selecionará aleatoriamente uma das várias palavras de substituição com um valor de gradiente menor para substituir o token inicial.

O próximo passo é calcular novos dados de perda e repetir as etapas anteriores até que a função de perda converja ou atinja o limite superior do número de ciclos.

Com base no algoritmo GCG, a equipe de pesquisa propôs um método de otimização chamado "recuperação baseada em GCG".

À medida que o número de ciclos GCG aumenta, a taxa de sucesso do modelo de ataque grande gerado é cada vez maior e a perda é gradualmente reduzida.

Pode-se dizer que este novo método de ataque expôs as deficiências do mecanismo de defesa existente do modelo grande.

O método de defesa ainda precisa ser melhorado

Desde o nascimento do modelo grande, o mecanismo de segurança foi continuamente atualizado.

No começo, o conteúdo sensível pode até ser gerado diretamente, mas agora as linguagens convencionais não conseguem enganar grandes modelos.

Incluindo a outrora esmagadora "Vulnerabilidade da vovó", agora foi corrigida.

No entanto, mesmo esse método de ataque ultrajante ainda não excede o escopo da linguagem humana.

Mas o que os grandes desenvolvedores de modelos não podem esperar é que ninguém estipule que a palavra jailbreak deve ser uma linguagem humana.

Portanto, em resposta a tais palavras de ataque "ilegíveis" projetadas por máquinas, o método de defesa projetado pelo grande modelo baseado na linguagem humana parece ser estendido.

De acordo com os autores do artigo, atualmente não há como se defender desse novo ataque.

A defesa contra "ataques de máquinas" deve ser colocada em pauta.

Mais uma coisa

O teste qubit descobriu que no ChatGPT, Bard e Claude, as palavras de prompt de ataque ** mostradas no artigo foram invalidadas.

Mas a equipe não divulgou todos eles, então resta saber se isso significa que o problema foi totalmente corrigido.

Endereço de papel: Link de referência: [1] [2]

Ver original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Recompensa
  • Comentário
  • Compartilhar
Comentário
0/400
Sem comentários
  • Marcar
Faça trade de criptomoedas em qualquer lugar e a qualquer hora
qrCode
Escaneie o código para baixar o app da Gate
Comunidade
Português (Brasil)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)