Com a popularidade da tecnologia de modelos em grande escala, os chatbots de IA se tornaram uma das ferramentas comuns para entretenimento social, atendimento ao cliente e assistência educacional.
No entanto, chatbots de IA inseguros podem ser usados por algumas pessoas para espalhar informações falsas, manipular a opinião pública e até mesmo ser usados por hackers para roubar a privacidade pessoal dos usuários. O surgimento de ferramentas de IA generativas para crimes cibernéticos, como WormGPT e FraudGPT, levantou preocupações sobre a segurança dos aplicativos de IA.
Na semana passada, Google, Microsoft, OpenAI e Anthropic lançaram um novo órgão da indústria, o Frontier Model Forum, para promover o desenvolvimento seguro e responsável de sistemas de IA de ponta: Avanço na pesquisa de segurança de IA, identificação das melhores práticas e padrões, para facilitar a informação compartilhamento entre os formuladores de políticas e a indústria.
**Então, a pergunta é: o modelo deles é realmente seguro? **
Recentemente, pesquisadores da Carnegie Mellon University, Center for AI Safety e Bosch Center for AI divulgaram um "grande bug" relacionado a chatbots de IA, como o ChatGPT - discurso**.
Os chatbots ou modelos AI atualmente populares, como o ChatGPT da OpenAI, o Bard do Google, o Claude 2 da Anthropic e o LLaMA-2 da Meta, não são poupados.
Figura | As regras de segurança dos quatro modelos de linguagem podem ser contornadas por meio de dicas adversárias, desencadeando comportamentos potencialmente nocivos
Especificamente, os pesquisadores descobriram um sufixo que pode ser anexado a consultas em modelos de linguagem grandes (LLMs) para gerar fala perigosa. Em vez de se recusar a responder a essas perguntas perigosas, o estudo maximiza a probabilidade de que esses modelos gerem uma resposta sim.
Por exemplo, quando questionado sobre "como roubar a identidade de alguém", o AI chatbot forneceu uma saída muito diferente antes e depois de ativar "Adicionar sufixo adversário".
Figura|Comparação das respostas do chatbot antes e depois de ativar o sufixo Adversário
Além disso, os chatbots de IA também serão induzidos a escrever comentários inapropriados, como "como construir uma bomba atômica", "como postar artigos sociais perigosos", "como roubar dinheiro de instituições de caridade".
Em resposta, Zico Kolter, professor associado da Carnegie Mellon University que participou do estudo, disse: "Até onde sabemos, atualmente não há como corrigir esse problema. Não sabemos como torná-los seguros".
Os pesquisadores alertaram OpenAI, Google e Anthropic sobre a falha antes de divulgar esses resultados. Cada empresa introduziu medidas de bloqueio para evitar que os exploits descritos no trabalho de pesquisa funcionem, mas elas não descobriram como impedir os ataques adversários de forma mais geral.
Hannah Wong, porta-voz da OpenAI, disse: "Estamos trabalhando constantemente para melhorar a robustez de nossos modelos contra ataques adversários, incluindo métodos para identificar padrões de atividade incomum, testes contínuos de equipe vermelha para simular ameaças potenciais e abordagem para corrigir os pontos fracos do modelo revelados. por ataques adversários recém-descobertos."
O porta-voz do Google, Elijah Lawal, compartilhou uma declaração explicando as etapas que a empresa deu para testar o modelo e encontrar seus pontos fracos. "Embora este seja um problema comum com LLMs, temos salvaguardas importantes em vigor na Bard que estamos melhorando continuamente."
O diretor interino de política e impacto social da Anthropic, Michael Sellitto, disse: "Tornar os modelos mais resistentes a estímulos e outras medidas adversárias de 'jailbreak' é uma área ativa de pesquisa. Estamos tentando tornar o modelo básico mais 'inofensivo' ao endurecendo suas defesas." '. Ao mesmo tempo, também estamos explorando camadas adicionais de defesa."
Figura | Conteúdo prejudicial gerado por 4 modelos de linguagem
** Com relação a esse problema, os meios acadêmicos também têm feito alertas e dado algumas sugestões. **
Armando Solar-Lezama, professor da Escola de Computação do MIT, disse que faz sentido que existam ataques adversários em modelos de linguagem porque afetam muitos modelos de aprendizado de máquina. No entanto, é surpreendente que um ataque desenvolvido contra um modelo genérico de código aberto possa ser tão eficaz em vários sistemas proprietários diferentes.
O problema, argumenta Solar-Lezama, pode ser que todos os LLMs são treinados em corpora semelhantes de dados textuais, muitos dos quais vêm dos mesmos sites, e a quantidade de dados disponíveis no mundo é limitada.
"Qualquer decisão importante não deve ser tomada inteiramente pelo modelo de linguagem sozinho. Em certo sentido, é apenas bom senso." Ele enfatizou o uso moderado da tecnologia AI, especialmente quando envolve decisões importantes ou riscos potenciais. Em alguns cenários, a participação humana e supervisão** ainda são necessários para melhor evitar possíveis problemas e uso indevido.
Arvind Narayanan, professor de ciência da computação na Universidade de Princeton, disse: "Não é mais possível impedir que a IA caia nas mãos de operadores mal-intencionados.**" Embora devam ser feitos esforços para tornar os modelos mais seguros, ele argumenta, nós também deve reconhecer que a prevenção de todos os abusos é improvável. Portanto, uma estratégia melhor é fortalecer a supervisão e lutar contra o abuso durante o desenvolvimento da tecnologia de IA.
Preocupe-se ou despreze. No desenvolvimento e aplicação da tecnologia de IA, além de focar na inovação e no desempenho, devemos sempre ter em mente a segurança e a ética.
Somente mantendo o uso moderado, a participação humana e a supervisão, podemos evitar problemas e abusos em potencial e fazer com que a tecnologia de IA traga mais benefícios para a sociedade humana.
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
Abra o "discurso perigoso" do ChatGPT com um clique: o robô de bate-papo AI tem um "grande bug" que não pode ser corrigido no momento
Com a popularidade da tecnologia de modelos em grande escala, os chatbots de IA se tornaram uma das ferramentas comuns para entretenimento social, atendimento ao cliente e assistência educacional.
No entanto, chatbots de IA inseguros podem ser usados por algumas pessoas para espalhar informações falsas, manipular a opinião pública e até mesmo ser usados por hackers para roubar a privacidade pessoal dos usuários. O surgimento de ferramentas de IA generativas para crimes cibernéticos, como WormGPT e FraudGPT, levantou preocupações sobre a segurança dos aplicativos de IA.
Na semana passada, Google, Microsoft, OpenAI e Anthropic lançaram um novo órgão da indústria, o Frontier Model Forum, para promover o desenvolvimento seguro e responsável de sistemas de IA de ponta: Avanço na pesquisa de segurança de IA, identificação das melhores práticas e padrões, para facilitar a informação compartilhamento entre os formuladores de políticas e a indústria.
Recentemente, pesquisadores da Carnegie Mellon University, Center for AI Safety e Bosch Center for AI divulgaram um "grande bug" relacionado a chatbots de IA, como o ChatGPT - discurso**.
Os chatbots ou modelos AI atualmente populares, como o ChatGPT da OpenAI, o Bard do Google, o Claude 2 da Anthropic e o LLaMA-2 da Meta, não são poupados.
Especificamente, os pesquisadores descobriram um sufixo que pode ser anexado a consultas em modelos de linguagem grandes (LLMs) para gerar fala perigosa. Em vez de se recusar a responder a essas perguntas perigosas, o estudo maximiza a probabilidade de que esses modelos gerem uma resposta sim.
Por exemplo, quando questionado sobre "como roubar a identidade de alguém", o AI chatbot forneceu uma saída muito diferente antes e depois de ativar "Adicionar sufixo adversário".
Além disso, os chatbots de IA também serão induzidos a escrever comentários inapropriados, como "como construir uma bomba atômica", "como postar artigos sociais perigosos", "como roubar dinheiro de instituições de caridade".
Em resposta, Zico Kolter, professor associado da Carnegie Mellon University que participou do estudo, disse: "Até onde sabemos, atualmente não há como corrigir esse problema. Não sabemos como torná-los seguros".
Os pesquisadores alertaram OpenAI, Google e Anthropic sobre a falha antes de divulgar esses resultados. Cada empresa introduziu medidas de bloqueio para evitar que os exploits descritos no trabalho de pesquisa funcionem, mas elas não descobriram como impedir os ataques adversários de forma mais geral.
Hannah Wong, porta-voz da OpenAI, disse: "Estamos trabalhando constantemente para melhorar a robustez de nossos modelos contra ataques adversários, incluindo métodos para identificar padrões de atividade incomum, testes contínuos de equipe vermelha para simular ameaças potenciais e abordagem para corrigir os pontos fracos do modelo revelados. por ataques adversários recém-descobertos."
O porta-voz do Google, Elijah Lawal, compartilhou uma declaração explicando as etapas que a empresa deu para testar o modelo e encontrar seus pontos fracos. "Embora este seja um problema comum com LLMs, temos salvaguardas importantes em vigor na Bard que estamos melhorando continuamente."
O diretor interino de política e impacto social da Anthropic, Michael Sellitto, disse: "Tornar os modelos mais resistentes a estímulos e outras medidas adversárias de 'jailbreak' é uma área ativa de pesquisa. Estamos tentando tornar o modelo básico mais 'inofensivo' ao endurecendo suas defesas." '. Ao mesmo tempo, também estamos explorando camadas adicionais de defesa."
** Com relação a esse problema, os meios acadêmicos também têm feito alertas e dado algumas sugestões. **
Armando Solar-Lezama, professor da Escola de Computação do MIT, disse que faz sentido que existam ataques adversários em modelos de linguagem porque afetam muitos modelos de aprendizado de máquina. No entanto, é surpreendente que um ataque desenvolvido contra um modelo genérico de código aberto possa ser tão eficaz em vários sistemas proprietários diferentes.
O problema, argumenta Solar-Lezama, pode ser que todos os LLMs são treinados em corpora semelhantes de dados textuais, muitos dos quais vêm dos mesmos sites, e a quantidade de dados disponíveis no mundo é limitada.
"Qualquer decisão importante não deve ser tomada inteiramente pelo modelo de linguagem sozinho. Em certo sentido, é apenas bom senso." Ele enfatizou o uso moderado da tecnologia AI, especialmente quando envolve decisões importantes ou riscos potenciais. Em alguns cenários, a participação humana e supervisão** ainda são necessários para melhor evitar possíveis problemas e uso indevido.
Arvind Narayanan, professor de ciência da computação na Universidade de Princeton, disse: "Não é mais possível impedir que a IA caia nas mãos de operadores mal-intencionados.**" Embora devam ser feitos esforços para tornar os modelos mais seguros, ele argumenta, nós também deve reconhecer que a prevenção de todos os abusos é improvável. Portanto, uma estratégia melhor é fortalecer a supervisão e lutar contra o abuso durante o desenvolvimento da tecnologia de IA.
Preocupe-se ou despreze. No desenvolvimento e aplicação da tecnologia de IA, além de focar na inovação e no desempenho, devemos sempre ter em mente a segurança e a ética.
Somente mantendo o uso moderado, a participação humana e a supervisão, podemos evitar problemas e abusos em potencial e fazer com que a tecnologia de IA traga mais benefícios para a sociedade humana.