Diálogo com Zhu Jun, Instituto de Inteligência Artificial, Universidade de Tsinghua: Quais riscos de segurança estão ocultos no popular modelo de IA?

Question

Texto: Li Haidan, Tencent Technology![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-c43aaefbe6-dd1a6f-1c6801) Fonte da imagem: Gerada por Unbounded AIOs humanos criaram a IA, mas a IA também está remodelando o mundo em que vivemos. Com a explosão da tecnologia de grandes modelos de linguagem, a IA começou a se integrar ainda mais em nossas vidas, e os humanos precisam considerar e implementar as medidas de segurança necessárias nos estágios iniciais de seu desenvolvimento para evitar riscos potenciais.Os problemas de segurança cibernética encontrados pela IA podem ser vistos em todos os lugares. Quando a Tencent Technology entrevistou Zhu Jun, vice-reitor do Instituto de Inteligência Artificial da Universidade de Tsinghua, cientista-chefe do Instituto de Pesquisa de Inteligência Artificial Zhiyuan de Pequim e Ruilai Intelligence, ele disse ** "Na verdade, não há sistema de rede que seja sempre seguro e inquebrável do mundo. Se o custo não for considerado, os criminosos usarão vários métodos para atacar o sistema, e é impossível se defender contra isso.” **Por mais de 10 anos, Zhu Jun tem se empenhado em resolver o problema da segurança da inteligência artificial. Ele rompeu a clássica teoria básica bayesiana e as principais tecnologias, propôs um algoritmo eficiente para o modelo de difusão e incubou especialistas em nível nacional e novos " pequenas empresas gigantes" através da transformação de conquistas, estabelecendo uma base sólida para o desenvolvimento de inteligência artificial segura e confiável.Os riscos da própria IA não podem ser ignorados. A inteligência artificial é dotada de poderosas capacidades de aprendizado e inferência, mas essa capacidade também leva à alta dependência dos sistemas de IA nos dados, o que pode refletir o viés das fontes de dados em sua tomada de decisão e recomendações. Uma série de preocupações, desafiando o equilíbrio de ética e justiça da IA.Quando a IA cai em uma crise de segurança de confiança, como devemos responder? Quando a aplicação interativa de IA e humanos se torna cada vez mais popular, como devemos evitar possíveis riscos à segurança? Neste diálogo, Zhu Jun falou sobre métodos de defesa específicos para melhorar a segurança e a confiabilidade da IA. Precisamos prestar muita atenção à exploração das implicações morais e sociais da segurança da IA e evitar ser levados a um futuro desconhecido e descontrolado.A seguir, a essência do texto, com exclusões e ajustes na premissa de não alterar seus desejos:## **Não existe um sistema de rede sempre seguro****Tecnologia Tencent: Você tem promovido pesquisas no campo da inteligência artificial contra a segurança. Que problemas de segurança a aplicação atual da tecnologia AI trará? Como devemos identificar esses problemas de segurança? ****Zhu Jun:**A inteligência artificial inclui vários elementos-chave, como dados, modelo de algoritmo e camada de aplicativo. Em cada elemento, precisamos lidar com vários problemas de segurança nele.No nível dos dados, precisamos prestar atenção às questões de segurança, como envenenamento de dados, vazamento de dados, privacidade do usuário e proteção de dados confidenciais essenciais; no nível do modelo, precisamos lidar com questões de segurança, como algoritmos de confronto. Por exemplo, quando o reconhecimento facial é usado para desbloquear, o invasor pode desbloquear o sistema de verificação do celular de destino por meio de um par de anti-óculos especialmente fabricados (ou seja, "amostras adversárias"), causando riscos. Além disso, se o modelo for implantado de forma maliciosa com um backdoor, a segurança do modelo também será ameaçada; no nível do aplicativo, o problema de segurança da inteligência artificial também está se tornando cada vez mais proeminente. Por exemplo, síntese profunda, AIGC e outras ferramentas são usadas por criminosos para criar conteúdo falso e se envolver em propósitos ilegais, como fraude e engano. Todos esses são problemas de segurança enfrentados pela inteligência artificial em uso ou desenvolvimento real.Para soluções e contramedidas, precisamos usar **algoritmos mais avançados para identificar automaticamente esses conteúdos**, que é uma questão quente e difícil no campo da inteligência artificial. No entanto, esta tecnologia é como a relação entre "lança e escudo", e o desenvolvimento da tecnologia generativa promoverá o surgimento de tecnologias de detecção e defesa correspondentes. Ao mesmo tempo, as tecnologias de geração e ataque estão em constante evolução. Devido à natureza da própria tecnologia, nenhum sistema é sempre seguro e impossível de quebrar. Se o custo não for considerado, os criminosos usarão vários métodos para atacar o sistema, o que é difícil de se proteger.Portanto, do ponto de vista da tecnologia, **precisamos lidar com ela na forma de "AI reconhece AI". Mas a defesa é realmente mais difícil do que o ataque. Atualmente, procuramos vários mecanismos para melhorar os recursos de defesa do modelo e tomamos várias medidas de proteção quando o modelo é usado e implantado. Por exemplo, no sistema de reconhecimento facial, implantamos um firewall de reconhecimento facial para detectar e filtrar amostras suspeitas ou anti-ataque antes que as amostras entrem no link de reconhecimento final, de modo a atingir o objetivo de proteger o sistema. Atualmente, essa tecnologia foi implementada no setor bancário e em outros setores.**Tencent Technology: Você mencionou que qualquer sistema de rede tem brechas de segurança. Atualmente, o ChatGPT desencadeou um aumento de aplicativos no exterior. Ele alcançou uma boa interação. Que tipo de riscos haverá? ****Zhu Jun:** No momento, grandes modelos de linguagem como o ChatGPT estão em processo de rápido desenvolvimento, mas, ao mesmo tempo, eles também trazem riscos potenciais - por exemplo, haverá alguns "ataques de injeção". Do ponto de vista algorítmico, se alguém injeta palavras ou símbolos específicos com segundas intenções, pode induzir confusão lógica e erros de saída no modelo grande.Em um sistema de diálogo multi-round, é difícil se defender contra ataques de injeção. Os hackers podem realizar ataques de injeção de várias maneiras e, devido à tecnologia de compreensão do contexto do modelo em grande escala, o efeito do ataque será atrasado, o que é um novo desafio para detecção e defesa de algoritmos. Nesse sentido, precisamos usar um método semelhante ao aprendizado por reforço para reverter o algoritmo para detectar e defender contra palavras que podem ser injetadas de forma maliciosa. **O sistema pode ser usado com tranquilidade somente se for garantido que o sistema não foi injetado maliciosamente durante o processo de treinamento ou não foi implantado com backdoors e outras vulnerabilidades.Do ponto de vista do nível do aplicativo, também pode haver alguns riscos de uso malicioso do sistema de diálogo, como hackers tentando contornar as medidas de proteção anti-injeção para gerar conteúdo de baixa qualidade ou ruim, incluindo informações ilegais relacionadas a pornografia e violência , que se tornará parte do processo de acompanhamento Problemas que requerem detecção e resolução independentes.**Tecnologia Tencent: Acabamos de falar sobre os problemas de segurança do GPT, vamos dar uma olhada: qual é a capacidade de defesa de segurança do servidor do GPT e outros modelos grandes, e pode ser atacado por hackers? ****Zhu Jun:** Teoricamente, é completamente possível. Por se tratar de um grande sistema de informação, qualquer sistema terá brechas, portanto, no processo de construção do sistema, precisamos implantar com antecedência vários métodos de proteção para melhorar a segurança do sistema. Recentemente, também vimos casos relacionados: alguns invasores usam o ChatGPT para gerar códigos de ataque automáticos, permitindo encontrar vulnerabilidades em um sistema de destino com mais eficiência e explorar ainda mais as vulnerabilidades para lançar ataques, portanto, os problemas de segurança continuarão existindo.## **Os humanos não podem definir e medir com precisão o nível de inteligência da IA****Tecnologia Tencent: Além dos perigos ocultos dos ataques de hackers, também estamos preocupados com os riscos de segurança da própria IA. Em primeiro lugar, vamos nos concentrar em um tópico que todos estão discutindo no momento - você acha que a IA produzirá consciência? ****Zhu Jun: Meu ponto de vista pessoal é mais inclinado a pensar que o desempenho atual da "consciência" na inteligência artificial não é muito claro, porque não podemos definir e medir com precisão a consciência. ** Portanto, ao observar o desempenho do modelo de linguagem, veremos que o modelo grande ainda apresenta problemas como erros factuais. Embora alguns dos erros sejam lidos fluentemente, em uma inspeção mais detalhada, eles não são factuais ou lógicos. Este é um dos muitos problemas com o modelo, que o nível de especificidade da consciência não foi totalmente avaliado quantitativamente.Os modelos de linguagem são aprendizes poderosos porque sabem mais sobre corpora e texto do que qualquer ser humano no mundo. Por exemplo, um modelo pode ter acesso a quase todas as informações disponíveis na Internet, em comparação com os recursos de informação limitados a que cada um de nós tem acesso.Do ponto de vista da versatilidade, a IA é definitivamente melhor do que qualquer pessoa. No entanto, em alguns aspectos, o desempenho do modelo não pode atingir o nível humano. Portanto, devemos olhar para um modelo sob a perspectiva do desenvolvimento tecnológico realista, incluindo AGI e outros aspectos discutidos por todos. Pessoalmente, acho que o atual nível de tecnologia não chegou a uma situação em que está fora de controle ou apenas evoluiu pelo próprio controle do robô.Pode-se dizer que os modelos de aprendizado de máquina em grande escala podem usar redes complexas, como aprendizado profundo para processar dados e aproveitar alguma cognição humana em termos de arquitetura e design. Mas, no geral, existem enormes diferenças entre esses modelos de redes neurais artificiais e sistemas biológicos reais, variando de escala a estrutura. Portanto, de fato, atualmente não podemos avaliar claramente o nível de inteligência dos sistemas de inteligência artificial ou avaliar se ele possui habilidades cognitivas como a mente.**Tecnologia Tencent: Recentemente, alguns comerciantes lançaram o conceito de "companheiro de IA" - as pessoas podem se apaixonar pela IA e precisam pagar. Você acha que a IA pode entender as emoções humanas? Quais riscos de segurança existem no processo de interação com parceiros virtuais? ****Zhu Jun:** A computação afetiva sempre foi um tópico clássico no campo da inteligência artificial. Em termos de emoção, a tecnologia de inteligência artificial pode simular um personagem e definir seu estado emocional ou psicológico. No entanto, do ponto de vista técnico, ainda existem muitos problemas e desafios neste campo.É muito difícil atingir o nível da verdadeira comunicação humana. Por exemplo, mesmo que conversemos cara a cara ou usemos o mesmo idioma para o diálogo, é difícil entender verdadeiramente as emoções ou atividades mentais um do outro, porque cada indivíduo responde à mesma entrada de milhares de maneiras. Esses grandes modelos que usamos agora modelam essencialmente esse processo, mas toda modelagem requer suposições simplificadas e idealizadas. É questionável se essas suposições se aplicam a todos, ou se elas se ajustam bem à realidade de cada indivíduo. É difícil para nós expressar com precisão as emoções complexas de todos com um modelo simples.Esse modelo pode envolver vários aspectos, como questões sociais, éticas e morais, e há muitos problemas potenciais que precisam ser resolvidos. Embora não haja muitos limites para implementação técnica, esse modelo já apareceu em países estrangeiros. No entanto, precisamos pensar profundamente sobre o impacto desse modelo – por exemplo, alguns jovens podem estar menos dispostos a gastar energia com amor verdadeiro ou casamento, etc. Isso pode causar problemas potenciais para a estabilidade social.Além disso, precisamos ficar atentos se tais produtos de inteligência artificial serão tendenciosos ou propositadamente direcionados contra determinados indivíduos, o que trará grandes riscos. Se interagirmos com um robô todos os dias, as informações obtidas serão naturalmente guiadas pelo robô, podendo afetar valores pessoais, ou controlar emoções e comportamentos pessoais. A longo prazo, isso pode afetar o relacionamento social entre as pessoas e provocar mudanças no comportamento de toda a sociedade. Mas esses não são problemas que podem ser resolvidos inteiramente pela tecnologia. De um modo geral, em comparação com outros países, meu país será mais cauteloso ao usar novas tecnologias, alertaremos com antecedência sobre possíveis riscos e tomaremos algumas medidas preventivas.## **Formatando IA segura: tratando os melhores modelos como "mentores"****Tecnologia Tencent: Se houver um erro na IA, do ponto de vista técnico, que trabalho podemos fazer para corrigir o erro no modelo grande? ****Zhu Jun:**Como os dados de treinamento e o nível técnico são diferentes, por exemplo, usamos a mesma pergunta para fazer diferentes modelos grandes, os resultados que eles fornecem podem ser diferentes, alguns resultados são bons, mas alguns são maliciosos ou ruins resultado. Portanto, é necessário que padronizemos e melhoremos a qualidade e a controlabilidade desses modelos.Alguns modelos grandes costumam fazer muito alinhamento e treinamento adversário. Por exemplo, antes do advento do GPT-4, profissionais de diferentes áreas faziam perguntas de diferentes ângulos para verificar a precisão do modelo para ver se o sistema produziria resultados não conformes ou maliciosos e tentavam regular e ajustar. No entanto, ainda existem muitos modelos (incluindo muitos modelos de código aberto) que não passaram por testes tão rigorosos ou treinamento adversário, portanto, haverá vários riscos de segurança.**Um caminho técnico que vale a pena tentar é tratar um dos melhores modelos como um "mentor"** e, então, forçar outros modelos a imitar o comportamento desse modelo de maneira eficiente e econômica. Claro, existem mais outros aspectos do trabalho, como trabalho normativo e de alinhamento para cada modelo específico de acordo com os requisitos normativos de diferentes países.Embora esperemos que esses modelos sempre produzam resultados em conformidade com as especificações quando usados, a probabilidade de risco nunca cai para zero. **Além disso, ao utilizá-lo, também é preciso levar em consideração a ética, as normas legais etc., que exigem gestão e regulamentação conjunta de diferentes setores e áreas, para que o modelo possa atender melhor ao ser humano.**Tecnologia Tencent: Acabamos de mencionar que, por meio de treinamento contínuo para corrigir e reduzir a taxa de erro de modelos grandes, como devemos medir sua confiabilidade? Você esteve profundamente envolvido no campo de aprendizado profundo bayesiano.Na sua opinião, como construir e otimizar modelos para melhorar a precisão e confiabilidade das previsões? ****Zhu Jun: **A indústria tem basicamente o mesmo objetivo de precisão, geralmente medido por indicadores objetivos, e os indicadores específicos estão relacionados às tarefas específicas executadas. Em termos de classificação e reconhecimento, a precisão do reconhecimento final será utilizada para guiar o treinamento do modelo.Para problemas com incerteza, como redes neurais, descobrimos que, em muitos casos, suas previsões serão excessivamente confiantes e otimistas. Por exemplo, a saída de alguns resultados é originalmente uma previsão vaga ou incerta, mas informará o resultado da previsão com excesso de confiança, que chamamos de "excesso de confiança".Para esse fenômeno ou problema, técnicas de aprendizado profundo usando métodos bayesianos podem caracterizar melhor a incerteza. Pode ser considerado principalmente sob vários aspectos, como os fatores incertos que podem existir no final da entrada e os fatores incertos que podem existir no final do modelo, e dar uma confiança mais alinhada com a situação real. Essa abordagem bayesiana é mais confiável do que as redes neurais.**Tecnologia Tencent: A estrutura de rede no mundo real costuma ser muito complexa, incluindo mudanças multiníveis, multidimensionais, dinâmicas e outras características, o que trará grandes desafios para o estabelecimento e otimização do modelo de probabilidade de difusão. A equipe que você lidera é uma das primeiras equipes envolvidas na pesquisa da teoria e do algoritmo do modelo de probabilidade de difusão no mundo. Como sua equipe elimina o ruído e a incerteza dos dados na construção do modelo para melhorar a robustez e a confiabilidade do modelo? ****Zhu Jun:** O modelo de difusão é um modelo generativo, que possui dois processos de difusão direta e difusão reversa. A difusão direta transforma uma imagem em uma imagem de ruído gaussiano completamente aleatório, adicionando ruído gradualmente. A difusão reversa parte de uma distribuição quase sem estrutura, diminui gradativamente e converge para uma distribuição que pode descrever dados reais. Novas amostras podem ser geradas a partir desta distribuição, como geração de texto, imagem e vídeo, que são amplamente estudadas atualmente.Os modelos de difusão são uma das técnicas mais críticas no campo generativo. Em termos de robustez, a ideia de modelos de difusão é semelhante a exemplos adversários. Os exemplos adversários atingem o objetivo do ataque adicionando ruído otimizado por algoritmo no processo de geração. Por sua vez, podemos otimizar a magnitude e a direção do ruído encontrando gradualmente a distribuição no processo de difusão reversa para melhorar a robustez do modelo. Este método também pode ser aplicado à geração de dados ruidosos para melhorar a confiabilidade e precisão do modelo.**Tecnologia Tencent: Como podemos melhorar a precisão da IA na aplicação de Vincent em outras direções? Estou preocupado com o novo algoritmo Wensheng 3D ProlificDreamer recentemente proposto por sua equipe, que pode gerar conteúdo 3D de altíssima qualidade sem nenhum dado 3D. Como sua equipe lida com a diversidade semântica e a ambiguidade para gerar conteúdo mais preciso? Modelo 3D? ****Zhu Jun:** Em comparação com os métodos 3D tradicionais, a indústria geralmente usa um modelo generativo 2D pré-treinado (como um modelo de difusão) para treinar em um banco de dados de imagens. Ao fazer a geração 3D, precisamos mapear a imagem 2D gerada no modelo 3D, o que requer uma etapa intermediária chamada "destilação". Como o modelo 3D possui uma estrutura espacial, precisamos considerar as propriedades 3D do objeto. Portanto, precisamos observar objetos de vários ângulos e renderizar as imagens 2D correspondentes e, em seguida, alinhá-los ao modelo pré-treinado, para que os ativos 3D possam ser gerados etc. No entanto, esta abordagem também tem algumas limitações. Por exemplo, os resultados que gera costumam ser muito saturados ou muito suaves, faltando informações como detalhes e texturas.Para resolver esse problema, precisamos explorar tecnologias de nível inferior. Descobrimos que existem algumas dificuldades inerentes ao uso do algoritmo de destilação para encontrar um único modelo 3D, que precisam ser superadas a partir dos princípios básicos. Os algoritmos existentes procuram algum tipo de extremo na função objetivo, semelhante ao "algoritmo guloso (algoritmo ganancioso)", ele apenas encontrará a solução ótima, para atingir esse objetivo, o trabalho existente altera a função objetivo para torná-la mais alta em algumas áreas, que é mais comum em outras regiões, esse método de ajuste da função objetiva pode encontrar rapidamente a solução final.Para superar as dificuldades dos métodos acima, reformulamos o problema de geração de texto para 3D como amostragem de alguma distribuição que o modelo 3D pode obedecer e, em seguida, renderizamos e alinhamos com o modelo 2D pré-treinado. **A vantagem desse método de amostragem é que o próprio modelo 2D é um modelo probabilístico e as informações de descrição são mais ricas do que a otimização gulosa; por esse motivo, derivamos um novo algoritmo de destilação variacional e o usamos basicamente da mesma maneira. e cenas 3D complexas, incluindo ativos de alta resolução, foram geradas em uma fração do tempo.O ponto chave do nosso método é que ele reduz ou remove completamente a dependência dos dados de treinamento 3D e melhora significativamente a qualidade da geração. Recentemente, conversei com praticantes que fazem gráficos e eles também acham esse efeito incrível. Vejamos o grande potencial de poder gerar imagens 3D de alta qualidade.Para lidar com a ambigüidade. Para a mesma entrada de texto, pessoas diferentes podem ter entendimentos diferentes, por exemplo, a palavra "Apple" pode se referir à Apple, Apple Inc. ou seus produtos. Em nosso modelo, a ambigüidade é resolvida usando uma abordagem de amostragem baseada em probabilidade para gerar vários resultados possíveis. ** A longo prazo, a desambiguação requer mais sugestões e alinhamentos para melhorar a capacidade de controle e a precisão, como o alinhamento de texto e imagens ou outros dados modais. **Na linguagem e domínios multimodais, o significado final é relativo ao contexto relevante.Atualmente, estamos trabalhando com clientes em diferentes setores para melhorar ainda mais nossa tecnologia de geração 3D e torná-la mais madura. No campo 3D, ativos 3D de alta qualidade são de alto valor. Por exemplo, em cenários de criação de ativos de jogos, empresas tradicionais geralmente usam métodos tradicionais, como geometria ou gráficos, para construir e manter bibliotecas de ativos 3D, o que requer um grande investimento de tempo. Nossa tecnologia pode melhorar muito a eficiência criativa e reduzir o custo do tempo.