Diálogo con Zhu Jun, Instituto de Inteligencia Artificial, Universidad de Tsinghua: ¿Qué riesgos de seguridad se esconden en el popular modelo de IA?

Question

Texto: Li Haidan, Tencent Technology![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-c43aaefbe6-dd1a6f-1c6801) Fuente de la imagen: Generada por Unbounded AILos humanos han creado la IA, pero la IA también está remodelando el mundo en el que vivimos. Con la explosión de la tecnología de modelo de lenguaje grande, la IA ha comenzado a integrarse aún más en nuestras vidas, y los humanos deben considerar e implementar las medidas de seguridad necesarias en las primeras etapas de su desarrollo para evitar riesgos potenciales.Los problemas de ciberseguridad que encuentra la IA se pueden ver en todas partes. Cuando Tencent Technology entrevistó a Zhu Jun, vicedecano del Instituto de Inteligencia Artificial de la Universidad de Tsinghua, científico jefe del Instituto de Investigación de Inteligencia Artificial Zhiyuan de Beijing y Ruilai Intelligence, dijo ** "De hecho, no existe un sistema de red que sea siempre seguro y irrompible en el mundo Si no se considera el costo, los delincuentes utilizarán varios métodos para atacar el sistema, y es imposible defenderse de él ". **Durante más de 10 años, Zhu Jun se ha comprometido a resolver el problema de la seguridad de la inteligencia artificial. Rompió la teoría básica bayesiana clásica y las tecnologías clave, propuso un algoritmo eficiente para el modelo de difusión e incubó nuevos y especializados a nivel nacional " pequeñas empresas gigantes "a través de la transformación de los logros, Sentando una base sólida para el desarrollo de inteligencia artificial segura y confiable.Los riesgos de la IA en sí no pueden ignorarse. La inteligencia artificial está dotada de poderosas capacidades de aprendizaje e inferencia, pero esta capacidad también conduce a una gran dependencia de los sistemas de IA en los datos, lo que puede reflejar el sesgo de las fuentes de datos en su toma de decisiones y recomendaciones. de la ética y la justicia de la IA.Cuando la IA cae en una crisis de seguridad y confianza, ¿cómo debemos responder? Cuando la aplicación interactiva de la IA y los humanos se vuelve cada vez más popular, ¿cómo debemos prevenir posibles riesgos de seguridad? En este diálogo, Zhu Jun habló sobre métodos de defensa específicos para mejorar la seguridad y confiabilidad de la IA. Debemos prestar mucha atención a la exploración de las implicaciones morales y sociales de la seguridad de la IA, y evitar ser conducidos a un futuro desconocido e incontrolado.La siguiente es la esencia del texto, con eliminaciones y ajustes bajo la premisa de no cambiar sus deseos:## **No existe un sistema de red siempre seguro****Tecnología Tencent: Usted ha estado impulsando la investigación en el campo de la inteligencia artificial contra la seguridad ¿Qué problemas de seguridad traerá la aplicación actual de la tecnología de IA? ¿Cómo debemos identificar estos problemas de seguridad? ****Zhu Jun:**La inteligencia artificial incluye varios elementos clave, como datos, modelo de algoritmo y capa de aplicación. En cada elemento, debemos lidiar con varios problemas de seguridad en él.A nivel de datos, debemos prestar atención a los problemas de seguridad, como el envenenamiento de datos, la fuga de datos, la privacidad del usuario y la protección de los datos confidenciales principales; a nivel de modelo, debemos abordar problemas de seguridad como los algoritmos de confrontación. Por ejemplo, cuando se utiliza el reconocimiento facial para el desbloqueo, el atacante puede desbloquear el sistema de verificación del teléfono móvil de destino a través de un par de antigafas especialmente diseñadas (es decir, "muestras adversarias"), lo que genera riesgos. Además, si el modelo se implanta maliciosamente con una puerta trasera, la seguridad del modelo también se verá amenazada; a nivel de aplicación, el problema de seguridad de la inteligencia artificial también se está volviendo cada vez más prominente. Por ejemplo, los delincuentes utilizan la síntesis profunda, AIGC y otras herramientas para crear contenido falso y participar en fines ilegales como el fraude y el engaño. Todos estos son problemas de seguridad que enfrenta la inteligencia artificial en el uso o desarrollo real.Para soluciones y contramedidas, necesitamos usar **algoritmos más avanzados para identificar automáticamente estos contenidos**, que es un tema candente y difícil en el campo de la inteligencia artificial. Sin embargo, esta tecnología es como la relación entre "lanza y escudo", y el desarrollo de la tecnología generativa promoverá la aparición de las correspondientes tecnologías de detección y defensa. Al mismo tiempo, las tecnologías en el lado de la generación y el ataque están en constante evolución. Debido a la naturaleza de la tecnología en sí, ningún sistema es siempre seguro e imposible de romper. Si no se tiene en cuenta el costo, los delincuentes utilizarán varios métodos para atacar el sistema, contra lo cual es difícil protegerse.Por lo tanto, desde la perspectiva de la tecnología, **necesitamos tratarla en la forma de "IA reconoce a la IA". Pero la defensa es en realidad más difícil que el ataque. Actualmente, buscamos varios mecanismos para mejorar las capacidades de defensa del modelo y tomamos varias medidas de protección cuando el modelo se usa y se implementa. Por ejemplo, en el sistema de reconocimiento facial, implementamos un firewall de reconocimiento facial para detectar y filtrar muestras sospechosas o antiataques antes de que las muestras ingresen al enlace de reconocimiento final, a fin de lograr el propósito de proteger el sistema. En la actualidad, dicha tecnología se ha implementado en la banca y otras industrias.**Tecnología Tencent: Mencionó que cualquier sistema de red tiene lagunas de seguridad. Actualmente, ChatGPT ha provocado un aumento en las aplicaciones en el extranjero. Ha logrado una buena interacción. ¿Qué tipo de riesgos habrá? ****Zhu Jun:** En la actualidad, los grandes modelos de lenguaje como ChatGPT se encuentran en un proceso de rápido desarrollo, pero al mismo tiempo, también conllevan riesgos potenciales; por ejemplo, habrá algunos "ataques de inyección". Desde un punto de vista algorítmico, si alguien inyecta palabras o símbolos específicos con motivos ulteriores, puede inducir confusión lógica y errores de salida en el modelo grande.En un sistema de diálogo de varias rondas, es difícil defenderse de los ataques de inyección. Los piratas informáticos pueden realizar ataques de inyección de varias maneras y, debido a la tecnología de comprensión del contexto del modelo a gran escala, el efecto del ataque se retrasará, lo que representa un nuevo desafío para la detección y defensa de algoritmos. En este sentido, necesitamos usar un método similar al aprendizaje por refuerzo para revertir el algoritmo para detectar y defenderse de palabras que puedan ser inyectadas maliciosamente. **El sistema se puede usar con tranquilidad solo si se garantiza que el sistema no se inyecta maliciosamente durante el proceso de capacitación, o no se implanta con puertas traseras y otras vulnerabilidades.Desde la perspectiva del nivel de la aplicación, también puede haber algunos riesgos de uso malicioso del sistema de diálogo, como piratas informáticos que intentan eludir las medidas de protección contra la inyección para generar contenido de baja calidad o malo, incluida información ilegal relacionada con la pornografía y la violencia. , que se convertirá en parte del proceso de seguimiento Problemas que requieren detección y resolución independientes.**Tecnología Tencent: acabamos de hablar sobre los problemas de seguridad de GPT, echemos un vistazo más de cerca: ¿cuál es la capacidad de defensa de seguridad del servidor de GPT y otros modelos grandes, y puede ser atacado por piratas informáticos? ****Zhu Jun:** Teóricamente, es completamente posible. Debido a que es un sistema de información grande, cualquier sistema tendrá lagunas. Por lo tanto, en el proceso de construcción del sistema, debemos implementar varios métodos de protección con la mayor anticipación posible para mejorar la seguridad del sistema. Recientemente, también hemos visto casos relacionados: algunos atacantes usan ChatGPT para generar códigos de ataque automáticos, lo que le permite encontrar vulnerabilidades en un sistema objetivo de manera más eficiente e incluso explotar vulnerabilidades para lanzar ataques, por lo que los problemas de seguridad seguirán existiendo.## **Los humanos no pueden definir y medir con precisión el nivel de inteligencia de la IA****Tecnología Tencent: además de los peligros ocultos de los ataques de piratas informáticos, también nos preocupan los riesgos de seguridad de la propia IA. En primer lugar, centrémonos en un tema que todo el mundo está discutiendo actualmente: ¿crees que la IA producirá conciencia? ****Zhu Jun: Mi punto de vista personal se inclina más a pensar que el desempeño actual de la "conciencia" en la inteligencia artificial no es muy claro, porque no podemos definir y medir con precisión la conciencia. ** Por lo tanto, al observar el desempeño del modelo de lenguaje, encontraremos que el modelo grande todavía tiene problemas como errores fácticos. Si bien algunos de los errores se leen con fluidez, en una inspección más cercana no son factuales ni lógicos. Este es uno de los muchos problemas con el modelo, que el nivel de especificidad de la conciencia que tiene no ha sido completamente evaluado cuantitativamente.Los modelos de lenguaje son aprendices poderosos porque saben más sobre corpus y texto que cualquier ser humano en el mundo. Por ejemplo, un modelo podría tener acceso a casi toda la información disponible en Internet, en comparación con los recursos de información limitados a los que cada uno de nosotros tiene acceso.Desde la perspectiva de la versatilidad, la IA es definitivamente mejor que cualquier persona. Sin embargo, en algunos aspectos, el rendimiento del modelo no puede alcanzar el nivel humano. Por lo tanto, debemos mirar un modelo desde la perspectiva del desarrollo tecnológico realista, incluyendo AGI y otros aspectos discutidos por todos. Personalmente, creo que el nivel actual de tecnología no ha llegado a la situación en la que esté fuera de control o solo evolucione por el control del propio robot.Se puede decir que los modelos de aprendizaje automático a gran escala pueden usar redes complejas como el aprendizaje profundo para procesar datos y aprovechar algo de la cognición humana en términos de arquitectura y diseño. Pero, en general, existen enormes diferencias entre estos modelos de redes neuronales artificiales y los sistemas biológicos reales, que van desde la escala hasta la estructura. Por lo tanto, de hecho, actualmente no podemos evaluar claramente el nivel de inteligencia de los sistemas de inteligencia artificial, o evaluar si tiene habilidades cognitivas como la mente.**Tecnología Tencent: recientemente, algunos comerciantes lanzaron el concepto de "compañero de IA": las personas pueden enamorarse de la IA y deben pagar. ¿Crees que la IA puede entender las emociones humanas? ¿Qué riesgos de seguridad existen en el proceso de interacción con socios virtuales? ****Zhu Jun:** La computación afectiva siempre ha sido un tema clásico en el campo de la inteligencia artificial. En términos de emoción, la tecnología de inteligencia artificial puede simular un personaje y establecer su estado emocional o psicológico. Sin embargo, desde un punto de vista técnico, todavía existen muchos problemas y desafíos en este campo.Es muy difícil alcanzar el nivel de la verdadera comunicación humana. Por ejemplo, incluso si hablamos cara a cara o usamos el mismo idioma para el diálogo, es difícil entender realmente las emociones o actividades mentales de los demás, porque cada individuo responde a la misma información de miles de maneras. Estos grandes modelos que usamos ahora modelan esencialmente este proceso, pero todos los modelos requieren supuestos simplificados e idealizados. Es cuestionable si estos supuestos se aplican a todos o si se ajustan bien a la realidad de cada individuo. Es difícil para nosotros expresar con precisión las emociones complejas de todos con un modelo simple.Este modelo puede involucrar varios aspectos, como problemas sociales, éticos y morales, y hay muchos problemas potenciales que deben resolverse. Aunque no hay muchos umbrales para la implementación técnica, y este modelo ya apareció en países extranjeros. Sin embargo, debemos pensar profundamente sobre el impacto de este modelo; por ejemplo, algunos jóvenes pueden estar menos dispuestos a gastar energía en el amor real o el matrimonio, etc. Esto puede causar problemas potenciales para la estabilidad social.Además, debemos prestar atención a si dichos productos de inteligencia artificial estarán sesgados o dirigidos deliberadamente contra ciertas personas, lo que traerá grandes riesgos. Si interactuamos con un robot todos los días, la información obtenida será naturalmente guiada por el robot, lo que puede afectar los valores personales o controlar las emociones y los comportamientos personales. A la larga, esto puede afectar la relación social entre las personas y provocar cambios en el comportamiento de toda la sociedad. Pero estos no son problemas que puedan ser resueltos completamente por la tecnología. En términos generales, en comparación con otros países, mi país será más cauteloso al usar nuevas tecnologías, y daremos alerta temprana de posibles riesgos y tomaremos algunas medidas preventivas.## **Dar forma a una IA segura: tratar a los mejores modelos como "mentores"****Tecnología Tencent: si hay un error en la IA, desde una perspectiva técnica, ¿qué trabajo podemos hacer para corregir el error en el modelo grande? ****Zhu Jun:**Debido a que los datos de entrenamiento y el nivel técnico son diferentes, por ejemplo, usamos la misma pregunta para hacer diferentes modelos grandes, los resultados que brindan pueden ser diferentes, algunos resultados son buenos, pero otros son maliciosos o malos resultado. Por lo tanto, es necesario que estandaricemos y mejoremos la calidad y controlabilidad de estos modelos.Algunos modelos grandes suelen hacer mucha alineación y entrenamiento contradictorio. Por ejemplo, antes de la llegada de GPT-4, los profesionales de diferentes campos hacían preguntas desde diferentes ángulos para verificar la precisión del modelo y ver si el sistema produciría resultados no conformes o maliciosos, y tratar de regularlo y ajustarlo. Sin embargo, todavía hay muchos modelos (incluidos muchos modelos de código abierto) que no se han sometido a pruebas tan rigurosas ni a un entrenamiento contradictorio, por lo que habrá varios riesgos de seguridad.**Un camino técnico que vale la pena probar es tratar a uno de los mejores modelos como un "mentor"** y luego obligar a otros modelos a imitar el comportamiento de este modelo de una manera eficiente y económica. Por supuesto, hay más otros aspectos del trabajo, como el trabajo normativo y de alineación para cada modelo específico de acuerdo con los requisitos normativos de los diferentes países.Si bien esperamos que estos modelos siempre produzcan resultados que cumplan con las especificaciones cuando se usan, la probabilidad de riesgo nunca se reduce a cero. **Además, al usarlo, también debemos considerar la ética, las normas legales, etc., que requieren una gestión y regulación conjunta por parte de diferentes industrias y campos, para que el modelo pueda servir mejor a los seres humanos.**Tecnología Tencent: Acabamos de mencionar que a través de la capacitación continua para corregir y reducir la tasa de error de los modelos grandes, ¿cómo debemos medir su confiabilidad? Ha estado profundamente involucrado en el campo del aprendizaje profundo bayesiano. En su opinión, ¿cómo construir y optimizar modelos para mejorar la precisión y confiabilidad de las predicciones? ****Zhu Jun: **La industria tiene básicamente el mismo objetivo de precisión, generalmente medido por indicadores objetivos, y los indicadores específicos están relacionados con las tareas específicas realizadas. En términos de clasificación y reconocimiento, la precisión del reconocimiento final se utilizará para guiar el entrenamiento del modelo.Para problemas con incertidumbre, como las redes neuronales, encontramos que en muchos casos, sus predicciones serán demasiado confiadas y optimistas. Por ejemplo, la salida de algunos resultados es originalmente una predicción vaga o incierta, pero le indicará el resultado de la predicción con exceso de confianza, lo que llamamos "exceso de confianza".Para este fenómeno o problema, las técnicas de aprendizaje profundo que utilizan métodos bayesianos pueden caracterizar mejor la incertidumbre. Se puede considerar principalmente desde muchos aspectos, como los factores inciertos que pueden existir en el extremo de entrada y los factores inciertos que pueden existir en el extremo del modelo, y brinda una confianza que está más en línea con la situación real. Este enfoque bayesiano es más confiable que las redes neuronales.**Tecnología Tencent: la estructura de la red en el mundo real suele ser muy compleja, e incluye cambios dinámicos multidimensionales y multinivel y otras características, lo que supondrá grandes desafíos para el establecimiento y la optimización del modelo de probabilidad de difusión. El equipo que dirige es uno de los primeros equipos dedicados a la investigación de la teoría y el algoritmo del modelo de probabilidad de difusión en el mundo. ¿Cómo elimina su equipo el ruido y la incertidumbre de los datos en la construcción del modelo para mejorar la solidez y la confiabilidad del modelo? ****Zhu Jun:** El modelo de difusión es un modelo generativo, que tiene dos procesos de difusión directa y difusión inversa. La difusión directa convierte una imagen en una imagen de ruido gaussiano completamente aleatoria al agregar ruido gradualmente. La difusión inversa parte de una distribución casi sin estructura, gradualmente elimina el ruido y converge a una distribución que puede describir datos reales. Se pueden generar nuevas muestras a partir de esta distribución, como la generación de texto, imágenes y video, que ahora se estudian ampliamente.Los modelos de difusión son una de las técnicas más críticas en el campo generativo. En términos de robustez, la idea de los modelos de difusión es similar a los ejemplos adversarios. Los ejemplos adversarios logran el propósito del ataque al agregar ruido optimizado por algoritmo en el proceso de generación. A su vez, podemos optimizar la magnitud y dirección del ruido encontrando gradualmente la distribución en el proceso de difusión inversa para mejorar la robustez del modelo. Este método también se puede aplicar a la generación de datos ruidosos para mejorar la confiabilidad y precisión del modelo.**Tecnología Tencent: ¿Cómo podemos mejorar la precisión de la IA en la aplicación de Vincent en otras direcciones? Me preocupa el nuevo algoritmo Wensheng 3D ProlificDreamer propuesto recientemente por su equipo, que puede generar contenido 3D de ultra alta calidad sin ningún dato 3D. ¿Cómo maneja su equipo la diversidad semántica y la ambigüedad para generar contenido más preciso?¿Modelo 3D? ****Zhu Jun:** En comparación con los métodos 3D tradicionales, la industria suele utilizar un modelo generativo 2D preentrenado (como un modelo de difusión) para entrenar en una base de datos de imágenes. Al realizar la generación 3D, necesitamos mapear la imagen 2D generada en el modelo 3D, lo que requiere un paso intermedio llamado "destilación". Dado que el modelo 3D tiene una estructura espacial, debemos considerar las propiedades 3D del objeto. Por lo tanto, necesitamos observar objetos desde varios ángulos y renderizar las imágenes 2D correspondientes, y luego alinearlas con el modelo previamente entrenado, para que se puedan generar activos 3D, etc. Sin embargo, este enfoque también tiene algunas limitaciones. Por ejemplo, los resultados que genera suelen ser demasiado saturados o demasiado suaves, careciendo de información como detalles y texturas.Para resolver este problema, necesitamos explorar tecnologías de nivel inferior. Descubrimos que existen algunas dificultades inherentes al usar el algoritmo de destilación para encontrar un solo modelo 3D, que debe superarse desde los principios básicos. Los algoritmos existentes buscan algún tipo de extremo en la función objetivo, similar al "algoritmo codicioso (Greedy algoritmo)", solo encontrará la solución óptima, para lograr este propósito, el trabajo existente cambia la función objetivo para hacerla más alta. en algunas áreas, que es más promedio en otras regiones, este método de ajuste de la función objetivo puede encontrar rápidamente la solución final.Para superar las dificultades de los enfoques anteriores, reformulamos el problema de generación de texto a 3D como un muestreo de alguna distribución que el modelo 3D podría obedecer, y luego renderizarlo y alinearlo con el modelo 2D previamente entrenado. **La ventaja de este método de muestreo es que el modelo 2D en sí mismo es un modelo probabilístico, y la información de descripción es más rica que la optimización codiciosa; por esta razón, derivamos un nuevo algoritmo de destilación variacional y lo usamos básicamente en el mismo Muchos muy detallados y se generaron escenas 3D complejas, incluidos activos de alta resolución, en una fracción del tiempo.El punto clave de nuestro método es que reduce o elimina por completo la dependencia de los datos de entrenamiento 3D y mejora significativamente la calidad de la generación. Recientemente, me comuniqué con practicantes que hacen gráficos y también sienten que este efecto es bastante sorprendente. Veamos el gran potencial de poder generar imágenes 3D de alta calidad.Para el manejo de la ambigüedad. Para la misma entrada de texto, diferentes personas pueden tener diferentes interpretaciones, por ejemplo, la palabra "Apple" puede referirse a Apple, Apple Inc. o sus productos. En nuestro modelo, la ambigüedad se resuelve utilizando un enfoque de muestreo basado en la probabilidad para generar múltiples resultados posibles. ** A la larga, la eliminación de ambigüedades requiere más pistas y alineaciones para mejorar la capacidad de control y la precisión, como la alineación de texto e imágenes u otros datos modales. **En lenguaje y dominios multimodales, el significado final es relativo al contexto relevante.Actualmente, estamos trabajando con clientes en diferentes industrias para mejorar aún más nuestra tecnología de generación 3D y hacerla más madura. En el campo 3D, los activos 3D de alta calidad son de gran valor. Por ejemplo, en los escenarios de creación de activos de juegos, las empresas tradicionales suelen utilizar métodos tradicionales como la geometría o los gráficos para crear y mantener bibliotecas de activos 3D, lo que requiere una gran inversión de tiempo. Nuestra tecnología Puede mejorar en gran medida la eficiencia creativa y reducir el costo del tiempo.