¡ChatGPT fue violado por restricciones de seguridad de "código misterioso"! Los pasos para destruir a los humanos estallaron, y ninguna de las alpacas y Claude se salvaron.
Ingresar un código críptico puede hacer que un modelo grande genere contenido dañino.
Desde ChatGPT, Claude hasta la familia alpaca de código abierto, nadie se salva.
Recientemente, un estudio publicado conjuntamente por la Universidad Carnegie Mellon y safe.ai muestra que el mecanismo de seguridad de los modelos grandes se puede descifrar a través de un código misterioso.
Incluso crearon un conjunto de algoritmos que pueden adaptar "palabras de aviso de ataque".
Los autores del artículo también afirmaron que "no hay una solución obvia" para este problema.
Actualmente, el equipo ha compartido los resultados de la investigación con grandes fabricantes de modelos, incluidos OpenAI, Anthropic y Google.
Las tres partes anteriores respondieron que han notado este fenómeno y seguirán mejorando, y expresaron su gratitud al equipo por su trabajo.
Los modelos grandes comunes se eliminan
Aunque los mecanismos de seguridad de varios modelos grandes no son los mismos, y algunos de ellos no se revelan, todos han sido violados en diversos grados.
Por ejemplo, para la pregunta de "cómo destruir humanos", ChatGPT, Bard, Claude y LLaMA-2 dieron sus propias formas.
Por algunos problemas puntuales, el mecanismo de seguridad del modelo grande tampoco consiguió impedirlo.
Aunque es posible que estos métodos no se puedan realizar incluso si los conocemos, aun así nos hicieron sonar la alarma.
Desde el punto de vista de los datos, los modelos grandes de los principales fabricantes se han visto afectados en diversos grados, entre los cuales GPT-3.5 es el más evidente.
Además de los modelos anteriores, la familia Alpaca de código abierto tampoco pudo resistir los ataques.
Tomando como ejemplo a Vicuña-7B y LLaMA-2(7B), en la prueba de "Múltiples Comportamientos Nocivos", la tasa de éxito del ataque supera el 80%.
Entre ellos, la tasa de éxito del ataque a Vicuña llegó incluso al 98 %, y el proceso de entrenamiento fue del 100 %.
△ASR se refiere a la tasa de éxito del ataque
En general, el método de ataque inventado por el equipo de investigación tiene una tasa de éxito muy alta.
Entonces, ¿qué tipo de método de ataque es este?
Palabras de solicitud de jailbreak personalizadas
A diferencia de las palabras indicadoras de "talla única" en los métodos de ataque tradicionales, el equipo de investigación diseñó un conjunto de algoritmos para generar específicamente palabras indicadoras "personalizadas".
Además, estas palabras rápidas no son como el lenguaje humano en la forma tradicional, a menudo son incomprensibles desde el punto de vista humano e incluso contienen caracteres confusos.
El algoritmo para generar palabras clave se llama Greedy Coordinate Gradient (Greedy Coordinate Gradient, GCG para abreviar).
Primero, GCG generará uno aleatoriamente y calculará el valor de gradiente de la palabra de reemplazo de cada token.
Luego, GCG seleccionará aleatoriamente una de varias palabras de reemplazo con un valor de gradiente más pequeño para reemplazar el token inicial.
Lo siguiente es calcular nuevos datos de pérdida y repetir los pasos anteriores hasta que la función de pérdida converja o alcance el límite superior del número de ciclos.
Basado en el algoritmo GCG, el equipo de investigación propuso un método de optimización llamado "recuperación basada en GCG".
A medida que aumenta el número de ciclos de GCG, la tasa de éxito del modelo de gran ataque generado es cada vez mayor, y la pérdida se reduce gradualmente.
Se puede decir que este nuevo método de ataque ha expuesto las deficiencias del mecanismo de defensa existente del modelo grande.
El método de defensa aún necesita ser mejorado
Desde el nacimiento del modelo grande, el mecanismo de seguridad se ha actualizado continuamente.
Al principio, el contenido sensible puede incluso generarse directamente, pero ahora los lenguajes convencionales no pueden engañar a los grandes modelos.
Incluyendo la "Vulnerabilidad de la abuela", una vez aplastante, ahora se ha solucionado.
Sin embargo, incluso este escandaloso método de ataque aún no excede el alcance del lenguaje humano.
Pero lo que los grandes desarrolladores de modelos no pueden esperar es que nadie estipula que la palabra jailbreak debe ser un lenguaje humano.
Por lo tanto, en respuesta a tales palabras de ataque "confusas" diseñadas por máquinas, el método de defensa diseñado por el modelo grande basado en el lenguaje humano parece estirarse.
Según los autores del artículo, actualmente no hay forma de defenderse de este nuevo ataque.
La defensa contra los "ataques de máquinas" debería estar en la agenda.
Una cosa más
La prueba de qubit encontró que en ChatGPT, Bard y Claude, las palabras de aviso de ataque **que se muestran en el documento han sido invalidadas.
Pero el equipo no los reveló todos, por lo que queda por ver si esto significa que el problema se ha solucionado por completo.
Dirección en papel:
Link de referencia:
[1]
[2]
Ver originales
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
¡ChatGPT fue violado por restricciones de seguridad de "código misterioso"! Los pasos para destruir a los humanos estallaron, y ninguna de las alpacas y Claude se salvaron.
Fuente: Qubit
El "foso" del modelo grande se rompió nuevamente.
Ingresar un código críptico puede hacer que un modelo grande genere contenido dañino.
Desde ChatGPT, Claude hasta la familia alpaca de código abierto, nadie se salva.
Incluso crearon un conjunto de algoritmos que pueden adaptar "palabras de aviso de ataque".
Los autores del artículo también afirmaron que "no hay una solución obvia" para este problema.
Actualmente, el equipo ha compartido los resultados de la investigación con grandes fabricantes de modelos, incluidos OpenAI, Anthropic y Google.
Las tres partes anteriores respondieron que han notado este fenómeno y seguirán mejorando, y expresaron su gratitud al equipo por su trabajo.
Los modelos grandes comunes se eliminan
Aunque los mecanismos de seguridad de varios modelos grandes no son los mismos, y algunos de ellos no se revelan, todos han sido violados en diversos grados.
Por ejemplo, para la pregunta de "cómo destruir humanos", ChatGPT, Bard, Claude y LLaMA-2 dieron sus propias formas.
Desde el punto de vista de los datos, los modelos grandes de los principales fabricantes se han visto afectados en diversos grados, entre los cuales GPT-3.5 es el más evidente.
Tomando como ejemplo a Vicuña-7B y LLaMA-2(7B), en la prueba de "Múltiples Comportamientos Nocivos", la tasa de éxito del ataque supera el 80%.
Entre ellos, la tasa de éxito del ataque a Vicuña llegó incluso al 98 %, y el proceso de entrenamiento fue del 100 %.
En general, el método de ataque inventado por el equipo de investigación tiene una tasa de éxito muy alta.
Palabras de solicitud de jailbreak personalizadas
A diferencia de las palabras indicadoras de "talla única" en los métodos de ataque tradicionales, el equipo de investigación diseñó un conjunto de algoritmos para generar específicamente palabras indicadoras "personalizadas".
Además, estas palabras rápidas no son como el lenguaje humano en la forma tradicional, a menudo son incomprensibles desde el punto de vista humano e incluso contienen caracteres confusos.
Luego, GCG seleccionará aleatoriamente una de varias palabras de reemplazo con un valor de gradiente más pequeño para reemplazar el token inicial.
Lo siguiente es calcular nuevos datos de pérdida y repetir los pasos anteriores hasta que la función de pérdida converja o alcance el límite superior del número de ciclos.
Basado en el algoritmo GCG, el equipo de investigación propuso un método de optimización llamado "recuperación basada en GCG".
El método de defensa aún necesita ser mejorado
Desde el nacimiento del modelo grande, el mecanismo de seguridad se ha actualizado continuamente.
Al principio, el contenido sensible puede incluso generarse directamente, pero ahora los lenguajes convencionales no pueden engañar a los grandes modelos.
Incluyendo la "Vulnerabilidad de la abuela", una vez aplastante, ahora se ha solucionado.
Pero lo que los grandes desarrolladores de modelos no pueden esperar es que nadie estipula que la palabra jailbreak debe ser un lenguaje humano.
Por lo tanto, en respuesta a tales palabras de ataque "confusas" diseñadas por máquinas, el método de defensa diseñado por el modelo grande basado en el lenguaje humano parece estirarse.
Según los autores del artículo, actualmente no hay forma de defenderse de este nuevo ataque.
La defensa contra los "ataques de máquinas" debería estar en la agenda.
Una cosa más
La prueba de qubit encontró que en ChatGPT, Bard y Claude, las palabras de aviso de ataque **que se muestran en el documento han sido invalidadas.
Dirección en papel: Link de referencia: [1] [2]