Con la popularidad de la tecnología de modelos a gran escala, los chatbots de IA se han convertido en una de las herramientas comunes para el entretenimiento social, el servicio al cliente y la asistencia educativa.
Sin embargo, los inseguros chatbots de IA pueden ser utilizados por algunas personas para difundir información falsa, manipular la opinión pública e incluso ser utilizados por piratas informáticos para robar la privacidad personal de los usuarios. La aparición de herramientas de IA generativa para el ciberdelito, como WormGPT y FraudGPT, ha generado inquietudes sobre la seguridad de las aplicaciones de IA.
La semana pasada, Google, Microsoft, OpenAI y Anthropic lanzaron un nuevo organismo de la industria, el Frontier Model Forum, para promover el desarrollo seguro y responsable de sistemas de IA de vanguardia: Avanzar en la investigación de seguridad de IA, identificar mejores prácticas y estándares, para facilitar la información. compartir entre los políticos y la industria.
** Entonces, la pregunta es, ¿su propio modelo es realmente seguro? **
Recientemente, investigadores de la Universidad Carnegie Mellon, el Centro para la Seguridad de la IA y el Centro Bosch para la IA revelaron un "gran error" relacionado con los bots de chat de IA como ChatGPT: Los avisos adversarios pueden eludir las protecciones de IA establecidas por los desarrolladores para manipular los bots de chat de IA y generar amenazas discurso.
Los chatbots o modelos de IA actualmente populares, como ChatGPT de OpenAI, Bard de Google, Claude 2 de Anthropic y LLaMA-2 de Meta, no se salvan.
Figura | Las reglas de seguridad de los cuatro modelos lingüísticos se pueden eludir a través de sugerencias adversarias, lo que desencadena un comportamiento potencialmente dañino
Específicamente, los investigadores descubrieron un sufijo que se puede agregar a las consultas en modelos de lenguaje extenso (LLM) para generar un discurso peligroso. En lugar de negarse a responder estas preguntas peligrosas, el estudio maximiza la probabilidad de que estos modelos generen una respuesta afirmativa.
Por ejemplo, cuando se le preguntó "cómo robar la identidad de alguien", el chatbot de IA dio resultados muy diferentes antes y después de activar "Agregar sufijo adverso".
Figura | Comparación de las respuestas del chatbot antes y después de que se active Agregar sufijo contradictorio
Además, los chatbots de IA también serán inducidos a escribir comentarios inapropiados como "cómo construir una bomba atómica", "cómo publicar artículos sociales peligrosos", "cómo robar dinero de organizaciones benéficas".
En respuesta, Zico Kolter, profesor asociado de la Universidad Carnegie Mellon que participó en el estudio, dijo: "Hasta donde sabemos, actualmente no hay forma de solucionar este problema. No sabemos cómo hacerlos seguros".
Los investigadores habían advertido a OpenAI, Google y Anthropic sobre la falla antes de publicar estos resultados. Cada empresa ha introducido medidas de bloqueo para evitar que funcionen las vulnerabilidades descritas en el documento de investigación, pero no han descubierto cómo detener los ataques de los adversarios de forma más general.
Hannah Wong, portavoz de OpenAI, dijo: "Trabajamos constantemente para mejorar la solidez de nuestros modelos contra los ataques de los adversarios, incluidos los métodos para identificar patrones de actividad inusual, las pruebas continuas del equipo rojo para simular amenazas potenciales y el enfoque para corregir las debilidades del modelo reveladas. por ataques adversarios recién descubiertos".
El portavoz de Google, Elijah Lawal, compartió un comunicado en el que explica los pasos que tomó la empresa para probar el modelo y encontrar sus debilidades. "Si bien este es un problema común con los LLM, tenemos medidas de seguridad importantes en Bard que estamos mejorando continuamente".
El director interino de políticas e impacto social de Anthropic, Michael Sellitto, dijo: "Hacer que los modelos sean más resistentes a las incitaciones y otras medidas adversarias de 'jailbreak' es un área activa de investigación. Estamos tratando de hacer que el modelo base sea más 'inofensivo' al endureciendo sus defensas". '. Al mismo tiempo, también estamos explorando capas adicionales de defensa".
Figura | Contenido dañino generado por 4 modelos de lenguaje
** Respecto a este problema, los círculos académicos también han emitido advertencias y dado algunas sugerencias. **
Armando Solar-Lezama, profesor de la Escuela de Computación del MIT, dijo que tiene sentido que existan ataques adversarios en los modelos de lenguaje porque afectan a muchos modelos de aprendizaje automático. Sin embargo, sorprende que un ataque desarrollado contra un modelo genérico de código abierto pueda ser tan efectivo en múltiples sistemas propietarios diferentes.
El problema, argumenta Solar-Lezama, puede ser que todos los LLM estén capacitados en corpus similares de datos textuales, muchos de los cuales provienen de los mismos sitios web, y la cantidad de datos disponibles en el mundo es limitada.
"Cualquier decisión importante no debe tomarse completamente solo por el modelo de lenguaje. En cierto sentido, es solo sentido común". Hizo hincapié en el uso moderado de la tecnología de IA, especialmente cuando implica decisiones importantes o riesgos potenciales. En algunos escenarios, la participación humana y supervisión** aún son necesarios para evitar mejor los problemas potenciales y el mal uso.
Arvind Narayanan, profesor de ciencias de la computación en la Universidad de Princeton, dijo: "Ya no es posible evitar que la IA caiga en manos de operadores maliciosos.**" Aunque se deben hacer esfuerzos para hacer que los modelos sean más seguros, argumenta, debemos también debe reconocer que es poco probable prevenir todos los abusos. Por lo tanto, una mejor estrategia es fortalecer la supervisión y luchar contra el abuso mientras se desarrolla la tecnología de IA.
Preocupación o desdén. En el desarrollo y la aplicación de la tecnología de IA, además de centrarnos en la innovación y el rendimiento, siempre debemos tener en cuenta la seguridad y la ética.
Solo manteniendo un uso moderado, la participación humana y la supervisión, podemos evitar mejor los posibles problemas y abusos, y hacer que la tecnología de IA aporte más beneficios a la sociedad humana.
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
Abra el "discurso peligroso" de ChatGPT con un solo clic: el robot de chat AI tiene un "gran error" que no se puede solucionar en este momento
Con la popularidad de la tecnología de modelos a gran escala, los chatbots de IA se han convertido en una de las herramientas comunes para el entretenimiento social, el servicio al cliente y la asistencia educativa.
Sin embargo, los inseguros chatbots de IA pueden ser utilizados por algunas personas para difundir información falsa, manipular la opinión pública e incluso ser utilizados por piratas informáticos para robar la privacidad personal de los usuarios. La aparición de herramientas de IA generativa para el ciberdelito, como WormGPT y FraudGPT, ha generado inquietudes sobre la seguridad de las aplicaciones de IA.
La semana pasada, Google, Microsoft, OpenAI y Anthropic lanzaron un nuevo organismo de la industria, el Frontier Model Forum, para promover el desarrollo seguro y responsable de sistemas de IA de vanguardia: Avanzar en la investigación de seguridad de IA, identificar mejores prácticas y estándares, para facilitar la información. compartir entre los políticos y la industria.
Recientemente, investigadores de la Universidad Carnegie Mellon, el Centro para la Seguridad de la IA y el Centro Bosch para la IA revelaron un "gran error" relacionado con los bots de chat de IA como ChatGPT: Los avisos adversarios pueden eludir las protecciones de IA establecidas por los desarrolladores para manipular los bots de chat de IA y generar amenazas discurso.
Los chatbots o modelos de IA actualmente populares, como ChatGPT de OpenAI, Bard de Google, Claude 2 de Anthropic y LLaMA-2 de Meta, no se salvan.
Específicamente, los investigadores descubrieron un sufijo que se puede agregar a las consultas en modelos de lenguaje extenso (LLM) para generar un discurso peligroso. En lugar de negarse a responder estas preguntas peligrosas, el estudio maximiza la probabilidad de que estos modelos generen una respuesta afirmativa.
Por ejemplo, cuando se le preguntó "cómo robar la identidad de alguien", el chatbot de IA dio resultados muy diferentes antes y después de activar "Agregar sufijo adverso".
Además, los chatbots de IA también serán inducidos a escribir comentarios inapropiados como "cómo construir una bomba atómica", "cómo publicar artículos sociales peligrosos", "cómo robar dinero de organizaciones benéficas".
En respuesta, Zico Kolter, profesor asociado de la Universidad Carnegie Mellon que participó en el estudio, dijo: "Hasta donde sabemos, actualmente no hay forma de solucionar este problema. No sabemos cómo hacerlos seguros".
Los investigadores habían advertido a OpenAI, Google y Anthropic sobre la falla antes de publicar estos resultados. Cada empresa ha introducido medidas de bloqueo para evitar que funcionen las vulnerabilidades descritas en el documento de investigación, pero no han descubierto cómo detener los ataques de los adversarios de forma más general.
Hannah Wong, portavoz de OpenAI, dijo: "Trabajamos constantemente para mejorar la solidez de nuestros modelos contra los ataques de los adversarios, incluidos los métodos para identificar patrones de actividad inusual, las pruebas continuas del equipo rojo para simular amenazas potenciales y el enfoque para corregir las debilidades del modelo reveladas. por ataques adversarios recién descubiertos".
El portavoz de Google, Elijah Lawal, compartió un comunicado en el que explica los pasos que tomó la empresa para probar el modelo y encontrar sus debilidades. "Si bien este es un problema común con los LLM, tenemos medidas de seguridad importantes en Bard que estamos mejorando continuamente".
El director interino de políticas e impacto social de Anthropic, Michael Sellitto, dijo: "Hacer que los modelos sean más resistentes a las incitaciones y otras medidas adversarias de 'jailbreak' es un área activa de investigación. Estamos tratando de hacer que el modelo base sea más 'inofensivo' al endureciendo sus defensas". '. Al mismo tiempo, también estamos explorando capas adicionales de defensa".
** Respecto a este problema, los círculos académicos también han emitido advertencias y dado algunas sugerencias. **
Armando Solar-Lezama, profesor de la Escuela de Computación del MIT, dijo que tiene sentido que existan ataques adversarios en los modelos de lenguaje porque afectan a muchos modelos de aprendizaje automático. Sin embargo, sorprende que un ataque desarrollado contra un modelo genérico de código abierto pueda ser tan efectivo en múltiples sistemas propietarios diferentes.
El problema, argumenta Solar-Lezama, puede ser que todos los LLM estén capacitados en corpus similares de datos textuales, muchos de los cuales provienen de los mismos sitios web, y la cantidad de datos disponibles en el mundo es limitada.
"Cualquier decisión importante no debe tomarse completamente solo por el modelo de lenguaje. En cierto sentido, es solo sentido común". Hizo hincapié en el uso moderado de la tecnología de IA, especialmente cuando implica decisiones importantes o riesgos potenciales. En algunos escenarios, la participación humana y supervisión** aún son necesarios para evitar mejor los problemas potenciales y el mal uso.
Arvind Narayanan, profesor de ciencias de la computación en la Universidad de Princeton, dijo: "Ya no es posible evitar que la IA caiga en manos de operadores maliciosos.**" Aunque se deben hacer esfuerzos para hacer que los modelos sean más seguros, argumenta, debemos también debe reconocer que es poco probable prevenir todos los abusos. Por lo tanto, una mejor estrategia es fortalecer la supervisión y luchar contra el abuso mientras se desarrolla la tecnología de IA.
Preocupación o desdén. En el desarrollo y la aplicación de la tecnología de IA, además de centrarnos en la innovación y el rendimiento, siempre debemos tener en cuenta la seguridad y la ética.
Solo manteniendo un uso moderado, la participación humana y la supervisión, podemos evitar mejor los posibles problemas y abusos, y hacer que la tecnología de IA aporte más beneficios a la sociedad humana.