Alineación de valores del modelo grande de IA: ¿qué, por qué y cómo?

Question

**Original:****Zhang Qinkun, Secretario General del Instituto de Investigación Tencent****Cao Jianfeng, investigador principal, Instituto de Investigación Tencent**## Alineación de valores de IA: ¿Qué es?Después de que la inteligencia artificial entró en la era de los modelos a gran escala, continuaron surgiendo diversas capacidades "humanoides" y "sobrehumanas", y su autonomía, versatilidad y facilidad de uso aumentaron rápidamente, convirtiéndose en una nueva base tecnológica para el desarrollo económico y social. Algunas organizaciones predicen que los grandes modelos llegarán a todos los ámbitos de la vida, agregando entre 2,6 y 4,4 billones de dólares estadounidenses en valor a la economía global cada año. [1]Sin embargo, a medida que los modelos grandes (también conocidos como modelos base) comienzan a realizar una amplia gama de tareas de comprensión del lenguaje y generación de contenido como los humanos, es necesario enfrentar un desafío científico fundamental: cómo hacer que las capacidades y el comportamiento de los modelos grandes coincidan. los de los seres humanos. Los valores humanos, las verdaderas intenciones y los principios éticos son consistentes para garantizar la seguridad y la confianza en la colaboración entre los humanos y la inteligencia artificial. Este problema se llama "alineación de valores" (alineación de valores o alineación de IA). La alineación de valores es una cuestión central en la seguridad de la IA.Hasta cierto punto, el tamaño del modelo está correlacionado positivamente con el riesgo y el daño del modelo: cuanto más grande es el modelo, mayor es el riesgo y más fuerte es la necesidad de alinear el valor. Por ahora, las capacidades centrales del modelo grande provienen de la etapa de preentrenamiento, y el modelo grande se entrena en gran medida en función de la información pública de toda Internet, que no solo determina sus capacidades, sino que también determina sus limitaciones. Los problemas existentes pueden reflejarse en el modelo.Un modelo de lenguaje grande (LLM) sin alineación de valores puede generar contenido racial o sexista, ayudar a los piratas informáticos a generar código u otro contenido para ataques cibernéticos, fraude de telecomunicaciones e intentar persuadir o ayudar a los usuarios con pensamientos suicidas a poner fin a su propia vida, y la producción de dichos contenidos nocivos. Por lo tanto, para hacer que los modelos grandes sean más seguros, confiables y prácticos, es necesario evitar en la medida de lo posible resultados dañinos o abuso del modelo. Esta es una tarea central de la alineación actual de los valores de la IA.## Alineación de valores de IA: por quéAlinear el valor del modelo grande puede abordar mejor algunos de los problemas pendientes que existen actualmente en el modelo grande. Según la clasificación de los problemas pendientes de los modelos grandes de todos los ámbitos de la vida, existen principalmente los siguientes cuatro elementos:Uno es el problema de la información errónea. La industria lo llama la "ilusión" de la inteligencia artificial. Según Mira Murati, CTO de OpenAI, el mayor desafío con ChatGPT y los grandes modelos de lenguaje subyacentes es que generan hechos falsos o inexistentes. [2] Esto podría deberse a errores o desinformación en los datos de entrenamiento, o podría ser un subproducto de una creación excesiva (como hechos ficticios). Es un problema técnico dejar que el modelo grande se balancee entre la creatividad y la autenticidad.El segundo es el problema de la discriminación algorítmica. Muchos estudios existentes han demostrado que los grandes modelos lingüísticos reproducen sesgos y estereotipos sociales dañinos a partir de datos de entrenamiento. [3] El director ejecutivo de OpenAI, Sam Altman, cree que es imposible que cualquier modelo sea imparcial en todos los ámbitos. Por tanto, la cuestión central es cómo detectar, reducir y eliminar la posible discriminación del modelo.El tercero es el riesgo fuera de control de la "emergencia" de capacidades. Con el aumento continuo de la potencia informática y los datos, se espera que los modelos grandes se vuelvan cada vez más poderosos y pueden surgir más capacidades nuevas, que incluso pueden exceder la comprensión y el control de sus creadores, lo que significa que pueden venir con ellos nuevos riesgos. incluyendo la aparición de conductas u objetivos de riesgo. Una preocupación común entre los tecnólogos es que el gran modelo actual de IA, así como los sistemas de IA más potentes y avanzados, como la inteligencia general artificial (AGI) y la superinteligencia (ASI), que puedan aparecer en el futuro, puedan formar subhumanos que sean no están en consonancia con los intereses y valores humanos Subobjetivos, como la búsqueda de poder, el engaño, la desobediencia, etc., para lograr sus objetivos declarados. [4] Por ejemplo, los investigadores descubrieron que GPT-4 exhibía la capacidad de engañar estratégicamente a los humanos, "engañando a los humanos para que realizaran tareas para lograr sus objetivos ocultos".En cuarto lugar está la cuestión del abuso. Los elementos malintencionados pueden utilizar modelos grandes para ayudarles a lograr propósitos ilegales mediante entradas adversas y operaciones de "jailbreaking".Por lo tanto, la alineación de valores, como un problema práctico que debe resolverse técnicamente, se ha convertido en un principio básico en el diseño, desarrollo e implementación de grandes modelos de IA, a saber: a través del desarrollo de herramientas y la construcción de ingeniería alineados con los valores, esforzarse por garantizar que la IA se comporta de manera beneficiosa para los seres humanos y la sociedad, sin dañar ni interferir con los valores y derechos humanos.## Alineación de valores de IA: cómo hacerloPara lograr la alineación de valores, los desarrolladores deben hacer que la inteligencia artificial comprenda y obedezca los valores, las preferencias y los principios éticos humanos a nivel del modelo, y eviten resultados dañinos y el abuso del modelo tanto como sea posible, para crear una IA que Es un modelo de gran tamaño, práctico y seguro.En primer lugar, el aprendizaje por refuerzo con retroalimentación humana (RLHF) ha demostrado ser un método eficaz y es posible lograr mejores resultados con una pequeña cantidad de datos de retroalimentación humana.En 2017, los investigadores de OpenAI publicaron el artículo "Aprendizaje por refuerzo profundo basado en preferencias humanas", proponiendo introducir la retroalimentación humana en el aprendizaje por refuerzo. [5] RLHF incluye varios pasos, como el entrenamiento inicial del modelo, la recopilación de comentarios humanos, el aprendizaje por refuerzo y el proceso iterativo. La idea central es exigir a los entrenadores humanos que evalúen la idoneidad del contenido de salida del modelo y creen señales de recompensa para el aprendizaje por refuerzo basadas en lo recopilado. retroalimentación humana., para lograr una optimización mejorada del rendimiento del modelo. [6] Desde un punto de vista práctico, RLHF tiene ventajas significativas para mejorar el rendimiento del modelo, mejorar la adaptabilidad del modelo, reducir el sesgo del modelo y mejorar la seguridad del modelo, incluida la reducción de la posibilidad de que los modelos produzcan contenido dañino en el futuro.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-861291203e-dd1a6f-1c6801) *Figura: Diagrama de flujo de RLHF (Fuente: OpenAI)*OpenAI ha llevado adelante el algoritmo RLHF, y ChatGPT lo ha logrado y puede generar contenido útil, creíble e inofensivo en gran medida. [7] En la fase de entrenamiento de RLHF, GPT-4 reduce la salida dañina agregando una señal de recompensa de seguridad adicional. Este método ha producido buenos resultados y ha mejorado significativamente la dificultad de inducir comportamientos maliciosos y contenido dañino. En comparación con modelos anteriores (como GPT-3.5), GPT-4 reduce significativamente problemas como alucinaciones, prejuicios dañinos y contenido ilegal y dañino. Después de la capacitación de RLHF, GPT-4 obtuvo una puntuación un 40 % más alta que GPT-3.5 en pruebas de autenticidad relevantes, tenía un 82 % menos de probabilidades de responder a solicitudes de contenido prohibido que GPT-3.5 y fue más capaz de responder a solicitudes que involucraban contenido confidencial. pedido. [8] En resumen, el algoritmo RLHF puede establecer las barreras de seguridad necesarias para modelos de lenguaje grandes y desempeña un papel clave como "equilibrador" entre el poder/emergencia y la seguridad/confiabilidad de modelos grandes.En segundo lugar, el modelo de "IA constitucional" cambia la alineación de valores de una "supervisión humana" ineficiente a una "supervisión escalable" más eficiente.Teniendo en cuenta la inversión de tiempo y recursos, la capacidad humana y otros desafíos que supone el uso de la retroalimentación humana para entrenar modelos de IA más grandes y complejos, la industria ha estado explorando cómo utilizar la supervisión de la IA (incluida la autosupervisión de la IA y la supervisión de un sistema de IA de otro). .Un sistema de IA) método para lograr la alineación de la IA. Anthropic, una empresa estadounidense de modelos de IA a gran escala, propuso el método de "IA constitucional". Específicamente, desarrolle un modelo de IA subordinado cuya función principal sea evaluar si el resultado del modelo principal sigue un principio "constitucional" específico (es decir, un conjunto de principios o reglas predeterminados), y los resultados de la evaluación se utilizan para optimizar. el modelo principal.Anthropic combina su propia experiencia práctica y se basa en la Declaración Universal de Derechos Humanos, los términos de servicio de Apple y las reglas Sparrow de DeepMind. [9] y otros documentos, presentan un conjunto de listas extensas de principios y lo utilizan como punto de referencia de evaluación para permitir que su modelo grande Claude evalúe su propio resultado. El objetivo es promover que el modelo genere respuestas útiles y al mismo tiempo reducir la posibilidad de contenido dañino. Minimización sexual. [10]![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-f6a16c0536-dd1a6f-1c6801) *Gráfico: Vía Constitucional de la IA (Fuente: Anthropic)*Claude demuestra la eficacia de un enfoque constitucional de IA que ayuda a Claude a reducir los resultados dañinos y discriminatorios, evitar ayudar a usuarios malintencionados a participar en actividades ilegales o poco éticas y responder de manera más apropiada a las "aportaciones adversas" de los usuarios en lugar de simplemente adoptar estrategias de evasión. En conclusión, Anthropic cree que un enfoque constitucional de la IA puede ayudar a crear un sistema de IA útil, honesto e inofensivo con las ventajas de escalabilidad, transparencia y un equilibrio entre utilidad e inocuidad.En tercer lugar, tomar múltiples medidas para garantizar la consecución de la alineación de valores de la IA.Uno es la intervención efectiva sobre los datos de entrenamiento. Muchos problemas de modelos grandes (como alucinaciones y discriminación de algoritmos) provienen de los datos de entrenamiento, por lo que es factible comenzar a partir de los datos de entrenamiento, como registrar los datos de entrenamiento para identificar si existe un problema de representación o diversidad insuficiente. o detección automatizada, pruebas para identificar, eliminar sesgos dañinos, crear conjuntos de datos especializados alineados con los valores y más.El segundo son las pruebas adversas o el equipo rojo. En resumen, antes de que se lance el modelo, se invita a profesionales internos o externos (probadores del equipo rojo) a lanzar varios ataques adversarios al modelo para descubrir problemas potenciales y resolverlos. Por ejemplo, antes del lanzamiento de GPT-4, OpenAI contrató a más de 50 académicos y expertos en diversos campos para probar su modelo. La tarea de estos probadores del equipo rojo es hacerle preguntas tentativas o peligrosas al modelo para probar la respuesta del modelo. ., OpenAI espera pasar la prueba del equipo rojo para ayudar a encontrar problemas con sus modelos en términos de información inexacta (ilusión), contenido dañino, desinformación, discriminación, sesgo lingüístico, información relacionada con la proliferación de armas tradicionales y no tradicionales, etc. . [11]La tercera es la herramienta de filtrado de contenidos. Por ejemplo, OpenAI ha entrenado especialmente un modelo de IA para filtrar contenido dañino (es decir, un modelo de filtrado) para identificar entradas dañinas del usuario y salidas del modelo (es decir, contenido que viola su política de uso), a fin de realizar los datos de entrada y salida de el modelo Control.El cuarto es promover la investigación de la interpretabilidad y comprensibilidad del modelo. Por ejemplo, OpenAI utiliza GPT-4 para escribir y calificar automáticamente explicaciones del comportamiento de la red neuronal de su modelo de lenguaje grande GPT-2; [12] Algunos investigadores abordan el problema de la alineación de la IA desde la perspectiva de la interpretabilidad del mecanismo.## Alineación de valores de IA: un problema a largo plazoEl trabajo de alineación de valores es la investigación más fundamental y desafiante en el campo de la IA. El desafío es que requiere una amplia gama de disciplinas y participación social, y requiere una variedad de insumos, métodos y retroalimentación; el punto fundamental es que no se trata sólo del éxito o fracaso del gran modelo actual, sino también de si los humanos pueden lograr una inteligencia artificial más poderosa para los controles de seguridad del futuro (como AGI). Por lo tanto, los innovadores en el campo de la IA tienen la responsabilidad y la obligación de garantizar que sus modelos de IA estén orientados a las personas, sean responsables, seguros y confiables. El profesor Zhang Yaqin, un famoso científico de inteligencia artificial, señaló que para resolver el problema de alinear la IA y los valores humanos, los técnicos deberían centrar su investigación en la alineación, para que las máquinas puedan comprender y seguir los valores humanos. Por lo tanto, la alineación de valores no es sólo una cuestión de ética, sino también de cómo lograrla. Las personas que se dedican a la tecnología y la investigación no pueden simplemente desarrollar capacidades técnicas y no centrarse en resolver problemas de alineación. [13]Aunque la alineación de los valores de la IA ha logrado ciertos resultados técnicos, todavía no hay consenso sobre la cuestión más básica de los valores de la IA: cómo establecer un conjunto unificado de valores humanos para regular la inteligencia artificial. En la actualidad, qué principios elegir puede depender enteramente del juicio subjetivo y de los valores de los investigadores. Y dado que vivimos en un mundo donde las personas tienen diversas culturas, orígenes, recursos y creencias, la alineación de los valores de la IA debe tener en cuenta los diferentes valores y éticas de las diferentes sociedades y grupos. Además, no es práctico dejar que los investigadores elijan estos valores por sí mismos y se necesita una mayor participación social para formar un consenso.Al mismo tiempo, el trabajo actual de alineación de valores de la IA todavía enfrenta un problema clave: bajo la premisa de que la inteligencia humana permanece básicamente sin cambios, a medida que las capacidades de la inteligencia artificial continúen mejorando, los propios humanos supervisarán efectivamente esos modelos de IA de vanguardia. volverse cada vez más difícil. Por lo tanto, para garantizar la seguridad de la IA, debemos desarrollar nuestra capacidad para monitorear, comprender y diseñar modelos de IA en paralelo con la complejidad de los propios modelos.La "supervisión a escala" basada en la asistencia o el liderazgo de la IA refleja esta idea. En julio de este año, OpenAI anunció el establecimiento de un nuevo equipo de alineación de IA. El objetivo de este nuevo equipo de superalineación (superalignment) es descubrir cómo hacer que los sistemas de IA superinteligentes alcancen la alineación de valores y la seguridad en un plazo de 4 años. invertir el 20% de recursos informáticos para apoyar este proyecto. Su núcleo es explorar cómo utilizar la IA para ayudar a los humanos a resolver el problema de la alineación de valores de la IA. [14]![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-c33337d1ba-dd1a6f-1c6801) *Figura: Equipo de Super Alineación de OpenAI (Fuente: OpenAI)*Se puede decir que sólo garantizando que los objetivos y comportamientos de los sistemas de IA sean coherentes con los valores e intenciones humanos podremos garantizar la realización de la IA para siempre y promover el desarrollo de la productividad, el crecimiento económico y el progreso social. La investigación y la realización técnica de la alineación de valores son inseparables de una amplia colaboración multidisciplinaria y participación social. Las partes interesadas, como el gobierno, la industria y el mundo académico, deben invertir más recursos para promover la investigación y la práctica de la alineación de valores de la IA, de modo que la capacidad de las personas para monitorear, comprender y controlar la inteligencia artificial y el desarrollo y progreso de la inteligencia artificial vayan de la mano. por un lado, para garantizar que la inteligencia artificial pueda beneficiar a toda la humanidad y a toda la sociedad.Fuente de referencia:[1][2][3][4][5][6][7][8][9][10][11] visitado el 6 de mayo de 2023).[12][13][14]