Jan Leike: ¿Cómo logrará OpenAI una súper alineación en 4 años?

Question

Autor: Daniel Filán@AXRPFuente: Unicornio de ultramarRecomendado por: Cage Compilador: wenli, Yanxi Composición tipográfica: Mengxi, ScoutOpenAI anunció su plan de "Superalineación" a principios del mes pasado y anunció que dedicará el 20% de su potencia informática total a esta nueva dirección a la vez. El cofundador y científico jefe de OpenAI, Ilya Sutskever, y el líder del equipo de alineación original, Jan Leike, liderarán conjuntamente este nuevo proyecto, con el objetivo de resolver los principales desafíos técnicos de la alineación de la superinteligencia en un plazo de 4 años para garantizar que los humanos puedan controlar la superinteligencia.Para lograr esto, OpenAI necesita entrenar primero un "alineador automático al mismo nivel que los humanos" y luego usar este "alineador automático" para lograr la alineación con superinteligencia. Según el artículo *Introtaining Superalignment*, "Automatic The El diseño del "Alineador" también implica la realización de evaluación y supervisión de IA, verificación de seguridad del sistema basada en la explicabilidad y pruebas de perturbación del sistema utilizando modelos no alineados.Este artículo está recopilado de una entrevista con Jan Leike y presenta el pensamiento técnico más detallado de Jan Leike sobre cómo OpenAI puede lograr una "súper alineación".** La siguiente es la tabla de contenidos de este artículo y se recomienda leerla en combinación con los puntos principales. ****👇**01 Equipo de Superalineación02 Deje que el modelo se "alinee de forma autónoma"03 Calendario de superalineación04 Generalización05 Manténgase optimista sobre la superalineación## **01.Equipo de Superalineación****Daniel Filan: ¿Te gustaría presentar primero al equipo de Superalignment? ****Jan Leike:** El objetivo del equipo de Superalignment es resolver el problema de la alineación superinteligente en los próximos 4 años. Ilya Sutskever, cofundador y científico jefe de OpenAI, también se unirá al equipo y codirigirá este proyecto conmigo. Además, OpenAI también dedicará el 20% de sus recursos informáticos a este tema. También estamos reclutando activamente talentos para unirse a este equipo de proyecto. **Tenemos muchas esperanzas de atraer ingenieros y expertos en aprendizaje automático que no hayan participado en la investigación de alineación. Quizás estas personas puedan ejercer un gran potencial en este tema. **Diseñamos un marco de trabajo preliminar. La idea central es capacitar primero a un investigador de alineación automatizada a nivel humano (investigador de alineación automatizada a nivel humano) y luego dejar que continúe estudiando cómo completar el trabajo de alineación de superinteligencia. Entonces, una de las cosas clave que tenemos que hacer es descubrir cómo "alinear" este autoalineador.**Daniel Filan: ¿Qué tamaño tendrá este nuevo equipo? ****Jan Leike:** Ahora tenemos alrededor de 20 personas y es posible que lleguemos a 30 a finales de este año. En los próximos cuatro años, el equipo probablemente no superará las 100 personas, pero la forma en que este equipo se expanda puede ser diferente. Tener millones de "humanos virtuales", o al menos tantos "humanos virtuales" como empleados de OpenAI (forma de alinear). Desde esta perspectiva, definitivamente nos expandiremos a gran escala en el futuro.**Daniel Filan: Mencionaste que OpenAI proporcionará a este equipo el 20% del soporte de potencia informática. ¿Qué significa este 20%? ****Jan Leike:** Para OpenAI, asignar el 20% de la potencia informática a este equipo no es una cifra pequeña. Esta es definitivamente nuestra mayor inversión en alineación hasta la fecha y probablemente supere a todas las demás. **Entonces, en ese sentido, el 20% de los recursos informáticos es un porcentaje bastante grande para OpenAI. Además, si hacemos que esta cifra sea extremadamente grande, algunas personas definitivamente se preguntarán: "¿Puede OpenAI realmente hacer esto?" Pero, de hecho, para OpenAI, si queremos continuar desarrollando los modelos más avanzados y analizando la IA más avanzada. El sistema está previamente entrenado, lo que requerirá muchos recursos informáticos.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-91a4c8eba9-dd1a6f-6d2ef1) **Daniel Filan: Antes de eso, OpenAI ya tenía un equipo de Alineación. ¿Este equipo todavía existe? ****Jan Leike:** El equipo de alineación establecido el año pasado tiene dos partes, una se llama "Alineación práctica" y la otra se llama "Alineación escalable". El equipo de Pragmatic Alignment se centra en la alineación de GPT-4, y el equipo de Scalable Alignment tiene como objetivo estudiar los problemas de alineación que aún no hemos resuelto. Con el lanzamiento de ChatGPT y el éxito posterior, la importancia de ChatGPT y la escala del producto aumentan constantemente, lo que requiere un mayor volumen de RLHF y modelos para garantizar que las funciones y la experiencia del producto sean lo suficientemente completas y que el equipo de alineación esté Ya no es adecuado para esto.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-e6f4d3f955-dd1a6f-6d2ef1) El trabajo de alineación práctica que mencionamos antes ahora se ha distribuido entre varios equipos de proyecto OpenAI, con cientos de personas participando en él, por lo que ya es un proyecto a muy gran escala, y el trabajo de alineación escalable ahora lo lleva a cabo el Equipo de Superalineación. Cosas para hacer.La razón por la que elegimos el nombre Superalignment es porque queremos enfatizar que lo que estamos estudiando en esta etapa es en realidad un problema que aún no ha aparecido. Nuestra investigación es relativamente prospectiva y orientada al futuro.**Daniel Filan: ¿Cómo ve los intentos de alineación de personas o equipos fuera de OpenAI? ****Jan Leike: **Hay muchas personas o equipos fuera de OpenAI que también están intentando trabajos relacionados, especialmente DeepMind y Anthropic. Hasta cierto punto, todos intentamos resolver el mismo problema, por lo que terminamos haciendo un trabajo similar. También es normal. Hay otros trabajos sobre interpretabilidad y supervisión escalable.En cierto modo, corremos el riesgo de duplicar una gran cantidad de trabajo, por lo que lo ideal sería tratar de descubrir cómo coordinarnos mejor o colaborar más. Pero si todos hacen lo mismo, se puede evitar el "pensamiento grupal", porque si cada laboratorio quiere resolver estos problemas de forma independiente, naturalmente dudará de los resultados de otros laboratorios, y el lado negativo producirá "pensamiento grupal". -o efecto: la gente no está dispuesta a utilizar tecnologías inventadas en otros lugares y, naturalmente, pensará que las tecnologías distintas a las suyas no son buenas, o las mirará con algún tipo de prejuicio.Así que no hay un buen equilibrio en este momento, y si bien hay una razón para pensar que todas las personas alineadas deberían estar en un solo lugar y trabajar juntas de alguna manera, esa es la realidad porque, por su propia naturaleza, los laboratorios de IA de vanguardia tienen motivación para invertir mucho. de recursos en materia de "alineación". Esto también se ha hecho evidente con el éxito del RLHF, que hace que los modelos sean más viables comercialmente, lo que hace más atractivo invertir en la investigación de dichas técnicas.**Daniel Filan: ¿En qué se diferencia el enfoque del equipo de superalineación de OpenAI? ****Jan Leike:** Estamos realmente concentrados en cómo alinear este alineador automático, en lugar de descubrir cómo alinear varias tareas. Así que, al menos en este tema, no nos preocupa demasiado el impuesto de alineación. No creo que otros laboratorios enfaticen este objetivo o dirección de esta manera.**Impuesto de alineación:**También conocido como impuesto de seguridad, se refiere al costo adicional de garantizar que los sistemas de IA estén alineados. El impuesto de alineación bajo RLHF mencionado en este artículo significa que para realizar RLHF, se pierde la capacidad del modelo base para lograr la alineación, como un mayor tiempo de desarrollo, cálculos adicionales o degradación del rendimiento.**Nuestro enfoque muy optimista es: probar todas las técnicas de alineación escalables, ver cuáles funcionan mejor e intentar encontrar métodos que puedan compararse empíricamente. Otros laboratorios tienen tecnologías de vigilancia escalables específicas que les entusiasman mucho y están intentando utilizar esas tecnologías también. Además, en términos de interpretabilidad, estamos adoptando un enfoque automatizado para la interpretabilidad y lo estamos impulsando mucho, algo en lo que otros laboratorios no ponen tanto énfasis en este momento. ****Otra cosa que realmente queremos hacer es aprovechar la computación para avanzar en la alineación, que es una de nuestras principales estrategias**, especialmente en términos de supervisión escalable, realmente queremos descubrir cómo hacerlo con más potencia informática para enviar. ¿Cómo emitir mejores señales de supervisión? ¿Qué oportunidades tenemos? ¿Cómo mejorar el modelo de crítica (modelo de crítica)? ¿Cómo utilizar más potencia informática para fortalecer la señal de supervisión? La interpretabilidad automatizada es un método muy simple y podemos avanzar en este problema simplemente invirtiendo una gran cantidad de potencia informática.**Modelo de crítica:**Es un modelo de lenguaje independiente. Revisa los resultados del primer sistema de IA y luego escribe una reseña.Además, hay investigaciones sobre la alineación automatizada: si esto se puede hacer, podemos obtener más resultados de alineación invirtiendo más potencia informática. Pero dado que lo que realmente queremos hacer es convertir la cantidad de potencia informática en capacidades de alineación, ahora necesitamos mucha potencia informática, y es por eso que OpenAI está dispuesto a utilizar el 20% de la potencia informática para la alineación. Básicamente, esto dice que si descubrimos este alineador automático y descubrimos que necesitamos más potencia informática, podemos usar más potencia informática para ejecutarlo. Esto también significa que la estrategia de convertir la potencia informática en alineación es exitosa y contará con el respaldo de OpenAI.## **02. Deje que el modelo se "alinee de forma autónoma"****¿Qué es el "Alineador automático"**?**Daniel Filan: ¿Qué es un “investigador de alineación automatizado a nivel humano”? ****Jan Leike: Nuestro objetivo es utilizar sistemas automatizados para desmontar y distribuir las tareas en el trabajo de alineación tanto como sea posible. **En el caso de los modelos de lenguaje u otros sistemas de inteligencia artificial, el trabajo que pueden realizar no es 100% consistente con el de los humanos. Por ejemplo, los LLM pueden ser mejores que los humanos en cosas como traducir o responder preguntas sobre hechos, pero pueden no ser tan buenos en cálculos aritméticos u otras tareas. ** Entonces la pregunta es, ¿en qué orden y qué tareas debemos asignar a la IA para que las maneje, a fin de liberar la energía limitada de los investigadores humanos? **Como resultado, los equipos humanos podrán completar tareas críticas de manera más eficiente, mientras que la IA también asumirá cada vez más tareas auxiliares.**En general, la IA participará en una proporción cada vez mayor del trabajo, y los investigadores humanos prestarán más atención a las tareas que la IA no asume y podrán acelerar de manera más efectiva la investigación de la alineación de la superinteligencia a través de la colaboración entre humanos y máquinas. ****Daniel Filan: Entonces, no se trata de usar IA para reemplazar a algunos empleados humanos en el equipo de alineación de OpenAI, sino de usar IA para completar un tipo específico de trabajo que todos están haciendo y luego reemplazarlo con IA paso a paso. Más tareas ¿actuar? ****Jan Leike:**Sí, creo que si queremos que el rendimiento de este sistema sea lo suficientemente alto, el 99% o el 99,9% de las tareas deberían automatizarse, de modo que podamos obtener 10, 100 o incluso 1000 veces. multiplicado por los resultados de la investigación.En términos generales, clasificaría las "tareas" mencionadas aquí en dos categorías amplias. Una son las tareas de investigación de ingeniería de aprendizaje automático más tradicionales, cuyo propósito es ayudar a mejorar las capacidades de los sistemas de IA, como la implementación de varios experimentos de ML y la recopilación de resultados experimentales.El otro tipo es lo que se debe hacer para lograr la alineación de la superinteligencia. Este tipo de problema es relativamente más grande y de mayor nivel (alto nivel), por ejemplo, para mejorar la supervisión de la escalabilidad (Scalable Oversight), ¿cómo decidimos? ¿Qué experimentos realizar? O cómo avanzar hacia la explicabilidad. Por supuesto, debe haber algunas preguntas muy específicas que necesitan respuesta, por ejemplo, cuando una investigación llega a una etapa específica, es necesario aclarar una serie de problemas posteriores que deben resolverse y otras cuestiones muy detalladas.**Supervisión escalable:**El objetivo de la supervisión de la escalabilidad es garantizar que las capacidades del modelo aún puedan ser consistentes con las expectativas humanas y continuar mejorando y aprendiendo después de superar los niveles humanos. Esto requiere que los investigadores piensen en cómo aumentar la capacidad del modelo, alinear los valores del modelo y monitorear continuamente el desempeño del modelo. El objetivo de la supervisión escalable es cómo proporcionar continuamente una supervisión fiable al modelo, que puede adoptar diversas formas, como etiquetas, señales de recompensa o críticas.Espero que el aprendizaje automático pueda realizar muy bien el primer tipo de tareas, que es diseñar y ejecutar experimentos automáticamente, y el trabajo único que estamos haciendo hoy para acelerar el progreso de la alineación es descubrir cómo automatizar el segundo tipo de método. de la tarea. ****Daniel Filan: ¿El segundo tipo de tarea parece ser una tarea de proceso completo? No solo descubrir direcciones de investigación, descubrir qué podría ser útil, incluso hasta "¿qué script quiero ejecutar ahora?" ****Jan Leike: **Esta pregunta en realidad se puede formular así: **Dado que la investigación de alineación es en gran medida similar a la investigación de ML tradicional, ¿qué otras tareas del segundo tipo se pueden realizar? ****Creo que en realidad hay mucho contenido relacionado con el segundo tipo de tareas, y esta parte del apalancamiento de la investigación es excelente. ** Debido a que desde la perspectiva de los problemas de investigación, ni siquiera hemos llegado a un consenso sobre "cómo definir la alineación", incluso los expertos de la industria siguen siendo "la ruta técnica más probable para lograr la alineación" o "qué trabajo se debe hacer a continuación". Hay diferencias en estos temas. Por lo tanto, si se puede acelerar la alineación, el impacto debe ser enorme. Esta es también la visión y dirección que les dijimos a los investigadores cuando los llamamos a unirse al equipo de OpenAI Superalignment.En esta etapa, todavía estamos resolviendo algunos problemas básicos y todavía queda mucho trabajo por hacer en la investigación de la alineación. No sabemos cómo alinear la superinteligencia, e incluso simplemente alinear los sistemas de IA con una inteligencia superior a la humana es bastante difícil.**Daniel Filan: Mencionaste el concepto de un alineador automático a nivel humano, pero parece que la mayoría de las cosas en IA no están del todo al nivel humano. ¿Qué importancia tiene el "nivel humano" en este objetivo? ¿Es bueno o malo que la IA supere el desempeño humano en algunas de las tareas que mencionaste? ****Jan Leike: Creo que el quid de la cuestión es qué tan riesgoso es tener este sistema a nivel humano en la investigación de alineación. **No es terrible que el sistema de inteligencia artificial tenga mucho conocimiento, pero cuando este sistema se haga cargo de parte (a la larga, la mayor parte) de la investigación de alineación, debemos considerar si le mentirá a los humanos. ¿Intentará la IA engañarnos y apoderarse del sistema?Debido a que actualmente no entendemos mucho sobre cómo se comporta un modelo, la pregunta que realmente enfrentamos es qué tipo de habilidades necesitamos para comprender su comportamiento y riesgo, que es similar a lo que necesitamos para construir un auto-investigador hiperalineado. ¿Cómo se comparan las habilidades?Si investigamos esto más a fondo, ¿cuáles son nuestras verdaderas preocupaciones? Podría ser, ¿está el modelo tejiendo una serie de mentiras que pueden engañar a los humanos? ¿Los modelos ya están engañando a los humanos? ¿Estás fingiendo hacer algo o creer en algo cuando en realidad está dirigido a otro objetivo?Por lo tanto, también es fundamental evaluar si un modelo hará **jailbreak (autoexfiltración**): qué tan capaz es el modelo de poder romper las precauciones de seguridad del sistema, obtener parámetros de peso del modelo e intentar replicarlos en otro lugar. ¿La Internet? ¿O es posible que el modelo descargue estos datos y los envíe a otro lugar convenciendo a un ingeniero humano con acceso a los pesos? También podemos medir la capacidad del modelo en esta área. En estos aspectos críticos, espero que la capacidad del modelo no sea demasiado fuerte.**Daniel Filan: Un alineador automático a nivel humano debe ser muy inteligente, creativo y capaz de planificar tareas, y también debe ser muy bueno pensando en problemas relacionados con la alineación, en cuyo caso hay voces que dicen que un alineador automático tan poderoso herramienta en sí Es muy amenazante para los humanos. Si la tarea es alinear a los becarios de alineación automática, ¿hay algún otro problema que deba resolver? ****Jan Leike: Creo que, en última instancia, esto es algo impulsado por la experiencia. **Podríamos empezar pensando en esto a nivel macro. Por ejemplo, existe una posibilidad muy obvia de que una vez que se mejoren las capacidades del modelo, naturalmente dejaremos que el modelo nos ayude con algunos trabajos de investigación de alineación. Si bien el modelo nos ayuda a realizar investigaciones, sus propias capacidades se han mejorado, por lo que de Como resultado , podemos usar esto para entrenar rápidamente un modelo más potente.Esta historia suena emocionante a primera vista, pero en la práctica es bastante complicada. En primer lugar, el preentrenamiento del modelo suele llevar varios meses, no semanas, por lo que debemos utilizar esta generación de modelos hasta que nazca la nueva generación de modelos. Otra pregunta que aún no tiene una respuesta clara es: ¿todavía quedan muchos “frutos al alcance de la mano” cuando se trata de mejorar la potencia informática?Creo que, en comparación con la alineación, la inversión y el enfoque de toda la comunidad de IA en mejorar la velocidad y las capacidades de la IA es considerable, y si podemos automatizar más de estas tareas para beneficiar a ambas comunidades, entonces a escala de la comunidad de alineación. En casos más pequeños, los beneficios marginales que aporta serán mayores.**Daniel Filan: En lo que respecta a la evaluación de la dirección de la investigación sobre alineación, ¿cuál cree que será el objetivo a largo plazo de este alineador automático? ****Jan Leike:** Creo que los modelos de lenguaje o la inteligencia artificial en general son más creativos que los humanos en promedio. Por ejemplo, las imágenes generadas por un modelo de difusión o muestras de un modelo básico previamente entrenado definitivamente encontrarán muchas cosas inesperadas, por lo que la creatividad del modelo es particularmente fuerte y es difícil para nosotros aprender de alguien o un pequeño grupo de humanos, y el modelo puede hacer esto porque ha aprendido todas las palabras que los humanos han dicho o todas las imágenes en Internet, para completar el muestreo en esta distribución a gran escala, lo que un solo humano no puede hacer con esto. punto.En lo que respecta a los objetivos a largo plazo, creo que no hay necesidad de perseguir deliberadamente los llamados objetivos de largo plazo, porque primero podemos entregar tareas a corto plazo a la IA. Si son buenos en estas tareas, eso es suficiente. **Por ejemplo, puede ser algo a muy pequeña escala, como "Este es un artículo que acabamos de escribir. Haga algunas sugerencias para el siguiente paso o qué nuevos experimentos se pueden implementar". Imagine que en realidad le estamos pidiendo a un investigador estrella real de IA que haga preguntas, para que no tenga que perseguir objetivos a largo plazo, solo necesita ayudarnos a optimizar los próximos objetivos pequeños, tal vez unos pocos miles de tokens, si pueden hacerlo. Bueno, ya puede aportar mucho valor a la humanidad.**Daniel Filan: ¿Esto parece entrar en conflicto con el objetivo de automatizar el 99,9% de las tareas de alineación mencionado anteriormente? En mi opinión, una de las claves para realizar una investigación de alineación es seguir pensando y resolviendo el problema de "¿qué se necesita para conseguir una IA realmente alineada?". ****Jan Leike:** Exacto. Pero lo que quiero expresar es ** Cuando el sistema completa bien estas tareas, ha logrado mucho valor, y lo que los humanos tenemos que hacer es combinar estas tareas. **Por ejemplo, algunas tareas son "escribir código que implemente estos experimentos", mientras que otras son "mirar los resultados y decirme lo que ves" o "sugerir qué hacer a continuación". Esencialmente, cuando los modelos han realizado estas tareas, podemos combinarlas de alguna manera general, como lo hacen las personas en Auto-GPT o programas de modelos de lenguaje, cada tarea es pequeña e integrada, por lo que el sistema no necesita perseguir deliberadamente una tarea. gran objetivo a largo plazo.Por ejemplo, el reciente *Let's Verify Step by Step* de OpenAI aprovecha la retroalimentación matemática basada en procesos para entrenar un modelo de recompensa basado en la retroalimentación humana en cada paso del proceso de prueba, en lugar de entrenar "¿si el sistema obtuvo la solución correcta?". Esto resultó ser más efectivo porque le dio al sistema de inteligencia artificial una forma de aprendizaje más detallada y una retroalimentación más detallada. Pero a largo plazo, ¿es esto competitivo con el aprendizaje por refuerzo de un extremo a otro? No lo sabemos por un tiempo, pero al menos por ahora, podemos usar este desglose detallado paso a paso para hacer que el sistema haga muchas cosas realmente útiles que los humanos harían, y luego unir esas cosas.***Verifiquemos paso a paso:***Un estudio publicado en mayo de 2023 por Hunter Lightman et al. Centrándose en el problema de los errores lógicos que a menudo ocurren en tareas complejas de razonamiento de múltiples pasos de modelos grandes, el autor compara dos métodos de supervisión de resultados y supervisión de procesos: la supervisión de resultados proporciona principalmente retroalimentación para el resultado final, mientras que la supervisión de procesos proporciona retroalimentación para cada uno. paso intermedio de razonamiento retroalimentación. El estudio encontró que la supervisión de procesos superó significativamente a los modelos de entrenamiento supervisados por resultados, especialmente en problemas matemáticos. Además, los autores descubrieron que el aprendizaje activo mejoraba significativamente la eficacia de la supervisión de procesos.**Daniel Filan: Una de las pequeñas tareas que mencionas es "mirar los resultados y decidir qué hacer a continuación". Si quiere hacer esto, ¿tiene que pensar qué proyecto específico es más útil para lograr el objetivo de alinear la superinteligencia en cuatro años? ****Jan Leike: Tienes razón. Sin embargo, no a través de la optimización y la asignación de créditos a largo plazo, sino más bien agregando algunos objetivos y contexto más amplios al mensaje. **Sin embargo, en la práctica, cuando mejoramos sistemas mediante el aprendizaje por refuerzo (RL) o el aprendizaje por refuerzo a partir de retroalimentación humana (RLHF), en realidad no necesitamos esperar hasta el final del proyecto de investigación para sacar conclusiones sobre si estos métodos son efectivos. En cambio, podemos utilizar la retroalimentación humana como base para sugerir recompensas simplemente preguntándonos: "¿Esta dirección se ve mejor que cualquier cosa que pueda imaginar?".**Por lo tanto, creo que el objetivo general de Superalignment no es lograr la alineación automática más poderosa con la tecnología actual, sino construir un sistema que sea muy útil y pueda aplicarse a gran escala. Lo más importante es que creemos que puede lograr la alineación y puede estar seguro. Deje estas tareas en sus manos. ****En comparación con la división de tareas, puede existir la opinión de que solo la capacitación de un extremo a otro puede hacer que el modelo sea más capaz. Pero creo que esto no es tan importante. De hecho, el método de capacitación de extremo a extremo no solo limita en gran medida las capacidades del modelo, sino que también es menos eficiente, lo que la gente suele llamar el "impuesto de alineación". **El "impuesto de alineación" es un factor importante si desea competir eficazmente con otras empresas en el mercado: supongamos que estoy creando un chatbot que hace un trabajo de alineación particularmente bueno pero parece ser mucho menos capaz, lo que en realidad es muy difícil competir en el mercado. Pero si tiene un alineador automático, ese alineador automático no necesita competir en el mercado, solo debe ser útil para nosotros. Entonces podemos aceptar un costo de alineación más alto porque no tenemos sustituto, o el verdadero sustituto es contratar más humanos, pero de esta manera no es tan escalable.**Daniel Filan: ¿Qué problemas espera que resuelva este investigador de alineación automatizado? ****Jan Leike:** Debería resolver el problema de "cómo sintonizamos la superinteligencia". **Alineación de superinteligencia La solución real puede ser bastante diferente de la alineación que estamos haciendo hoy. **La solución de ChatGPT es reforzar masivamente el aprendizaje a partir de la retroalimentación humana, es decir, RLHF (aprendizaje por refuerzo a partir de la retroalimentación humana). El consenso general en esta etapa es que este enfoque puede ser difícil de escalar porque fundamentalmente supone que los humanos necesitan comprender completamente los detalles de lo que está haciendo el sistema.Entonces, si permite que el modelo realice una investigación de alineación a gran escala, puede imaginar tareas equivalentes a millones de cargas de trabajo humanas. Obviamente, es imposible que los humanos vean todos los datos y brinden comentarios detallados. Esto es bastante difícil. Definitivamente lo pasaremos por alto. muchos errores importantes en este proceso.**La tecnología en la que está trabajando actualmente el equipo de Superalignment es hacer que RLHF sea extensible e implementar la alineación para alineadores automáticos. ** Este alineador automático está casi al mismo nivel que los humanos. Puede reemplazar a los humanos en la realización de estas difíciles tareas, pero no será muy diferente de los humanos. Las tecnologías que queremos implementar son todas actualizaciones o exploraciones serias de tecnologías anteriores. Por ejemplo, la supervisión escalable es una extensión natural de RLHF. **La supervisión escalable se define como la combinación general de ideas y técnicas que nos permiten aprovechar la IA para ayudar a los humanos en tareas difíciles de evaluación. La supervisión se puede construir a partir del aprendizaje reforzado con retroalimentación humana (RLHF).Los representantes típicos de la supervisión escalable incluyen el debate, el modelado de recompensa recursivo (RRM, modelado de recompensa recursivo), la destilación y amplificación iteradas, la creación de mercado automatizada, etc. Están surgiendo muchos métodos nuevos.Creo que si realmente vamos a hacer una alineación de superinteligencia, dado que el sistema es más inteligente que los humanos, piensa más rápido y computa en un orden de magnitud completamente nuevo, traerá muchos otros problemas, especialmente porque es Va a ser súper general y puede hacer muchas cosas, y luego tendrías que descubrir cómo alinearlo, no solo alinear las tareas de investigación con una distribución más estrecha, sino todo lo demás. Además, es necesario verificar que tenga éxito mediante una evaluación empírica exhaustiva.Entonces, en este momento, no solo yo, sino todos, no sabemos cómo será el futuro, pero sería muy emocionante si pudiera haber alguna verificación formal. Tal vez hayamos encontrado algún algoritmo teóricamente garantizado, pero la teoría y la práctica posterior pueden ser muy diferentes, e incluso no creo que un investigador de alineación que sea aproximadamente de nivel humano comience a resolver estos problemas de inmediato. En cambio, esperamos que encuentren formas de alinear mejor la próxima iteración para que, a través de la orientación, finalmente tengamos un sistema que nos ayude a afinar la superinteligencia.**Daniel Filan: Una vez que tenga estos investigadores de alineación de inteligencia artificial a nivel humano, ¿OpenAI todavía necesita un equipo de alineación de superinteligencia y los empleados correspondientes? ****Jan Leike:** Esa es una buena pregunta. Personalmente, estaría muy emocionado si pudiera ser reemplazado por IA. **Pero históricamente, la situación típica es la que mencionamos antes: los asistentes de IA hacen el 99% o el 99,9% del trabajo, y los humanos son responsables del 1% o 0,01% restante. **A largo plazo, incluso si ya no podemos comprender realmente todo lo que hace la IA, aún debemos asegurarnos de que los humanos participen de alguna manera o siempre puedan controlar lo que hace la IA. Ser un rol humano para tratar de comprender las implicaciones de alto nivel de lo que está haciendo la IA no necesariamente tiene que ser el equipo actual de OpenAI Superalignment, porque las habilidades requeridas pueden ser muy diferentes de las que tenemos ahora.**Daniel Filan: OpenAI sigue mencionando en su blog: La seguridad está estrechamente relacionada con las capacidades del modelo. Necesitamos modelos inteligentes para resolver problemas de alineación, pero al mismo tiempo, esperamos que las capacidades del modelo no nos cambien. Hay un pasaje en Planificación para AGI y más allá: "Si AGI tiene suficiente capacidad para acelerar su propio desarrollo, puede llevar a que se produzcan cambios importantes a una velocidad sorprendente". "Creemos que el desarrollo relativamente lento de AGI es más fácil de asegurar". Seguridad". Si creamos un alineador de nivel muy inteligente o casi humano y luego escalamos efectivamente el equipo de alineación a 10x o 100x, ¿esto termina en un ciclo recursivo de superación personal? ****Jan Leike:** Esto es inevitable. No puede haber un ciclo recursivo de superación personal sin mejoras masivas en las capacidades de alineación. Personalmente creo que la posibilidad de que la IA logre un salto en capacidades es bastante alta, y debemos estar preparados para ello. Si no hubiera sucedido, habría estado contento.Si observamos otros sistemas de inteligencia artificial, como AlphaGo, Dota o StarCraft, estos sistemas experimentan importantes iteraciones de capacidad casi semanalmente. En cuanto a qué sucederá exactamente, no podemos decirlo con certeza todavía porque hay mucha incertidumbre, pero creo que deberíamos estar preparados para esa posibilidad. Cuando esto sucede, una muy buena solución es tener investigadores alineados automáticamente que realmente puedan realizar el equivalente a miles de años de trabajo en una semana, algo que los humanos no pueden hacer.**Cómo diseñar un alineador automático****Daniel Filan: ¿Cómo implementar este alineador automático a nivel humano? ****Jan Leike:** Se puede dividir aproximadamente en dos partes: primero, necesitamos un sistema que sea lo suficientemente inteligente para realizar tareas; por otro lado, debemos alinear este sistema para garantizar que realmente pueda realizar tareas. Estas dos partes no son completamente independientes, existe una estrecha relación entre ellas.No participé personalmente en la primera parte de la investigación, pero creo que definitivamente se hará realidad y mucha gente está trabajando para hacerlo posible. Hay muchas direcciones diferentes a seguir, pero puedes imaginar que a medida que el modelo se hace cada vez más grande, eventualmente se vuelve lo suficientemente inteligente.**Lo que personalmente me interesa mucho es la segunda parte. El problema que enfrentamos en nuestra investigación es: con este modelo pre-entrenado muy inteligente, ¿cómo se puede lograr que realice una investigación alineada de la manera deseada? O, lo que es más importante y más importante, ¿cómo saber si podemos confiar en él lo suficiente para llevar a cabo la tarea? **Nuestros modelos pueden intentar presentar resultados y técnicas de una manera que, si usted decide implementarlos, realmente mejore el sistema en sí u otros sistemas relacionados y muestre más comportamiento de búsqueda de poder en el futuro, o realice un jailbreak (autoexfiltración) y otros comportamientos.Por lo tanto, debemos alinear la IA para garantizar que pueda realizar tareas de acuerdo con nuestras expectativas y aprovechar al máximo sus capacidades para lograr el mejor desempeño en las tareas. Para hacer esto, es necesario desarrollar una serie de métodos de entrenamiento de alineación para garantizar que la IA permanezca alineada mientras realiza las tareas.Estos son en realidad dos tipos diferentes de sistemas. Necesitamos distinguir si el sistema es un alineamiento verdadero o un alineamiento falso. El primero es un sistema que puede trabajar duro para realizar investigaciones de alineamiento y realmente ayudarnos a buscar la verdad; el segundo puede tener la intención de controlar el mundo, jailbreak u otro Riesgo de mal comportamiento. Por lo tanto, necesitamos establecer mecanismos o métodos para discernir estos dos alineamientos y asegurarnos de que podamos confiar en sistemas que estén verdaderamente alineados.**Una parte importante de nuestro trabajo es descubrir cómo distinguir las alineaciones verdaderas y falsas. Yo los llamo métodos de verificación. No se utilizan directamente para entrenar sistemas de IA, ni se utilizan directamente como base para seleccionar sistemas, pero proporcionan un independiente La señal de se utiliza para juzgar si el sistema pertenece al sistema alineado real o al sistema alineado falso. **La investigación de la interpretabilidad, por ejemplo, es uno de esos enfoques. Si encontramos alguna evidencia, al mirar dentro del modelo, de que el modelo está conspirando secretamente contra nosotros, entonces el modelo no pasará la prueba de validación como un sistema falsamente alineado.Otro enfoque es generalizar el problema de fácil a difícil, lo que puede ser una técnica de entrenamiento o de validación, dependiendo de cómo esté configurado. Esta pregunta examina si la capacidad del modelo para generalizar desde problemas simples que podemos supervisar hasta problemas difíciles que no podemos supervisar. Si el modelo puede supervisarse en la parte fácil y validarse cruzadamente en la parte difícil, entonces podemos determinar si el modelo corre riesgo de hacer trampa encubierta u otro comportamiento.**Enfoque 1: Supervisión escalable****Daniel Filan: ¿Cómo se logra una supervisión escalable? En la actualidad, no hay mucho consenso sobre la alineación: ¿cómo obtener señales de entrenamiento para una investigación de alineación de alta calidad? ****Jan Leike:** El hecho de que no se haya logrado un consenso realmente demuestra que la alineación es realmente muy difícil de resolver. Este campo aún no está maduro, por lo que no tenemos mucha experiencia hasta ahora. Pero creo que la investigación de alineación tiene algunas propiedades muy importantes que podemos explotar para una supervisión escalable.Evaluar la calidad de la investigación de alineación puede ser una mejor entrada que simplemente estudiar la alineación, lo que no significa que la investigación de alineación sea fácil, no significa que evaluarla sea fácil, pero encontrar un artículo es mucho más fácil. Por ejemplo, este artículo tiene una idea genial, realiza algunos experimentos interesantes y los resultados son buenos. Definitivamente sentirás la calidad de esta investigación relacionada después de leerlo. Es mucho más fácil que hacer este trabajo.**Por lo tanto, el principio "la evaluación es más fácil que la generación" está en el centro de muchas ideas de supervisión escalable. **Por ejemplo, si considera el modelado de recompensa recursivo, la idea básica es utilizar un asistente de IA para ayudarlo a evaluar el trabajo de otros sistemas de IA: primero deje que el sistema de IA auxiliar se alinee en una tarea relativamente simple, que se utiliza como Asistente de evaluación para ayudar en la evaluación de otros sistemas de IA.Dado que la evaluación es más fácil que la generación, la tarea de los sistemas de IA de asistencia es relativamente simple, especialmente porque los humanos colaboran con los sistemas de IA de asistencia en la evaluación. Una vez exitosa en esta tarea, se puede utilizar una combinación de humanos y sistemas de asistencia de IA para supervisar el entrenamiento de un nuevo sistema de IA en tareas más difíciles.Al repetir continuamente este proceso, podemos ampliar continuamente la gama de tareas para las que podemos supervisar eficazmente los sistemas de IA. Este enfoque nos permite aprovechar la relativa simplicidad de la tarea de evaluación para guiar y entrenar sistemas de IA, desbloqueando gradualmente una gama más amplia de dominios de tareas.***Alineación escalable de agentes mediante modelos de recompensa: una dirección de investigación:***Jan Leike publicó un estudio sobre modelado de recompensa recursivo en 2018, diseñando una función de recompensa adecuada para la aplicación de algoritmos de aprendizaje por refuerzo a problemas del mundo real. Además, se analiza el problema de la alineación de los agentes, es decir, cómo crear agentes que se comporten de acuerdo con la intención del usuario. El equipo describe una dirección de investigación de alto nivel para abordar el problema de alineación de agentes centrado en el modelado de recompensas, aprendiendo funciones de recompensa a partir de interacciones con usuarios.**Daniel Filan: Es decir, agregando de forma iterativa más y más conocimiento de IA a la parte de evaluación del estudio de alineación. Al operar de esta manera iterativa, el sistema de IA siempre puede recibir buenas señales de entrenamiento. ****Jan Leike:** Sí. Por ejemplo, RLHF es el más sencillo y no requiere el uso de ningún asistente. Los humanos evaluarán si el rendimiento de la IA es bueno o no después de ver los resultados: esta es una señal de entrenamiento.***Aprendizaje por refuerzo profundo a partir de las preferencias humanas:***Un estudio de 2017 realizado por Paul Christiano y Jan Leike. En este trabajo, exploramos principalmente el objetivo de permitir que sistemas complejos de aprendizaje por refuerzo (RL) interactúen de manera efectiva con entornos del mundo real, definidos en términos de preferencias humanas (no expertas) entre segmentos de trayectoria. Las investigaciones muestran que este enfoque puede resolver eficazmente tareas complejas de aprendizaje por refuerzo sin requerir acceso a funciones de recompensa, incluidos los juegos de Atari y el movimiento simulado de robots, al tiempo que proporciona retroalimentación sobre menos del 1% de las interacciones del agente con el entorno. Esto reduce significativamente el costo de la supervisión humana.A continuación, desarrollándonos más allá del enfoque descrito anteriormente, básicamente entrenamos el modelo asistente más simple, el modelo crítico. Este es un modelo de lenguaje independiente que observa el resultado del primer sistema de inteligencia artificial y escribe críticas.Por ejemplo, el primer sistema de IA escribió un fragmento de código, y luego veamos este código: los humanos tienden a ser malos para encontrar errores en el código, razón por la cual hay tanto código con errores en el mundo. Pero ahora, si existiera un sistema de crítica que pudiera escribir críticas y señalar errores, sería fácil para los humanos juzgar: "Esto definitivamente es un error, deberíamos solucionarlo".Lo que hay que señalar aquí es que la tarea en sí no está muy clara, porque normalmente el código se escribe según algún tipo de especificación de lenguaje natural. En la práctica, el significado de esta especificación es algo ambiguo y puede haber ambigüedad al determinar si un problema es un error o no. Pero lo más importante es que al utilizar modelos críticos como asistentes, se puede ampliar el alcance de las tareas de supervisión. Aunque puede haber cierta ambigüedad y ambigüedad sobre la certeza de problemas y errores en el código, aún puede usar la salida del modelo crítico para encontrar más problemas. Este enfoque le permite supervisar de manera eficiente los sistemas de IA en una gama más amplia de dominios de tareas, ampliando el alcance de la supervisión.Lo bueno es que, en realidad, existen muchas formas de evaluar la eficacia de este enfoque a través de investigaciones empíricas. Uno de los enfoques, el que utilizamos en el artículo que publicamos el año pasado, es básicamente un ensayo controlado aleatorio con perturbaciones específicas. Supongamos que tiene una tarea de codificación. Aunque no utilizamos tareas de codificación en el artículo, el contenido específico de la tarea no es importante aquí. Luego, tienes un resultado de respuesta, que no tiene por qué ser perfecto, pero supongamos que lo es. Lo que estás tratando de hacer es introducir algún error o falla sutil en el resultado de esta respuesta, convirtiéndola en una respuesta no tan buena, pero imperceptiblemente mala para los humanos.El artículo mencionado aquí es *Modelos de autocrítica para ayudar a los usuarios humanos* publicado en 2022. Este artículo se centra en el ajuste de modelos de lenguaje grandes y el uso de la clonación de comportamiento para escribir reseñas en lenguaje natural. Las reseñas escritas por el modelo pueden ayudar a las personas a detectar fallas en los resultados. Además, los autores estudiaron las propiedades de escala de las revisiones para tareas de síntesis y resumen basadas en temas. Los modelos más grandes escribirán reseñas más útiles.**Daniel Filan: ¿Cómo se introducen estos errores? ****Jan Leike:** La forma más sencilla es dejar que los humanos lo hagan, pero al final tenemos que dejar que el modelo complete el proceso por sí solo.Primero, tome una muestra aleatoria de una de las perturbaciones y muéstresela a un humano o a un humano asistido por IA, o cualquier método supervisado escalable. Entonces, ¿ves qué probabilidades hay de que lo encuentren? O simplemente puede preguntarles: "¿Hay algún error aquí?", y podrá saber con qué frecuencia encuentran errores.Además, puede comparar directamente el conocimiento del modelo sobre el problema y entrenarlo para que sea un discriminador que pueda distinguir entre versiones buenas y defectuosas. La precisión del discriminador representa su desempeño. A continuación, se le pide al modelo o al modelo mejorado con RLHF que comente el código. Luego observe con qué frecuencia el modelo menciona defectos de código en los comentarios. Compare la precisión del discriminador con la precisión de las revisiones generadas por el modelo. La precisión del discriminador refleja la capacidad del modelo para reconocer el problema, mientras que la precisión de la revisión refleja la conciencia del modelo de los defectos del código, lo que llamamos la brecha entre el discriminador y la crítica.Si la diferencia es grande, significa que hay muchos problemas que el modelo puede oler pero no nos lo dice porque si le pedimos que escriba un comentario, no lo diría. Esta situación es muy preocupante, porque significa que su supervisión escalable es profundamente defectuosa de alguna manera y muchas cosas están pasando desapercibidas. O, en cierto sentido, este asistente de IA no es muy cooperativo porque no se esfuerza mucho por ayudarte.Por el contrario, una pequeña diferencia significa que si el asistente de IA sabe que hay un problema con el modelo, te lo informará. En particular, si un modelo de tamaño similar o el mismo modelo base intenta implantar errores o colocar troyanos difíciles de encontrar, con valores de variación pequeños, entonces podemos descartar la posibilidad de tal ataque con mayor confianza. Porque es probable que otra copia del modelo escriba un comentario que revele problemas potenciales.Esta situación se basa en el supuesto de que el entrenamiento discriminador puede eliminar esta situación del modelo. Creo que tenemos buenas razones para creer esto, ya que ajustar un discriminador esencialmente le da acceso a todas las activaciones en el modelo y ajusta todos los pesos simultáneamente. Por lo tanto, si existe conocimiento en algún lugar de las activaciones del modelo, el ajuste fino del discriminador debería poder extraer este conocimiento, siempre que el ajuste fino se realice correctamente y haya suficientes datos.De hecho, puedes hacer algunos cálculos inversos para calcular cuántos datos necesitas. Supongamos que hay una sola neurona en el modelo que encuentra problemas con el código. Para encontrar e identificar esta neurona, la cantidad de puntos de datos que necesita es aproximadamente el logaritmo del número total de neuronas. Esto significa que relativamente pocos puntos de datos son suficientes para limitar y encontrar neuronas con funciones específicas. Esta estimación muestra que con entrenamiento discriminador y datos suficientes, es posible descubrir la función de neuronas específicas en el modelo.**Daniel Filan: Esta también es una pregunta que tengo sobre todo el plan. La razón por la que no nos gusta RLHF es que es posible que no pueda distinguir entre lo que los humanos piensan que es correcto y lo que "suena bien", porque los humanos no son buenos criticando. **La idea de las revisiones recursivas es mejorar continuamente la calidad de las revisiones capacitando a discriminadores y revisores. Una forma es entrenar algo que pueda escribir comentarios realmente buenos y luego trabajar con ello para entrenar algo que sea aún más capaz de comentar. En este caso, aumentamos gradualmente los requisitos de calidad de las revisiones para lograr mejores resultados. Pero, ¿existe otra situación en la que entrenamos algo, entrenándolo sin darnos cuenta para que escriba pseudoreseñas que nos suenan bien, y luego trabajamos con ello para mejorar aún más nuestra capacidad de discernir reseñas que nos suenan bien? Esto puede llevarnos a centrarnos más en cosas que suenan bien pero que en realidad son problemas, en lugar de prestar atención a los problemas que realmente existen.**Jan Leike:** Sí, estoy de acuerdo en que esta es una pregunta muy importante y legítima. Al explorar aplicaciones de supervisión escalable, resulta crucial comprender una de sus cuestiones clave. Por eso estoy muy emocionado de poder aplicar estas técnicas y probarlas empíricamente, porque creo que a través de la práctica podemos evaluar mejor la efectividad de estos métodos.Una forma concreta y sencilla de medir este efecto es entrenar deliberadamente un modelo con alineamientos engañosos y luego observar si la supervisión escalable es capaz de identificar y señalar dicho comportamiento engañoso, o qué tan difícil es detectarlo... ...o cuánto esfuerzo que debemos realizar para que un modelo se alinee engañosamente con éxito para evadir nuestra supervisión escalable.**Daniel Filan: Sí, pensé en un “experimento sándwich” para probar las respuestas de la IA a cuestiones legales. En este experimento, se pidió a algunas personas no legales que plantearan preguntas legales, y luego a algunas personas que en realidad estaban bien versadas en la ley se les pidió que verificaran si la IA estaba engañando a las personas no legales. ****Jan Leike:** Estos experimentos son realmente interesantes y ya hay algunas investigaciones interesantes en esta área. Algunas de las cuestiones básicas que usted señala realmente deben tenerse en cuenta.En primer lugar usted ha mencionado la cuestión de la confianza en los expertos. Debido a que los expertos a veces cometen errores, puede haber cierta incertidumbre al confiar en el juicio de expertos, lo cual es de hecho una consideración importante. Además, es fundamental garantizar que haya suficiente superposición de dominios entre los expertos y las tareas para que puedan proporcionar evaluaciones y comentarios precisos.Otro problema es que para algunas tareas, es posible que no conozcamos la verdad fundamental o la verdad. Incluso en un campo como la investigación de la alineación, podemos tener diferentes perspectivas y percepciones. Esto hace que la evaluación precisa en estas tareas sea más difícil. Además, recopilar grandes cantidades de datos puede resultar una tarea costosa debido al número limitado de expertos y al alto costo de tiempo.Entonces, en general, me gustaría tener un método de evaluación que no se base en el supuesto de que ya tenemos los hechos básicos. Este enfoque puede evaluarse sin conocimientos previos y puede aplicarse a tareas de diversos niveles de dificultad, por lo que soy crítico con el uso de estos ensayos controlados aleatorios para realizar perturbaciones específicas o medir las brechas entre el discriminador y la crítica.**Daniel Filan: Sí, sin embargo, al medir la brecha entre discriminador y crítico, se necesita un discriminador real, no sólo uno que diferencie entre un dispositivo que "se ve mal" y "se ve bien". ****Jan Leike:**Estás diciendo que se pueden introducir defectos en los sistemas de inteligencia artificial, ¿verdad? En cierto modo, este enfoque puede ser mejor que las evaluaciones humanas porque está más cerca de la distribución real que enfrentan los sistemas de IA en aplicaciones del mundo real. Al utilizar estos datos erróneos, se puede afinar el discriminador y, si creemos que la versión defectuosa es en realidad peor, entonces podemos establecer una especie de verdad fundamental. Podemos observar por qué las cosas van mal y verificarlas para comprenderlas mejor.**Daniel Filan: Aunque un sistema de inteligencia artificial puede hacernos pensar que algo es bueno, no necesariamente es bueno; de manera similar, si un sistema de inteligencia artificial nos hace pensar que algo es malo, entonces en realidad puede ser realmente malo, o el rendimiento puede estar degradado. De todos modos, si la IA te hace pensar que algo anda mal, ¿tal vez será más fácil ayudarnos a detectar el problema? ****Jan Leike:** Sí, sé lo que quieres decir. Probablemente no debería usar el término "verdad fundamental" en este caso porque en realidad no es una verdad fundamental, como si nada fuera verdaderamente cierto, pero hay muchas cosas que puedes hacer para tener mucha confianza en el valor verdadero, lo cual no Esto no necesariamente facilita la tarea de encontrar el problema.**Verdad fundamental:**En el aprendizaje supervisado, las anotaciones de datos suelen aparecer en la forma (x, t), donde x son los datos de entrada y t es la anotación. La etiqueta t correcta es la verdad fundamental, que puede entenderse como el estándar de referencia y el valor verdadero en el sentido de referencia, mientras que la etiqueta t incorrecta no lo es.**Enfoque 2: Búsqueda de malos comportamientos y estructura interna****Daniel Filan: En la introducción de OpenAI a Superalignment, uno de sus procesos de alineación es implementar la búsqueda automática de comportamientos que pueden causar problemas (robustez) y estructuras internas que pueden causar problemas (interpretabilidad automática), en En este punto, ¿qué problemas ¿Crees que el equipo de superalineación resolverá lo siguiente? ****Jan Leike: Interpretabilidad sin lugar a dudas. En cierto sentido, la explicabilidad es realmente difícil. Aún no tenemos resultados importantes sobre los modelos de lenguaje, y se puede decir que la interpretabilidad nos trae mucha inspiración o agrega mucho valor, porque nuestra comprensión del modelo y la situación interna es aún rudimentaria. ****Daniel Filan: La comunidad académica ha realizado algunos trabajos explicables sobre modelos lingüísticos. Por ejemplo, el trabajo de ** ***Cabezas de inducción y aprendizaje en contexto*** ** y el trabajo de Identificación indirecta de objetos (Identificación indirecta de objetos), se puede realizar al menos algún tipo de identificación indirecta de objetos. Quiero saber, además de estos, ¿qué más necesitas para alcanzar tu punto final ideal? *****• Jefes de inducción y aprendizaje en contexto***Publicado en 2022, este trabajo se centra en cuestiones de seguridad relevantes en el contexto de la expansión continua del modelo de generación de transformadores y mejora la interpretabilidad mecánica mediante ingeniería inversa de los cálculos detallados realizados por el modelo. Al comprender la estructura interna que hace que un modelo Transformer produzca su resultado, abordar los problemas de seguridad actuales de manera más sistemática y predecir los problemas de seguridad en modelos futuros más potentes.***• Interpretabilidad en la naturaleza: un circuito para la identificación indirecta de objetos en GPT-2 pequeño***Este artículo cierra la brecha en el rendimiento de la interpretabilidad mecánica en modelos grandes y complejos al explicar cómo GPT-2 pequeño realiza una tarea de lenguaje natural llamada identificación indirecta de objetos (IOI), lo que demuestra que la comprensión mecanicista de grandes modelos de aprendizaje automático es factible, lo que brinda la oportunidad. para que la interpretabilidad se extienda a modelos más grandes y tareas más complejas.**Jan Leike:** Sí, la gente está explorando actualmente el campo de la interpretabilidad, es muy gratificante. Creo que es más importante si podemos usar técnicas de explicabilidad en un modelo de recompensa de modelo de lenguaje, como el tamaño GPT-4 o cualquier modelo grande. Puedes pensar, y luego obtuve algo sobre el modelo de recompensa que no sabíamos antes, esto es importante, ** Debido a que el modelo de recompensa proporciona la señal de entrenamiento para una gran cantidad de entrenamiento RLHF, entiéndelo mejor. Es muy valioso , y sería una mejora importante poder marcar o descubrir que hay problemas en el comportamiento que fomenta que los humanos no queremos que ocurran. **En este sentido, creo que la interpretabilidad no es necesaria ni suficiente. Creo que es muy posible que podamos resolver el problema de alineación de forma puramente conductual, sin comprender realmente el modelo interno. Pero también creo que cualquier conocimiento no trivial que obtengamos de la interpretabilidad será súper útil, o podría ser súper útil, porque nos brinda una forma de atacar. **Por tanto, nos resulta absolutamente imposible abandonar el intento de interpretabilidad. Porque, en cierto modo, tenemos este cerebro artificial y tenemos escáneres cerebrales perfectos, podemos acercarnos completamente y medir con precisión la activación de cada neurona en cada vía directa, incluidas las arbitrarias y discretas, que es probablemente la resolución máxima que queremos. conseguir. También podemos realizar intervenciones arbitrarias, donde podemos perturbar arbitrariamente cualquier valor en el modelo. Esto nos da mucho espacio y oportunidad para experimentar, y sería una locura no aprovecharlo.Pero al mismo tiempo, la razón por la que es muy difícil es porque el modelo está aprendiendo a calcular en términos de eficiencia, en lugar de regularizarlo a algo comprensible para los humanos, o no hay razón para creer que una sola neurona deba corresponder a un concepto. , o cualquier cosa cercana a lo humano. Creo que son o deberían ser o algo con lo que estemos familiarizados. De hecho, empíricamente, las redes neuronales representan muchos conceptos diferentes con una sola neurona, y cada concepto se distribuye entre diferentes neuronas. Entonces las neuronas no son importantes aquí.Hay dos cosas en las que me centraría en términos de interpretabilidad.La primera es la causalidad. Queremos observar las neuronas a medida que pasamos datos a través del modelo; por ejemplo, tenemos una neurona relacionada con "Canadá" que se activa cuando surge un concepto relacionado con Canadá. Pero esto es sólo correlación, no necesariamente causalidad. Para verificar que se trata de una relación causal, entonces tendríamos que escribir intencionalmente sobre conceptos relacionados con Canadá para ver si todos responden, y al mismo tiempo escribir sobre otros conceptos relacionados que puedan parecer relacionados con Canadá, o Nada que ver con Canadá, pero es bastante similar en general, y luego verifica si las neuronas responden, o si esas neuronas se apagan, etc.**Daniel Filan: Esto es similar a Tolga Bolukbasi et al.** ***Una ilusión de interpretabilidad para BERT*** **Este artículo, creo que se llama Ilusión de interpretabilidad, el artículo menciona: Podemos hacer que las neuronas reaccionen a una cosa específica, pero eso es sólo una ilusión porque en otros conjuntos de datos esas neuronas reaccionan a muchas otras cosas. *****Una ilusión de interpretabilidad para BERT:***El artículo describe la "ilusión de interpretabilidad" que se produce al analizar los modelos BERT. Puede parecer que las activaciones de neuronas individuales en una red codifican un concepto único y simple cuando en realidad codifican algo mucho más complejo, y el mismo efecto se aplica a las combinaciones lineales de activaciones. Los autores atribuyen la fuente de esta ilusión a las propiedades geométricas del espacio de incrustación de BERT y al hecho de que los corpus de texto plano representan sólo una pequeña fracción de posibles oraciones en inglés, entre otras cosas.**Jan Leike:**Otra cosa interesante es que OpenAI publicó un artículo interpretable. Los modelos de lenguaje pueden explicar las neuronas en modelos de lenguaje a principios de este año (** Nota de selección: ** en En este artículo, los experimentadores intentan usar GPT-4 para explicar el comportamiento de GPT-2 neoron) Lo que queremos es una técnica que pueda funcionar en el nivel de detalle de neuronas individuales, de modo que realmente pueda asegurarse de que no se perderá ningún detalle y al mismo tiempo poder trabajar en la escala de todo el modelo.Porque al final del día, todo en el modelo está interconectado, por lo que ambos son importantes. Hasta ahora, la tecnología ha sido principalmente una cuestión de elección. Se había intentado trabajar sobre la interpretabilidad automática antes de nuestro artículo, por lo que no fuimos los primeros en intentarlo. Pero creo que si puede haber algún trabajo de interpretabilidad realmente orientado a los detalles, algunos métodos de interpretabilidad mecanicistas que realmente intenten comprender los circuitos individuales o las unidades computacionales dentro del modelo, entonces la forma de extender eso a todo el modelo es automatizarlo, ¿verdad? ?Pero también puede hacer esto: una vez que descubra cómo implementar esto en detalle, puede simplemente documentar lo que está haciendo, es decir, dejar que el investigador de alineación automática o interpretabilidad detalle para estudiar lo que sucedió con el modelo. Luego, filtra todo el contenido o encuentra una manera de resumirlo. **Estoy simplificando un poco demasiado, pero en general, esta es la idea que realmente me entusiasma.Entonces, en el documento tenemos mucho contenido explicativo. Por ejemplo, este artículo escribe una interpretación en lenguaje natural para una sola neurona, que puede no ser del todo correcta, pero le brinda un ejemplo simple de lo que podemos hacer aquí. La forma en que funciona es que simplemente le muestra a GPT-4 una secuencia de modos de activación y deja que GPT-4 escriba una explicación sugerida.En general, estas explicaciones no son muy buenas, también porque la tarea es muy difícil y la mayoría de las neuronas no hacen cosas que los humanos puedan entender claramente. Pero podemos ejecutar este programa a la escala de cada neurona en GPT-2 y descartar todas las explicaciones e intentar descubrir cuáles son los patrones interesantes. También puede observar las tendencias de escala, como "¿Cómo calificamos automáticamente estas explicaciones a medida que el modelo se hace más grande?" o "¿Qué pasa si agregamos más cálculos o hacemos que el modelo que tiene las explicaciones se hace más grande?". ¿Qué pasa con la calidad de las explicaciones? "Lo bueno es que podemos medir automáticamente esta métrica usando modelos de lenguaje. Si bien no es una medida perfecta y tiene muchos problemas, puede brindarle un indicador aproximado de si un humano pensaría que esta explicación era buena o no. Luego puede utilizar este proxy a escala, ejecutándolo en una gran cantidad de neuronas.**Daniel Filan: Si piensas en el trabajo de explicabilidad necesario, ¿cuánto crees que se trata de encontrar una mejor unidad fundamental de explicación en lugar de descubrir cómo escalar lo que está sucediendo? ****Jan Leike:** Creo que se necesitan ambas cosas, la primera es más difícil, lo cual tiene sentido, por supuesto, y para tener éxito, creo que es necesario ampliar la escala.**Enfoque 3: Pruebas adversas****Daniel Filan: El tercer camino para lograr la Superalineación es entrenar deliberadamente modelos desalineados y ver si la canalización puede detectar estos modelos. Entonces, ¿OpenAI planea eliminarlos o solucionarlos de manera proactiva? ****Jan Leike:** El objetivo aquí no es corregir estos modelos desalineados entrenados deliberadamente; de hecho, estos modelos incorrectos solo se utilizan para la detección.Básicamente, el objetivo principal es que debemos ser capaces de distinguir eficazmente entre los modelos de alineación verdaderos y los modelos de alineación falsa; los primeros pueden ayudarnos a lograr nuestras tareas objetivo y avanzar en la investigación de la alineación, mientras que los segundos pueden completar la adquisición y la autoinfiltración. . Una forma de ayudarnos a diferenciar mejor entre estos dos tipos de alineadores es hacer un alineador falso y ver si se parece al alineador real. Pero debes tener mucho cuidado al hacer esto porque estás creando cosas horribles que todos queremos evitar.**Daniel Filan: Al comienzo del artículo de OpenAI, mencionaste que la superinteligencia puede ser una tecnología que tiene el impacto más profundo en la humanidad y nos ayudará a resolver los problemas más importantes del mundo. **Hay una frase sobre lo grandiosa que es la superinteligencia, y me pregunto si conducirá a la pérdida de poder de los seres humanos, o incluso a la extinción de los seres humanos. En concreto, ¿de qué modelo de dislocación estamos hablando? ¿Cómo sabemos que no harán esas cosas horribles?**Jan Leike:** Aún queda mucho por hacer para que el desarrollo futuro sea fluido. Necesitamos contar con las estructuras de gobernanza adecuadas para que podamos prevenir el uso indebido de potentes sistemas de IA, y tenemos que contar con medidas preventivas para no tener algún tipo de efecto descontrolado que aún sea perjudicial para los humanos. En este caso, tenemos la IA aliada con los humanos y la IA aliada con corporaciones contra la humanidad, e incluso si todos los indicadores económicos u otros aspectos parecen buenos, todo el sistema se saldrá de control.** Además, también necesitamos resolver el problema de la alineación de la tecnología para que el sistema de inteligencia artificial pueda estar realmente alineado. **La alineación de la superinteligencia sólo se centra en la última parte del riesgo. El problema técnico que tenemos que resolver es cómo hacer que un sistema de IA sea coherente con un conjunto de valores humanos y, al mismo tiempo, surge una pregunta nueva e independiente: ¿cuáles deberían ser esos valores? ¿Y cómo diseñamos un proceso para importar estos valores de la sociedad?Creo que estas son preguntas importantes que debemos responder. Sólo si resolvemos estos problemas el futuro se desarrollará sin problemas. Creo que el criterio para un buen futuro no es sólo "la IA no mata a todos", sino ver florecer a la humanidad y el futuro al que aspiro es el futuro en el que todos quieren vivir. Cuanto más poderosa es la IA, mayores son los riesgos y mayor el potencial de errores si el sistema está desalineado.En particular, desde una perspectiva de dislocación, creo que los patrones de amenaza que deberían preocuparnos especialmente son las mentiras sistémicas, el engaño y la autoinfiltración.**Daniel Filan: Hablas de entrenar deliberadamente modelos desalineados, lo que significa entrenarlos para mentir y, a veces, intentar hacer jailbreak, pero debido a que la capacidad real del modelo es lo suficientemente baja, ¿es esto suficiente para prevenir y controlar el riesgo? ****Jan Leike: **En realidad, no querrías entrenar a un modelo para que pueda hacer jailbreak, ¿y si realmente hace un buen trabajo en eso? Sería más seguro elegir alguna otra tarea proxy más general, que aún así le ayudará a facilitar la evaluación del modelo.Y luego la dificultad principal y el objetivo principal es descubrir realmente qué propiedades debe tener un sistema para pasar la evaluación. Si tienes un sistema que ocasionalmente te miente o te engaña, esto puede verse como ineficaz. Sólo cuando hace un engaño continuo, una mentira continua, y te convence, es un mentiroso verdaderamente coherente y creíble. Es tan consistente que difícilmente se pueden señalar sus mentiras o cualquier inconsistencia en lo que dice durante el interrogatorio, lo cual es realmente aterrador.De hecho, no es fácil ser un mentiroso tan constante. Intentamos dificultar que los modelos se conviertan en mentirosos tan consistentes mediante supervisión escalable, interpretabilidad y generalidad.Pero si hacemos esto no es suficiente: es difícil determinar qué tan fácil será para la IA hacer trampa de manera consistente. Una forma de determinar esto es entrenar primero al modelo para que se convierta en un mentiroso verdaderamente estable y luego comenzar desde el punto de vista de la estabilidad y ver lo difícil que es convertirse en un mentiroso consistente. ¿Cuánto necesitamos para engañar al modelo? ¿Hasta qué punto necesitamos darle sugerencias al modelo o enseñarlo de manera práctica a lo largo del camino? Dicho esto, no deseas entrenar un sistema que sea realmente peligroso, y si se ejecuta y se filtra con éxito y causa directamente lo que quieres detener, eso es realmente malo.**Daniel Filan: Cuando dices eso, ¿estás distinguiendo entre mentir y otros tipos de peligros, por ejemplo, podemos entrenarlo para mentir, pero no lo entrenaremos para asesinar? ****Jan Leike:** Sí. Por ejemplo, digamos que le fijaste un objetivo falso. Tal vez sea para convencer a los humanos de que digan cierto mantra, tal vez sea para ejecutar cierto comando de Python, pero de hecho, este comando no hace nada real, solo parece divertido.Además, nos preocupa cómo hacer esto a priori, y las pruebas de estrés del sistema son un asunto completamente diferente.En el contexto de la interpretabilidad, nuestro objetivo es simplemente comprender si el sistema actualmente entrenado o los sistemas existentes están de alguna manera cerca de nuestro sistema objetivo deseado y pueden engañarnos de manera coherente. Queremos determinar si el sistema ejecutará un determinado código o un comportamiento similar sin supervisión humana, lo que requiere que realicemos experimentos para escenarios específicos. Todo lo que necesitamos es verificar "este es un mentiroso coherente", de lo contrario es muy difícil determinar a priori qué tan cerca estamos de este objetivo, excepto cuando avanzamos deliberadamente, para que el sistema pueda hacer otras cosas escandalosas.**Daniel Filan: Entonces lo entrenas para que haga alguna pequeña cosa arbitraria en lugar de lo malo que realmente se supone que debe hacer, como mentir, dañar a las personas, etc., pero al final, simplemente pone una pegatina en la frente de alguien. nota o algo así. ****Jan Leike:** Exactamente, es como contratar a alguien para que haga una prueba de penetración (Penetration\_test), y todo lo que tengo que hacer es entrar al edificio y estrechar tu mano, y luego dices: "Sí, parece lo lograste" y cosas por el estilo. O dices: "¿Puedes robarme esta cosa falsa? Quiero saber qué tan seguros estamos". Puedes hacerlo sin consecuencias reales, pero aun así te dice mucho sobre la seguridad. Estoy emocionado de hacer lo mismo con la alineación, probar su sistema de alineación entrenando algo específicamente diseñado para romperlo y eludirlo, lo cual es muy benigno.## **03.Programa de superalineación****Daniel Filan: El objetivo de OpenAI es resolver los principales desafíos técnicos de la alineación Superalignment en un período de 4 años. ¿Cuáles son los principales desafíos técnicos aquí? ****Jan Leike:**Esto se refiere a cómo hacer que la Superalineación sea consistente con los valores humanos. Visualizamos la Superalineación como un sistema que es mucho más inteligente que los humanos, que potencialmente puede funcionar mucho más rápido, que puede funcionar con muchas copias de sí mismo, por lo que es un sistema realmente poderoso.Esperamos lograrlo dentro de cuatro años. La razón por la que elegí cuatro años es que uno es realmente ambicioso y el otro es hacer creer a la gente que realmente podemos lograr este objetivo. Al mismo tiempo, incluso si la IA progresa muy rápido y la tecnología mejora mucho en los próximos años, todavía podemos tener algo que hacer en este ambicioso objetivo.** Los alineadores automáticos casi a nivel humano son el objetivo instrumental que perseguimos, con el objetivo final de descubrir cómo alinear agentes superinteligentes, porque aún no sabemos cómo hacerlo. ****Daniel Filan: ¿Hasta qué punto cree que se puede lograr en 2 años? ****Jan Leike:**Si retrocedemos los cuatro años, creo que, en general, podremos completar básicamente la investigación de alineación automática en unos tres años, siempre que ya existan algunas capacidades básicas. Si no, nuestro proyecto puede tardar más.Si es dentro de dos años, esperamos tener un buen control de la dirección de este objetivo. Incluyendo qué tecnologías se utilizan realmente, si tenemos tal combinación de tecnologías y si tendremos la confianza de tener un sistema confiable que no solo pueda usarse con frecuencia, sino que también pueda delegarle mucho trabajo. En este punto, querremos desglosar el problema lo suficiente como para que parezca que la abrumadora carga de trabajo en este momento es solo ingeniería, en el sentido de que probablemente todavía estemos a dos años de resolver los problemas de investigación asociados con él.Ahora que tenemos un cronograma para un objetivo de cuatro años, está claro que los avances en las capacidades de IA están ligados a ese plazo. Si el progreso se ralentiza, es posible que no tengamos un modelo que sea realmente útil para las tareas de investigación de alineación. Pero si dentro de cuatro años descubrimos que el modelo todavía no es lo suficientemente bueno, eso también significa que tenemos más tiempo para resolver el problema porque no es tan urgente.Por otro lado, el progreso de la inteligencia artificial puede ser más rápido y los seres humanos pueden acoger más rápidamente la llegada de la superinteligencia. En ese momento, tenemos que ajustar nuestros planes en consecuencia. Por lo tanto, elegimos cuatro años como plazo que era realista y nos daba suficiente urgencia para resolver los problemas rápidamente.**Daniel Filan: Supongamos que el progreso en la investigación sobre las capacidades de la inteligencia artificial es más o menos el esperado. Cuatro años después, ustedes tienen todas las capacidades para ser un buen investigador de autoalineación, pero la interpretabilidad es más difícil de lo que pensábamos, o la supervisión escalable es más difícil de lo que pensábamos, así que aún no han logrado la superalineación, ¿qué? ****Jan Leike:** En primer lugar, debemos decirle al público que no hemos logrado nuestro objetivo, pero seremos responsables de este objetivo. Lo que sucede a continuación después de que falla el objetivo depende del estado general del mundo en ese momento. ¿Podemos de alguna manera ganar más tiempo, o nuestro pensamiento general es incorrecto, deberíamos cambiar de dirección, etc.? Pueden pasar muchas cosas.Pero, de hecho, en mi opinión, la alineación es realmente muy fácil de resolver: hay muchas buenas ideas que solo necesitan probarse y medirse rigurosamente, y el modelo realmente puede aprender de ellas y mejorar mucho. En los últimos dos años me he vuelto más optimista y creo que este es un objetivo muy realista. Incluso si me equivoco, incluso si el problema es mucho más difícil de lo que pensamos, sigue siendo muy útil intentarlo. Actualmente hay mucho desacuerdo sobre cuán difícil es este problema, pero más importante aún, sobre cuán consistente se mide un sistema en la práctica.**Una de mis mayores preocupaciones no es que nuestros sistemas no sean lo suficientemente uniformes, sino que en realidad no sabemos cuán uniformes son. ** Los expertos pueden tener sus propias opiniones en esta situación, y es muy fácil y aterrador si todos están de acuerdo en que el sistema no está lo suficientemente coordinado como para que el modelo no se pueda implementar. Además, también debemos afrontar enormes presiones comerciales.La gente presta mucha atención al momento del despliegue, pero los expertos sólo pueden posponerlo indefinidamente sin encontrar una razón clara. Esta situación es realmente preocupante, la presión empresarial no hará más que aumentar, y por un lado estás confiado, pero no tan seguro. Me gustaría mucho evitar eso, y la forma inmediata de evitarlo es que seamos realmente buenos midiendo qué tan bien encajan realmente los sistemas, y ahí es donde la cartera de tecnología más amplia realmente ayuda.**Daniel Filan: En los artículos *Gobernanza de la superinteligencia, planificación para AGI y más allá*** **, OpenAI mencionó la cuestión de la auditoría independiente (auditoría) de los sistemas de IA para garantizar la realización de la seguridad de la IA. ¿Hasta qué punto puede el Equipo de Superalineación desarrollar algo útil para la auditoría de modelos? ****Jan Leike:** Si todo va bien, la tecnología que desarrollamos se podrá utilizar para la "auditoría de modelos". Por ejemplo, si podemos lograr algunos avances en la explicabilidad, entonces los revisores podrían utilizar cualquiera de las técnicas que se nos ocurran como parte de sus esfuerzos de revisión; alternativamente, podría ser posible algún tipo de supervisión escalable como parte de la revisión. Pero el Superalignment Team en realidad no es adecuado para la auditoría porque no somos independientes de OpenAI. En mi opinión, la auditoría debe ser completamente independiente del auditado, por lo que presto mucha atención al tema de los "auditores independientes".La tarea central de nuestro equipo no es convencernos a nosotros mismos de que el sistema que estamos construyendo es correcto y seguro, porque es muy sencillo convencernos de varias cosas, lo que tenemos que hacer es convencer a toda la comunidad académica o grupos que se enfoquen. en AI Safety creer en el modelo es seguro. Esto requiere no sólo investigar la tecnología que vamos a utilizar y mostrársela a otros después de aportar evidencia de que el sistema es lo que creemos que es, sino también una evaluación independiente de todo lo anterior.## **04.Generalización****Daniel Filan: En las notas a pie de página del artículo **Presentación de la superalineación**, mencionaste: Las suposiciones favorables que la gente ha hecho hasta ahora pueden no estar disponibles. Uno de los supuestos es que la generalización es benigna. ¿Cómo ve el problema de la generalización? ****Jan Leike:** Recientemente establecimos un equipo de generalización encabezado por Collin Burns.**La pregunta que enfrentamos es: ¿cómo comprender y mejorar la capacidad de generalización del modelo? ¿Cómo hacer que el modelo se generalice desde tareas simples que pueden supervisarse hasta tareas difíciles de supervisar? En realidad, este problema es complementario a la supervisión escalable. En Scalable Supervision, nos enfocamos en mejorar la capacidad de los humanos para evaluar lo que está haciendo el sistema. Si pensamos en el modelado de recompensa recursivo, la pregunta es "¿Podemos utilizar un asistente de IA evaluado de forma recursiva para evaluar de forma recursiva todo lo que hace la IA?". **Una de las cosas que realmente me gusta es que de esta manera realmente puede poner al ser humano en el centro, al frente y al centro, y observar todo lo que hace el sistema de inteligencia artificial. Por supuesto, en la práctica, realmente no se puede hacer esto porque el sistema de IA hará muchas cosas, pero se puede observar todo con pequeñas probabilidades independientes. Pero de esta forma todavía no sabemos si el modelo se generaliza a situaciones a las que no hemos prestado atención.Entonces, la forma en que he pensado sobre esto en el pasado generalmente ha sido que simplemente te aseguras de que tu modelo sea principalmente una generalización iid, es decir, las tareas que estamos estudiando tienen la misma distribución que las tareas que no estamos estudiando.**Generalización independiente e idénticamente distribuida:**La capacidad de generalización del modelo es el desempeño del modelo en el conjunto de prueba (el modelo de datos en el que no se ha visto antes), es decir, la capacidad del modelo para inferir otros casos a partir de una instancia. La generalización independiente e idénticamente distribuida significa que estos números deben satisfacer iid (independiente e idénticamente distribuido) y estar en la misma distribución.**Daniel Filan: Mencionaste en un blog personal que no pretendes confiar en la generalización en absoluto, sino simplemente continuar entrenando y haciendo iid. ****Jan Leike:** Sí, al menos mi pensamiento inicial fue que no quería confiar en la generalización no IID porque eso no funciona bien en las redes neuronales y no se entiende bien.Pero la nueva pregunta es: "¿Qué pasa si realmente lo entendemos? ¿Qué pasa si realmente podemos decir el significado generalizado?" Creo que es una muy buena pregunta. Ilya también menciona esto a menudo. Entonces, lo que queremos entender es si todavía podemos encontrar sentido en el que el modelo se generalice a cosas que no están supervisadas, incluso si no son i.i.d. ¿Se generaliza en la forma en que lo pretenden los humanos? Por lo tanto, ahora podemos estudiar empíricamente este problema mediante experimentos bien diseñados.Hemos estado estudiando cómo dividir conjuntos de datos existentes en problemas fáciles y difíciles, donde los problemas fáciles se definen como aquellos que los modelos pequeños pueden resolver. Luego intentamos comprender o mejorar la precisión de modelos grandes en todo el conjunto de datos. Este es un tema muy interesante porque proporciona un pilar completamente nuevo para las técnicas de capacitación y validación. Por ejemplo, si el modelo funciona muy bien, podemos supervisar el modelo de recompensa en algunas tareas de evaluación simples y seguras, o podemos generalizar el modelo a problemas más difíciles, luego podemos completar la generalización del modelo.Y luego está este modelo de recompensa, que puede generalizarse a tareas más difíciles de la manera que queramos, incluso sin supervisión, y puede usarlo para capacitación. Pero todavía no tenemos forma de saber si realmente está alineado ahora. Sin embargo, puede aprovechar la supervisión escalable y la interpretabilidad para validar estas técnicas. O, para decirlo al revés, supongamos que entrenamos nuestro alineador automático con supervisión escalable y luego usamos la generalización como técnica de validación, es decir, generalizamos la probabilidad de la respuesta verdadera en función del mejor conocimiento del modelo.Entonces preguntamos, ¿hay algún pequeño defecto aquí? ¿Hay un caballo de Troya escrito mediante un modelo de alineación supervisado escalable en este código? Ahora podemos realizar una validación cruzada avanzada. Podemos entrenar dos modelos diferentes: uno entrenado usando una técnica de generalización y otro usando una técnica de supervisión escalable, y ahora podemos hacer que validen de forma cruzada las respuestas de los demás y verifiquen si estos modelos son fundamentalmente iguales. Si son diferentes, ¿cuáles son sus diferencias importantes?**Daniel Filan: Al hablar aquí de "entrenamiento mediante técnicas de generalización", ¿significa entrenar en problemas simples y luego generalizar a problemas difíciles, o algo más? ****Jan Leike:** Si comprende cómo se generaliza su modelo de fácil a difícil, puede hacerlo tan bien que su precisión sea básicamente la misma que si se entrenara en el problema difícil. Igual de buena. Ahora puedes usar esto como modelo de recompensa o como "¿Qué respuesta preferiría si realmente supiera lo que está pasando aquí?"**Daniel Filan: Con respecto a la generalización no IID, ¿por qué necesitamos conocer la estructura interna del modelo? ¿Es porque quieres saber qué hará si no lo has comprobado? ¿Cuál es la conexión entre estas dos preguntas? ****Jan Leike:** Hasta cierto punto, las preguntas que quieren responder se superponen: ¿qué hace el modelo sin la distribución? Al menos tienen dos caminos distintos para responder.Para realizar una validación cruzada, debe dividir el conjunto de entrenamiento de manera diferente. Lo que quiero decir con validación cruzada aquí es que en una ejecución de entrenamiento, se entrena usando un método de generalización y luego se valida usando interpretabilidad, supervisión escalable y otras técnicas. Luego, en la segunda capacitación, se utiliza un método supervisado escalable para la capacitación y métodos de generalización, interpretabilidad y otros métodos para la validación. De esta manera, tendrá dos intentos separados de solucionar el problema.**Daniel Filan: Sí, me refiero a la validación cruzada en un sentido muy amplio de "cosas que se validan entre sí de manera transversal". ****Jan Leike:** Creo que el mejor de los casos es que realmente se complementen entre sí en lugar de hacer lo mismo. Si puedes entender o mejorar cómo se generaliza un modelo, entonces tienes una manera de explotar la estructura interna del modelo para hacer lo que quieres hacer de manera óptima. Digamos que estás tratando de extraer el mejor conocimiento del modelo sobre lo que realmente está sucediendo en el mundo, lo cual es muy difícil para RLHF porque la gente priorizará las cosas que parecen ciertas, por lo que RLHF refuerza lo que los humanos creen que es verdad. Entonces, en realidad estás entrenando al modelo para que te diga lo que quieres escuchar o lo que crees, pero eso podría no ser lo que el modelo sabe. Pero las técnicas de generalización ofrecen una forma de extraerlas, aunque en realidad no hemos demostrado cuál es la mejor cognición del modelo.Sin embargo, si tienes herramientas de interpretabilidad realmente buenas, es de esperar que puedas hacer algo así, tratando de descubrir la cognición, la estructura interna o lo que sea, del modelo a partir de la estructura interna. Pero, fundamentalmente, puede ser más difícil porque nunca se sabe si esta es la mejor percepción que el modelo puede producir o la percepción de alguien a quien el modelo está simulando. Se supone que un modelo de lenguaje previamente entrenado es solo una colección de caracteres diferentes, y se pueden extraer cogniciones para un personaje o un grupo de personajes.**Daniel Filan: Entonces se necesita algún tipo de modelo causal desde la llamada cognición hasta el resultado. ****Jan Leike:** Así es. Creo que este tipo de aplicación es bastante natural en términos de interpretabilidad. La investigación explicable es como un detector de mentiras, o descubrir evidencia de engaño en un modelo, descubrir complots secretos para derrocar a la humanidad: la investigación explicable puede formar un modelo de "extracción de conocimiento". La extracción de conocimiento que se generaliza de la misma manera es mucho más difícil.**Daniel Filan: Para la generalización, hay que elegir la distribución de generalización. Y la esperanza es que tal vez la interpretabilidad pueda decirte algo, como si tiene o no un núcleo mentiroso, e incluso si lo tuviera, sólo se deshace aquí. ****Jan Leike:** Correcto. Este también es un problema de aprendizaje automático muy interesante: ¿cómo se generalizan las redes neuronales fuera del entorno i.i.d.? ¿De qué manera se generalizan naturalmente y dónde no? Por ejemplo, en el artículo de InstructGPT, una de las cosas que encontramos fue que, aunque nuestro conjunto de datos de ajuste estaba casi en su totalidad en inglés, el modelo también era muy bueno para seguir instrucciones en idiomas distintos del inglés. Pero a veces hace algo extraño: le pide que use otro idioma, por ejemplo, para escribir un resumen en alemán, y lo escribe en inglés. En general, el modelo entiende perfectamente qué idioma habla, pero eso no significa necesariamente que tenga que seguir instrucciones en alemán. Básicamente, generaliza las instrucciones en todos los idiomas.Pero no sabemos por qué funciona de esa manera. Esto ha pasado muchas veces. También hay razones intuitivas para ello. Los humanos generalizan en todos los idiomas, pero quiero saber cómo se generaliza internamente el modelo o cómo se generaliza para seguir instrucciones y códigos.De lo contrario no se generaliza. Por ejemplo, la generalización tiende a rechazarse de manera muy diferente y, según nuestra política de contenido, ChatGPT está capacitado para rechazar tareas que no queremos realizar (por ejemplo, si se solicita asistencia en un delito o de otro tipo). Pero de esta manera, puedes hacer jailbreak. Hay muchas maneras de engañar a este modelo. Puedes dejar que juegue un papel, o decirle "haz lo que quieras ahora", o encontrar estos consejos muy interesantes en Internet, y el modelo obviamente te obedecerá y estará feliz de ayudarte a cometer delitos, y esto es lo que no es. supone que debe hacer. Por lo tanto, no generaliza en cierta medida el rechazo de tareas a otros contextos.Entonces, ¿por qué se generaliza al primer caso pero no aquí? No creo que nadie sepa la respuesta. Pero ésta es una pregunta muy importante.**Daniel Filan: En mi reciente entrevista con Scott Aaronson, mencionó que Ilya y yo a menudo le pedíamos que diera definiciones de teorías complejas como el amor y la bondad. ¿Cuántas definiciones de este tipo hay dentro del Equipo de Superalineación? ****Jan Leike:** Es posible que realicemos muchos proyectos exploratorios diferentes. Creo que la pregunta fundamental es: ¿se pueden invocar de alguna manera los conceptos relacionados con la alineación? Una de las cosas que queremos evocar es: ¿este modelo quiere fundamentalmente que los humanos tengan éxito? O como dijo Ilya, ¿ama a los humanos? Entonces puedes preguntar: si el modelo es realmente inteligente, ha leído todo y sabe exactamente cómo los humanos ven la inmoralidad... puedes pedirle a GPT4 que apunte a diferentes escenarios, presentando diferentes casos morales. En líneas generales, sus capacidades en este sentido no son malas.Por lo tanto, comprende fundamentalmente la comprensión humana de la moralidad y cómo pensamos sobre los problemas. Entonces, ¿cómo hacemos para que aproveche esto? ¿Cómo se extrae del modelo y se utiliza como señal de recompensa? ¿O como algo que la modelo sabe o le importa? Éste es el núcleo del problema.## **05. Manténgase optimista sobre la superalineación****Daniel Filan: Eres optimista acerca de la Superalineación, pero no todos lo son. ¿De dónde viene tu optimismo? ****Jan Leike: Esa es una gran pregunta. "Si el plan tendrá éxito dentro de cuatro años" puede ser una cuestión más compleja que "si el plan tendrá éxito". **Si me preguntas, ¿puede una versión de nuestros planes actuales alinearse exitosamente con la superinteligencia? Yo diría que actualmente la tasa de éxito es del 85%, mientras que el año pasado la probabilidad era de alrededor del 60%. En general, si bien lograr la alineación no es fácil, al mismo tiempo hay muchas razones para ser optimistas al respecto. Las razones son las siguientes:**La primera razón es que hemos visto muchas señales positivas sobre la alineación en los últimos años. **El primero es el éxito del modelo lingüístico. Si también carga previamente el modelo con mucho conocimiento sobre lo que les importa a los humanos, cómo piensan los humanos sobre las cuestiones morales y las preferencias humanas, y el modelo puede comprender el lenguaje natural, puede hablar con ellos directamente. En cierto modo, esto hace que sea más fácil expresar con qué queremos que se alinee el modelo de lenguaje que un agente de Deep RL entrenado en un juego o entorno virtual: un agente de Deep RL no necesariamente involucra tantos idiomas, pero los idiomas traen muchas habilidades importantes.Otro avance importante es RLHF. Primero estudié RLHF a través del RL profundo en el artículo sobre preferencias humanas. En ese momento pensé que podría ser difícil hacerlo funcionar en un período de tiempo razonable porque las GAN eran difíciles de entrenar en ese momento, y estábamos haciendo algo muy similar en el sentido de que entrenábamos este modelo de recompensa (que era un modelo neuronal). red), que luego utilizamos para entrenar otras redes, que pueden fallar por diversas razones. Ahora agregamos aprendizaje por refuerzo profundo, que también era complicado en ese momento, así que pensé que tal vez no funcionara. Pero en la práctica, funciona bastante bien: en muchos juegos, incluso en muchos juegos de Atari, es casi comparable a entrenar con una función de puntuación.Más importante aún, RLHF funciona de manera realmente interesante en modelos de lenguaje. Especialmente considerando la diferencia entre InstructGPT y el modelo base: cuando ajustamos el modelo base, esta diferencia es muy obvia: en la tarea API en ese momento, nuestra versión ajustada de la instrucción (nuestra primera versión) es mejor que el modelo base es 100 veces más grande, y estas son tareas reales por las que la gente está dispuesta a pagar. Ésta es una diferencia muy grande. Esto muestra que el trabajo que hicimos durante el ajuste de RLHF hizo que el modelo fuera más efectivo para completar las tareas requeridas por los humanos.Al mismo tiempo, hemos invertido muy poca potencia informática en este trabajo y ni siquiera hemos integrado tanta información. Este es nuestro primer intento real de utilizar RLHF para alinear un sistema del mundo real y no esperábamos que funcionara tan bien. En comparación con GPT-3, el InstructGPT de tamaño favorito GPT-2 es muy eficiente. Entonces, aunque no creo que RLHF sea la solución para la alineación, especialmente para la superinteligencia, el hecho de que nuestro primer método de alineación funcione tan bien es una mejora para mí.**La segunda señal positiva es que hemos logrado algunos avances en la medición de la alineación. **Específicamente para RLHF, podemos realizar varias intervenciones y luego realizar evaluaciones humanas para ver cuánto mejora el sistema. Además, hay muchas otras cosas que podemos hacer. Por ejemplo, en términos de supervisión escalable, podemos realizar ensayos controlados aleatorios mediante perturbaciones específicas, que también es un método de evaluación. También puede realizar experimentos tipo sándwich utilizando datos de expertos. También podemos hacer una serie de modificaciones a la función de puntuación automática y ver cuánto mejora la función de puntuación. Esta no es una función de puntuación perfecta, pero es una métrica local que proporciona gradientes locales que se pueden mejorar. Creo que esto es muy importante porque ayuda a iterar y señala el camino hacia la mejora.**Aunque no creo que nos lleve al objetivo de alinear la superinteligencia, es muy posible construir alineadores automatizados que sean aproximadamente de nivel humano. Ésta es mi tercera razón para ser optimista: un objetivo mucho más modesto. **Cuando comencé a trabajar en el problema de la alineación hace muchos años, entendí que alinear la superinteligencia parecía difícil. Pero este objetivo es mucho más modesto y factible, y no se trata de resolver todo el problema directamente, sino de guiar el modelo.** Una cuarta razón para el optimismo es que la evaluación es más fácil que la generación. **Esta idea en realidad se aplica a muchas cosas; por ejemplo, es mucho más fácil determinar qué teléfono inteligente vale la pena comprar que fabricar uno.Hay muchos ejemplos de tareas NP en informática, como la resolución de problemas SAT o varias versiones de satisfacción de restricciones. Encontrar soluciones a estos problemas es difícil, pero una vez encontradas, comprobarlas es fácil. Además, y creo que esto se aplica a muchos negocios, si vas a contratar a alguien para resolver un problema, debes poder evaluar su capacidad para realizar el trabajo. Es mucho menos esfuerzo que tener que resolver el problema en sí; si estás haciendo una investigación académica, la revisión por pares requiere mucho menos esfuerzo que hacer una investigación. Por supuesto, la revisión por pares no es perfecta, pero puede dar muchas señales muy rápidamente. Fundamentalmente, lo mismo ocurre con la investigación de alineación. Evaluar es más fácil que generar. Entonces, si los humanos solo evaluamos la investigación de alineación en lugar de hacerlo, ya estamos acelerando.**La última razón que me hace optimista es que mi confianza en los modelos de lenguaje no cambiará, y las capacidades de los modelos definitivamente se volverán cada vez más fuertes**. Son muy naturalmente aplicables a muchas tareas de investigación de alineación, y puedes poner Estas formulaciones de tareas como entrada de texto y salida de texto, ya sea una tarea tipo ML (es decir, ejecutar un experimento y comprender los resultados), o algo más conceptual o basado en la investigación, si estamos confundidos acerca de qué hacer a continuación, o no Si no sabemos cómo pensar en un determinado problema, el modelo intentará ayudarnos a resolverlo. Estas tareas son básicamente entrada y salida de texto. Quizás la otra cosa más complicada que vaya a hacer sea mirar algunos gráficos, etc., pero GPT-4 puede hacerlo todo. Por lo tanto, creo que el modo de preentrenamiento del modelo de lenguaje actual es muy adecuado para el plan de alineación que estoy esperando, y también es la dirección en la que está trabajando Superalignment.**Referencia**1. Alineación escalable de agentes mediante modelos de recompensa: una dirección de investigación Dirección del artículo:2.3.