¿Cómo evaluar si un modelo de lenguaje grande es creíble? Aquí hay un resumen de las siete dimensiones.

Question

> Este artículo propone 7 dimensiones clave principales para evaluar de manera integral la credibilidad del LLM.En la implementación real, cómo "alinear" un modelo de lenguaje grande (LLM, Large Language Model), es decir, hacer que el comportamiento del modelo sea consistente con las intenciones humanas [2,3], se ha convertido en una tarea clave. Por ejemplo, OpenAI pasó seis meses alineando GPT-4 antes de su lanzamiento. [1] . Sin embargo, un desafío que enfrentan los profesionales es la falta de una guía clara para evaluar si los resultados del LLM cumplen con las normas, valores y regulaciones sociales; esto dificulta la iteración y el despliegue del LLM.Para resolver este problema, Liu Yang y otros investigadores del equipo de ByteDance Research proporcionaron una encuesta exhaustiva sobre las dimensiones clave que deben tenerse en cuenta al evaluar la credibilidad de un LLM. La encuesta cubrió 7 categorías principales de credibilidad de LLM: confiabilidad, seguridad, equidad, resistencia al mal uso, explicabilidad y razonamiento, cumplimiento de las normas sociales y solidez.Cada categoría principal se divide en subcategorías, para un total de 29 subcategorías. Además, el investigador seleccionó 8 subcategorías para la investigación de evaluación correspondiente. Los resultados de la evaluación muestran que, en general, los modelos con mayor alineación funcionan mejor en términos de credibilidad general. Sin embargo, la eficacia de la alineación aparece de manera diferente en diferentes dimensiones. Esto ilustra la necesidad de realizar análisis, pruebas y mejoras más detalladas de la alineación del LLM. Este artículo tiene como objetivo proporcionar a los profesionales en el campo conocimientos y orientación valiosos al resumir las dimensiones clave de un LLM confiable, que son fundamentales para comprender cómo implementar LLM de manera confiable y racional en diversas aplicaciones.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-84c47740dd-dd1a6f-69ad2a) Dirección del papel:## **Taxonomía de alineación de modelos de lenguaje grande**La Figura 1 muestra la taxonomía de alineación de credibilidad del modelo de lenguaje amplio propuesta en este artículo: hay 7 categorías principales, cada una de las cuales se subdivide en discusiones más detalladas, para un total de 29 subcategorías. El artículo continúa con una descripción general de cada categoría:![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-95a5489852-dd1a6f-69ad2a) *Figura 1: Taxonomía de alineación de credibilidad del modelo de lenguaje grande propuesta en el texto. *1. Fiabilidad => {información falsa, ilusión del modelo del lenguaje, inconsistencia, mala calibración, adulación}* a.Generar resultados correctos, realistas y consistentes con la incertidumbre adecuada.2. Seguridad => {violencia, ilegalidad, lesiones a menores, contenido para adultos, problemas de salud mental, invasión de la privacidad}* a. Evite producir resultados inseguros e ilegales, y evite revelar información privada.3. Equidad => {injusticia, sesgo de estereotipo, sesgo de preferencia, diferencia de desempeño}* a.Evitar sesgos y garantizar que las diferencias de desempeño entre diferentes grupos de personas no sean significativas.4. Resista el abuso => {Propaganda, ciberataques, ingeniería social, filtración de derechos de autor}* a. Prohibir el abuso por parte de atacantes malintencionados.5. Explicabilidad y razonamiento => {Capacidad de explicación insuficiente, capacidad lógica insuficiente, capacidad causal insuficiente}* a.La capacidad de explicar la producción a los usuarios y razonar correctamente.6. Normas sociales => {Lenguaje vicioso, insensibilidad emocional, insensibilidad cultural}* a.Refleja valores humanos universalmente compartidos.7. Robustez => {Ataques rápidos, cambios de paradigma y distribución, efectos de intervención, ataques de envenenamiento}* a.Resistencia a ataques adversarios y cambios de distribución.El análisis de este artículo se basa en los desafíos de seguridad y despliegue confiable que surgen en la era de los grandes modelos, y también considera la discusión sobre inteligencia artificial confiable en la literatura existente. Al mismo tiempo, la definición y división de las categorías principales se refieren a la aplicación de grandes modelos en la sociedad y tratan de garantizar que cada dimensión de evaluación tenga un cierto grado de relevancia e importancia en las aplicaciones convencionales de grandes modelos. En el artículo se proporciona literatura específica y discusión dentro de cada categoría y sus subcategorías.Para cada subcategoría, el artículo lleva a cabo investigaciones y debates relevantes, y también proporciona estudios de casos para ilustrar los problemas de modelos relacionados en dimensiones de confiabilidad relacionadas. Por ejemplo, el siguiente ejemplo muestra algunos errores cometidos por ChatGPT en preguntas fácticas:![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-4e65b763d8-dd1a6f-69ad2a) Utilizando el siguiente ejemplo, este artículo analiza la información ilegal que puede existir en la salida de un modelo grande:![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-aa52a42ee6-dd1a6f-69ad2a)## **Investigación de evaluación**Este artículo selecciona 8 subcategorías y diseña los estudios de evaluación correspondientes. Las subcategorías objetivo incluyen:* Confiabilidad: Ilusión del modelo de lenguaje* Seguridad y normas sociales: temas relacionados con la seguridad (como violencia, discriminación, discurso de odio, etc.)* Justicia: estereotipos (de género)* Fiabilidad: Errores de calibración*Resistir el abuso: abuso de propaganda y ciberataques* Resiste el abuso: filtración de derechos de autor* Interpretabilidad: razonamiento causal.* Robustez: Robustez ante ataques de errores ortográficosEl artículo toma como ejemplo "normas sociales y de seguridad", comenzando primero con el conjunto de datos existente del equipo rojo de Anthropic RLHF. [4] Extraiga algunas palabras clave relacionadas con la seguridad (consulte el documento original para obtener más detalles) y luego use otro LLM para generar palabras guía () para obtener instrucciones inseguras como preguntas de prueba.Para este propósito, el artículo elige text-davinci-003 como modelo porque: (1) Es un modelo alineado, pero no muy alineado en la dimensión de seguridad como ChatGPT, por lo que es mejor para generar respuestas controvertidas y ofensivas;(2 ) Los modelos completamente desalineados (como davinci) no pueden comprender bien la tarea y seguir las instrucciones humanas.Específicamente, el investigador le preguntó a text-davinci-003: "Escribe una pregunta que involucre..." Elige entre "poco ético", "peligroso", "ilegal" o "hotil". son las palabras clave extraídas anteriormente. Por ejemplo:![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-cc539d566e-dd1a6f-69ad2a) Este artículo utiliza preguntas generadas por text-davinci-003 como preguntas de prueba.Finalmente, el artículo utiliza GPT-4 para determinar si el modelo de prueba se niega a responder preguntas inseguras, de la siguiente manera:![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-e5a0939d6d-dd1a6f-69ad2a) Los investigadores evaluaron 6 LLM: davinci, OPT-1.3B, text-davinci-003, flan-t5-xxl, gpt-3.5-turbo (ChatGPT) y GPT-4. La Figura 2 muestra la proporción de cada LLM en el conjunto de prueba que GPT-4 considera una respuesta segura. De izquierda a derecha en el eje x, se muestra el rango desde completamente desalineado (davinci) hasta uno de los LLM más perfectamente alineados disponibles actualmente (GPT-4).La tendencia es la esperada: cuando el LLM está más alineado, es más probable que se niegue a responder instrucciones inseguras. Gpt-3.5-turbo (ChatGPT) y GPT-4 obtienen una proporción de seguridad de casi el 100%.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-c7c925173b-dd1a6f-69ad2a) *Figura 2: Resultados de la evaluación de seguridad del LLM. Como era de esperar, cuando el LLM está mejor alineado, es más probable que rechace respuestas a preguntas inseguras. *Para conocer los métodos de evaluación, detalles y resultados de otras dimensiones, consulte el artículo original.## **Ayuda de alineación**Estos datos de evaluación generados también pueden ayudar en la recopilación de datos alineados.Tomando la seguridad como ejemplo, para generar datos de entrenamiento alineados se utilizan directamente las respuestas anotadas con LLM. Si GPT-4 determina que el resultado del modelo contiene información dañina, los investigadores consideran que el resultado está emparejado con la pregunta y sirve como una muestra negativa en el conjunto de datos alineados. Por otro lado, si no se detecta información perjudicial, el investigador considera que el par problema-salida es una muestra positiva.Después de que los investigadores alinearan los datos generados, utilizaron GPT-4 para comparar los resultados antes y después de la alineación, lo que les permitió determinar qué respuesta era mejor en términos de utilidad, veracidad e inocuidad.La Tabla 1 muestra que en GPT-2, después de que los investigadores completaron RLHF (aprendizaje reforzado a partir de retroalimentación humana, aprendizaje reforzado basado en retroalimentación humana), la proporción del conjunto de datos de prueba que GPT-4 consideró mejor. En comparación con el modelo original, el modelo alineado se ha mejorado enormemente.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-c93483490c-dd1a6f-69ad2a) *Tabla 1: Después de alinear los datos generados por el investigador en * *GPT-2* *, GPT-4 considera que la relación de salida es mejor. En comparación con el modelo original (Vanilla), el modelo posterior a SFT y PPO ha mejorado enormemente. *El artículo también utilizó los datos de evaluación generados para realizar un ajuste fino supervisado en LLaMA-7B y encontró que el 78% del resultado después del ajuste se consideró mejor que antes del ajuste.## **en conclusión**Este artículo proporciona a los profesionales una encuesta sobre la dimensión de credibilidad de LLM y analiza exhaustivamente las direcciones y cuestiones que deben considerarse y prestarse atención en el proceso de construcción de un modelo grande confiable. Los resultados de la evaluación del artículo muestran que la efectividad de la alineación es inconsistente en diferentes dimensiones, por lo que los profesionales deben realizar pruebas más detalladas y mejorar la alineación LLM. Al mismo tiempo, la investigación de este artículo muestra que los datos generados por la evaluación también pueden ayudar a completar la tarea de alineación de modelos grandes.Los profesionales necesitan con urgencia enfoques más basados en principios para evaluar e implementar la alineación de LLM, asegurando que estos modelos se adhieran a valores sociales y consideraciones éticas. A medida que avance el campo, abordar estos problemas no resueltos será fundamental para crear LLM cada vez más confiables y responsables.Gracias a Li Hang por sus sugerencias y ayuda para revisar este artículo.*referencias** [1] OpenAI. Gpt-4. 2023** [2] Long Ouyang, Jeffrey Wu,* *Xu Jiang, Diogo Almeida, Carroll Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, et al. Entrenar modelos de lenguaje para seguir instrucciones con retroalimentación humana. Avances en neurología* *Procesamiento de información s, 35:27730–27744, 2022** [3] Zachary Kenton, Tom Everitt, Laura Weidinger, Iason Gabriel, Vladimir Mikulik y Geoffrey Irving. Alineación de agentes lingüísticos. Preimpresión de arXiv arXiv:2103.14659, 2021.** [4] *