¿Puedes resolver la interpretabilidad de modelos grandes? La reseña está aquí, un artículo para responder a tus preguntas.

Question

![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-78b1269849-dd1a6f-6d2ef1) Fuente de la imagen: Generada por IA ilimitadaLos modelos de lenguaje a gran escala exhiben sorprendentes capacidades de razonamiento en el procesamiento del lenguaje natural, pero sus mecanismos subyacentes aún no están claros. Con la aplicación generalizada de modelos de lenguaje a gran escala, dilucidar los mecanismos operativos de los modelos es fundamental para la seguridad de las aplicaciones, las limitaciones de rendimiento y los impactos sociales controlables.Recientemente, muchas instituciones de investigación en China y Estados Unidos (Instituto de Tecnología de Nueva Jersey, Universidad Johns Hopkins, Universidad Wake Forest, Universidad de Georgia, Universidad Jiao Tong de Shanghai, Baidu, etc.) publicaron conjuntamente una revisión de la tecnología de interpretabilidad de modelos grandes. Se revisan exhaustivamente las técnicas de interpretabilidad de los modelos tradicionales de ajuste fino y los modelos muy grandes basados en ing, y se discuten los criterios de evaluación y los desafíos futuros de investigación de la interpretación de modelos.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-229d52bfe3-dd1a6f-6d2ef1) * Enlace del artículo:* Enlace de Github:![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-4a108bc518-dd1a6f-6d2ef1) **¿Cuáles son las dificultades para interpretar modelos grandes? **¿Por qué es tan difícil interpretar modelos grandes? El sorprendente desempeño de los grandes modelos de lenguaje en tareas de procesamiento del lenguaje natural ha atraído una amplia atención por parte de la sociedad. Al mismo tiempo, cómo explicar el sorprendente desempeño de los grandes modelos en todas las tareas es uno de los desafíos apremiantes que enfrenta el mundo académico. A diferencia del aprendizaje automático tradicional o los modelos de aprendizaje profundo, la arquitectura del modelo ultragrande y los materiales de aprendizaje masivo permiten que los modelos grandes tengan poderosas capacidades de razonamiento y generalización. Varias dificultades importantes para proporcionar interpretabilidad para modelos de lenguaje grandes (LLM) incluyen:* La complejidad del modelo es alta. A diferencia de los modelos de aprendizaje profundo o los modelos tradicionales de aprendizaje automático estadístico antes de la era LLM, los modelos LLM tienen una escala enorme y contienen miles de millones de parámetros. Sus procesos internos de representación y razonamiento son muy complejos y es difícil explicar sus resultados específicos.* Fuerte dependencia de datos. Los LLM se basan en corpus de texto a gran escala durante el proceso de capacitación. Los sesgos, errores, etc. en estos datos de capacitación pueden afectar el modelo, pero es difícil juzgar completamente el impacto de la calidad de los datos de capacitación en el modelo.* Naturaleza de caja negra. Generalmente pensamos en los LLM como modelos de caja negra, incluso para modelos de código abierto, como Llama-2. Nos resulta difícil juzgar explícitamente su cadena de razonamiento interno y su proceso de toma de decisiones, solo podemos analizarlo en función de las entradas y salidas, lo que dificulta la interpretabilidad.* Incertidumbre de salida. El resultado de los LLM suele ser incierto y se pueden producir diferentes resultados para el mismo insumo, lo que también aumenta la dificultad de interpretabilidad.* Indicadores de evaluación insuficientes. Los indicadores de evaluación automática actuales de los sistemas de diálogo no son suficientes para reflejar completamente la interpretabilidad del modelo, y se necesitan más indicadores de evaluación que consideren la comprensión humana.**Paradigma de entrenamiento para modelos grandes**Para resumir mejor la interpretabilidad de modelos grandes, dividimos los paradigmas de entrenamiento de modelos grandes en niveles BERT y superiores en dos tipos: 1) paradigma de ajuste fino tradicional; 2) paradigma basado en ing.**Paradigma tradicional de ajuste fino**Para el paradigma de ajuste fino tradicional, primero se entrena previamente un modelo de lenguaje básico en una biblioteca de texto sin etiquetar más grande y luego se ajusta mediante conjuntos de datos etiquetados de un dominio específico. Estos modelos comunes incluyen BERT, RoBERTa, ELECTRA, DeBERTa, etc.**paradigma basado en ing**El paradigma basado en ing implementa el aprendizaje de pocas o cero oportunidades mediante el uso de s. Al igual que el paradigma tradicional de ajuste fino, el modelo básico debe entrenarse previamente. Sin embargo, el ajuste fino basado en el paradigma ing generalmente se implementa mediante el ajuste de instrucciones y el aprendizaje reforzado a partir de la retroalimentación humana (RLHF). Estos modelos comunes incluyen GPT-3.5, GPT 4, Claude, LLaMA-2-Chat, Alpaca, Vicuna, etc. El proceso de formación es el siguiente:![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-643c1f15c1-dd1a6f-6d2ef1) **Explicación del modelo basada en el paradigma tradicional de ajuste fino**La explicación del modelo basada en el paradigma tradicional de ajuste fino incluye la explicación de las predicciones individuales (explicación local) y la explicación de los componentes del nivel estructural del modelo, como neuronas, capas de red, etc. (explicación global).**Explicación parcial**La explicación local explica las predicciones de una sola muestra. Sus métodos de explicación incluyen atribución de características, explicación basada en la atención, explicación basada en ejemplos y explicación en lenguaje natural.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-884d4dcaef-dd1a6f-6d2ef1) 1. La atribución de características tiene como objetivo medir la relevancia de cada característica de entrada (por ejemplo, palabra, frase, rango de texto) para modelar predicciones. Los métodos de atribución de características se pueden clasificar como:* Basado en la interpretación de perturbaciones, observe el impacto en los resultados de salida modificando características de entrada específicas;* Según la interpretación del gradiente, el diferencial parcial de la salida a la entrada se utiliza como índice de importancia de la entrada correspondiente;* Modelos alternativos, que utilizan modelos simples comprensibles para los humanos para ajustar resultados individuales de modelos complejos para obtener la importancia de cada entrada;* Técnicas basadas en descomposición que tienen como objetivo descomponer linealmente puntuaciones de correlación de características.2. Explicación basada en la atención: la atención se utiliza a menudo como una forma de centrarse en las partes más relevantes de la información, de modo que la atención pueda aprender información relevante que pueda usarse para explicar las predicciones. Las explicaciones comunes relacionadas con la atención incluyen:* Tecnología de visualización de la atención para observar intuitivamente cambios en las puntuaciones de atención en diferentes escalas;* Interpretación basada en funciones, como la derivada parcial de la salida versus la atención. Sin embargo, el uso de la atención como perspectiva de investigación sigue siendo controvertido en la comunidad académica.3. La explicación basada en muestras detecta y explica el modelo desde la perspectiva de casos individuales, que se divide principalmente en: muestras contradictorias y muestras contrafactuales.* Los ejemplos contradictorios son datos generados en función de las características del modelo que son muy sensibles a pequeños cambios. En el procesamiento del lenguaje natural, generalmente se obtienen modificando el texto. Las transformaciones de texto que son difíciles de distinguir para los humanos generalmente conducen a diferentes predicciones por parte del modelo.* Las muestras contrafactuales se obtienen deformando el texto como la negación, que suele ser una prueba de la capacidad de inferencia causal del modelo.4. La explicación en lenguaje natural utiliza texto original y explicaciones etiquetadas manualmente para el entrenamiento del modelo, de modo que el modelo pueda generar un proceso de toma de decisiones del modelo de explicación en lenguaje natural.**Explicación global**La explicación global tiene como objetivo proporcionar una explicación de orden superior del mecanismo de funcionamiento de un modelo grande desde el nivel del modelo, incluidas las neuronas, las capas ocultas y los bloques más grandes. Explora principalmente el conocimiento semántico aprendido en diferentes componentes de la red.* Interpretación basada en sondas La tecnología de interpretación de sondas se basa principalmente en la detección de clasificadores. Al entrenar un clasificador superficial en un modelo previamente entrenado o en un modelo ajustado, y luego evaluarlo en un conjunto de datos reservados, el clasificador puede identificar características del lenguaje. capacidad de razonamiento.* Activación de neuronas El análisis tradicional de activación de neuronas solo considera una parte de las neuronas importantes y luego aprende la relación entre las neuronas y las características semánticas. Recientemente, GPT-4 también se ha utilizado para explicar las neuronas. En lugar de seleccionar algunas neuronas para explicarlas, GPT-4 se puede utilizar para explicar todas las neuronas.* La interpretación basada en conceptos asigna entradas a un conjunto de conceptos y luego explica el modelo midiendo la importancia de los conceptos para las predicciones.**Explicación del modelo basada en el paradigma ing**La explicación del modelo basada en el paradigma ing requiere explicaciones separadas del modelo básico y del modelo asistente para distinguir las capacidades de los dos modelos y explorar el camino del aprendizaje del modelo. Las cuestiones exploradas incluyen principalmente: los beneficios de proporcionar explicaciones para modelos sobre el aprendizaje de pocas oportunidades; la comprensión del origen del aprendizaje de pocas oportunidades y las capacidades de la cadena de pensamiento.**Explicación del modelo básico*** Beneficios de las explicaciones para el aprendizaje de modelos Explore si las explicaciones son útiles para el aprendizaje de modelos en el contexto del aprendizaje de pocas oportunidades.* El aprendizaje situado explora el mecanismo del aprendizaje situacional en modelos grandes y distingue la diferencia entre el aprendizaje situacional en modelos grandes y modelos medianos.* Encadenamiento de pensamientos Explore las razones por las que el encadenamiento de pensamientos mejora el rendimiento del modelo.**Explicación del modelo asistente*** Los modelos de asistente de rol de ajuste generalmente se entrenan previamente para obtener conocimiento semántico general y luego adquirir conocimiento de dominio a través del aprendizaje supervisado y el aprendizaje por refuerzo. Queda por estudiar la etapa en la que proviene principalmente el conocimiento del modelo asistente.* La precisión y credibilidad de las predicciones de alucinaciones e incertidumbres con modelos grandes siguen siendo cuestiones importantes en la investigación actual. A pesar de las poderosas capacidades de inferencia de los modelos grandes, sus resultados a menudo adolecen de información errónea y alucinaciones. Esta incertidumbre en la predicción plantea enormes desafíos para su aplicación generalizada.**Evaluación de las explicaciones del modelo**Los indicadores de evaluación para la explicación del modelo incluyen plausibilidad, fidelidad, estabilidad, solidez, etc. El artículo habla principalmente de dos dimensiones ampliamente preocupadas: 1) racionalidad para los humanos; 2) fidelidad a la lógica interna del modelo.Las evaluaciones de las explicaciones tradicionales de los modelos de ajuste fino se han centrado principalmente en explicaciones locales. La plausibilidad a menudo requiere una evaluación de las interpretaciones del modelo versus interpretaciones anotadas por humanos frente a estándares diseñados. Fidelity presta más atención al desempeño de los indicadores cuantitativos. Dado que diferentes indicadores se centran en diferentes aspectos del modelo o datos, todavía faltan estándares unificados para medir la fidelidad. La evaluación basada en la interpretación del modelo ing requiere más investigación.**Desafíos futuros de la investigación****1.Falta de explicación efectiva y correcta. **El desafío proviene de dos aspectos: 1) la falta de estándares para diseñar explicaciones efectivas; 2) la falta de explicaciones efectivas conduce a una falta de apoyo para la evaluación de las explicaciones.**2. Se desconoce el origen del fenómeno de emergencia. ** La exploración de la capacidad de aparición de modelos grandes se puede llevar a cabo desde la perspectiva del modelo y los datos respectivamente: desde la perspectiva del modelo, 1) la estructura del modelo que causa el fenómeno de aparición; 2) la escala mínima del modelo y complejidad que tiene un rendimiento superior en tareas en varios idiomas. Desde una perspectiva de datos, 1) el subconjunto de datos que determina una predicción específica; 2) la relación entre la capacidad emergente y el entrenamiento del modelo y la contaminación de datos; 3) el impacto de la calidad y cantidad de los datos de entrenamiento en los efectos respectivos de la pre- entrenamiento y puesta a punto.** 3. La diferencia entre el paradigma de ajuste fino y el paradigma ing. ** Los diferentes desempeños de los dos dentro y fuera de la distribución significan diferentes formas de razonamiento. 1) Las diferencias en los paradigmas de razonamiento cuando los datos están indistribuidos; 2) Las fuentes de las diferencias en la robustez del modelo cuando los datos se distribuyen de manera diferente.** 4. Problema de aprendizaje de atajos para modelos grandes. **Bajo los dos paradigmas, el problema de aprendizaje de atajos del modelo existe en diferentes aspectos. Aunque los modelos grandes tienen abundantes fuentes de datos, el problema del aprendizaje abreviado está relativamente aliviado. Aclarar el mecanismo de formación del aprendizaje abreviado y proponer soluciones sigue siendo importante para la generalización del modelo.**5. Redundancia atencional. ** El problema de redundancia de los módulos de atención existe ampliamente en ambos paradigmas. El estudio de la redundancia de atención puede proporcionar una solución para la tecnología de compresión de modelos.**6.Seguridad y ética. **La interpretabilidad de modelos grandes es fundamental para controlar el modelo y limitar el impacto negativo del modelo. Como prejuicios, injusticia, contaminación de la información, manipulación social y otras cuestiones. La construcción de modelos de IA explicables puede evitar eficazmente los problemas anteriores y formar sistemas de inteligencia artificial éticos.