Você consegue resolver a interpretabilidade de modelos grandes? A revisão está aqui, um artigo para responder às suas perguntas

Question

![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-78b1269849-dd1a6f-6d2ef1) Fonte da imagem: gerada por Unbounded AIModelos de linguagem em larga escala exibem capacidades de raciocínio surpreendentes no processamento de linguagem natural, mas os seus mecanismos subjacentes ainda não estão claros. Com a aplicação generalizada de modelos de linguagem em larga escala, elucidar os mecanismos operacionais dos modelos é fundamental para a segurança das aplicações, as limitações de desempenho e os impactos sociais controláveis.Recentemente, muitas instituições de pesquisa na China e nos Estados Unidos (Instituto de Tecnologia de Nova Jersey, Universidade Johns Hopkins, Universidade Wake Forest, Universidade da Geórgia, Universidade Jiao Tong de Xangai, Baidu, etc.) lançaram em conjunto uma revisão da tecnologia de interpretabilidade de grandes modelos, respectivamente.As técnicas de interpretabilidade dos modelos tradicionais de ajuste fino e dos modelos muito grandes baseados em ing são revisadas de forma abrangente, e os critérios de avaliação e os futuros desafios de pesquisa da interpretação do modelo são discutidos.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-229d52bfe3-dd1a6f-6d2ef1) * Link do artigo:* Link do Github:![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-4a108bc518-dd1a6f-6d2ef1) **Quais são as dificuldades na interpretação de modelos grandes? **Por que é tão difícil interpretar modelos grandes? O incrível desempenho de grandes modelos de linguagem em tarefas de processamento de linguagem natural atraiu a atenção generalizada da sociedade. Ao mesmo tempo, como explicar o desempenho impressionante de grandes modelos em todas as tarefas é um dos desafios prementes enfrentados pela academia. Diferente do aprendizado de máquina tradicional ou dos modelos de aprendizado profundo, a arquitetura do modelo ultragrande e os materiais de aprendizado massivos permitem que modelos grandes tenham capacidades poderosas de raciocínio e generalização. Várias dificuldades importantes em fornecer interpretabilidade para grandes modelos de linguagem (LLMs) incluem:* A complexidade do modelo é alta. Diferente dos modelos de aprendizagem profunda ou dos modelos tradicionais de aprendizagem de máquina estatística antes da era LLM, os modelos LLM são enormes em escala e contêm bilhões de parâmetros.Sua representação interna e processos de raciocínio são muito complexos e é difícil explicar seus resultados específicos.* Forte dependência de dados. LLMs dependem de corpus de texto em grande escala durante o processo de treinamento. Vieses, erros, etc. nesses dados de treinamento podem afetar o modelo, mas é difícil avaliar completamente o impacto da qualidade dos dados de treinamento no modelo.* Natureza da caixa preta. Geralmente pensamos nos LLMs como modelos de caixa preta, mesmo para modelos de código aberto, como o Llama-2. É difícil para nós julgar explicitamente a sua cadeia de raciocínio interno e o processo de tomada de decisão, só podemos analisá-lo com base em entradas e saídas, o que dificulta a interpretabilidade.* Incerteza de saída. A saída dos LLMs é muitas vezes incerta, e diferentes saídas podem ser produzidas para a mesma entrada, o que também aumenta a dificuldade de interpretabilidade.* Indicadores de avaliação insuficientes. Os actuais indicadores de avaliação automática dos sistemas de diálogo não são suficientes para reflectir plenamente a interpretabilidade do modelo, sendo necessários mais indicadores de avaliação que considerem a compreensão humana.**Paradigma de treinamento para modelos grandes**Para resumir melhor a interpretabilidade de grandes modelos, dividimos os paradigmas de treinamento de grandes modelos no BERT e nos níveis superiores em dois tipos: 1) paradigma tradicional de ajuste fino; 2) paradigma baseado em ing.**Paradigma tradicional de ajuste fino**Para o paradigma de ajuste fino tradicional, um modelo de linguagem básico é primeiro pré-treinado em uma biblioteca de texto não rotulada maior e, em seguida, ajustado por meio de conjuntos de dados rotulados de um domínio específico. Esses modelos comuns incluem BERT, RoBERTa, ELECTRA, DeBERTa, etc.**paradigma baseado em ing**O paradigma baseado em ing implementa aprendizagem zero ou poucos disparos usando s. Tal como o paradigma tradicional de ajuste fino, o modelo básico precisa ser pré-treinado. No entanto, o ajuste fino baseado no paradigma ing é geralmente implementado por ajuste de instrução e aprendizagem por reforço a partir de feedback humano (RLHF). Esses modelos comuns incluem GPT-3.5, GPT 4, Claude, LLaMA-2-Chat, Alpaca, Vicuna, etc. O processo de treinamento é o seguinte:![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-643c1f15c1-dd1a6f-6d2ef1) **Explicação do modelo baseada no paradigma tradicional de ajuste fino**A explicação do modelo baseada no paradigma tradicional de ajuste fino inclui explicação de previsões individuais (explicação local) e explicação de componentes de nível estrutural do modelo, como neurônios, camadas de rede, etc. (explicação global).**Explicação parcial**A explicação local explica as previsões de amostra única. Seus métodos de explicação incluem atribuição de recursos, explicação baseada em atenção, explicação baseada em exemplos e explicação em linguagem natural.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-884d4dcaef-dd1a6f-6d2ef1) 1. A atribuição de recursos visa medir a relevância de cada recurso de entrada (por exemplo, palavra, frase, intervalo de texto) para modelar previsões. Os métodos de atribuição de recursos podem ser classificados como:* Com base na interpretação da perturbação, observe o impacto nos resultados de saída, modificando características específicas de entrada;* Com base na interpretação do gradiente, o diferencial parcial da saída em relação à entrada é utilizado como índice de importância da entrada correspondente;* Modelos alternativos, usando modelos simples e compreensíveis para ajustar resultados individuais de modelos complexos para obter a importância de cada entrada;* Técnicas baseadas em decomposição que visam decompor linearmente as pontuações de correlação de recursos.2. Explicação baseada na atenção: A atenção é frequentemente usada como uma forma de focar nas partes mais relevantes do input, para que a atenção possa aprender informações relevantes que podem ser usadas para explicar previsões. Explicações comuns relacionadas à atenção incluem:* Tecnologia de visualização de atenção para observar intuitivamente mudanças nas pontuações de atenção em diferentes escalas;* Interpretação baseada em funções, como a derivada parcial da saída versus atenção. Contudo, o uso da atenção como perspectiva de pesquisa permanece controverso na comunidade acadêmica.3. A explicação baseada em amostras detecta e explica o modelo a partir da perspectiva de casos individuais, que se divide principalmente em: amostras contraditórias e amostras contrafactuais.* As amostras adversas são dados gerados com base nas características do modelo que são muito sensíveis a pequenas mudanças. No processamento de linguagem natural, geralmente são obtidas pela modificação do texto. As transformações de texto que são difíceis de serem distinguidas pelos humanos geralmente levam a diferentes previsões por parte do modelo.* As amostras contrafactuais são obtidas deformando o texto, como a negação, que geralmente é um teste da capacidade de inferência causal do modelo.4. A explicação em linguagem natural usa texto original e explicações rotuladas manualmente para o treinamento do modelo, para que o modelo possa gerar um processo de tomada de decisão do modelo de explicação em linguagem natural.**Explicação global**A explicação global visa fornecer uma explicação de ordem superior do mecanismo de funcionamento de um modelo grande a partir do nível do modelo, incluindo neurônios, camadas ocultas e blocos maiores. Explora principalmente o conhecimento semântico aprendido em diferentes componentes da rede.* Interpretação baseada em sonda A tecnologia de interpretação de sonda é baseada principalmente na detecção do classificador. Ao treinar um classificador superficial em um modelo pré-treinado ou modelo ajustado e, em seguida, avaliá-lo em um conjunto de dados de validação, o classificador pode identificar recursos de linguagem. ou Capacidade de raciocínio.* A análise tradicional de ativação de neurônios considera apenas uma parte dos neurônios importantes e, em seguida, aprende a relação entre os neurônios e as características semânticas. Recentemente, o GPT-4 também tem sido usado para explicar neurônios. Em vez de selecionar alguns neurônios para explicação, o GPT-4 pode ser usado para explicar todos os neurônios.* A interpretação baseada em conceitos mapeia entradas para um conjunto de conceitos e depois explica o modelo medindo a importância dos conceitos para as previsões.**Explicação do modelo baseada no paradigma **A explicação do modelo baseada no paradigma ing requer explicações separadas do modelo básico e do modelo assistente para distinguir as capacidades dos dois modelos e explorar o caminho de aprendizagem do modelo. As questões exploradas incluem principalmente: os benefícios de fornecer explicações para modelos de aprendizagem de poucas tentativas; a compreensão da origem da aprendizagem de poucas tentativas e as capacidades da cadeia de pensamento.**Explicação do modelo básico*** Benefícios das explicações para o aprendizado de modelos Explore se as explicações são úteis para o aprendizado de modelos no contexto do aprendizado rápido.* A aprendizagem situada explora o mecanismo de aprendizagem situacional em modelos grandes e distingue a diferença entre a aprendizagem situacional em modelos grandes e modelos médios.* Encadeamento de pensamentos Explore as razões pelas quais o encadeamento de pensamentos melhora o desempenho do modelo.**Explicação do modelo assistente*** Os modelos de assistentes de ajuste fino são geralmente pré-treinados para obter conhecimento semântico geral e, em seguida, adquirir conhecimento de domínio por meio de aprendizagem supervisionada e aprendizagem por reforço. A fase de onde vem principalmente o conhecimento do modelo assistente ainda precisa ser estudada.* A precisão e a credibilidade das previsões de grandes modelos de alucinações e incertezas ainda são questões importantes na pesquisa atual. Apesar das poderosas capacidades de inferência de grandes modelos, os seus resultados muitas vezes sofrem de desinformação e alucinações. Esta incerteza na previsão traz enormes desafios à sua aplicação generalizada.**Avaliação das explicações do modelo**Os indicadores de avaliação para explicação do modelo incluem plausibilidade, fidelidade, estabilidade, robustez, etc. O artigo fala principalmente sobre duas dimensões amplamente preocupadas: 1) racionalidade para com os humanos; 2) fidelidade à lógica interna do modelo.As avaliações das explicações dos modelos tradicionais de ajuste fino concentraram-se principalmente nas explicações locais. A plausibilidade muitas vezes requer uma avaliação de medição das interpretações do modelo versus interpretações anotadas por humanos em relação aos padrões projetados. A Fidelity presta mais atenção ao desempenho dos indicadores quantitativos. Uma vez que diferentes indicadores se concentram em diferentes aspectos do modelo ou dos dados, ainda faltam padrões unificados para medir a fidelidade. A avaliação baseada na interpretação do modelo requer mais pesquisas.**Desafios futuros de pesquisa****1. Falta de explicação eficaz e correta. **O desafio vem de dois aspectos: 1) a falta de padrões para a concepção de explicações eficazes; 2) a falta de explicações eficazes leva à falta de apoio para a avaliação das explicações.**2. A origem do fenômeno de emergência é desconhecida. **A exploração da capacidade de emergência de grandes modelos pode ser realizada a partir da perspectiva do modelo e dos dados, respectivamente. Da perspectiva do modelo, 1) a estrutura do modelo que causa o fenômeno de emergência; 2) a escala mínima do modelo e complexidade que apresenta desempenho superior em tarefas entre idiomas. De uma perspectiva de dados, 1) o subconjunto de dados que determina uma previsão específica; 2) a relação entre habilidade emergente e treinamento de modelo e contaminação de dados; 3) o impacto da qualidade e quantidade de dados de treinamento nos respectivos efeitos de pré- treinamento e ajuste fino.** 3. A diferença entre o paradigma de ajuste fino e o paradigma de ing. **Os diferentes desempenhos dos dois sistemas em distribuição e fora de distribuição significam diferentes formas de raciocínio. 1) As diferenças nos paradigmas de raciocínio quando os dados estão distribuídos; 2) As fontes das diferenças na robustez do modelo quando os dados são distribuídos de forma diferente.**4. Problema de aprendizado de atalho para modelos grandes. **Sob os dois paradigmas, o problema de aprendizagem por atalho do modelo existe em diferentes aspectos. Embora grandes modelos tenham fontes de dados abundantes, o problema do aprendizado de atalhos é relativamente atenuado. Elucidar o mecanismo de formação da aprendizagem por atalho e propor soluções ainda são importantes para a generalização do modelo.**5. Redundância de atenção. **O problema de redundância de módulos de atenção existe amplamente em ambos os paradigmas. O estudo da redundância de atenção pode fornecer uma solução para a tecnologia de compressão de modelos.**6. Segurança e ética. **A interpretabilidade de modelos grandes é fundamental para controlar o modelo e limitar o impacto negativo do modelo. Tais como preconceito, injustiça, poluição da informação, manipulação social e outras questões. Construir modelos de IA explicáveis pode efetivamente evitar os problemas acima e formar sistemas éticos de inteligência artificial.