Les modèles linguistiques à grande échelle présentent des capacités de raisonnement surprenantes dans le traitement du langage naturel, mais leurs mécanismes sous-jacents ne sont pas encore clairs. Avec l'application généralisée des modèles de langage à grande échelle, l'élucidation des mécanismes de fonctionnement des modèles est essentielle pour la sécurité des applications, les limitations de performances et les impacts sociaux contrôlables.
Récemment, de nombreux instituts de recherche en Chine et aux États-Unis (Institut de technologie du New Jersey, Université Johns Hopkins, Université Wake Forest, Université de Géorgie, Université Jiao Tong de Shanghai, Baidu, etc.) ont publié conjointement une revue de la technologie d'interprétabilité des grands modèles, Les techniques d'interprétabilité des modèles de réglage fin traditionnels et des très grands modèles basés sur l'ing sont examinées de manière approfondie, et les critères d'évaluation et les futurs défis de recherche en matière d'interprétation des modèles sont discutés.
* Lien papier :
Lien GitHub :
**Quelles sont les difficultés d'interprétation des grands modèles ? **
Pourquoi est-il si difficile d’interpréter de grands modèles ? Les performances étonnantes des grands modèles de langage sur les tâches de traitement du langage naturel ont attiré une large attention de la part de la société. Dans le même temps, comment expliquer les performances étonnantes des grands modèles dans l’ensemble des tâches est l’un des défis urgents auxquels sont confrontés les universités. Différent des modèles traditionnels d'apprentissage automatique ou d'apprentissage profond, l'architecture de modèle ultra-large et le matériel d'apprentissage massif permettent aux grands modèles de disposer de puissantes capacités de raisonnement et de généralisation. Plusieurs difficultés majeures liées à l’interprétabilité des grands modèles de langage (LLM) comprennent :
La complexité du modèle est élevée. Différent des modèles d'apprentissage profond ou des modèles d'apprentissage automatique statistiques traditionnels avant l'ère LLM, les modèles LLM sont d'une taille énorme et contiennent des milliards de paramètres. Leurs processus de représentation et de raisonnement internes sont très complexes et il est difficile d'expliquer leurs résultats spécifiques.
Forte dépendance aux données. Les LLM s'appuient sur un corpus de texte à grande échelle pendant le processus de formation. Les biais, les erreurs, etc. dans ces données de formation peuvent affecter le modèle, mais il est difficile de juger complètement l'impact de la qualité des données de formation sur le modèle.
Nature de la boîte noire. Nous considérons généralement les LLM comme des modèles de boîte noire, même pour les modèles open source, tels que Llama-2. Il nous est difficile de juger explicitement sa chaîne de raisonnement interne et son processus de prise de décision. Nous ne pouvons l'analyser qu'en fonction des entrées et des sorties, ce qui rend l'interprétabilité difficile.
Incertitude de sortie. Le résultat des LLM est souvent incertain et différents résultats peuvent être produits pour le même intrant, ce qui augmente également la difficulté d’interprétabilité.
Indicateurs d'évaluation insuffisants. Les indicateurs d’évaluation automatique actuels des systèmes de dialogue ne suffisent pas à refléter pleinement l’interprétabilité du modèle, et davantage d’indicateurs d’évaluation prenant en compte la compréhension humaine sont nécessaires.
Paradigme de formation pour les grands modèles
Afin de mieux résumer l'interprétabilité des grands modèles, nous divisons les paradigmes de formation des grands modèles aux niveaux BERT et supérieurs en deux types : 1) paradigme de réglage fin traditionnel ; 2) paradigme basé sur l'ing.
Paradigme de réglage traditionnel
Pour le paradigme traditionnel de réglage fin, un modèle de langage de base est d'abord pré-entraîné sur une plus grande bibliothèque de textes non étiquetés, puis affiné grâce à des ensembles de données étiquetés provenant d'un domaine spécifique. Ces modèles courants incluent BERT, RoBERTa, ELECTRA, DeBERTa, etc.
paradigme basé sur le ing
Le paradigme basé sur ing implémente un apprentissage sans tir ou en quelques tirs en utilisant s. Comme le paradigme traditionnel de réglage fin, le modèle de base doit être pré-entraîné. Cependant, le réglage fin basé sur le paradigme ing est généralement mis en œuvre par le réglage des instructions et l'apprentissage par renforcement à partir de la rétroaction humaine (RLHF). Ces modèles courants incluent GPT-3.5, GPT 4, Claude, LLaMA-2-Chat, Alpaca, Vicuna, etc. Le processus de formation est le suivant :
Explication du modèle basée sur le paradigme de réglage fin traditionnel
L'explication du modèle basée sur le paradigme traditionnel de réglage fin comprend l'explication des prédictions individuelles (explication locale) et l'explication des composants du modèle au niveau structurel tels que les neurones, les couches de réseau, etc. (explication globale).
Explication partielle
L'explication locale explique les prédictions d'un seul échantillon. Ses méthodes d'explication comprennent l'attribution de caractéristiques, l'explication basée sur l'attention, l'explication basée sur des exemples et l'explication en langage naturel.
1. L'attribution de fonctionnalités vise à mesurer la pertinence de chaque fonctionnalité d'entrée (par exemple mot, expression, plage de texte) pour modéliser les prédictions. Les méthodes d'attribution de fonctionnalités peuvent être classées comme suit :
Sur la base de l'interprétation des perturbations, observez l'impact sur les résultats de sortie en modifiant les caractéristiques d'entrée spécifiques ;
Sur la base de l'interprétation du gradient, la différentielle partielle de la sortie par rapport à l'entrée est utilisée comme indice d'importance de l'entrée correspondante ;
Modèles alternatifs, utilisant des modèles simples et compréhensibles par l'homme pour ajuster les sorties individuelles de modèles complexes afin d'obtenir l'importance de chaque entrée ;
Techniques basées sur la décomposition qui visent à décomposer linéairement les scores de corrélation de caractéristiques.
Explication basée sur l'attention : l'attention est souvent utilisée pour se concentrer sur les parties les plus pertinentes de l'entrée, afin que l'attention puisse apprendre des informations pertinentes qui peuvent être utilisées pour expliquer les prédictions. Les explications courantes liées à l'attention comprennent :
Technologie de visualisation de l'attention pour observer intuitivement les changements dans les scores d'attention à différentes échelles ;
Interprétation basée sur les fonctions, telle que la dérivée partielle du résultat par rapport à l'attention. Cependant, l’utilisation de l’attention comme perspective de recherche reste controversée dans la communauté universitaire.
L'explication basée sur des échantillons détecte et explique le modèle du point de vue de cas individuels, qui est principalement divisé en : échantillons contradictoires et échantillons contrefactuels.
Les exemples contradictoires sont des données générées sur la base des caractéristiques du modèle qui sont très sensibles à de petits changements. Dans le traitement du langage naturel, elles sont généralement obtenues en modifiant le texte. Les transformations de texte difficiles à distinguer pour les humains conduisent généralement à des prédictions différentes par le modèle.
Les échantillons contrefactuels sont obtenus en déformant le texte comme la négation, ce qui est généralement un test de la capacité d'inférence causale du modèle.
L'explication en langage naturel utilise le texte original et des explications étiquetées manuellement pour la formation du modèle, afin que le modèle puisse générer le processus décisionnel d'un modèle d'explication en langage naturel.
Explication globale
L'explication globale vise à fournir une explication d'ordre supérieur du mécanisme de fonctionnement d'un grand modèle au niveau du modèle comprenant les neurones, les couches cachées et les blocs plus grands. Il explore principalement les connaissances sémantiques apprises dans les différents composants du réseau.
Interprétation basée sur des sondes La technologie d'interprétation des sondes est principalement basée sur la détection d'un classificateur. En entraînant un classificateur superficiel sur un modèle pré-entraîné ou un modèle affiné, puis en l'évaluant sur un ensemble de données exclues, le classificateur peut identifier les caractéristiques du langage. la capacité de raisonnement.
Activation des neurones L'analyse traditionnelle de l'activation des neurones ne prend en compte qu'une partie des neurones importants, puis apprend la relation entre les neurones et les caractéristiques sémantiques. Récemment, GPT-4 a également été utilisé pour expliquer les neurones. Au lieu de sélectionner certains neurones à expliquer, GPT-4 peut être utilisé pour expliquer tous les neurones.
L'interprétation basée sur les concepts mappe les entrées à un ensemble de concepts, puis explique le modèle en mesurant l'importance des concepts dans les prédictions.
Explication du modèle basée sur le paradigme ing
L'explication du modèle basée sur le paradigme ing nécessite des explications séparées du modèle de base et du modèle assistant pour distinguer les capacités des deux modèles et explorer le chemin de l'apprentissage du modèle. Les questions explorées comprennent principalement : les avantages de fournir des explications pour les modèles sur l'apprentissage en quelques étapes ; la compréhension de l'origine de l'apprentissage en quelques étapes et les capacités de la chaîne de réflexion.
Explication du modèle de base
Avantages des explications pour l'apprentissage par modèles Découvrez si les explications sont utiles pour l'apprentissage par modèles dans le contexte d'un apprentissage en quelques étapes.
L'apprentissage situé explore le mécanisme de l'apprentissage situationnel dans les grands modèles et distingue la différence entre l'apprentissage situationnel dans les grands modèles et les modèles moyens.
Chaînage de pensées Explorez les raisons pour lesquelles le chaînage de pensées améliore les performances du modèle.
Explication du modèle assistant
Les modèles d'assistants de réglage fin sont généralement pré-formés pour acquérir des connaissances sémantiques générales, puis acquièrent des connaissances dans le domaine par le biais d'un apprentissage supervisé et d'un apprentissage par renforcement. Reste à étudier le stade d’où provient principalement la connaissance du modèle assistant.
L'exactitude et la crédibilité des prédictions des hallucinations et des incertitudes sur de grands modèles restent des questions importantes dans la recherche actuelle. Malgré les puissantes capacités d’inférence des grands modèles, leurs résultats souffrent souvent de désinformation et d’hallucinations. Cette incertitude dans la prévision pose d’énormes défis à son application généralisée.
Évaluation des explications du modèle
Les indicateurs d'évaluation pour l'explication du modèle comprennent la plausibilité, la fidélité, la stabilité, la robustesse, etc. L'article parle principalement de deux dimensions largement concernées : 1) la rationalité envers les humains ; 2) la fidélité à la logique interne du modèle.
Les évaluations des explications des modèles de réglage fin traditionnels se sont principalement concentrées sur les explications locales. La plausibilité nécessite souvent une évaluation des mesures des interprétations du modèle par rapport aux interprétations annotées par l'homme par rapport aux normes conçues. La fidélité accorde plus d'attention à la performance des indicateurs quantitatifs. Étant donné que différents indicateurs se concentrent sur différents aspects du modèle ou des données, il manque toujours des normes unifiées pour mesurer la fidélité. L'évaluation basée sur l'interprétation du modèle ing nécessite des recherches plus approfondies.
Défis futurs de la recherche
**1. Manque d'explication efficace et correcte. **Le défi vient de deux aspects : 1) le manque de normes pour concevoir des explications efficaces ; 2) le manque d'explications efficaces conduit à un manque de soutien pour l'évaluation des explications.
**2. L'origine du phénomène d'émergence est inconnue. **L'exploration de la capacité d'émergence des grands modèles peut être réalisée respectivement du point de vue du modèle et des données. Du point de vue du modèle, 1) la structure du modèle qui provoque le phénomène d'émergence ; 2) l'échelle minimale du modèle et une complexité qui offre des performances supérieures dans les tâches multilingues. Du point de vue des données, 1) le sous-ensemble de données qui détermine une prédiction spécifique ; 2) la relation entre la capacité émergente et la formation du modèle et la contamination des données ; 3) l'impact de la qualité et de la quantité des données de formation sur les effets respectifs des pré- formation et mise au point.
** 3. La différence entre le paradigme de réglage fin et le paradigme ing. **Les performances différentes des deux en distribution et hors distribution impliquent des façons de raisonner différentes. 1) Les différences dans les paradigmes de raisonnement lorsque les données sont distribuées ; 2) Les sources des différences dans la robustesse des modèles lorsque les données sont distribuées différemment.
**4. Problème d'apprentissage des raccourcis pour les grands modèles. **Sous les deux paradigmes, le problème d'apprentissage raccourci du modèle existe sous différents aspects. Bien que les grands modèles disposent de sources de données abondantes, le problème de l’apprentissage rapide est relativement atténué. Élucider le mécanisme de formation de l’apprentissage raccourci et proposer des solutions restent importants pour la généralisation du modèle.
**5. Redondance attentionnelle. **Le problème de redondance des modules d'attention existe largement dans les deux paradigmes. L'étude de la redondance de l'attention peut fournir une solution pour la technologie de compression de modèles.
**6. Sécurité et éthique. **L'interprétabilité des grands modèles est essentielle pour contrôler le modèle et limiter son impact négatif. Tels que les préjugés, l’injustice, la pollution de l’information, la manipulation sociale et d’autres problèmes. La création de modèles d'IA explicables peut efficacement éviter les problèmes ci-dessus et former des systèmes d'intelligence artificielle éthiques.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
Pouvez-vous régler l’interprétabilité des grands modèles ? La revue est ici, un article pour répondre à vos questions
Les modèles linguistiques à grande échelle présentent des capacités de raisonnement surprenantes dans le traitement du langage naturel, mais leurs mécanismes sous-jacents ne sont pas encore clairs. Avec l'application généralisée des modèles de langage à grande échelle, l'élucidation des mécanismes de fonctionnement des modèles est essentielle pour la sécurité des applications, les limitations de performances et les impacts sociaux contrôlables.
Récemment, de nombreux instituts de recherche en Chine et aux États-Unis (Institut de technologie du New Jersey, Université Johns Hopkins, Université Wake Forest, Université de Géorgie, Université Jiao Tong de Shanghai, Baidu, etc.) ont publié conjointement une revue de la technologie d'interprétabilité des grands modèles, Les techniques d'interprétabilité des modèles de réglage fin traditionnels et des très grands modèles basés sur l'ing sont examinées de manière approfondie, et les critères d'évaluation et les futurs défis de recherche en matière d'interprétation des modèles sont discutés.
Pourquoi est-il si difficile d’interpréter de grands modèles ? Les performances étonnantes des grands modèles de langage sur les tâches de traitement du langage naturel ont attiré une large attention de la part de la société. Dans le même temps, comment expliquer les performances étonnantes des grands modèles dans l’ensemble des tâches est l’un des défis urgents auxquels sont confrontés les universités. Différent des modèles traditionnels d'apprentissage automatique ou d'apprentissage profond, l'architecture de modèle ultra-large et le matériel d'apprentissage massif permettent aux grands modèles de disposer de puissantes capacités de raisonnement et de généralisation. Plusieurs difficultés majeures liées à l’interprétabilité des grands modèles de langage (LLM) comprennent :
Paradigme de formation pour les grands modèles
Afin de mieux résumer l'interprétabilité des grands modèles, nous divisons les paradigmes de formation des grands modèles aux niveaux BERT et supérieurs en deux types : 1) paradigme de réglage fin traditionnel ; 2) paradigme basé sur l'ing.
Paradigme de réglage traditionnel
Pour le paradigme traditionnel de réglage fin, un modèle de langage de base est d'abord pré-entraîné sur une plus grande bibliothèque de textes non étiquetés, puis affiné grâce à des ensembles de données étiquetés provenant d'un domaine spécifique. Ces modèles courants incluent BERT, RoBERTa, ELECTRA, DeBERTa, etc.
paradigme basé sur le ing
Le paradigme basé sur ing implémente un apprentissage sans tir ou en quelques tirs en utilisant s. Comme le paradigme traditionnel de réglage fin, le modèle de base doit être pré-entraîné. Cependant, le réglage fin basé sur le paradigme ing est généralement mis en œuvre par le réglage des instructions et l'apprentissage par renforcement à partir de la rétroaction humaine (RLHF). Ces modèles courants incluent GPT-3.5, GPT 4, Claude, LLaMA-2-Chat, Alpaca, Vicuna, etc. Le processus de formation est le suivant :
L'explication du modèle basée sur le paradigme traditionnel de réglage fin comprend l'explication des prédictions individuelles (explication locale) et l'explication des composants du modèle au niveau structurel tels que les neurones, les couches de réseau, etc. (explication globale).
Explication partielle
L'explication locale explique les prédictions d'un seul échantillon. Ses méthodes d'explication comprennent l'attribution de caractéristiques, l'explication basée sur l'attention, l'explication basée sur des exemples et l'explication en langage naturel.
Explication globale
L'explication globale vise à fournir une explication d'ordre supérieur du mécanisme de fonctionnement d'un grand modèle au niveau du modèle comprenant les neurones, les couches cachées et les blocs plus grands. Il explore principalement les connaissances sémantiques apprises dans les différents composants du réseau.
Explication du modèle basée sur le paradigme ing
L'explication du modèle basée sur le paradigme ing nécessite des explications séparées du modèle de base et du modèle assistant pour distinguer les capacités des deux modèles et explorer le chemin de l'apprentissage du modèle. Les questions explorées comprennent principalement : les avantages de fournir des explications pour les modèles sur l'apprentissage en quelques étapes ; la compréhension de l'origine de l'apprentissage en quelques étapes et les capacités de la chaîne de réflexion.
Explication du modèle de base
Explication du modèle assistant
Évaluation des explications du modèle
Les indicateurs d'évaluation pour l'explication du modèle comprennent la plausibilité, la fidélité, la stabilité, la robustesse, etc. L'article parle principalement de deux dimensions largement concernées : 1) la rationalité envers les humains ; 2) la fidélité à la logique interne du modèle.
Les évaluations des explications des modèles de réglage fin traditionnels se sont principalement concentrées sur les explications locales. La plausibilité nécessite souvent une évaluation des mesures des interprétations du modèle par rapport aux interprétations annotées par l'homme par rapport aux normes conçues. La fidélité accorde plus d'attention à la performance des indicateurs quantitatifs. Étant donné que différents indicateurs se concentrent sur différents aspects du modèle ou des données, il manque toujours des normes unifiées pour mesurer la fidélité. L'évaluation basée sur l'interprétation du modèle ing nécessite des recherches plus approfondies.
Défis futurs de la recherche
**1. Manque d'explication efficace et correcte. **Le défi vient de deux aspects : 1) le manque de normes pour concevoir des explications efficaces ; 2) le manque d'explications efficaces conduit à un manque de soutien pour l'évaluation des explications.
**2. L'origine du phénomène d'émergence est inconnue. **L'exploration de la capacité d'émergence des grands modèles peut être réalisée respectivement du point de vue du modèle et des données. Du point de vue du modèle, 1) la structure du modèle qui provoque le phénomène d'émergence ; 2) l'échelle minimale du modèle et une complexité qui offre des performances supérieures dans les tâches multilingues. Du point de vue des données, 1) le sous-ensemble de données qui détermine une prédiction spécifique ; 2) la relation entre la capacité émergente et la formation du modèle et la contamination des données ; 3) l'impact de la qualité et de la quantité des données de formation sur les effets respectifs des pré- formation et mise au point.
** 3. La différence entre le paradigme de réglage fin et le paradigme ing. **Les performances différentes des deux en distribution et hors distribution impliquent des façons de raisonner différentes. 1) Les différences dans les paradigmes de raisonnement lorsque les données sont distribuées ; 2) Les sources des différences dans la robustesse des modèles lorsque les données sont distribuées différemment.
**4. Problème d'apprentissage des raccourcis pour les grands modèles. **Sous les deux paradigmes, le problème d'apprentissage raccourci du modèle existe sous différents aspects. Bien que les grands modèles disposent de sources de données abondantes, le problème de l’apprentissage rapide est relativement atténué. Élucider le mécanisme de formation de l’apprentissage raccourci et proposer des solutions restent importants pour la généralisation du modèle.
**5. Redondance attentionnelle. **Le problème de redondance des modules d'attention existe largement dans les deux paradigmes. L'étude de la redondance de l'attention peut fournir une solution pour la technologie de compression de modèles.
**6. Sécurité et éthique. **L'interprétabilité des grands modèles est essentielle pour contrôler le modèle et limiter son impact négatif. Tels que les préjugés, l’injustice, la pollution de l’information, la manipulation sociale et d’autres problèmes. La création de modèles d'IA explicables peut efficacement éviter les problèmes ci-dessus et former des systèmes d'intelligence artificielle éthiques.