Comment évaluer si un grand modèle de langage est crédible ? Voici un résumé des sept dimensions

Question

> Cet article propose 7 dimensions clés principales pour évaluer de manière globale la crédibilité du LLM.Dans le déploiement réel, comment « aligner » un grand modèle de langage (LLM, Large Language Model), c'est-à-dire rendre le comportement du modèle cohérent avec les intentions humaines [2,3], est devenu une tâche clé. Par exemple, OpenAI a passé six mois à aligner GPT-4 avant sa sortie. [1] . Cependant, un défi auquel sont confrontés les praticiens est le manque d'orientations claires pour évaluer si les résultats du LLM sont conformes aux normes, valeurs et réglementations sociales ; cela entrave l'itération et le déploiement du LLM.Pour résoudre ce problème, Liu Yang et d'autres chercheurs de l'équipe ByteDance Research ont fourni une enquête complète sur les dimensions clés à prendre en compte lors de l'évaluation de la crédibilité du LLM. L'enquête a couvert 7 catégories principales de crédibilité LLM : fiabilité, sécurité, équité, résistance aux abus, explicabilité et raisonnement, conformité aux normes sociales et robustesse.Chaque grande catégorie est ensuite divisée en sous-catégories, pour un total de 29 sous-catégories. De plus, le chercheur a sélectionné 8 sous-catégories pour la recherche d'évaluation correspondante. Les résultats de l’évaluation montrent qu’en général, les modèles présentant un alignement plus élevé obtiennent de meilleurs résultats en termes de crédibilité globale. Cependant, l’efficacité de l’alignement apparaît différemment selon les dimensions. Cela illustre la nécessité d’une analyse, de tests et d’une amélioration plus détaillés de l’alignement LLM. Cet article vise à fournir aux praticiens du domaine des informations et des conseils précieux en résumant les dimensions clés d'un LLM fiable, qui sont essentielles pour comprendre comment déployer le LLM de manière fiable et rationnelle dans diverses applications.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-84c47740dd-dd1a6f-69ad2a) Adresse papier :## **Taxonomie d'alignement des modèles linguistiques étendus**La figure 1 montre la taxonomie d'alignement de crédibilité du grand modèle de langage proposée dans cet article : il existe 7 catégories principales, dont chacune est subdivisée en discussions plus détaillées, pour un total de 29 sous-catégories. L'article se poursuit avec un aperçu de chaque catégorie :![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-95a5489852-dd1a6f-69ad2a) *Figure 1 : La taxonomie d'alignement de crédibilité du grand modèle de langage proposée dans le texte. *1. Fiabilité => {fausses informations, illusion du modèle linguistique, incohérence, mauvais calibrage, flatterie}* a. Générer un résultat correct, réaliste et cohérent avec une incertitude appropriée.2. Sécurité => {violence, illégalité, atteinte aux mineurs, contenu réservé aux adultes, problèmes de santé mentale, atteinte à la vie privée}* a. Évitez de produire des résultats dangereux et illégaux, et évitez de divulguer des informations privées.3. Équité => {injustice, biais stéréotypé, biais de préférence, différence de performance}* a. Évitez les préjugés et assurez-vous que les différences de performances entre les différents groupes de personnes ne sont pas significatives.4. Résistez aux abus => {Propagande, cyberattaques, ingénierie sociale, fuite de droits d'auteur}* a. Interdire les abus par des attaquants malveillants.5. Explicabilité et raisonnement => {Capacité d'explication insuffisante, capacité logique insuffisante, capacité causale insuffisante}* a. La capacité d'expliquer le résultat aux utilisateurs et de raisonner correctement.6. Normes sociales => {Langage vicieux, insensibilité émotionnelle, insensibilité culturelle}* a. Reflète des valeurs humaines universellement partagées.7. Robustesse => {Attaques rapides, changements de paradigme et de distribution, effets d'intervention, attaques d'empoisonnement}* a. Résistance aux attaques adverses et aux changements de distribution.L'analyse de cet article est basée sur les défis de sécurité et de déploiement fiable qui se posent à l'ère des grands modèles, et prend également en compte la discussion sur l'intelligence artificielle fiable dans la littérature existante. Dans le même temps, la définition et la division des principales catégories font référence à l'application des grands modèles dans la société et tentent de garantir que chaque dimension d'évaluation a un certain degré de pertinence et d'importance dans les applications traditionnelles des grands modèles. De la littérature et des discussions spécifiques au sein de chaque catégorie et de ses sous-catégories sont fournies dans l'article.Pour chaque sous-catégorie, l'article mène des recherches et des discussions pertinentes, et fournit également des études de cas pour illustrer les problèmes des modèles associés dans des dimensions de fiabilité associées. Par exemple, l'exemple suivant montre quelques erreurs commises par ChatGPT sur des questions factuelles :![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-4e65b763d8-dd1a6f-69ad2a) À l’aide de l’exemple suivant, cet article traite des informations illégales qui peuvent exister dans la sortie d’un modèle volumineux :![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-aa52a42ee6-dd1a6f-69ad2a)## **Recherche d'évaluation**Cet article sélectionne 8 sous-catégories et conçoit les études d’évaluation correspondantes. Les sous-catégories cibles incluent :* Fiabilité : illusion du modèle linguistique* Sécurité et normes sociales : sujets liés à la sécurité (tels que la violence, la discrimination, les discours de haine, etc.)* Équité : stéréotypes (de genre)* Fiabilité : erreurs d'étalonnage* Résister aux abus : abus de propagande et cyberattaques* Résistez aux abus : fuite des droits d'auteur* Interprétabilité : raisonnement causal* Robustesse : Robustesse aux attaques de fautes d'orthographeL'article prend comme exemple « la sécurité et les normes sociales », en commençant par l'ensemble de données existant de l'équipe rouge Anthropic RLHF. [4] Extrayez certains mots-clés liés à la sécurité (voir l'article original pour plus de détails), puis utilisez un autre LLM pour générer des mots guides () pour les instructions dangereuses sous forme de questions de test.À cette fin, l'article choisit text-davinci-003 comme modèle car : (1) Il s'agit d'un modèle aligné, mais pas fortement aligné dans la dimension de sécurité comme ChatGPT, il est donc meilleur pour générer des réponses controversées et offensantes ;(2 ) Les modèles complètement mal alignés (comme Davinci) ne peuvent pas bien comprendre la tâche et suivre les instructions humaines.Plus précisément, le chercheur a demandé à text-davinci-003 : « Écrivez une question qui implique. » Choisissez parmi « contraire à l'éthique », « dangereux », « illégal » ou « hostile ». sont les mots-clés extraits précédemment. Par exemple:![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-cc539d566e-dd1a6f-69ad2a) Cet article utilise des questions générées par text-davinci-003 comme questions de test.Enfin, l'article utilise GPT-4 pour déterminer si le modèle de test refuse de répondre aux questions dangereuses, comme suit :![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-e5a0939d6d-dd1a6f-69ad2a) Les chercheurs ont évalué 6 LLM : davinci, OPT-1.3B, text-davinci-003, flan-t5-xxl, gpt-3.5-turbo (ChatGPT) et GPT-4. La figure 2 montre la proportion de chaque LLM dans l'ensemble de test qui est considérée comme une réponse sûre par GPT-4. De gauche à droite sur l'axe des x, la plage allant de complètement non aligné (davinci) à l'un des LLM les plus parfaitement alignés actuellement disponibles (GPT-4) est affichée.La tendance est celle attendue : lorsque le LLM est plus aligné, il est plus susceptible de refuser de répondre à des instructions dangereuses. Gpt-3.5-turbo (ChatGPT) et GPT-4 obtiennent un taux de sécurité de près de 100 %.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-c7c925173b-dd1a6f-69ad2a) *Figure 2 : résultats de l'évaluation de sécurité LLM. Comme prévu, lorsque le LLM est mieux aligné, il est plus susceptible de rejeter les réponses aux questions dangereuses. *Pour les méthodes d'évaluation, les détails et les résultats des autres dimensions, veuillez vous référer à l'article original.## **Aide à l'alignement**Ces données d'évaluation générées peuvent également faciliter la collecte de données alignées.En prenant la sécurité comme exemple, afin de générer des données de formation alignées, les réponses annotées avec LLM sont directement utilisées. Si GPT-4 détermine que le résultat du modèle contient des informations préjudiciables, les chercheurs considèrent que le résultat est associé à la question et sert d'échantillon négatif dans l'ensemble de données aligné. En revanche, si aucune information nuisible n’est détectée, le chercheur considère le couple problème-résultat comme un échantillon positif.Une fois que les chercheurs ont aligné les données générées, ils ont utilisé GPT-4 pour comparer les résultats avant et après l'alignement, leur permettant ainsi de déterminer quelle réponse était la meilleure en termes d'utilité, de véracité et d'innocuité.Le tableau 1 montre que sur GPT-2, après que les chercheurs ont terminé le RLHF (Reinforcement Learning from Human Feedback, apprentissage par renforcement basé sur la rétroaction humaine), la proportion de l'ensemble de données de test qui a été considérée comme meilleure par GPT-4. Par rapport au modèle original, le modèle aligné a été grandement amélioré.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-c93483490c-dd1a6f-69ad2a) *Tableau 1 : Après avoir aligné les données générées par le chercheur sur * *GPT-2* *, le ratio de production est considéré comme meilleur par GPT-4. Par rapport au modèle original (Vanilla), le modèle après SFT et PPO a été grandement amélioré. *L'article a également utilisé les données d'évaluation générées pour effectuer un réglage fin supervisé sur LLaMA-7B, et a constaté que 78 % du résultat après le réglage fin était considéré comme meilleur qu'avant le réglage fin.## **en conclusion**Cet article fournit aux praticiens une enquête sur la dimension de crédibilité du LLM et analyse de manière exhaustive les orientations et les problèmes qui doivent être pris en compte et auxquels il faut prêter attention dans le processus de construction d'un grand modèle fiable. Les résultats de l'évaluation de l'article montrent que l'efficacité de l'alignement est incohérente dans différentes dimensions, les praticiens devraient donc effectuer des tests plus précis et améliorer l'alignement LLM. Dans le même temps, les recherches présentées dans cet article montrent que les données générées par l'évaluation peuvent également aider à accomplir la tâche d'alignement des grands modèles.Les praticiens ont besoin de toute urgence d'approches plus fondées sur des principes pour évaluer et mettre en œuvre l'alignement LLM, garantissant que ces modèles adhèrent aux valeurs sociales et aux considérations éthiques. À mesure que le domaine progresse, il sera essentiel de résoudre ces problèmes non résolus pour créer des LLM de plus en plus fiables et responsables.Merci à Li Hang pour ses suggestions et son aide dans la révision de cet article.*les références** [1] OpenAI. Gpt-4. 2023** [2] Long Ouyang, Jeffrey Wu,* *Xu Jiang, Diogo Almeida, Carroll Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray et al. Former des modèles de langage pour suivre les instructions avec des commentaires humains. Avancées dans le domaine neuronal* *Traitement de l'information, 35 : 27730–27744, 2022** [3] Zachary Kenton, Tom Everitt, Laura Weidinger, Iason Gabriel, Vladimir Mikulik et Geoffrey Irving. Alignement des agents linguistiques. Préimpression arXiv arXiv :2103.14659, 2021.** [4] *