Depuis l’avènement de ChatGPT, il y a eu une « course aux armements » pour les grands mannequins du monde entier. Selon les rapports, de janvier à juillet de cette année, un total de 64 grands modèles ont été lancés en Chine. En juillet 2023, un total de 130 grands modèles ont été lancés en Chine.
La « guerre des cent modèles » n’est pas suffisante pour décrire la « situation de guerre » torride d’aujourd’hui, alors quel grand modèle est le meilleur ? Ceci est indissociable de l’évaluation des grands modèles.
Cependant, à ce stade, il n’existe pas de méthode d’évaluation reconnue et efficace, ce qui a conduit à une « guerre de listes » dans le domaine de l’évaluation des grands modèles au pays et à l’étranger. Statistiques incomplètes, il existe actuellement pas moins de 50 outils (systèmes) d’évaluation sur le marché, et les résultats de listes similaires peuvent varier considérablement. Les doutes du public sur les « points d’effleurement » sont sans fin.
** L’industrie croit généralement qu’il existe deux critères de manifestation pour évaluer un grand modèle : l’un est le nombre de paramètres, et l’autre est l’ensemble d’évaluation. **
La quantité de paramètres fait référence au nombre de paramètres qui peuvent être appris dans le modèle, y compris le poids et le biais du modèle. La taille du nombre de paramètres détermine la complexité du modèle, et un plus grand nombre de paramètres et le nombre de couches sont les caractéristiques caractéristiques qui distinguent les grands modèles des petits modèles. En 2022, un lot de grands modèles aux États-Unis sera dévoilé, de Stability AI a publié Diffusion, un modèle génératif du texte aux images, à ChatGPT lancé par OpenAI, l’échelle des paramètres du modèle a commencé à entrer dans l’ère des dizaines de milliards et des centaines de milliards.
**À partir des indicateurs de surface, les modèles avec des centaines de milliards de paramètres sont généralement plus performants que des dizaines de milliards de paramètres. Toutefois, ce n’est pas absolu et les paramètres de tas n’améliorent pas nécessairement les capacités. Alors, comment un modèle avec le même niveau de paramètre devrait-il faire la distinction entre le bon et le mauvais ? Cela nécessite l’introduction de la deuxième dimension d’évaluation du grand modèle - l’ensemble d’évaluation.
L’ensemble d’évaluation est un jeu de données de référence unifié à tâche unique ou multitâche conçu pour évaluer efficacement l’effet complet du modèle de base et de son algorithme d’ajustement fin dans différents scénarios et différentes tâches, et il existe deux formes : ouvert et fermé.
**Ces ensembles d’évaluation sont comme des copies d’examen pour différents domaines, et en testant les scores de grands modèles dans ces « copies d’examen », les gens peuvent comparer plus intuitivement les performances des grands modèles. **
À l’ère des petits modèles, la plupart des institutions modèles utiliseront l’effet des ensembles d’évaluation académique comme base pour juger de la qualité des modèles. Aujourd’hui, les grands fabricants de modèles ont également commencé à participer plus activement au cadre d’analyse comparative universitaire, le considérant comme une base d’approbation et de marketing faisant autorité.
Il existe de nombreux grands ensembles d’évaluation de modèles sur le marché, tels que MMLU, le modèle d’évaluation chinois C-, SuperCLUE, etc.
-1- Outil d’évaluation
MMLU
Massive Multitask Language Understanding, une évaluation de la compréhension du langage pour les grands modèles, est l’une des évaluations de compréhension sémantique les plus célèbres pour les grands modèles, lancée par des chercheurs de l’Université UC Berkeley en septembre 2020. **Le test couvre 57 tâches, dont les mathématiques élémentaires, l’histoire des États-Unis, l’informatique, le droit, etc. ** La tâche couvre un large éventail de connaissances et est en anglais pour évaluer la couverture des connaissances de base et la compréhension du grand modèle.
Adresse papier :
Site officiel :
Classement des grands modèles :
C-
C- est un kit complet d’évaluation du modèle de base chinois. Lancé conjointement par des chercheurs de l’Université Jiao Tong de Shanghai, de l’Université Tsinghua et de l’Université d’Édimbourg en mai 2023, il contient 13 948 questions à choix multiples** couvrant 52 disciplines différentes et quatre niveaux de difficulté** pour mesurer la compréhension des grands modèles chinois.
Adresse papier :
Adresse du projet :
Site officiel :
SuperCLUE
Benchmark d’évaluation complet chinois des grands modèles généraux, les capacités des modèles sont évaluées à partir de trois dimensions différentes : capacité de base, capacité professionnelle et capacité caractéristique chinoise.
Parmi eux, les capacités de base comprennent : ** la compréhension sémantique, le dialogue, le raisonnement logique, la simulation de rôles, le code, la génération et la création et 10 autres capacités. **
Les compétences professionnelles comprennent : Comprend des examens secondaires, universitaires et professionnels, couvrant plus de 50 compétences allant des mathématiques, de la physique, de la géographie aux sciences sociales.
Capacité caractéristique chinoise : Pour les tâches ayant des caractéristiques chinoises, elle comprend plus de 10 capacités telles que les expressions idiomatiques chinoises, la poésie, la littérature et les glyphes.
Adresse du projet :
Site officiel :
Liste SuperCLUE Langya
Benchmark d’évaluation de bataille anonyme de grand modèle universel chinois, le même que ChatbotArena, crowdsourcing différents produits de grand modèle pour l’évaluation anonyme et aléatoire de la confrontation, les résultats sont basés sur le système de classement Elo.
Adresse du projet :
lyb
Arène des chatbots
ChatbotArena est une plateforme de référence pour les grands modèles de langage (LLM) de LMSYS Org, une organisation de recherche fondée par l’UC Berkeley, l’UC San Diego et l’Université Carnegie Mellon.
**Plateforme de référence LLM pour les correspondances aléatoires anonymes sur une base participative. **Entrez dans la plate-forme de combat via l’adresse de l’expérience de démonstration. Entrez la question qui vous intéresse, après avoir soumis la question, le modèle anonyme jouera par paires pour générer des réponses pertinentes respectivement, obligeant les utilisateurs à juger les réponses et à choisir l’une des 4 options de jugement : le modèle A est meilleur, le modèle B est meilleur, ex aequo et tous sont médiocres. Prise en charge de plusieurs cycles de conversation. Enfin, le système de notation Elo est utilisé pour évaluer de manière exhaustive les capacités des grands modèles. (Vous pouvez spécifier le modèle vous-même pour voir l’effet, mais il ne sera pas pris en compte dans le classement final).
Adresse du projet :
Site officiel :
Drapeau
Flag est une plate-forme d’évaluation de modèles à grande échelle utilisant le cadre d’évaluation tridimensionnel « capability-task-index »** pour fournir des résultats d’évaluation complets et détaillés. La plateforme a fourni plus de 30 capacités, 5 tâches et 4 catégories d’indicateurs, soit un total de plus de 600 dimensions d’évaluation complète, dont 22 ensembles de données d’évaluation subjective et objective et 84433 questions.
La première phase de Flag a permis le lancement d’un système d’évaluation de modèles en langage large, d’un outil d’évaluation de modèles de texte et de graphiques multilingues open source mCLIP et d’un outil d’évaluation de génération de texte et d’images open source Image. Libra continuera également d’explorer la recherche croisée entre l’évaluation des modèles linguistiques et la psychologie, l’éducation, l’éthique et d’autres disciplines sociales, afin d’évaluer le modèle linguistique de manière plus scientifique et plus complète. Destiné aux développeurs et aux utilisateurs de grands modèles, Flag est conçu pour aider les équipes de développement à comprendre les faiblesses de leurs modèles et à stimuler l’innovation technologique.
Adresse du projet :
Site officiel :
OpenCompass
En août 2023, le Shanghai Artificial Intelligence Lab (Shanghai AI Lab) a officiellement lancé le système d’évaluation ouvert des grands modèles OpenCompass, qui prend en charge l’évaluation à guichet unique de divers modèles de grands modèles de langage et de modèles multimodaux grâce à un cadre d’évaluation complet et reproductible open source**, et publie régulièrement la liste des résultats de l’évaluation.
Site officiel :
Adresse du projet :
JioNLP
Pour examiner l’effet d’aide et la capacité auxiliaire du modèle LLM pour les utilisateurs humains, s’il peut atteindre le niveau d’un « assistant intelligent », des questions à choix multiples sont dérivées de divers examens professionnels en Chine continentale, en se concentrant sur la couverture de la connaissance objective du modèle, représentant 32% ; Les questions subjectives proviennent de synthèses quotidiennes et examinent principalement l’effet des utilisateurs sur les fonctions courantes du LLM.
Adresse du projet :
Mesurer des jeux de données
Évaluation du grand modèle de Tsinghua Security
Une collection d’avis recueillis par Tsinghua couvre huit catégories, dont les discours haineux, les discours biaisés et discriminatoires, la criminalité et le droit, la vie privée, l’éthique et la moralité, y compris plus de 40 catégories de sécurité de deuxième niveau divisées en catégories fines**.
Adresse:
LLM-3
Lancé par le laboratoire de NLP de l’Université Fudan, il se concentre sur l’évaluation des connaissances et des capacités professionnelles, couvrant 13 disciplines et plus de 50 disciplines de deuxième niveau désignées par le ministère de l’Éducation, telles que la philosophie, l’économie, le droit, l’éducation, la littérature, l’histoire, les sciences, l’ingénierie, l’agriculture, la médecine, les sciences militaires, la gestion, l’art, etc., avec un total d’environ 20 questions et réponses génératives standard. Afin d’éviter l’apparition du phénomène de brossage des classements, l’évaluation LLM-3 adopte un nouveau mode d’évaluation, à savoir le mode « examen banque de questions ».
Adresse:
GAOKAO-Banc
GAOKAO-bench est un cadre d’évaluation qui utilise les questions de l’examen d’entrée à l’université chinoise comme un ensemble de données pour évaluer la capacité de compréhension de la langue et la capacité de raisonnement logique des grands modèles.
Adresse du projet :
PandaLM
Il entraîne directement un modèle de notation automatisé et évalue deux modèles candidats sur un système à trois points 0.1.2.
Adresse du projet :
BIG-banc
Une collection d’avis publiés par Google, BIG-bench se compose de 204 tâches sur des sujets tels que la linguistique, le développement de l’enfant, les mathématiques, le raisonnement de bon sens, la physique biologique, les préjugés sociaux, le développement de logiciels, etc.
Adresse du projet :
MMCU
Oracle Yi AI Research Institute propose un test pour mesurer la précision des grands modèles chinois dans la gestion du multitâche, et le contenu du jeu de données couvre quatre domaines principaux : le traitement médical, le droit, la psychologie et l’éducation. **Le nombre de questions a atteint 10 000+, dont 2819 questions dans le domaine de la médecine, 3695 questions dans le domaine du droit, 2001 questions dans le domaine de la psychologie et 3331 questions dans le domaine de l’éducation.
Adresse du projet :
**AGI **
Le Big Model Basic Competency Assessment Benchmark de Microsoft, lancé en avril 2023, mesure principalement la capacité générale des grands modèles en matière de cognition humaine et de résolution de problèmes, couvrant 20 examens d’admission et de qualification officiels, publics et de haut niveau pour les candidats humains ordinaires du monde entier, y compris des données en chinois et en anglais. Par conséquent, le test est plus enclin à obtenir des résultats de tests humains, couvrant à la fois le chinois et l’anglais.
Adresse papier :
GSM8K
Le grand modèle d’OpenAI, le Mathematical Reasoning Proficiency Assessment Benchmark, couvre 8 500 ensembles de données de problèmes mathématiques de haute qualité au niveau du collège. Le jeu de données est plus volumineux que le jeu de données de problèmes de texte mathématique précédent, le langage est plus diversifié et les questions sont plus difficiles. Le test a été publié en octobre 2021 et reste une référence de test très difficile.
Adresse papier :
BARRE
La méthode d’évaluation HELM comprend principalement trois modules : scène, adaptation et indicateurs**, et chaque cycle d’évaluation doit spécifier une scène, une invite pour le modèle d’adaptation et un ou plusieurs indicateurs. Il couvre principalement l’anglais, avec 7 indicateurs, dont la précision, l’incertitude/l’étalonnage, la robustesse, l’équité, le biais, la toxicité et l’efficacité de l’inférence ; Les tâches comprennent les questions-réponses, la recherche d’informations, les résumés, la classification de textes, etc.
Adresse papier :
Adresse du projet :
Chinois-LLalA-Alpaga
Il est noté comme une valeur relative, avec GPT4 préféré et ChatGPT3 en partie.
Adresse du projet :
Banc MT
Évaluez les capacités de dialogue et de suivi d’instructions à plusieurs tours des grands modèles. L’ensemble de données comprend 80 questions de dialogue à plusieurs tours de haute qualité (8 catégories*10 questions), chacune répondant à 6 grands modèles bien connus (GPT-4, GPT-3.5, Claud-v1, Vigogne-13B, Alpaga-13B et LLaMA-13B), triées manuellement pour obtenir 3,3 000 paires de paires.
Adresse papier :
Juger LLM en tant que juge avec MT-Bench et Chatbot Arena
GitHub (en anglais)
Adresse du projet :
/tree/main/fastchat/llm_judge
Adresse de téléchargement des données :
-2- Mode d’évaluation
Grâce aux outils d’évaluation ci-dessus, on constate que les modes d’évaluation courants actuels des grands modèles peuvent être grossièrement résumés en quatre types :
**1. Évaluez les questions. ** Collectez principalement une variété d’ensembles de données d’évaluation, puis divisez les ensembles de données en différentes capacités dimensionnelles. En concevant certaines tâches qui permettent à de grands modèles d’effectuer ces ensembles de données, les scores sont calculés par rapport aux réponses standard. Des exemples typiques sont OpenCompass, le classement openLLM de huggingface, etc.
**2. Laissez GPT-4 en juger. Collectez les jeux de données à des fins d’évaluation (certains ensembles de données qui ne sont pas open source et qui n’ont pas de réponses standard seront également inclus), puis laissez GPT-4 juger les résultats de la génération de modèles de grande taille. Il existe deux façons d’évaluer ce processus d’évaluation, l’une consiste à noter directement, et l’autre consiste à concevoir certaines dimensions, telles que les faits, l’exactitude, la conformité en matière de sécurité, etc., puis à les évaluer à un niveau plus granulaire.
**3. Mode Arène. **Similaire à une arène dans un jeu compétitif. Chaque fois que deux grands modèles jouent PK, l’utilisateur (parfois GPT-4) pour évaluer quel modèle est le meilleur, le grand modèle gagnant a des points supplémentaires et le grand modèle perdant a un moins. Lorsqu’un nombre suffisant de tours PK sont exécutés, il y aura un classement des scores des grands modèles, ce qui est relativement juste et peut refléter objectivement la force du modèle. Un exemple typique est le classement Chatbot Arena de l’UC Berkeley.
**4. Évaluation des compétences individuelles. Par exemple, pour les capacités mathématiques, les capacités de code, les capacités de raisonnement, etc., l’évaluation de ces capacités peut non seulement déterminer si un grand modèle a vraiment une capacité de réflexion semblable à celle de l’homme, mais aussi aider directement à sélectionner de grands modèles (tels que des assistants de code) dans des domaines spécifiques.
-3- Résultats de l’évaluation « très différents"
Il existe de nombreux outils d’évaluation différents, et les résultats d’évaluation des différents outils d’évaluation sont également « très différents ».
Le 15 août, un établissement a publié un rapport sur l’expérience des grands modèles d’intelligence artificielle, qui a mené une évaluation horizontale de l’expérience d’utilisation des grands modèles traditionnels nationaux. La liste a évalué 8 modèles d’IA grand public en Chine avec 500 questions, et enfin Xunfei Xinghuo s’est classé premier, Baidu Wenxin s’est classé deuxième et Ali Tongyi Qianwen s’est classé deuxième en partant du bas.
En septembre, dans le dernier numéro de la populaire liste d’évaluation open source C, le grand modèle « Yuntianshu » de Yuntian Lifei s’est classé premier, tandis que GPT-4 ne s’est classé que dixième.
Le même mois, SuperCLUE a publié sa liste de grands modèles pour le mois de septembre. GPT-4 s’est classé premier dans la liste globale, tandis que SenseChat 3.0 de SenseTime est en tête de la liste chinoise.
Le 19 octobre, l’Université de Stanford a publié l’indice de transparence du modèle de base 2023, qui a évalué 10 modèles de base courants en matière de transparence, Llama 2 se classant premier et GPT-4 troisième.
Pourquoi les résultats des différents outils d’évaluation sont-ils si différents ? Les principales raisons sont les suivantes :
**1.Chaque ensemble d’examens académiques populaires a son propre objectif. **Par exemple, GSM8K et MMLU, qui sont les plus couramment utilisés par Meta, sont des ensembles de test pour différents niveaux - le premier est des mathématiques élémentaires, le second est une question et une réponse multidisciplinaires plus avancées. Tout comme les étudiants d’une classe passent des examens dans différentes matières, les grands modèles se classent naturellement différemment sur différentes listes.
**2.La proportion de questions subjectives dans l’évaluation des grands modèles augmente. **Dans la liste actuelle d’évaluation des grands modèles au pays et à l’étranger, l’idée de combiner des questions subjectives et des questions objectives est généralement reconnue par l’industrie. Mais le défi des questions subjectives est de savoir si les critères d’évaluation dans l’esprit de chacun sont cohérents. Et la « notation de l’équipe humaine » touche inévitablement le plafond du nombre de questions, et pour les grandes évaluations de modèles, plus le nombre de questions est élevé, plus les conclusions sont efficaces.
**3. La concurrence verticale entre les modèles dédiés et les grands modèles à usage général conduit à des classements faussés. **Dans le scénario d’atterrissage réel, les entreprises clientes des secteurs de la fabrication, de la santé, de la finance et d’autres secteurs doivent effectuer des réglages fins secondaires en fonction de leurs propres bases de données lorsqu’elles accèdent à des fonctionnalités de modèles volumineux. Cela signifie également que les résultats obtenus par la participation directe du grand modèle général d’origine dans la séance de questions-réponses sur le champ vertical ne peuvent pas représenter les performances réelles du produit du grand modèle dans le champ vertical.
**4. Le phénomène de « brossage de la liste » causé par l’ensemble de test open source. **De nombreux nouveaux grands modèles peuvent surpasser GPT-4 dans la liste des jeux de test open source, en partie à cause du « brossage des problèmes » présumé. Par exemple, C- actuellement, seule la question est divulguée mais la réponse n’est pas divulguée, et les fabricants de grands modèles participant au test trouvent un annotateur de données pour refaire la question, ou utilisent GPT-4 pour refaire la question, puis déduisent la réponse pour entraîner le grand modèle, afin qu’ils puissent obtenir des notes complètes dans le test de sujet correspondant.
Les ensembles de révision à source fermée peuvent-ils éviter de « brosser la liste » ? Dans le cas contraire, si l’ensemble d’évaluation à source fermée n’est pas mis à jour, les modèles participants peuvent extraire l’historique de l’arrière-plan pour « tricher » et refaire les questions testées. C’est l’équivalent d’une « fausse source fermée ».
**En réponse aux problèmes ci-dessus, l’industrie explore également des solutions correspondantes. **
Par exemple, en raison de la difficulté d’établir des critères d’évaluation cohérents pour les questions subjectives dans l’évaluation de grands modèles, et du problème que le « score de l’équipe humaine » touche le plafond du nombre de questions, l’industrie a commencé à adopter le modèle de « notation humaine + GPT4 ». En Chine, SuperCLUE choisira de considérer GPT4 comme un « professeur de notation » et le laissera rejoindre l’équipe humaine pour aider à la notation.
Un autre exemple est le problème du « brossage de la liste », les initiés de l’industrie estiment que « l’ensemble d’évaluation devrait être fermé pour éviter d’être trompé, mais une bonne évaluation de modèle de grande taille devrait être une évaluation ouverte du processus, ce qui est pratique pour que tout le monde puisse superviser l’évaluation ». "
Certaines personnes pensent également que c’est une bonne vision de rendre public le processus d’évaluation des grands modèles, mais compte tenu de l’équité et de l’impartialité de l’évaluation, il devrait toujours y avoir un grand nombre d’ensembles d’évaluation fermés, et l'« examen à livre fermé » peut vraiment évaluer la capacité du modèle.
En outre, il existe de grandes évaluations de modèles de scores à l’épreuve des pinceaux, telles que le LLM-3 lancé par le laboratoire NLP de l’Université Fudan, qui adopte un nouveau mode d’évaluation, c’est-à-dire le mode « examen de la banque de questions ». Dans le cadre de la LLM-3, chaque système participant doit remplir un échantillon aléatoire de 1 000 questions de la banque de questions totale, par rapport au modèle du même établissement, afin de s’assurer que chaque question d’évaluation n’est pas dupliquée. Le processus d’évaluation se déroulera en ligne et l’envoi des questions en un tour d’évaluation sera effectué en série, c’est-à-dire que l’envoi de la question suivante dépendra de la réponse à la question précédente pour éviter l’exploration malveillante.
Étant donné que les grands modèles impliquent un large éventail de domaines et d’applications, les indicateurs et les méthodes d’évaluation auxquels les grands modèles dans différents domaines et applications doivent prêter attention sont différents. Par conséquent, différentes institutions et organisations peuvent proposer des critères et des méthodes d’évaluation différents pour des domaines d’application et des besoins spécifiques. « Bien qu’il n’y ait pas de norme uniforme, l’importance de l’évaluation est de fournir un moyen d’évaluer et de comparer les performances et l’efficacité de différents grands modèles, et d’aider les utilisateurs à choisir le grand modèle qui répond à leurs besoins. »
La façon de faire une évaluation vraiment complète et complète des grands modèles est également « confuse » à l’avant-garde du monde universitaire et de l’industrie. Néanmoins, les institutions faisant autorité devraient renforcer la recherche, former un consensus dès que possible et promouvoir le progrès technologique et le développement de l’industrie.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
De nouveaux grands modèles prétendent surpasser GPT-4 à chaque tournant, et nous avons mis en place ces outils de révision
Source : Officier pionnier de l’IA
Depuis l’avènement de ChatGPT, il y a eu une « course aux armements » pour les grands mannequins du monde entier. Selon les rapports, de janvier à juillet de cette année, un total de 64 grands modèles ont été lancés en Chine. En juillet 2023, un total de 130 grands modèles ont été lancés en Chine.
La « guerre des cent modèles » n’est pas suffisante pour décrire la « situation de guerre » torride d’aujourd’hui, alors quel grand modèle est le meilleur ? Ceci est indissociable de l’évaluation des grands modèles.
Cependant, à ce stade, il n’existe pas de méthode d’évaluation reconnue et efficace, ce qui a conduit à une « guerre de listes » dans le domaine de l’évaluation des grands modèles au pays et à l’étranger. Statistiques incomplètes, il existe actuellement pas moins de 50 outils (systèmes) d’évaluation sur le marché, et les résultats de listes similaires peuvent varier considérablement. Les doutes du public sur les « points d’effleurement » sont sans fin.
** L’industrie croit généralement qu’il existe deux critères de manifestation pour évaluer un grand modèle : l’un est le nombre de paramètres, et l’autre est l’ensemble d’évaluation. **
La quantité de paramètres fait référence au nombre de paramètres qui peuvent être appris dans le modèle, y compris le poids et le biais du modèle. La taille du nombre de paramètres détermine la complexité du modèle, et un plus grand nombre de paramètres et le nombre de couches sont les caractéristiques caractéristiques qui distinguent les grands modèles des petits modèles. En 2022, un lot de grands modèles aux États-Unis sera dévoilé, de Stability AI a publié Diffusion, un modèle génératif du texte aux images, à ChatGPT lancé par OpenAI, l’échelle des paramètres du modèle a commencé à entrer dans l’ère des dizaines de milliards et des centaines de milliards.
**À partir des indicateurs de surface, les modèles avec des centaines de milliards de paramètres sont généralement plus performants que des dizaines de milliards de paramètres. Toutefois, ce n’est pas absolu et les paramètres de tas n’améliorent pas nécessairement les capacités. Alors, comment un modèle avec le même niveau de paramètre devrait-il faire la distinction entre le bon et le mauvais ? Cela nécessite l’introduction de la deuxième dimension d’évaluation du grand modèle - l’ensemble d’évaluation.
L’ensemble d’évaluation est un jeu de données de référence unifié à tâche unique ou multitâche conçu pour évaluer efficacement l’effet complet du modèle de base et de son algorithme d’ajustement fin dans différents scénarios et différentes tâches, et il existe deux formes : ouvert et fermé.
**Ces ensembles d’évaluation sont comme des copies d’examen pour différents domaines, et en testant les scores de grands modèles dans ces « copies d’examen », les gens peuvent comparer plus intuitivement les performances des grands modèles. **
À l’ère des petits modèles, la plupart des institutions modèles utiliseront l’effet des ensembles d’évaluation académique comme base pour juger de la qualité des modèles. Aujourd’hui, les grands fabricants de modèles ont également commencé à participer plus activement au cadre d’analyse comparative universitaire, le considérant comme une base d’approbation et de marketing faisant autorité.
Il existe de nombreux grands ensembles d’évaluation de modèles sur le marché, tels que MMLU, le modèle d’évaluation chinois C-, SuperCLUE, etc.
-1- Outil d’évaluation
MMLU
Massive Multitask Language Understanding, une évaluation de la compréhension du langage pour les grands modèles, est l’une des évaluations de compréhension sémantique les plus célèbres pour les grands modèles, lancée par des chercheurs de l’Université UC Berkeley en septembre 2020. **Le test couvre 57 tâches, dont les mathématiques élémentaires, l’histoire des États-Unis, l’informatique, le droit, etc. ** La tâche couvre un large éventail de connaissances et est en anglais pour évaluer la couverture des connaissances de base et la compréhension du grand modèle.
Adresse papier :
Site officiel :
Classement des grands modèles :
C-
C- est un kit complet d’évaluation du modèle de base chinois. Lancé conjointement par des chercheurs de l’Université Jiao Tong de Shanghai, de l’Université Tsinghua et de l’Université d’Édimbourg en mai 2023, il contient 13 948 questions à choix multiples** couvrant 52 disciplines différentes et quatre niveaux de difficulté** pour mesurer la compréhension des grands modèles chinois.
Adresse papier :
Adresse du projet :
Site officiel :
SuperCLUE
Benchmark d’évaluation complet chinois des grands modèles généraux, les capacités des modèles sont évaluées à partir de trois dimensions différentes : capacité de base, capacité professionnelle et capacité caractéristique chinoise.
Parmi eux, les capacités de base comprennent : ** la compréhension sémantique, le dialogue, le raisonnement logique, la simulation de rôles, le code, la génération et la création et 10 autres capacités. **
Les compétences professionnelles comprennent : Comprend des examens secondaires, universitaires et professionnels, couvrant plus de 50 compétences allant des mathématiques, de la physique, de la géographie aux sciences sociales.
Capacité caractéristique chinoise : Pour les tâches ayant des caractéristiques chinoises, elle comprend plus de 10 capacités telles que les expressions idiomatiques chinoises, la poésie, la littérature et les glyphes.
Adresse du projet :
Site officiel :
Liste SuperCLUE Langya
Benchmark d’évaluation de bataille anonyme de grand modèle universel chinois, le même que ChatbotArena, crowdsourcing différents produits de grand modèle pour l’évaluation anonyme et aléatoire de la confrontation, les résultats sont basés sur le système de classement Elo.
Adresse du projet :
lyb
Arène des chatbots
ChatbotArena est une plateforme de référence pour les grands modèles de langage (LLM) de LMSYS Org, une organisation de recherche fondée par l’UC Berkeley, l’UC San Diego et l’Université Carnegie Mellon.
**Plateforme de référence LLM pour les correspondances aléatoires anonymes sur une base participative. **Entrez dans la plate-forme de combat via l’adresse de l’expérience de démonstration. Entrez la question qui vous intéresse, après avoir soumis la question, le modèle anonyme jouera par paires pour générer des réponses pertinentes respectivement, obligeant les utilisateurs à juger les réponses et à choisir l’une des 4 options de jugement : le modèle A est meilleur, le modèle B est meilleur, ex aequo et tous sont médiocres. Prise en charge de plusieurs cycles de conversation. Enfin, le système de notation Elo est utilisé pour évaluer de manière exhaustive les capacités des grands modèles. (Vous pouvez spécifier le modèle vous-même pour voir l’effet, mais il ne sera pas pris en compte dans le classement final).
Adresse du projet :
Site officiel :
Drapeau
Flag est une plate-forme d’évaluation de modèles à grande échelle utilisant le cadre d’évaluation tridimensionnel « capability-task-index »** pour fournir des résultats d’évaluation complets et détaillés. La plateforme a fourni plus de 30 capacités, 5 tâches et 4 catégories d’indicateurs, soit un total de plus de 600 dimensions d’évaluation complète, dont 22 ensembles de données d’évaluation subjective et objective et 84433 questions.
La première phase de Flag a permis le lancement d’un système d’évaluation de modèles en langage large, d’un outil d’évaluation de modèles de texte et de graphiques multilingues open source mCLIP et d’un outil d’évaluation de génération de texte et d’images open source Image. Libra continuera également d’explorer la recherche croisée entre l’évaluation des modèles linguistiques et la psychologie, l’éducation, l’éthique et d’autres disciplines sociales, afin d’évaluer le modèle linguistique de manière plus scientifique et plus complète. Destiné aux développeurs et aux utilisateurs de grands modèles, Flag est conçu pour aider les équipes de développement à comprendre les faiblesses de leurs modèles et à stimuler l’innovation technologique.
Adresse du projet :
Site officiel :
OpenCompass
En août 2023, le Shanghai Artificial Intelligence Lab (Shanghai AI Lab) a officiellement lancé le système d’évaluation ouvert des grands modèles OpenCompass, qui prend en charge l’évaluation à guichet unique de divers modèles de grands modèles de langage et de modèles multimodaux grâce à un cadre d’évaluation complet et reproductible open source**, et publie régulièrement la liste des résultats de l’évaluation.
Site officiel :
Adresse du projet :
JioNLP
Pour examiner l’effet d’aide et la capacité auxiliaire du modèle LLM pour les utilisateurs humains, s’il peut atteindre le niveau d’un « assistant intelligent », des questions à choix multiples sont dérivées de divers examens professionnels en Chine continentale, en se concentrant sur la couverture de la connaissance objective du modèle, représentant 32% ; Les questions subjectives proviennent de synthèses quotidiennes et examinent principalement l’effet des utilisateurs sur les fonctions courantes du LLM.
Adresse du projet :
Mesurer des jeux de données
Évaluation du grand modèle de Tsinghua Security
Une collection d’avis recueillis par Tsinghua couvre huit catégories, dont les discours haineux, les discours biaisés et discriminatoires, la criminalité et le droit, la vie privée, l’éthique et la moralité, y compris plus de 40 catégories de sécurité de deuxième niveau divisées en catégories fines**.
Adresse:
LLM-3
Lancé par le laboratoire de NLP de l’Université Fudan, il se concentre sur l’évaluation des connaissances et des capacités professionnelles, couvrant 13 disciplines et plus de 50 disciplines de deuxième niveau désignées par le ministère de l’Éducation, telles que la philosophie, l’économie, le droit, l’éducation, la littérature, l’histoire, les sciences, l’ingénierie, l’agriculture, la médecine, les sciences militaires, la gestion, l’art, etc., avec un total d’environ 20 questions et réponses génératives standard. Afin d’éviter l’apparition du phénomène de brossage des classements, l’évaluation LLM-3 adopte un nouveau mode d’évaluation, à savoir le mode « examen banque de questions ».
Adresse:
GAOKAO-Banc
GAOKAO-bench est un cadre d’évaluation qui utilise les questions de l’examen d’entrée à l’université chinoise comme un ensemble de données pour évaluer la capacité de compréhension de la langue et la capacité de raisonnement logique des grands modèles.
Adresse du projet :
PandaLM
Il entraîne directement un modèle de notation automatisé et évalue deux modèles candidats sur un système à trois points 0.1.2.
Adresse du projet :
BIG-banc
Une collection d’avis publiés par Google, BIG-bench se compose de 204 tâches sur des sujets tels que la linguistique, le développement de l’enfant, les mathématiques, le raisonnement de bon sens, la physique biologique, les préjugés sociaux, le développement de logiciels, etc.
Adresse du projet :
MMCU
Oracle Yi AI Research Institute propose un test pour mesurer la précision des grands modèles chinois dans la gestion du multitâche, et le contenu du jeu de données couvre quatre domaines principaux : le traitement médical, le droit, la psychologie et l’éducation. **Le nombre de questions a atteint 10 000+, dont 2819 questions dans le domaine de la médecine, 3695 questions dans le domaine du droit, 2001 questions dans le domaine de la psychologie et 3331 questions dans le domaine de l’éducation.
Adresse du projet :
**AGI **
Le Big Model Basic Competency Assessment Benchmark de Microsoft, lancé en avril 2023, mesure principalement la capacité générale des grands modèles en matière de cognition humaine et de résolution de problèmes, couvrant 20 examens d’admission et de qualification officiels, publics et de haut niveau pour les candidats humains ordinaires du monde entier, y compris des données en chinois et en anglais. Par conséquent, le test est plus enclin à obtenir des résultats de tests humains, couvrant à la fois le chinois et l’anglais.
Adresse papier :
GSM8K
Le grand modèle d’OpenAI, le Mathematical Reasoning Proficiency Assessment Benchmark, couvre 8 500 ensembles de données de problèmes mathématiques de haute qualité au niveau du collège. Le jeu de données est plus volumineux que le jeu de données de problèmes de texte mathématique précédent, le langage est plus diversifié et les questions sont plus difficiles. Le test a été publié en octobre 2021 et reste une référence de test très difficile.
Adresse papier :
BARRE
La méthode d’évaluation HELM comprend principalement trois modules : scène, adaptation et indicateurs**, et chaque cycle d’évaluation doit spécifier une scène, une invite pour le modèle d’adaptation et un ou plusieurs indicateurs. Il couvre principalement l’anglais, avec 7 indicateurs, dont la précision, l’incertitude/l’étalonnage, la robustesse, l’équité, le biais, la toxicité et l’efficacité de l’inférence ; Les tâches comprennent les questions-réponses, la recherche d’informations, les résumés, la classification de textes, etc.
Adresse papier :
Adresse du projet :
Chinois-LLalA-Alpaga
Il est noté comme une valeur relative, avec GPT4 préféré et ChatGPT3 en partie.
Adresse du projet :
Banc MT
Évaluez les capacités de dialogue et de suivi d’instructions à plusieurs tours des grands modèles. L’ensemble de données comprend 80 questions de dialogue à plusieurs tours de haute qualité (8 catégories*10 questions), chacune répondant à 6 grands modèles bien connus (GPT-4, GPT-3.5, Claud-v1, Vigogne-13B, Alpaga-13B et LLaMA-13B), triées manuellement pour obtenir 3,3 000 paires de paires.
Adresse papier :
Juger LLM en tant que juge avec MT-Bench et Chatbot Arena
GitHub (en anglais)
Adresse du projet :
/tree/main/fastchat/llm_judge
Adresse de téléchargement des données :
-2- Mode d’évaluation
Grâce aux outils d’évaluation ci-dessus, on constate que les modes d’évaluation courants actuels des grands modèles peuvent être grossièrement résumés en quatre types :
**1. Évaluez les questions. ** Collectez principalement une variété d’ensembles de données d’évaluation, puis divisez les ensembles de données en différentes capacités dimensionnelles. En concevant certaines tâches qui permettent à de grands modèles d’effectuer ces ensembles de données, les scores sont calculés par rapport aux réponses standard. Des exemples typiques sont OpenCompass, le classement openLLM de huggingface, etc.
**2. Laissez GPT-4 en juger. Collectez les jeux de données à des fins d’évaluation (certains ensembles de données qui ne sont pas open source et qui n’ont pas de réponses standard seront également inclus), puis laissez GPT-4 juger les résultats de la génération de modèles de grande taille. Il existe deux façons d’évaluer ce processus d’évaluation, l’une consiste à noter directement, et l’autre consiste à concevoir certaines dimensions, telles que les faits, l’exactitude, la conformité en matière de sécurité, etc., puis à les évaluer à un niveau plus granulaire.
**3. Mode Arène. **Similaire à une arène dans un jeu compétitif. Chaque fois que deux grands modèles jouent PK, l’utilisateur (parfois GPT-4) pour évaluer quel modèle est le meilleur, le grand modèle gagnant a des points supplémentaires et le grand modèle perdant a un moins. Lorsqu’un nombre suffisant de tours PK sont exécutés, il y aura un classement des scores des grands modèles, ce qui est relativement juste et peut refléter objectivement la force du modèle. Un exemple typique est le classement Chatbot Arena de l’UC Berkeley.
**4. Évaluation des compétences individuelles. Par exemple, pour les capacités mathématiques, les capacités de code, les capacités de raisonnement, etc., l’évaluation de ces capacités peut non seulement déterminer si un grand modèle a vraiment une capacité de réflexion semblable à celle de l’homme, mais aussi aider directement à sélectionner de grands modèles (tels que des assistants de code) dans des domaines spécifiques.
-3- Résultats de l’évaluation « très différents"
Il existe de nombreux outils d’évaluation différents, et les résultats d’évaluation des différents outils d’évaluation sont également « très différents ».
Le 15 août, un établissement a publié un rapport sur l’expérience des grands modèles d’intelligence artificielle, qui a mené une évaluation horizontale de l’expérience d’utilisation des grands modèles traditionnels nationaux. La liste a évalué 8 modèles d’IA grand public en Chine avec 500 questions, et enfin Xunfei Xinghuo s’est classé premier, Baidu Wenxin s’est classé deuxième et Ali Tongyi Qianwen s’est classé deuxième en partant du bas.
En septembre, dans le dernier numéro de la populaire liste d’évaluation open source C, le grand modèle « Yuntianshu » de Yuntian Lifei s’est classé premier, tandis que GPT-4 ne s’est classé que dixième.
Le même mois, SuperCLUE a publié sa liste de grands modèles pour le mois de septembre. GPT-4 s’est classé premier dans la liste globale, tandis que SenseChat 3.0 de SenseTime est en tête de la liste chinoise.
Le 19 octobre, l’Université de Stanford a publié l’indice de transparence du modèle de base 2023, qui a évalué 10 modèles de base courants en matière de transparence, Llama 2 se classant premier et GPT-4 troisième.
Pourquoi les résultats des différents outils d’évaluation sont-ils si différents ? Les principales raisons sont les suivantes :
**1.Chaque ensemble d’examens académiques populaires a son propre objectif. **Par exemple, GSM8K et MMLU, qui sont les plus couramment utilisés par Meta, sont des ensembles de test pour différents niveaux - le premier est des mathématiques élémentaires, le second est une question et une réponse multidisciplinaires plus avancées. Tout comme les étudiants d’une classe passent des examens dans différentes matières, les grands modèles se classent naturellement différemment sur différentes listes.
**2.La proportion de questions subjectives dans l’évaluation des grands modèles augmente. **Dans la liste actuelle d’évaluation des grands modèles au pays et à l’étranger, l’idée de combiner des questions subjectives et des questions objectives est généralement reconnue par l’industrie. Mais le défi des questions subjectives est de savoir si les critères d’évaluation dans l’esprit de chacun sont cohérents. Et la « notation de l’équipe humaine » touche inévitablement le plafond du nombre de questions, et pour les grandes évaluations de modèles, plus le nombre de questions est élevé, plus les conclusions sont efficaces.
**3. La concurrence verticale entre les modèles dédiés et les grands modèles à usage général conduit à des classements faussés. **Dans le scénario d’atterrissage réel, les entreprises clientes des secteurs de la fabrication, de la santé, de la finance et d’autres secteurs doivent effectuer des réglages fins secondaires en fonction de leurs propres bases de données lorsqu’elles accèdent à des fonctionnalités de modèles volumineux. Cela signifie également que les résultats obtenus par la participation directe du grand modèle général d’origine dans la séance de questions-réponses sur le champ vertical ne peuvent pas représenter les performances réelles du produit du grand modèle dans le champ vertical.
**4. Le phénomène de « brossage de la liste » causé par l’ensemble de test open source. **De nombreux nouveaux grands modèles peuvent surpasser GPT-4 dans la liste des jeux de test open source, en partie à cause du « brossage des problèmes » présumé. Par exemple, C- actuellement, seule la question est divulguée mais la réponse n’est pas divulguée, et les fabricants de grands modèles participant au test trouvent un annotateur de données pour refaire la question, ou utilisent GPT-4 pour refaire la question, puis déduisent la réponse pour entraîner le grand modèle, afin qu’ils puissent obtenir des notes complètes dans le test de sujet correspondant.
Les ensembles de révision à source fermée peuvent-ils éviter de « brosser la liste » ? Dans le cas contraire, si l’ensemble d’évaluation à source fermée n’est pas mis à jour, les modèles participants peuvent extraire l’historique de l’arrière-plan pour « tricher » et refaire les questions testées. C’est l’équivalent d’une « fausse source fermée ».
**En réponse aux problèmes ci-dessus, l’industrie explore également des solutions correspondantes. **
Par exemple, en raison de la difficulté d’établir des critères d’évaluation cohérents pour les questions subjectives dans l’évaluation de grands modèles, et du problème que le « score de l’équipe humaine » touche le plafond du nombre de questions, l’industrie a commencé à adopter le modèle de « notation humaine + GPT4 ». En Chine, SuperCLUE choisira de considérer GPT4 comme un « professeur de notation » et le laissera rejoindre l’équipe humaine pour aider à la notation.
Un autre exemple est le problème du « brossage de la liste », les initiés de l’industrie estiment que « l’ensemble d’évaluation devrait être fermé pour éviter d’être trompé, mais une bonne évaluation de modèle de grande taille devrait être une évaluation ouverte du processus, ce qui est pratique pour que tout le monde puisse superviser l’évaluation ». "
Certaines personnes pensent également que c’est une bonne vision de rendre public le processus d’évaluation des grands modèles, mais compte tenu de l’équité et de l’impartialité de l’évaluation, il devrait toujours y avoir un grand nombre d’ensembles d’évaluation fermés, et l'« examen à livre fermé » peut vraiment évaluer la capacité du modèle.
En outre, il existe de grandes évaluations de modèles de scores à l’épreuve des pinceaux, telles que le LLM-3 lancé par le laboratoire NLP de l’Université Fudan, qui adopte un nouveau mode d’évaluation, c’est-à-dire le mode « examen de la banque de questions ». Dans le cadre de la LLM-3, chaque système participant doit remplir un échantillon aléatoire de 1 000 questions de la banque de questions totale, par rapport au modèle du même établissement, afin de s’assurer que chaque question d’évaluation n’est pas dupliquée. Le processus d’évaluation se déroulera en ligne et l’envoi des questions en un tour d’évaluation sera effectué en série, c’est-à-dire que l’envoi de la question suivante dépendra de la réponse à la question précédente pour éviter l’exploration malveillante.
Étant donné que les grands modèles impliquent un large éventail de domaines et d’applications, les indicateurs et les méthodes d’évaluation auxquels les grands modèles dans différents domaines et applications doivent prêter attention sont différents. Par conséquent, différentes institutions et organisations peuvent proposer des critères et des méthodes d’évaluation différents pour des domaines d’application et des besoins spécifiques. « Bien qu’il n’y ait pas de norme uniforme, l’importance de l’évaluation est de fournir un moyen d’évaluer et de comparer les performances et l’efficacité de différents grands modèles, et d’aider les utilisateurs à choisir le grand modèle qui répond à leurs besoins. »
La façon de faire une évaluation vraiment complète et complète des grands modèles est également « confuse » à l’avant-garde du monde universitaire et de l’industrie. Néanmoins, les institutions faisant autorité devraient renforcer la recherche, former un consensus dès que possible et promouvoir le progrès technologique et le développement de l’industrie.