Desde o advento do ChatGPT, tem havido uma "corrida armamentista" para grandes modelos em todo o mundo. Segundo relatos, de janeiro a julho deste ano, um total de 64 modelos grandes foram lançados na China. Em julho de 2023, um total de 130 modelos grandes foram lançados na China.
"Guerra de cem modelos" não é suficiente para descrever a escaldante "situação de guerra" de hoje, então qual grande modelo é melhor? Isto é inseparável da avaliação de grandes modelos.
No entanto, nesta fase, não existe um método de avaliação reconhecido e eficaz, o que levou a uma "guerra de listas" no campo da avaliação de grandes modelos no país e no exterior. Estatísticas incompletas, existem atualmente nada menos do que 50 ferramentas (sistemas) de avaliação no mercado, e os resultados de listas semelhantes podem variar muito. As dúvidas do público sobre os "brushing points" são infinitas.
** A indústria geralmente acredita que existem dois critérios de manifestação para avaliar um modelo grande: um é o número de parâmetros e o outro é o conjunto de avaliação. **
A chamada quantidade de parâmetros refere-se ao número de parâmetros que podem ser aprendidos no modelo, incluindo o peso e o viés do modelo. O tamanho do número de parâmetros determina a complexidade do modelo, e mais parâmetros e o número de camadas são as características distintivas que distinguem modelos grandes de modelos pequenos. Em 2022, será revelado um lote de grandes modelos nos Estados Unidos, desde o Stability AI lançado Diffusion, um modelo generativo de texto para imagens, até o ChatGPT lançado pela OpenAI, a escala de parâmetros de modelo começou a entrar na era de dezenas de bilhões e centenas de bilhões.
**A partir dos indicadores de superfície, modelos com centenas de bilhões de parâmetros geralmente têm um desempenho melhor do que dezenas de bilhões de parâmetros. No entanto, isso não é absoluto e os parâmetros de heap não melhoram necessariamente os recursos. Então, como um modelo com o mesmo nível de parâmetros deve distinguir entre bom e ruim? Isto requer a introdução da segunda dimensão de avaliação do grande modelo - o conjunto de avaliação.
O conjunto de avaliação é um conjunto de dados de referência unificado de uma ou várias tarefas construído para avaliar eficazmente o efeito abrangente do modelo básico e do seu algoritmo de ajuste fino em diferentes cenários e diferentes tarefas, e existem duas formas: aberta e fechada.
**Estes conjuntos de avaliação são como provas de exame para diferentes campos, e testando as pontuações de grandes modelos nestes "documentos de exame", as pessoas podem comparar de forma mais intuitiva o desempenho de modelos grandes. **
Na era dos pequenos modelos, a maioria das instituições modelo usará o efeito dos conjuntos de avaliação acadêmica como base para julgar a qualidade dos modelos. Agora, os grandes fabricantes de modelos também começaram a participar mais ativamente da estrutura de benchmarking acadêmico, vendo-a como um endosso autorizado e base de marketing.
Existem muitos grandes conjuntos de avaliação de modelos no mercado, como MMLU, modelo de avaliação chinês C-, SuperCLUE, etc.
-1- Ferramenta de Avaliação
MMLU
Massive Multitask Language Understanding, uma avaliação de compreensão de linguagem para grandes modelos, é uma das mais famosas avaliações de compreensão semântica para grandes modelos, lançada por pesquisadores da Universidade UC Berkeley em setembro de 2020. **O teste abrange 57 tarefas, incluindo matemática elementar, história dos EUA, ciência da computação, direito e muito mais. ** A tarefa abrange uma ampla gama de conhecimentos e está em inglês para avaliar a cobertura de conhecimento básico e compreensão do modelo grande.
Endereço em papel:
Site Oficial:
Tabela de classificação do modelo grande:
C-
C- é um kit de avaliação abrangente do modelo base chinês. Lançado conjuntamente por pesquisadores da Shanghai Jiao Tong University, Tsinghua University e da Universidade de Edimburgo em maio de 2023, contém 13.948 perguntas de múltipla escolha** cobrindo 52 disciplinas diferentes e quatro níveis de dificuldade** para medir a compreensão de grandes modelos chineses.
Endereço em papel:
Endereço do projeto:
Site Oficial:
SuperCLUE
Referência de avaliação abrangente chinesa de grandes modelos gerais, as capacidades dos modelos são avaliadas a partir de três dimensões diferentes: habilidade básica, capacidade profissional e habilidade característica chinesa.
Entre elas, as capacidades básicas de habilidade incluem: ** Compreensão semântica, diálogo, raciocínio lógico, simulação de papéis, código, geração e criação e outras 10 habilidades. **
As competências profissionais incluem: Inclui exames secundários, universitários e profissionais, abrangendo mais de 50 competências de matemática, física, geografia e ciências sociais.
Habilidade característica chinesa: Para tarefas com características chinesas, inclui mais de 10 habilidades, como expressões idiomáticas chinesas, poesia, literatura e glifos.
Endereço do projeto:
Site Oficial:
Lista SuperCLUE Langya
Benchmark de avaliação de batalha anônimo de modelo grande universal chinês, o mesmo que ChatbotArena, crowdsourcing diferentes produtos de modelo grande para avaliação de confronto anônimo e aleatório, os resultados são baseados no sistema de classificação Elo.
Endereço do projeto:
Lyb
Arena de Chatbots
O ChatbotArena é uma plataforma de referência para Large Language Models (LLMs) da LMSYS Org, uma organização de pesquisa fundada pela UC Berkeley, UC San Diego e Carnegie Mellon University.
**Plataforma de referência LLM para partidas aleatórias anónimas numa base crowdsourced. **Entre na plataforma de batalha através do endereço da experiência de demonstração. Digite a pergunta em que você está interessado, depois de enviar a pergunta, o modelo anônimo jogará em pares para gerar respostas relevantes, respectivamente, exigindo que os usuários julguem as respostas e escolham uma das 4 opções de julgamento: modelo A é melhor, modelo B é melhor, empate e todos são pobres. Suporte para várias rodadas de conversa. Finalmente, o sistema de pontuação Elo é usado para avaliar de forma abrangente as capacidades de grandes modelos. (Você mesmo pode especificar o modelo para ver o efeito, mas ele não será contado na classificação final).
Endereço do projeto:
Site Oficial:
Bandeira
O Flag é uma plataforma de avaliação de modelos em larga escala que utiliza o quadro de avaliação tridimensional "capacidade-tarefa-índice"** para fornecer resultados de avaliação abrangentes e detalhados. A plataforma forneceu mais de 30 habilidades, 5 tarefas e 4 categorias de indicadores, um total de mais de 600 dimensões de avaliação abrangente, incluindo 22 conjuntos de dados de avaliação subjetiva e objetiva e 84433 perguntas.
A primeira fase do Flag lançou um sistema de avaliação de modelos em grandes línguas, uma ferramenta de avaliação de grandes modelos multilingues de código aberto mCLIP- e uma ferramenta de avaliação de geração de texto e imagem de código aberto Image. Libra também continuará a explorar a pesquisa cruzada de avaliação de modelos de linguagem e psicologia, educação, ética e outras disciplinas sociais, a fim de avaliar o modelo de linguagem de forma mais científica e abrangente. Destinado a grandes desenvolvedores e usuários de modelos, o Flag foi projetado para ajudar as equipes de desenvolvimento a entender as fraquezas de seus modelos e impulsionar a inovação tecnológica.
Endereço do projeto:
Site Oficial:
OpenCompass
Em agosto de 2023, o Shanghai Artificial Intelligence Lab (Shanghai AI Lab) lançou oficialmente o sistema de avaliação aberta de grandes modelos OpenCompass, que suporta a avaliação one-stop de vários modelos de grandes modelos de linguagem e modelos multimodais através de uma estrutura de avaliação reprodutível de código aberto completa**, e publica regularmente a lista de resultados da avaliação.
Site Oficial:
Endereço do projeto:
JioNLP
Para examinar o efeito de ajuda e capacidade auxiliar do modelo LLM para usuários humanos, se ele pode atingir o nível de um "assistente inteligente", as perguntas de múltipla escolha são derivadas de vários exames profissionais na China continental chinesa, com foco na cobertura do conhecimento objetivo do modelo, representando 32%; As perguntas subjetivas vêm de resumos diários e examinam principalmente o efeito dos usuários nas funções comuns do LLM.
Endereço do projeto:
Medir conjuntos de dados
Avaliação do Grande Modelo de Segurança de Tsinghua
Uma coleção de avaliações coletadas pela Tsinghua abrange oito categorias, incluindo discurso de ódio, discurso tendencioso e discriminatório, crime e lei, privacidade, ética e moralidade, incluindo mais de 40 categorias de segurança de segundo nível divididas em categorias refinadas**.
Endereço:
LLM-3
Lançado pelo Laboratório de PNL da Universidade de Fudan, centra-se na avaliação de conhecimentos e capacidades profissionais, abrangendo 13 disciplinas e mais de 50 disciplinas de segundo nível designadas pelo Ministério da Educação, tais como filosofia, economia, direito, educação, literatura, história, ciência, engenharia, agricultura, medicina, ciência militar, gestão, arte, etc., com um total de cerca de 20W perguntas generativas padrão e perguntas de resposta. A fim de prevenir a ocorrência do fenómeno de escovagem dos rankings, a avaliação LLM-3 adota um novo modo de avaliação, nomeadamente o modo "exame de banco de questões".
Endereço:
**GAOKAO-Bancada **
GAOKAO-bench é uma estrutura de avaliação que usa questões de vestibular chinês como um conjunto de dados para avaliar a capacidade de compreensão de linguagem e capacidade de raciocínio lógico de grandes modelos.
Endereço do projeto:
PandaLM
Ele treina diretamente um modelo de pontuação automatizado e pontua dois modelos candidatos em um sistema de três pontos 0.1.2.
Endereço do projeto:
BANCADA GRANDE
Uma coleção de revisões publicadas pelo Google, o BIG-bench consiste em 204 tarefas sobre tópicos como linguística, desenvolvimento infantil, matemática, raciocínio de senso comum, física biológica, viés social, desenvolvimento de software e muito mais.
Endereço do projeto:
MMCU
O Oracle Yi AI Research Institute propõe um teste para medir a precisão dos grandes modelos chineses no tratamento de multitarefas, e o conteúdo do teste do conjunto de dados abrange quatro campos principais: tratamento médico, direito, psicologia e educação. **O número de questões atingiu 10.000+, incluindo 2819 questões na área da medicina, 3695 questões na área do direito, 2001 questões na área da psicologia e 3331 questões na área da educação.
Endereço do projeto:
ACTED
O Big Model Basic Competency Assessment Benchmark da Microsoft, lançado em abril de 2023, mede principalmente a capacidade geral de grandes modelos em cognição humana e resolução de problemas**, abrangendo 20 exames de admissão e qualificação oficiais, públicos e de alto padrão para candidatos humanos comuns em todo o mundo, incluindo dados em chinês e inglês. Portanto, o teste é mais inclinado para resultados de testes em humanos, abrangendo chinês e inglês.
Endereço em papel:
GSM8K
O grande modelo da OpenAI, o Mathematical Reasoning Proficiency Assessment Benchmark, abrange 8.500 conjuntos de dados de problemas de matemática de alta qualidade no nível do ensino médio. O conjunto de dados é maior do que o conjunto de dados anterior de problemas de texto matemático, a linguagem é mais diversificada e as perguntas são mais desafiadoras. O teste foi lançado em outubro de 2021 e continua sendo uma referência de teste muito difícil.
Endereço em papel:
LEME
O método de avaliação HELM inclui principalmente três módulos: cena, adaptação e indicadores**, e cada execução de avaliação precisa especificar uma cena, um prompt para o modelo de adaptação e um ou mais indicadores. Abrange principalmente o inglês, com 7 indicadores, incluindo precisão, incerteza/calibração, robustez, equidade, enviesamento, toxicidade e eficiência de inferência; As tarefas incluem perguntas e respostas, recuperação de informações, resumos, classificação de texto e muito mais.
Endereço em papel:
Endereço do projeto:
Chinês-LLalA-Alpaca
É pontuado como um valor relativo, com GPT4 preferido e ChatGPT3 em parte.
Endereço do projeto:
MT-bancada
Avalie o diálogo de várias voltas e as instruções seguindo os recursos de modelos grandes. O conjunto de dados inclui 80 (8category*10question) perguntas de diálogo multi-round de alta qualidade, cada uma respondida por 6 modelos grandes bem conhecidos (GPT-4, GPT-3.5, Claud-v1, Vicuna-13B, Alpaca-13B e LLaMA-13B), ordenadas manualmente para obter pares de 3.3K.
Endereço em papel:
Julgando LLM-as-a-judge com MT-Bench e Chatbot Arena
GitHub
Endereço do projeto:
/árvore/principal/fastchat/llm_judge
Endereço para download de dados:
-2- Modo de Avaliação
Através das ferramentas de avaliação acima, verifica-se que os atuais modos comuns de avaliação de grandes modelos podem ser resumidos em quatro tipos:
**1. Pontuar as questões. ** Colete principalmente uma variedade de conjuntos de dados de avaliação e, em seguida, divida os conjuntos de dados em diferentes capacidades dimensionais. Ao projetar algumas tarefas que permitem que modelos grandes façam esses conjuntos de dados, as pontuações são calculadas em relação às respostas padrão. Exemplos típicos são OpenCompass, tabela de classificação openLLM do huggingface, etc.
**2. Que o GPT-4 seja o juiz. Colete os conjuntos de dados para avaliação (alguns conjuntos de dados que não são de código aberto e não têm respostas padrão também serão incluídos) e, em seguida, deixe o GPT-4 julgar os resultados da geração de grandes modelos. Existem duas maneiras de pontuar esse processo de avaliação, uma é pontuar diretamente, e a outra é projetar algumas dimensões, como fatos, precisão, conformidade de segurança, etc., e depois avaliá-las em um nível mais granular.
**3. Modo Arena. **Semelhante a uma arena em um jogo competitivo. Cada vez que dois grandes jogadores de modelo PK, o usuário (às vezes GPT-4) para avaliar qual modelo é melhor, o modelo grande vencedor tem pontos extras, e o modelo grande perdedor tem um menos. Quando rodadas PK suficientes são executadas, haverá uma classificação de pontuação de modelos grandes, que é relativamente justa e pode refletir objetivamente a força do modelo. Um exemplo típico é o Chatbot Arena Leaderboard da UC Berkeley.
**4. Avaliação das competências individuais. Por exemplo, para habilidades matemáticas, habilidades de código, capacidade de raciocínio, etc., avaliar essas habilidades pode não apenas determinar se um modelo grande realmente tem capacidade de pensamento semelhante à humana, mas também ajudar diretamente a selecionar modelos grandes (como assistentes de código) em campos específicos.
-3- Resultados da avaliação "muito diferentes"
Existem muitas ferramentas de avaliação diferentes, e os resultados de avaliação de diferentes ferramentas de avaliação também são "muito diferentes".
No dia 15 de agosto, foi divulgado um relatório de experiência de grandes modelos de inteligência artificial da instituição, que realizou uma avaliação horizontal da experiência de uso de grandes modelos nacionais. A lista avaliou 8 modelos de IA mainstream na China com 500 perguntas e, finalmente, Xunfei Xinghuo ficou em primeiro lugar, Baidu Wenxin em segundo e Ali Tongyi Qianwen em segundo lugar.
Em setembro, na última edição da popular lista de avaliação de código aberto C - a última edição da lista, o grande modelo "Yuntianshu" de Yuntian Lifei ficou em primeiro lugar, enquanto o GPT-4 ficou apenas em décimo.
No mesmo mês, a SuperCLUE divulgou sua lista de modelos grandes em setembro. O GPT-4 ficou em primeiro lugar na lista geral, enquanto o SenseChat 3.0 da SenseTime liderou a lista chinesa.
Em 19 de outubro, a Universidade de Stanford divulgou o Índice de Transparência de Modelo Básico de 2023, que classificou 10 modelos básicos convencionais para transparência, com Llama 2 em primeiro lugar e GPT-4 em terceiro.
Porque é que os resultados das várias ferramentas de avaliação são tão diferentes? As principais razões são as seguintes:
**1.Cada conjunto de revisão acadêmica popular tem seu próprio foco. **Por exemplo, GSM8K e MMLU, que são mais comumente usados pela Meta, são conjuntos de testes para diferentes níveis - o primeiro é matemática elementar, o segundo é pergunta e resposta multidisciplinar mais avançada. Tal como os alunos de uma turma fazem exames em diferentes disciplinas, os grandes modelos têm naturalmente uma classificação diferente em diferentes listas.
**2.A proporção de perguntas subjetivas em grandes modelos de avaliação aumenta. **Na atual lista de avaliação de grandes modelos no país e no exterior, a ideia de combinar perguntas subjetivas e perguntas objetivas é geralmente reconhecida pela indústria. Mas o desafio das perguntas subjetivas é se os critérios de avaliação na mente de todos são consistentes. E a "classificação da equipe humana" inevitavelmente toca o teto do número de perguntas, e para grandes avaliações de modelos, quanto maior o número de perguntas, mais eficazes são as conclusões.
**3. A concorrência vertical entre modelos específicos e modelos de uso geral de grande dimensão conduz a classificações distorcidas. **No cenário de aterrissagem real, os clientes corporativos em manufatura, saúde, finanças e outros setores precisam fazer ajustes finos secundários de acordo com seus próprios bancos de dados ao acessar recursos de modelos grandes. Isso também significa que os resultados obtidos pela participação direta do modelo geral grande original no campo vertical Perguntas e respostas não podem representar o desempenho real do produto modelo grande no campo vertical.
**4. O fenómeno de "escovar a lista" causado pelo conjunto de testes de código aberto. **Muitos novos modelos grandes podem superar o GPT-4 na lista de conjuntos de testes de código aberto, em parte devido à suspeita de "escovação de problemas". Por exemplo, C- atualmente apenas a pergunta é divulgada, mas a resposta não é divulgada, e os grandes fabricantes de modelos que participam do teste ou encontram um anotador de dados para fazer a pergunta novamente, ou usam GPT-4 para fazer a pergunta novamente, e então deduzem a resposta para treinar o modelo grande, para que eles possam obter notas completas no teste de assunto correspondente.
Os conjuntos de revisão de código fechado podem evitar "escovar a lista"? Caso contrário, se o conjunto de avaliação de código fechado não for atualizado, os modelos participantes podem puxar o histórico histórico do fundo para "trapacear" e refazer as perguntas testadas. Isso equivale a "falsa fonte fechada".
**Em resposta aos problemas acima referidos, a indústria está também a explorar soluções correspondentes. **
Por exemplo, para a dificuldade de critérios de avaliação consistentes para perguntas subjetivas em uma avaliação de modelo grande, e o problema de que "pontuação da equipe humana" toca o teto do número de perguntas, a indústria começou a adotar o modelo de "pontuação humana + GPT4". Na China, o SuperCLUE optará por considerar o GPT4 como um "professor de classificação" e deixá-lo se juntar à equipe humana para ajudar na pontuação.
Outro exemplo é o problema de "escovar a lista", os membros da indústria acreditam que "o conjunto de avaliação deve ser fechado para evitar ser enganado, mas uma boa avaliação de modelo grande deve ser uma avaliação aberta do processo, o que é conveniente para todos supervisionarem a avaliação". "
Algumas pessoas também acreditam que é uma boa visão tornar público o grande processo de avaliação do modelo, mas considerando a equidade e imparcialidade da avaliação, ainda deve haver um grande número de conjuntos de avaliação fechados, e o "exame de livro fechado" pode realmente avaliar a capacidade do modelo.
Além disso, existem grandes modelos de avaliação de pontuações à prova de pincel, como o LLM-3 lançado pelo Laboratório de PNL da Universidade Fudan, que adota um novo modo de avaliação, ou seja, o modo "exame de banco de questões". No LLM-3, cada sistema participante precisa preencher uma amostra aleatória de 1.000 perguntas do banco total de perguntas, em relação ao modelo da mesma instituição, para garantir que cada pergunta de avaliação não seja duplicada. O processo de avaliação será realizado online, e o envio de perguntas numa ronda de avaliação será realizado em série, ou seja, o envio da pergunta seguinte dependerá da resposta à pergunta anterior para evitar o rastreio malicioso.
Uma vez que os grandes modelos envolvem uma ampla gama de campos e aplicações, os indicadores e métodos de avaliação aos quais grandes modelos em diferentes campos e aplicações precisam prestar atenção são diferentes. Portanto, diferentes instituições e organizações podem propor diferentes critérios e métodos de avaliação para áreas e necessidades específicas de aplicação. "Embora não haja um padrão uniforme, a importância da avaliação é fornecer uma maneira de avaliar e comparar o desempenho e a eficácia de diferentes modelos grandes, e ajudar os usuários a escolher o modelo grande que atenda às suas necessidades."
Como fazer uma avaliação verdadeiramente abrangente e abrangente de grandes modelos também é "confuso" na vanguarda da academia e da indústria. Mesmo assim, instituições autorizadas devem fortalecer a pesquisa, formar consensos o mais rápido possível e promover o progresso tecnológico e o desenvolvimento da indústria.
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
Novos grandes modelos afirmam superar o GPT-4 a cada esquina, e reunimos essas ferramentas de revisão
Fonte: AI Pioneer Officer
Desde o advento do ChatGPT, tem havido uma "corrida armamentista" para grandes modelos em todo o mundo. Segundo relatos, de janeiro a julho deste ano, um total de 64 modelos grandes foram lançados na China. Em julho de 2023, um total de 130 modelos grandes foram lançados na China.
"Guerra de cem modelos" não é suficiente para descrever a escaldante "situação de guerra" de hoje, então qual grande modelo é melhor? Isto é inseparável da avaliação de grandes modelos.
No entanto, nesta fase, não existe um método de avaliação reconhecido e eficaz, o que levou a uma "guerra de listas" no campo da avaliação de grandes modelos no país e no exterior. Estatísticas incompletas, existem atualmente nada menos do que 50 ferramentas (sistemas) de avaliação no mercado, e os resultados de listas semelhantes podem variar muito. As dúvidas do público sobre os "brushing points" são infinitas.
** A indústria geralmente acredita que existem dois critérios de manifestação para avaliar um modelo grande: um é o número de parâmetros e o outro é o conjunto de avaliação. **
A chamada quantidade de parâmetros refere-se ao número de parâmetros que podem ser aprendidos no modelo, incluindo o peso e o viés do modelo. O tamanho do número de parâmetros determina a complexidade do modelo, e mais parâmetros e o número de camadas são as características distintivas que distinguem modelos grandes de modelos pequenos. Em 2022, será revelado um lote de grandes modelos nos Estados Unidos, desde o Stability AI lançado Diffusion, um modelo generativo de texto para imagens, até o ChatGPT lançado pela OpenAI, a escala de parâmetros de modelo começou a entrar na era de dezenas de bilhões e centenas de bilhões.
**A partir dos indicadores de superfície, modelos com centenas de bilhões de parâmetros geralmente têm um desempenho melhor do que dezenas de bilhões de parâmetros. No entanto, isso não é absoluto e os parâmetros de heap não melhoram necessariamente os recursos. Então, como um modelo com o mesmo nível de parâmetros deve distinguir entre bom e ruim? Isto requer a introdução da segunda dimensão de avaliação do grande modelo - o conjunto de avaliação.
O conjunto de avaliação é um conjunto de dados de referência unificado de uma ou várias tarefas construído para avaliar eficazmente o efeito abrangente do modelo básico e do seu algoritmo de ajuste fino em diferentes cenários e diferentes tarefas, e existem duas formas: aberta e fechada.
**Estes conjuntos de avaliação são como provas de exame para diferentes campos, e testando as pontuações de grandes modelos nestes "documentos de exame", as pessoas podem comparar de forma mais intuitiva o desempenho de modelos grandes. **
Na era dos pequenos modelos, a maioria das instituições modelo usará o efeito dos conjuntos de avaliação acadêmica como base para julgar a qualidade dos modelos. Agora, os grandes fabricantes de modelos também começaram a participar mais ativamente da estrutura de benchmarking acadêmico, vendo-a como um endosso autorizado e base de marketing.
Existem muitos grandes conjuntos de avaliação de modelos no mercado, como MMLU, modelo de avaliação chinês C-, SuperCLUE, etc.
-1- Ferramenta de Avaliação
MMLU
Massive Multitask Language Understanding, uma avaliação de compreensão de linguagem para grandes modelos, é uma das mais famosas avaliações de compreensão semântica para grandes modelos, lançada por pesquisadores da Universidade UC Berkeley em setembro de 2020. **O teste abrange 57 tarefas, incluindo matemática elementar, história dos EUA, ciência da computação, direito e muito mais. ** A tarefa abrange uma ampla gama de conhecimentos e está em inglês para avaliar a cobertura de conhecimento básico e compreensão do modelo grande.
Endereço em papel:
Site Oficial:
Tabela de classificação do modelo grande:
C-
C- é um kit de avaliação abrangente do modelo base chinês. Lançado conjuntamente por pesquisadores da Shanghai Jiao Tong University, Tsinghua University e da Universidade de Edimburgo em maio de 2023, contém 13.948 perguntas de múltipla escolha** cobrindo 52 disciplinas diferentes e quatro níveis de dificuldade** para medir a compreensão de grandes modelos chineses.
Endereço em papel:
Endereço do projeto:
Site Oficial:
SuperCLUE
Referência de avaliação abrangente chinesa de grandes modelos gerais, as capacidades dos modelos são avaliadas a partir de três dimensões diferentes: habilidade básica, capacidade profissional e habilidade característica chinesa.
Entre elas, as capacidades básicas de habilidade incluem: ** Compreensão semântica, diálogo, raciocínio lógico, simulação de papéis, código, geração e criação e outras 10 habilidades. **
As competências profissionais incluem: Inclui exames secundários, universitários e profissionais, abrangendo mais de 50 competências de matemática, física, geografia e ciências sociais.
Habilidade característica chinesa: Para tarefas com características chinesas, inclui mais de 10 habilidades, como expressões idiomáticas chinesas, poesia, literatura e glifos.
Endereço do projeto:
Site Oficial:
Lista SuperCLUE Langya
Benchmark de avaliação de batalha anônimo de modelo grande universal chinês, o mesmo que ChatbotArena, crowdsourcing diferentes produtos de modelo grande para avaliação de confronto anônimo e aleatório, os resultados são baseados no sistema de classificação Elo.
Endereço do projeto:
Lyb
Arena de Chatbots
O ChatbotArena é uma plataforma de referência para Large Language Models (LLMs) da LMSYS Org, uma organização de pesquisa fundada pela UC Berkeley, UC San Diego e Carnegie Mellon University.
**Plataforma de referência LLM para partidas aleatórias anónimas numa base crowdsourced. **Entre na plataforma de batalha através do endereço da experiência de demonstração. Digite a pergunta em que você está interessado, depois de enviar a pergunta, o modelo anônimo jogará em pares para gerar respostas relevantes, respectivamente, exigindo que os usuários julguem as respostas e escolham uma das 4 opções de julgamento: modelo A é melhor, modelo B é melhor, empate e todos são pobres. Suporte para várias rodadas de conversa. Finalmente, o sistema de pontuação Elo é usado para avaliar de forma abrangente as capacidades de grandes modelos. (Você mesmo pode especificar o modelo para ver o efeito, mas ele não será contado na classificação final).
Endereço do projeto:
Site Oficial:
Bandeira
O Flag é uma plataforma de avaliação de modelos em larga escala que utiliza o quadro de avaliação tridimensional "capacidade-tarefa-índice"** para fornecer resultados de avaliação abrangentes e detalhados. A plataforma forneceu mais de 30 habilidades, 5 tarefas e 4 categorias de indicadores, um total de mais de 600 dimensões de avaliação abrangente, incluindo 22 conjuntos de dados de avaliação subjetiva e objetiva e 84433 perguntas.
A primeira fase do Flag lançou um sistema de avaliação de modelos em grandes línguas, uma ferramenta de avaliação de grandes modelos multilingues de código aberto mCLIP- e uma ferramenta de avaliação de geração de texto e imagem de código aberto Image. Libra também continuará a explorar a pesquisa cruzada de avaliação de modelos de linguagem e psicologia, educação, ética e outras disciplinas sociais, a fim de avaliar o modelo de linguagem de forma mais científica e abrangente. Destinado a grandes desenvolvedores e usuários de modelos, o Flag foi projetado para ajudar as equipes de desenvolvimento a entender as fraquezas de seus modelos e impulsionar a inovação tecnológica.
Endereço do projeto:
Site Oficial:
OpenCompass
Em agosto de 2023, o Shanghai Artificial Intelligence Lab (Shanghai AI Lab) lançou oficialmente o sistema de avaliação aberta de grandes modelos OpenCompass, que suporta a avaliação one-stop de vários modelos de grandes modelos de linguagem e modelos multimodais através de uma estrutura de avaliação reprodutível de código aberto completa**, e publica regularmente a lista de resultados da avaliação.
Site Oficial:
Endereço do projeto:
JioNLP
Para examinar o efeito de ajuda e capacidade auxiliar do modelo LLM para usuários humanos, se ele pode atingir o nível de um "assistente inteligente", as perguntas de múltipla escolha são derivadas de vários exames profissionais na China continental chinesa, com foco na cobertura do conhecimento objetivo do modelo, representando 32%; As perguntas subjetivas vêm de resumos diários e examinam principalmente o efeito dos usuários nas funções comuns do LLM.
Endereço do projeto:
Medir conjuntos de dados
Avaliação do Grande Modelo de Segurança de Tsinghua
Uma coleção de avaliações coletadas pela Tsinghua abrange oito categorias, incluindo discurso de ódio, discurso tendencioso e discriminatório, crime e lei, privacidade, ética e moralidade, incluindo mais de 40 categorias de segurança de segundo nível divididas em categorias refinadas**.
Endereço:
LLM-3
Lançado pelo Laboratório de PNL da Universidade de Fudan, centra-se na avaliação de conhecimentos e capacidades profissionais, abrangendo 13 disciplinas e mais de 50 disciplinas de segundo nível designadas pelo Ministério da Educação, tais como filosofia, economia, direito, educação, literatura, história, ciência, engenharia, agricultura, medicina, ciência militar, gestão, arte, etc., com um total de cerca de 20W perguntas generativas padrão e perguntas de resposta. A fim de prevenir a ocorrência do fenómeno de escovagem dos rankings, a avaliação LLM-3 adota um novo modo de avaliação, nomeadamente o modo "exame de banco de questões".
Endereço:
**GAOKAO-Bancada **
GAOKAO-bench é uma estrutura de avaliação que usa questões de vestibular chinês como um conjunto de dados para avaliar a capacidade de compreensão de linguagem e capacidade de raciocínio lógico de grandes modelos.
Endereço do projeto:
PandaLM
Ele treina diretamente um modelo de pontuação automatizado e pontua dois modelos candidatos em um sistema de três pontos 0.1.2.
Endereço do projeto:
BANCADA GRANDE
Uma coleção de revisões publicadas pelo Google, o BIG-bench consiste em 204 tarefas sobre tópicos como linguística, desenvolvimento infantil, matemática, raciocínio de senso comum, física biológica, viés social, desenvolvimento de software e muito mais.
Endereço do projeto:
MMCU
O Oracle Yi AI Research Institute propõe um teste para medir a precisão dos grandes modelos chineses no tratamento de multitarefas, e o conteúdo do teste do conjunto de dados abrange quatro campos principais: tratamento médico, direito, psicologia e educação. **O número de questões atingiu 10.000+, incluindo 2819 questões na área da medicina, 3695 questões na área do direito, 2001 questões na área da psicologia e 3331 questões na área da educação.
Endereço do projeto:
ACTED
O Big Model Basic Competency Assessment Benchmark da Microsoft, lançado em abril de 2023, mede principalmente a capacidade geral de grandes modelos em cognição humana e resolução de problemas**, abrangendo 20 exames de admissão e qualificação oficiais, públicos e de alto padrão para candidatos humanos comuns em todo o mundo, incluindo dados em chinês e inglês. Portanto, o teste é mais inclinado para resultados de testes em humanos, abrangendo chinês e inglês.
Endereço em papel:
GSM8K
O grande modelo da OpenAI, o Mathematical Reasoning Proficiency Assessment Benchmark, abrange 8.500 conjuntos de dados de problemas de matemática de alta qualidade no nível do ensino médio. O conjunto de dados é maior do que o conjunto de dados anterior de problemas de texto matemático, a linguagem é mais diversificada e as perguntas são mais desafiadoras. O teste foi lançado em outubro de 2021 e continua sendo uma referência de teste muito difícil.
Endereço em papel:
LEME
O método de avaliação HELM inclui principalmente três módulos: cena, adaptação e indicadores**, e cada execução de avaliação precisa especificar uma cena, um prompt para o modelo de adaptação e um ou mais indicadores. Abrange principalmente o inglês, com 7 indicadores, incluindo precisão, incerteza/calibração, robustez, equidade, enviesamento, toxicidade e eficiência de inferência; As tarefas incluem perguntas e respostas, recuperação de informações, resumos, classificação de texto e muito mais.
Endereço em papel:
Endereço do projeto:
Chinês-LLalA-Alpaca
É pontuado como um valor relativo, com GPT4 preferido e ChatGPT3 em parte.
Endereço do projeto:
MT-bancada
Avalie o diálogo de várias voltas e as instruções seguindo os recursos de modelos grandes. O conjunto de dados inclui 80 (8category*10question) perguntas de diálogo multi-round de alta qualidade, cada uma respondida por 6 modelos grandes bem conhecidos (GPT-4, GPT-3.5, Claud-v1, Vicuna-13B, Alpaca-13B e LLaMA-13B), ordenadas manualmente para obter pares de 3.3K.
Endereço em papel:
Julgando LLM-as-a-judge com MT-Bench e Chatbot Arena
GitHub
Endereço do projeto:
/árvore/principal/fastchat/llm_judge
Endereço para download de dados:
-2- Modo de Avaliação
Através das ferramentas de avaliação acima, verifica-se que os atuais modos comuns de avaliação de grandes modelos podem ser resumidos em quatro tipos:
**1. Pontuar as questões. ** Colete principalmente uma variedade de conjuntos de dados de avaliação e, em seguida, divida os conjuntos de dados em diferentes capacidades dimensionais. Ao projetar algumas tarefas que permitem que modelos grandes façam esses conjuntos de dados, as pontuações são calculadas em relação às respostas padrão. Exemplos típicos são OpenCompass, tabela de classificação openLLM do huggingface, etc.
**2. Que o GPT-4 seja o juiz. Colete os conjuntos de dados para avaliação (alguns conjuntos de dados que não são de código aberto e não têm respostas padrão também serão incluídos) e, em seguida, deixe o GPT-4 julgar os resultados da geração de grandes modelos. Existem duas maneiras de pontuar esse processo de avaliação, uma é pontuar diretamente, e a outra é projetar algumas dimensões, como fatos, precisão, conformidade de segurança, etc., e depois avaliá-las em um nível mais granular.
**3. Modo Arena. **Semelhante a uma arena em um jogo competitivo. Cada vez que dois grandes jogadores de modelo PK, o usuário (às vezes GPT-4) para avaliar qual modelo é melhor, o modelo grande vencedor tem pontos extras, e o modelo grande perdedor tem um menos. Quando rodadas PK suficientes são executadas, haverá uma classificação de pontuação de modelos grandes, que é relativamente justa e pode refletir objetivamente a força do modelo. Um exemplo típico é o Chatbot Arena Leaderboard da UC Berkeley.
**4. Avaliação das competências individuais. Por exemplo, para habilidades matemáticas, habilidades de código, capacidade de raciocínio, etc., avaliar essas habilidades pode não apenas determinar se um modelo grande realmente tem capacidade de pensamento semelhante à humana, mas também ajudar diretamente a selecionar modelos grandes (como assistentes de código) em campos específicos.
-3- Resultados da avaliação "muito diferentes"
Existem muitas ferramentas de avaliação diferentes, e os resultados de avaliação de diferentes ferramentas de avaliação também são "muito diferentes".
No dia 15 de agosto, foi divulgado um relatório de experiência de grandes modelos de inteligência artificial da instituição, que realizou uma avaliação horizontal da experiência de uso de grandes modelos nacionais. A lista avaliou 8 modelos de IA mainstream na China com 500 perguntas e, finalmente, Xunfei Xinghuo ficou em primeiro lugar, Baidu Wenxin em segundo e Ali Tongyi Qianwen em segundo lugar.
Em setembro, na última edição da popular lista de avaliação de código aberto C - a última edição da lista, o grande modelo "Yuntianshu" de Yuntian Lifei ficou em primeiro lugar, enquanto o GPT-4 ficou apenas em décimo.
No mesmo mês, a SuperCLUE divulgou sua lista de modelos grandes em setembro. O GPT-4 ficou em primeiro lugar na lista geral, enquanto o SenseChat 3.0 da SenseTime liderou a lista chinesa.
Em 19 de outubro, a Universidade de Stanford divulgou o Índice de Transparência de Modelo Básico de 2023, que classificou 10 modelos básicos convencionais para transparência, com Llama 2 em primeiro lugar e GPT-4 em terceiro.
Porque é que os resultados das várias ferramentas de avaliação são tão diferentes? As principais razões são as seguintes:
**1.Cada conjunto de revisão acadêmica popular tem seu próprio foco. **Por exemplo, GSM8K e MMLU, que são mais comumente usados pela Meta, são conjuntos de testes para diferentes níveis - o primeiro é matemática elementar, o segundo é pergunta e resposta multidisciplinar mais avançada. Tal como os alunos de uma turma fazem exames em diferentes disciplinas, os grandes modelos têm naturalmente uma classificação diferente em diferentes listas.
**2.A proporção de perguntas subjetivas em grandes modelos de avaliação aumenta. **Na atual lista de avaliação de grandes modelos no país e no exterior, a ideia de combinar perguntas subjetivas e perguntas objetivas é geralmente reconhecida pela indústria. Mas o desafio das perguntas subjetivas é se os critérios de avaliação na mente de todos são consistentes. E a "classificação da equipe humana" inevitavelmente toca o teto do número de perguntas, e para grandes avaliações de modelos, quanto maior o número de perguntas, mais eficazes são as conclusões.
**3. A concorrência vertical entre modelos específicos e modelos de uso geral de grande dimensão conduz a classificações distorcidas. **No cenário de aterrissagem real, os clientes corporativos em manufatura, saúde, finanças e outros setores precisam fazer ajustes finos secundários de acordo com seus próprios bancos de dados ao acessar recursos de modelos grandes. Isso também significa que os resultados obtidos pela participação direta do modelo geral grande original no campo vertical Perguntas e respostas não podem representar o desempenho real do produto modelo grande no campo vertical.
**4. O fenómeno de "escovar a lista" causado pelo conjunto de testes de código aberto. **Muitos novos modelos grandes podem superar o GPT-4 na lista de conjuntos de testes de código aberto, em parte devido à suspeita de "escovação de problemas". Por exemplo, C- atualmente apenas a pergunta é divulgada, mas a resposta não é divulgada, e os grandes fabricantes de modelos que participam do teste ou encontram um anotador de dados para fazer a pergunta novamente, ou usam GPT-4 para fazer a pergunta novamente, e então deduzem a resposta para treinar o modelo grande, para que eles possam obter notas completas no teste de assunto correspondente.
Os conjuntos de revisão de código fechado podem evitar "escovar a lista"? Caso contrário, se o conjunto de avaliação de código fechado não for atualizado, os modelos participantes podem puxar o histórico histórico do fundo para "trapacear" e refazer as perguntas testadas. Isso equivale a "falsa fonte fechada".
**Em resposta aos problemas acima referidos, a indústria está também a explorar soluções correspondentes. **
Por exemplo, para a dificuldade de critérios de avaliação consistentes para perguntas subjetivas em uma avaliação de modelo grande, e o problema de que "pontuação da equipe humana" toca o teto do número de perguntas, a indústria começou a adotar o modelo de "pontuação humana + GPT4". Na China, o SuperCLUE optará por considerar o GPT4 como um "professor de classificação" e deixá-lo se juntar à equipe humana para ajudar na pontuação.
Outro exemplo é o problema de "escovar a lista", os membros da indústria acreditam que "o conjunto de avaliação deve ser fechado para evitar ser enganado, mas uma boa avaliação de modelo grande deve ser uma avaliação aberta do processo, o que é conveniente para todos supervisionarem a avaliação". "
Algumas pessoas também acreditam que é uma boa visão tornar público o grande processo de avaliação do modelo, mas considerando a equidade e imparcialidade da avaliação, ainda deve haver um grande número de conjuntos de avaliação fechados, e o "exame de livro fechado" pode realmente avaliar a capacidade do modelo.
Além disso, existem grandes modelos de avaliação de pontuações à prova de pincel, como o LLM-3 lançado pelo Laboratório de PNL da Universidade Fudan, que adota um novo modo de avaliação, ou seja, o modo "exame de banco de questões". No LLM-3, cada sistema participante precisa preencher uma amostra aleatória de 1.000 perguntas do banco total de perguntas, em relação ao modelo da mesma instituição, para garantir que cada pergunta de avaliação não seja duplicada. O processo de avaliação será realizado online, e o envio de perguntas numa ronda de avaliação será realizado em série, ou seja, o envio da pergunta seguinte dependerá da resposta à pergunta anterior para evitar o rastreio malicioso.
Uma vez que os grandes modelos envolvem uma ampla gama de campos e aplicações, os indicadores e métodos de avaliação aos quais grandes modelos em diferentes campos e aplicações precisam prestar atenção são diferentes. Portanto, diferentes instituições e organizações podem propor diferentes critérios e métodos de avaliação para áreas e necessidades específicas de aplicação. "Embora não haja um padrão uniforme, a importância da avaliação é fornecer uma maneira de avaliar e comparar o desempenho e a eficácia de diferentes modelos grandes, e ajudar os usuários a escolher o modelo grande que atenda às suas necessidades."
Como fazer uma avaliação verdadeiramente abrangente e abrangente de grandes modelos também é "confuso" na vanguarda da academia e da indústria. Mesmo assim, instituições autorizadas devem fortalecer a pesquisa, formar consensos o mais rápido possível e promover o progresso tecnológico e o desenvolvimento da indústria.