Como o modelo pequeno pode ser comparado ao modelo grande, o Instituto de Tecnologia de Pequim lançou o modelo grande MindLLM Mingde, e o modelo pequeno tem grande potencial

2023-10-28 04:48:20

Fonte original: Heart of the Machine

Fonte da imagem: Gerado por Unbounded AI

Grandes modelos de linguagem (LLMs) têm demonstrado excelente desempenho em uma variedade de tarefas de linguagem natural, mas ainda existem muitos problemas práticos na aplicação de grandes modelos de linguagem no campo profissional devido ao alto custo de treinamento e inferência de grandes modelos de parâmetros. Portanto, a equipe começou com modelos leves para maximizar as vantagens dos dados e modelos, com base no melhor atendimento a domínios específicos e na redução dos custos de treinamento e inferência de tarefas downstream.

No dia 24 de outubro, a equipe de processamento de linguagem natural do Instituto de Tecnologia de Pequim lançou uma série de modelos bilíngues de linguagem leve grande (Ming De LLM) - MindLLM, que introduz de forma abrangente a experiência acumulada no processo de desenvolvimento de modelos em larga escala, cobrindo cada etapa detalhada da construção de dados, arquitetura de modelos, avaliação e processo de aplicação. O MindLLM é treinado desde o início e vem nas versões 1.3B e 3B, consistentemente igualando ou superando o desempenho de outros modelos grandes de código aberto em alguns benchmarks públicos. A MindLLM também aprimora suas capacidades introduzindo uma estrutura inovadora de ajuste de instruções adaptada especificamente para modelos menores. Além disso, para aplicações em verticais específicas, como direito e finanças, o MindLLM também tem excelente adaptabilidade de domínio.

* Endereço:

Destaques MindLLM

Compartilhamos nossa experiência em processamento de dados, incluindo a manutenção de texto da Web de alta qualidade e alta porcentagem, a preservação de dados de longo prazo, como livros e conversas, redução da resolução de dados matemáticos e aumento da amostragem de dados de código. Recomendamos embaralhar os dados uniformemente para aprendizagem de competências e dividir algumas amostras para cenários de aprendizagem de pequenas capturas.
Nossos resultados de avaliação superaram alguns modelos grandes, e o modelo MindLLM superou modelos grandes como MPT-7B e GPT-J-6B em avaliações MMLU e AGI sem ajuste fino e alinhamento de instruções. Em chinês, o MindLLM mostra desempenho comparável a modelos paramétricos maiores em C e CMMLU. Especificamente, o MindLLM-3B supera modelos maiores como MOSS-Base-16B e MPT-7B em habilidade matemática, e supera Baichuan2-7B e MOSS-Base-16B em bilinguismo. Além disso, o MindLLM-1.3B é matematicamente melhor do que o GPT-Neo-1.3B do mesmo tamanho.
Comparámos duas estratégias de formação diferentes na aprendizagem bilingue e analisámos o efeito de os dados estarem ou não distribuídos uniformemente durante o período pré-treino. Concluímos que, para modelos leves (≤7B) com escala de capacidade limitada, não é ideal alcançar capacidades complexas, como alinhamento matemático, de raciocínio ou bilíngue por meio de estratégias pré-treinadas e, em seguida, treinadas por transferência, porque é difícil integrar conhecimentos novos e existentes. Em contrapartida, uma estratégia mais eficaz é começar do zero e integrar vários tipos de dados em combinação com as necessidades das tarefas a jusante para garantir que as capacidades necessárias são adquiridas de forma consistente e eficiente.
Descobrimos que a utilização de dados personalizados para capacidades específicas durante o ajuste de instruções pode melhorar significativamente as capacidades específicas de modelos leves, como raciocínio abrangente ou conhecimento do assunto.
Introduzimos uma abordagem para construir um conjunto de instruções usando uma estratégia de filtragem de massa baseada em entropia e demonstramos sua eficácia na filtragem de dados de ajuste de instruções de alta qualidade para modelos leves. Demonstramos que, no contexto de modelos leves, o desempenho do modelo pode ser otimizado de forma mais eficaz melhorando a qualidade dos dados de ajuste de instruções, em vez de apenas aumentar a quantidade de dados.
Os nossos modelos têm demonstrado um excelente desempenho em áreas específicas, particularmente em áreas como o direito e as finanças. Descobrimos que as diferenças no tamanho dos parâmetros do modelo não produzem diferenças significativas dentro de um domínio específico e que modelos menores podem superar modelos maiores. Nosso modelo supera todos os modelos com tamanhos de parâmetros de 1,3B a 3B em um determinado domínio, enquanto permanece competitivo com modelos com tamanhos de parâmetros que variam de 6B a 13B, e a capacidade do modelo de classificar dentro de um domínio específico é significativamente aprimorada sob a abordagem COT.

DADOS RELACIONADOS

Processamento de Dados

Usamos dados de treinamento em inglês e chinês. Os dados em inglês foram derivados do conjunto de dados Pile e posteriormente processados. Os dados chineses incluem dados de treinamento de fontes abertas, como Wudao e CBooks, bem como dados que rastreamos da Internet. Para garantir a qualidade dos dados, empregamos métodos rigorosos de tratamento de dados, especialmente para dados rastreados da web.

A nossa abordagem ao processamento de dados inclui o seguinte:

Limpeza de formato: Usamos um analisador de página da Web para extrair e limpar o conteúdo de texto da página da Web de origem. Esta fase inclui a remoção de logotipos HTML, CSS, JS e emojis inúteis para garantir o fluxo do texto. Além disso, lidamos com o problema da formatação inconsistente. Também preservamos caracteres chineses tradicionais chineses para que nossos modelos possam aprender literatura ou poesia antiga.
Filtragem de dados de baixa qualidade: Avaliamos a qualidade dos dados com base na proporção de texto para conteúdo em uma página da web. Especificamente, excluímos páginas com uma densidade de texto inferior a 75% ou inferior a 100 carateres chineses. Este limiar foi determinado através do teste inicial de uma amostra de páginas web.
Desduplicação de dados: Dado que os dados do WuDao também são derivados de páginas da web, alguns sites podem publicar as mesmas informações repetidamente. Portanto, usamos um algoritmo de hash localmente sensível para remover conteúdo duplicado, preservando a diversidade de nossos dados de treinamento.
Filtragem de informações sensíveis: Dado que as páginas da web geralmente contêm conteúdo sensível, usamos heurísticas e léxicos sensíveis para detetar e filtrar esse conteúdo, a fim de construir um modelo de linguagem positivo. Para proteger a privacidade, usamos expressões regulares para identificar informações privadas, como números de identificação, números de telefone e endereços de e-mail, e substituí-las por tags especiais.
Filtragem de dados com pouca informação: dados com pouca informação, como anúncios, geralmente aparecem como conteúdo duplicado. Portanto, identificamos este tipo de conteúdo analisando a frequência de frases no conteúdo de texto da página web. Acreditamos que a repetição frequente de frases do mesmo site pode ser prejudicial para a aprendizagem do modelo. Como resultado, nossos filtros se concentram principalmente em frases repetitivas contínuas em anúncios ou sites não autenticados.

No final, obtiveram-se os seguintes dados:

Lei de Escalas

Para garantir um desempenho ideal face ao aumento dos custos de formação para aprendizagem profunda e grandes modelos linguísticos, realizámos um estudo sobre a relação entre o volume de dados e a capacidade do modelo, conhecido como Scaling Law. Antes de começarmos a treinar um modelo de linguagem grande com bilhões de parâmetros, primeiro treinamos um modelo menor para estabelecer um padrão de escala para treinar um modelo maior. Nossos tamanhos de modelo variam de 10 milhões a 500 milhões de parâmetros, e cada modelo é treinado em um conjunto de dados contendo até 10 bilhões de tokens. Esses treinamentos usam configurações de hiperparâmetros consistentes, bem como o mesmo conjunto de dados mencionado anteriormente. Ao analisar a perda final de vários modelos, conseguimos estabelecer um mapeamento desde o treinamento de FLOP (operação de ponto flutuante) até a Perda. Como mostrado na figura abaixo, a quantidade de dados de treinamento saturados por modelos de tamanhos diferentes é diferente e, à medida que o tamanho do modelo aumenta, os dados de treinamento necessários também aumentam. A fim de atender aos requisitos de dados precisos do modelo de destino, usamos a fórmula power-law para ajustar a lei de expansão do modelo, e previmos a quantidade de dados de treinamento e o valor de perda do modelo de parâmetro 3B, e os comparamos com os resultados reais (estrelas na figura).

Promiscuidade de Dados & Curso de Dados

O impacto dos dados no modelo abrange principalmente dois aspetos: (1) a proporção de mistura, que envolve como os dados de diferentes fontes são combinados para construir um conjunto de dados de um tamanho específico com um orçamento de treinamento limitado; e (2) cursos de dados, que lidam com a disposição de dados de diferentes fontes para treinar habilidades específicas do modelo.

Reduzimos cada fonte de dados para treinar um modelo com parâmetros de 15 milhões. Como mostra a figura abaixo, diferentes tipos de dados têm efeitos diferentes na eficiência da aprendizagem e no resultado final do modelo. Por exemplo, um problema de matemática tem uma menor perda final de dados e é mais rápido de aprender, indicando que tem um padrão mais pronunciado e é fácil de aprender. Em contrapartida, os dados de livros informativos ou de textos diversos na Web demoram mais tempo a adaptar-se. Algumas áreas de dados semelhantes podem estar mais próximas em termos de perdas, como dados relacionados à tecnologia e enciclopédias.

Para explorar melhor o desempenho do modelo generalizando de um único dado para outros dados, usamos esses modelos treinados em um único dado para testar outros dados, e os resultados são mostrados na figura a seguir:

Diferentes conjuntos de dados mostram diferentes graus de capacidade de generalização, por exemplo, o modelo treinado em texto da web, enciclopédia e dados de perguntas e respostas mostra forte capacidade de generalização em várias fontes de dados, indicando que seu conteúdo contém diversas informações em vários campos. Em contraste, modelos treinados em dados de papel acadêmico e dados de código se destacam em habilidade matemática, mas são fracos em generalização, provavelmente devido à especificidade do domínio e informações de formatação exclusivas.

Além disso, fizemos vários ajustes de dimensionamento de dados para equilibrar o desempenho do modelo em várias habilidades e tipos de dados. Com base em nossos experimentos, finalizamos alguns princípios para as taxas de mistura de dados:

Manter uma proporção de texto web de alta qualidade e dados de enciclopédia devido à sua diversidade.
Reduzir a proporção de dados matemáticos para evitar sobreajustes.
Melhorar a matemática com código e dados acadêmicos, mitigando a formatação através de amostragem diversificada e processamento relacionado.
Mantenha alguns dados de conversas e livros para ajudá-lo a aprender dependências de longo alcance.

Além da proporção de mistura, o curso de dados (a ordem em que os dados são treinados) também afeta a capacidade de aprendizagem do modelo. Experimentos mostraram que dados de diferentes fontes farão com que o modelo aprenda habilidades diferentes, e que a adoção de uma ordem de aprendizagem específica pode ajudar o modelo a aprender novas habilidades devido à correlação entre habilidades. As nossas experiências centram-se no impacto da aprendizagem não uniforme de dados mistos e de transferência de línguas nas capacidades do modelo. Nossos experimentos mostram que dados mistos não homogêneos levam ao treinamento contínuo do modelo no mesmo tipo de dados, o que é mais próximo do contexto da aprendizagem em contexto e, portanto, tem melhor desempenho em poucos aprendizados. No entanto, devido à desigualdade da aprendizagem, pode haver um fenómeno percetível de esquecimento nas fases posteriores. Além disso, a aprendizagem por transferência de línguas ajuda o modelo a adquirir competências bilingues, e o desempenho global pode ser melhorado através do alinhamento linguístico, mas acreditamos que a formação com dados linguísticos mistos é mais propícia à alocação e aquisição de competências de modelo.

Arquitetura Modelo MindLLMs

O MindLLM-1.3B usa a mesma arquitetura de modelo do GPTNeo-1.3B, enquanto o MindLLM-3B adiciona algumas melhorias em cima dele. Com base na estabilidade do treinamento e nas capacidades do modelo, usamos Rotated Position Coding (RoPE) DeepNorm, RMS Norm, FlashAttention-2, GeGLU e outros operadores de otimização.

Adicionamos um vocabulário chinês com base no GPTNeo-1.3B e usamos estratégias de aprendizagem de transferência para treinar a habilidade bilíngue do MindLLM-1.3B. Para o MindLLM-3B, usamos o BPE do SentencePiece para tokenizar os dados, e nosso Tokenizer tem um tamanho de vocabulário final de 125.700. Através de duas formas diferentes de formação bilingue, resumimos alguns métodos de pré-treino comuns e práticos.

Pré-Formação

Detalhes do pré-treino

Foram utilizadas duas estratégias diferentes para treinar o modelo bilíngue MindLLM de novo. Para o MindLLM-3B, pré-treinamos 800,00 passos diretamente em dados bilíngues mistos em chinês e inglês enquanto aprendemos proficiência em chinês e inglês; Para o MindLLM-1.3B, primeiro treinamos 101.100 passos no conjunto de dados em inglês e, em seguida, treinamos 105.900 passos usando dados mistos em chinês e inglês. Os detalhes do pré-treinamento são os seguintes:

### Avaliação da Fase Pré-Formação

Um modelo menor pode superar um modelo maior

Para avaliar a habilidade chinesa e inglesa do modelo, foram utilizados MMLU (5-shot) e AGI (4-shot) para avaliar a habilidade em inglês do modelo, e C-(5-shot) e CMMLU (4-shot) para avaliar a habilidade chinesa do modelo. A AGI utiliza uma parte de escolha múltipla da parte inglesa. Os resultados da avaliação são os seguintes:

Em termos de desempenho em inglês, os MindLLMs superam GPT-J-6B, MPT-7B, MOSS-Base-16B e outros modelos maiores em média, e se aproximam do Falcon-7B, que tem tamanhos de modelo maiores e mais dados pré-treinados. Em termos de habilidade chinesa, os MindLLMs têm um desempenho semelhante ao dos LLMs de código aberto. Vale a pena notar que os MindLLMs ainda estão sendo treinados para aprimoramento.

Além disso, descobrimos que o MindLLM-1.3B, que foi treinado em dados chineses e ingleses, superou o GPT-Neo-1.3B no MMLU, sugerindo que isso pode ser um ganho da aprendizagem bilíngue, pois há semelhanças entre diferentes idiomas em termos de habilidades. Experimentos e análises detalhados podem ser encontrados na Seção 4.4 do artigo.

Os modelos mais pequenos têm um grande potencial em termos de capacidades específicas

Para modelos leves, quando aplicados a tarefas a jusante, apenas a presença de capacidades relevantes é suficiente. Portanto, nesta seção, queremos explorar o desempenho e os fatores de influência de MindLLMs e outros LLMs leves em capacidades específicas (≤7B).

Avaliamos o desempenho de diferentes modelos principalmente a partir de três perspetivas: habilidade matemática, capacidade de raciocínio e capacidade de alinhamento bilíngue, pois essas três habilidades são complexas e relativamente importantes para a aplicação de modelos bilíngues.

(1) Matemática**

Utilizamos o conjunto de dados Aritmética (5-shot) para avaliar a capacidade aritmética do modelo, e GSM8K (4-shot) e MATH (4-shot) para avaliar a capacidade matemática geral do modelo. Os resultados da avaliação são os seguintes:

我们发现，MindLLM-3B在数学能力上的平均分数达到了16.01，超过了MOSS-Base-16B(15.71)和MPT-7B(13.42)，GPT-J-6B(13.15)。此外MindLLM-1.3B的数学平均水平也超过了相同大小的GPT-Neo-1.3B。以上结果表明，轻量级模型在数学上有着巨大的潜力，较小的模型也可以在具体领域表现出超越或者与更大模型相当的水平。进一步，我们可以看到数学能力较为出色的(均分≥15) , com exceção do MindLLM-3B, todos os modelos são cerca de 7B. Isso sugere que a aquisição completa de habilidades complexas, como habilidades matemáticas, pode ser limitada pelo tamanho do modelo, e essa especulação pode ser refletida ainda mais na avaliação do bilinguismo e da capacidade de raciocínio do modelo.

(2) Fundamentação

Usamos HellaSwag e WinoGrande para avaliar a capacidade de raciocínio de linguagem do modelo (5-shot), LogiQA para avaliar a capacidade de raciocínio lógico do modelo (5-shot), PubMedQA, PIQA, e MathQA para avaliar a capacidade de raciocínio de conhecimento do modelo (5-shot), e BBH para avaliar a capacidade de raciocínio abrangente do modelo (3-shot). Os resultados específicos da avaliação são os seguintes:

Em primeiro lugar, sob a condição de capacidade limitada do modelo, o ganho de capacidade trazido pelo bilinguismo pode ter de ser equilibrado com o consumo de capacidade do modelo pela aprendizagem de línguas. A aprendizagem de línguas pode ocupar parte da capacidade do modelo, tornando possível adquirir capacidades complexas como a capacidade de raciocínio. Por exemplo, o MindLLM-1.3B é melhor do que o GPT-Neo-1.3B em termos de indicadores de avaliação MMLU em inglês, mas é mais fraco do que este último em termos de capacidade média de raciocínio (35,61 vs 38,95). As habilidades de raciocínio de Blooms não foram particularmente boas, mas o bilinguismo na avaliação de acompanhamento foi excelente, o que também confirmou o ponto acima em certa medida. Por exemplo, o desempenho de inferência do Open-LLaMA-3B é comparável ao de um modelo maior, e seus dados pré-treinados são de 1TBB, o que excede os dados pré-treinados usados por outros modelos do mesmo tamanho. Como resultado, os modelos mais pequenos ainda têm potencial para alcançar um desempenho comparável em termos de poder de inferência do que os modelos maiores. Além disso, descobrimos que o nível de inferência do MOSS não parece ter um desempenho melhor do que o ganho com o aprendizado dos dados de código anteriores (o MOSS continuou a treinar no CodeGen), mas o trabalho relacionado mostra que o código é realmente benéfico para a melhoria da capacidade de inferência do modelo, portanto, como e quando os dados do código são adicionados ao treinamento para melhorar a capacidade de inferência do modelo vale a pena discutir mais.

(3) Bilinguismo

Utilizou-se a seção zh-en do Flores-101 (8-shot) para avaliar o alinhamento de modelos bilíngues ou multilíngues em chinês e inglês. Incluímos o Chinese-LLaMA-2-7B, um modelo de adaptação do domínio chinês baseado no LLaMA-2-7B. Os resultados são os seguintes:

Verificamos que o modelo teve um desempenho fraco em ambas as traduções de inglês para chinês tradicional, principalmente porque os dados pré-treinados representaram uma pequena proporção do chinês tradicional. Além disso, apenas o Blooms e o MindLLM-3B se destacaram no alinhamento bidirecional chinês-inglês e inglês-chinês, seguidos pelo LLaMA-2-7B e MOSS-Base-16B. LLaMA-7B e Open-LLaMA-7B só podem ser alinhados em chinês para inglês. Combinado com os dados de pré-treinamento do modelo, pode-se ver que os dados de pré-treinamento do Blooms e do MindLLM-3B têm uma proporção equilibrada de chinês e inglês, enquanto a proporção de dados chineses no LLaMA-2-7B é muito menor do que a do inglês, e a proporção de chinês nos dados pré-treinamento do LLaMA-7B e do Open-LLaMA-7B é ainda menor.

Portanto, temos duas conclusões, uma é que o modelo pode aprender a representação da linguagem através de uma grande quantidade de treinamento em uma língua, e ao mesmo tempo pode ser compreendido e unidirecional alinhado pela mistura em um pequeno número de outras linguagens, como o desempenho de LLaMA-7B e Open-LLaMA-7B. A segunda é que, se for necessário um melhor alinhamento bilingue ou multilingue, é necessária uma proporção equilibrada de dados bilingues ou multilingues, como o Blooms e o MindLLM-3B, no início da pré-formação. Além disso, descobrimos que MOSS-Base-16B e Chinese-LLaMA-2-7B têm uma proporção razoável de dados chineses e ingleses, e o único ainda não mostra alinhamento bidirecional, e nossa hipótese é que é difícil adicionar capacidade de alinhamento bilíngue durante o treinamento de migração, porque o modelo neste momento já tem muito conhecimento, o que produzirá contradições no caso de pequena capacidade. Isso também explica o fato de que o MindLLM-1.3B, que tem uma capacidade menor e uma pequena quantidade de dados no estágio inicial do treinamento monolíngüe, não adquiriu capacidades de alinhamento bilíngue. O Baichuan 2-7B, por outro lado, é muito bom em outros aspetos, e pode ocupar uma grande capacidade e não pode aprender um bom alinhamento bidirecional.

(4) Resumo

Avaliando os resultados da fase de pré-formação, temos as seguintes duas conclusões:

Modelos leves têm grande potencial para superar ou atingir o nível de modelos maiores em um determinado domínio ou capacidade.
Para o modelo com capacidade limitada (≤7B), podemos razoavelmente alocar a proporção de dados nos dados de pré-treinamento de acordo com os requisitos de habilidade específicos da tarefa a jusante, o que é propício para o modelo aprender e obter a capacidade alvo a partir do zero, e para integrar e promover diferentes conhecimentos e capacidades.

Além disso, o artigo também compara o efeito da manutenção de uma distribuição uniforme dos dados sobre o desempenho pré-treinamento do modelo, e os resultados experimentais mostram que o método de construção de dados de aprendizagem semelhante ao do curso pode ter o mesmo desempenho do modelo treinado no estágio inicial e do método de construção de dados uniformemente misto, mas pode eventualmente levar a um esquecimento catastrófico e declínio súbito no desempenho, enquanto o desempenho deste último é mais consistente e estável, e o conhecimento dos dados pré-treinamento obtidos é mais abrangente, o que também apoia a segunda conclusão acima. Além disso, descobrimos que a forma como os dados são construídos em um curso semelhante pode produzir mais distribuições de dados que são propícias para melhorar a capacidade de aprendizagem contextual do modelo. Os detalhes podem ser encontrados na seção 4.5 do artigo.

Ajuste fino de instruções

Queremos explorar como o ajuste fino de instruções pode funcionar em modelos leves com diferentes tipos de conjuntos de dados. A tabela a seguir é o conjunto de dados de ajuste fino de instruções que usamos, incluindo nosso conjunto de dados chinês reconstruído MingLi, o conjunto de dados público Tulu (inglês) e o conjunto de dados bilíngue chinês-inglês MOSS.

**Para a MindLLM, a qualidade dos dados para ajuste fino de instruções é mais importante do que a quantidade de dados. **

O desempenho dos modelos MindLLM-1.3B e MindLLM-3B em C- após instruções de ajuste fino sob diferentes dados é o seguinte. De acordo com os resultados experimentais, o desempenho do modelo treinado com um conjunto de dados de ajuste fino de 50.000 instruções cuidadosamente selecionado é maior do que o do conjunto de dados de ajuste fino de instruções com alta diversidade e grande volume de dados. Da mesma forma, o modelo mostrou o mesmo desempenho no indicador inglês MMLU (ver Tabela 14 para detalhes). Portanto, para modelos leves, é muito importante definir e filtrar conjuntos de dados de ajuste fino de instruções de alta qualidade.

Ajuste fino da estratégia de filtragem de dados com base na entropia de dados

Como você define dados de ajuste fino de instruções de alta qualidade? Alguns estudiosos propuseram que a diversidade de dados de ajuste fino de instruções pode representar a qualidade de dados de conjuntos de dados de ajuste fino de instruções. No entanto, de acordo com nossos experimentos, a entropia de dados e o comprimento dos dados do ajuste fino da instrução afetarão mais o desempenho de modelos leves. Definimos a perda de entropia cruzada de cada parte de dados no modelo pré-treinado como a entropia de dados dos dados, e agrupamos os dados de acordo com a entropia de dados pelo algoritmo K-Means para obter diferentes clusters de dados. Os resultados do MindLLM após o ajuste fino das instruções de cada cluster de dados e, em seguida, C- são mostrados na tabela a seguir (veja a Tabela 19 para detalhes dos resultados do MMLU):

De acordo com os resultados da tabela, o desempenho do MindLLM-1.3B e do MindLLM-3B em diferentes clusters de dados é significativamente diferente. Além disso, analisamos a relação entre a entropia dos dados e a precisão do modelo em C e MMLU e ajuste de função, como mostra a figura:

O ponto do pentagrama vermelho na imagem é a entropia do modelo pré-treinado. De acordo com a análise, quando a entropia dos dados é 1-1,5 maior do que a entropia do modelo pré-treinado, o modelo tem o melhor desempenho após ajustar as instruções de dados nesse intervalo. Portanto, definimos dados de alta qualidade por entropia de dados e propomos um método para triagem de dados de alta qualidade.

O MindLLM pode ajustar o conjunto de dados através de instruções especificadas para obter recursos específicos

Para explorar se o MindLLM pode efetivamente melhorar suas capacidades específicas por meio do ajuste fino de instruções, usamos a parte de dados do exame do conjunto de dados de 10.000 volumes para ajustar o modelo, a fim de melhorar a capacidade de conhecimento do assunto do modelo. Realizamos uma avaliação em C-, e os resultados são os seguintes:

Pode-se ver que, após o ajuste fino das instruções, o modelo melhorou muito sua capacidade de conhecimento do assunto, e o desempenho do 1.3B MindLLM até excede o de modelos maiores, como ChatGLM-6B e Chinese-Alpaca-33B. Portanto, acreditamos que o MindLLM pode melhorar suas capacidades específicas após instruções de ajuste fino e, devido às suas características leves, é mais adequado para implementação em tarefas verticais a jusante.

Aplicação de campo

A fim de demonstrar o efeito da aplicação de pequenos modelos em campos específicos, usamos dois conjuntos de dados públicos em finanças e direito para verificá-los. A partir dos resultados, pode-se observar que o tamanho do parâmetro do modelo tem um certo impacto no desempenho do domínio, mas o desempenho não é óbvio. O desempenho do MindLLM supera outros modelos de tamanho comparável na aplicação de campo e é comparável a modelos maiores. Prova ainda que o pequeno modelo tem um grande potencial no campo de aplicação.

Setor Financeiro

Neste campo, a tarefa de classificação da perceção emocional é realizada com base em dados financeiros. Primeiro, rastreamos dados de 13 de maio de 2011 a 31 de agosto de 2023 da Oriental Fortune e marcamos os dados com base nas seguintes flutuações do preço das ações. Posteriormente, os dados são divididos em conjuntos de treinamento e teste por data. Considerando o desequilíbrio das categorias, amostramos os dados e acabamos usando 320.000 dados como conjunto de treinamento e 20.000 dados como conjunto de testes.

Foram utilizados dois métodos de treino diferentes para comparar o desempenho de diferentes modelos. Em primeiro lugar, apenas o simples ajuste fino supervisionado (SFT) é usado para classificar o texto. Em segundo lugar, os dados do processo de inferência foram destilados do ChatGPT e adicionados ao treinamento como dados auxiliares, usando o método de treinamento COT (Chain-Of-Thought).

Os resultados experimentais mostram que o efeito de todos os modelos de linha de base e modelos MindLLM pode ser melhorado em diferentes graus, complementando informações auxiliares. Pode-se ainda observar que o desempenho do MindLLM-1.3B e 3B é melhorado em 27,81% e 26,28%, respectivamente, em comparação com o desempenho do treinamento SFT pelo treinamento COT, e o MindLLM é mais significativamente melhorado do que outros modelos, exceto Baichuan-7B. Além disso, o MindLLM-1.3B e o 3B alcançam o melhor desempenho na mesma escala e superam o ChatGLM2-6B e o Open-LLaMA-7B.

CAMPO JURÍDICO

Recolhemos alguns dados legais publicamente disponíveis e combinámo-los com alguns dados de diretivas gerais para a Diretiva de Ajuste Fino (SFT) da MindLLM. Para explorar como o comprimento do token dos dados afeta o desempenho do modelo em domínios específicos, usamos dados de diferentes comprimentos de dados para treinar o MindLLM separadamente. Primeiro, examinamos todos os dados com um comprimento inferior a 450 e, em seguida, usamos os tokenizadores MindLLM-1.3B e MindLLM-3B para filtrar dados entre 200-300 e 300-450, respectivamente. A tabela a seguir lista as estatísticas e os modelos de treinamento correspondentes:

A fim de evitar erros causados por preconceitos e falta de experiência em avaliação humana, usamos o ChatGPT como avaliador das seguintes maneiras. Um conjunto de dados de várias rodadas de conversas de consulta jurídica geradas pelo ChatGPT, 100 das quais foram extraídas como nossos dados de avaliação. Usamos o ChatGPT para avaliar as respostas do modelo a aconselhamento jurídico, deixamos o ChatGPT classificar as respostas do modelo e, em seguida, calculamos a pontuação Elo com base nos resultados da classificação. Finalmente, um dos melhores modelos foi selecionado para comparar o MindLLM-Law com outros modelos de código aberto.

Para o Bloom, os modelos GPT-Neo e Open-LLaMA foram ajustados usando o mesmo conjunto de dados do MindLLM-Law, e os resultados da comparação são os seguintes:

Os resultados mostram que o MindLLM-Law não superou o modelo com parâmetros 13B e ChatGLM2-6B, principalmente devido à falta de dados na fase de pré-treinamento do direito para trazer maior ganho. No entanto, o MindLLM tem vantagens gerais óbvias sobre o Baichuan2-7B-Chat, o Open-LLaMA-7B ajustado e outros modelos do mesmo tamanho.

Resumo

Este artigo apresenta a família de modelos MindLLM, que atualmente inclui dois modelos de linguagem leves e grandes. Discutimos detalhadamente seu processo de treinamento, incluindo processamento de dados, pré-treinamento, ajuste fino e aplicações de domínio, e compartilhamos valiosas experiências e aplicações técnicas acumuladas nesses campos. Apesar de seu tamanho de parâmetro relativamente pequeno, os MindLLMs tiveram um bom desempenho em vários testes de desempenho, superando até mesmo alguns dos modelos maiores em alguns aspetos. O MindLLM apresenta um desempenho superior a outros modelos leves em termos de adaptação de domínio. Ao mesmo tempo, eles são capazes de alcançar resultados comparáveis com velocidade de treinamento mais rápida e menos recursos de treinamento do que modelos maiores. Com base na análise acima, acreditamos que modelos pequenos ainda têm grande potencial. Vamos melhorar ainda mais a qualidade dos dados, otimizar o processo de treinamento do modelo e dimensionar o modelo para melhorar o desempenho do MindLLM de forma multidimensional. No futuro, planeamos experimentar mais tarefas a jusante e domínios específicos para alcançar aplicações específicas mais aprofundadas de modelos grandes e leves.

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.

2 Curtidas

Recompensa
2
Comentário
Compartilhar

Comentário

0/400

Sem comentários

Tema
1/3
1Show My Alpha Points
14k Popularidade
2Crypto Market Rebound
167k Popularidade
3SEC Crypto Project
22k Popularidade
4CandyDrop Airdrop Event 6.0
101k Popularidade
5White House Crypto Report
82k Popularidade

Marcar

sitemap