Treinamento de meio dia com um orçamento de 1.000 yuans, o efeito é comparável aos grandes modelos convencionais, LLaMA-2 chinês de código aberto e comercialmente disponível
Comparado com o LLaMA-1, o LLaMA-2 apresenta mais corpus de alta qualidade, alcança melhorias significativas de desempenho e é totalmente permitido para uso comercial, estimulando ainda mais a prosperidade da comunidade de código aberto e expandindo a imaginação de aplicação de modelos de grande escala. No entanto, o custo do pré-treinamento de grandes modelos do zero é bastante alto e é jocosamente chamado de “US$ 50 milhões para entrar no jogo”, o que desencoraja muitas empresas e desenvolvedores. Então, como você constrói seus próprios modelos grandes a um custo menor?
Como líder na redução de custos e aumento de eficiência para modelos grandes, a equipe Colossal-AI faz pleno uso dos recursos básicos do LLaMA-2 e adota métodos de treinamento eficientes, usando apenas cerca de 8,5 bilhões de dados de token, 15 horas e milhares de yuans em custos de treinamento. **Construiu com sucesso o LLaMA-2 chinês com excelente desempenho, que apresenta excelente desempenho em múltiplas listas de avaliação.
Comparado com o LLaMA-2 original, com base na melhoria bem-sucedida da habilidade chinesa, ele melhorou ainda mais sua habilidade em inglês e seu desempenho é comparável ao modelo SOTA pré-treinado na mesma escala na comunidade de código aberto. Aderindo ao consistente princípio de código aberto da equipe Colossal-AI, ** todo o processo de treinamento, código e pesos são completamente de código aberto, sem restrições comerciais, ** e uma estrutura completa do sistema de avaliação Colossal é fornecida para obter baixo custo reprodutibilidade. Soluções relacionadas também podem ser transferidas para qualquer campo vertical e usadas para construir modelos pré-treinados de baixo custo a partir do zero.
Código-fonte aberto e peso:
Desempenho
*Observação: com base na pontuação Colossal, as pontuações entre parênteses vêm da lista oficial de pontuações dos modelos correspondentes, e a pontuação C vem do site oficial da Tabela de classificação. *
Nas listas de avaliação comuns em chinês e inglês, podemos ver que na lista MMLU em inglês, Colossal-LLaMA-2-7B-base superou o problema do esquecimento catastrófico com o apoio de pré-treinamento incremental de baixo custo. Melhorando gradualmente ( 44,47 -> 53,06), o desempenho é excelente entre todos os modelos em escala 7B.
Na lista chinesa, CMMLU, AGI, GAOKAO e C- são comparados principalmente, e o efeito excede em muito outros modelos de localização chineses baseados em LLaMA-2. Mesmo comparado com outros modelos conhecidos que usam corpus chinês e podem custar dezenas de milhões de dólares para pré-treinar do zero, o Colossal-LLaMA-2 ainda tem um bom desempenho na mesma escala. Especialmente em comparação com o LLaMA-2 original, houve um salto qualitativo na capacidade chinesa (CMMLU: 32,97 -> 49,89).
No entanto, através do ajuste fino através de SFT, LoRA e outros métodos, o conhecimento e a capacidade que podem ser efetivamente injetados no modelo base são muito limitados e não podem atender melhor às necessidades de construção de conhecimento de domínio de alta qualidade ou aplicações de modelos verticais.
Para avaliar melhor o desempenho do modelo, a equipe da Colossal-AI não se baseia apenas em indicadores quantitativos, mas também avalia manualmente diferentes aspectos do modelo. Aqui estão alguns exemplos:
A julgar pelo histórico de perdas de todo o treinamento, ao mesmo tempo em que aproveita a capacidade do sistema Colossal-AI de reduzir custos e aumentar a eficiência, a convergência do modelo também está totalmente garantida, com apenas cerca de 8,5 bilhões de tokens (8,5 bilhões de tokens) e um poder computacional custo de vários milhares de yuans. Deixe o modelo alcançar efeitos tão impressionantes. No entanto, grandes modelos no mercado costumam usar trilhões de tokens para treinamento para garantir resultados efetivos, o que é muito caro.
Então, como a equipe da Colossal-AI reduziu os custos de treinamento e alcançou tais resultados?
Expansão de vocabulário e inicialização de modelo
A lista de vocabulário original do LLaMA-2 não é otimizada especificamente para chinês e contém palavras chinesas limitadas, resultando em compreensão insuficiente do corpus chinês. Portanto, o vocabulário do LLaMA-2 foi primeiramente ampliado.
A equipe Colossal-AI encontrou:
A expansão do vocabulário pode não apenas melhorar efetivamente a eficiência da codificação da sequência de strings, mas também fazer com que a sequência de codificação contenha informações mais eficazes, o que será mais útil na codificação e compreensão no nível do capítulo.
No entanto, devido à pequena quantidade de dados incrementais de pré-treinamento, expandir mais palavras fará com que algumas palavras ou combinações não tenham significado prático, dificultando o aprendizado completo no conjunto de dados incrementais de pré-treinamento, afetando o efeito final.
Um vocabulário excessivamente grande levará a um aumento nos parâmetros relacionados à incorporação, afetando assim a eficiência do treinamento.
Portanto, após repetidos experimentos e levando em consideração a qualidade e eficiência do treinamento, a equipe do Colossal-AI finalmente decidiu expandir o vocabulário dos 32.000 originais do LLaMA-2 para 69.104.
Com o vocabulário expandido, o próximo passo é inicializar a incorporação do novo vocabulário baseado no LLaMA-2 original. A fim de migrar melhor as capacidades originais do LLaMA-2 e obter uma migração rápida do LLaMA-2 original para as capacidades do LLaMA-2 chinês, a equipe Colossal-AI usou os pesos do LLaMA-2 original para calcular a média da nova incorporação. inicialização. Isso não apenas garante que a capacidade de inglês do modelo recém-inicializado não seja afetada no estado inicial, mas também permite que a capacidade de inglês seja transferida para o chinês da maneira mais integrada possível.
Construção de dados
A fim de reduzir ainda mais o custo da formação, os dados de alta qualidade desempenham um papel fundamental, especialmente para a pré-formação incremental, que tem requisitos extremamente elevados para a qualidade e distribuição dos dados. Para filtrar melhor dados de alta qualidade, a equipe da Colossal-AI construiu um sistema completo de limpeza de dados e um kit de ferramentas para rastrear dados de alta qualidade para pré-treinamento incremental.
As imagens a seguir mostram o processo completo de governança de dados da equipe Colossal-AI:
Além da filtragem heurística comum e da desduplicação de dados, ele também realiza pontuação, classificação e filtragem de dados importantes. Dados apropriados desempenham um papel crucial no estímulo à habilidade chinesa do LLaMA-2, ao mesmo tempo em que supera o catastrófico problema de esquecimento em inglês.
Por fim, para melhorar a eficiência do treinamento, para os dados do mesmo sujeito, a equipe Colossal-AI classificou o comprimento dos dados e os emendou de acordo com o comprimento máximo de 4096.
Estratégia de treinamento
Treinamento em vários estágios
Em termos de formação, tendo em conta as características do pré-formação incremental, a equipa da Colossal-AI desenhou um plano de pré-formação incremental hierárquico e multi-etapas, dividindo o processo de formação em três fases:
* Estágio de pré-treinamento em grande escala: O objetivo é treinar o modelo por meio de uma grande quantidade de corpus para que o modelo possa produzir um texto relativamente suave. Esta etapa é concluída pelo LLaMA-2. Após esta etapa, o modelo domina uma grande quantidade de conhecimento de inglês e pode produzir resultados suaves com base na previsão do próximo token.
Estágio de injeção de conhecimento chinês: Este estágio depende de conhecimento chinês de alta qualidade. Por um lado, aumenta o domínio do modelo sobre o conhecimento chinês e, por outro lado, melhora a compreensão do modelo das palavras no vocabulário chinês recém-adicionado.
Estágio de reprodução de conhecimento relevante: Este estágio é dedicado a melhorar a compreensão do modelo e a capacidade de generalização do conhecimento e a aliviar o problema do esquecimento catastrófico.
Os múltiplos estágios se complementam e, em última análise, garantem que as capacidades do modelo em chinês e inglês andem de mãos dadas.
Treinamento de balde
O pré-treinamento incremental é extremamente sensível à distribuição de dados e o equilíbrio é particularmente importante. Portanto, para garantir uma distribuição equilibrada de dados, a equipe da Colossal-AI projetou uma estratégia de agrupamento de dados para dividir o mesmo tipo de dados em 10 compartimentos diferentes. Durante o processo de treinamento, cada depósito de dados contém uniformemente um compartimento de cada tipo de dados, garantindo assim que cada tipo de dados possa ser utilizado uniformemente pelo modelo.
Sistema de avaliação
Para avaliar melhor o desempenho do modelo, a equipe Colossal-AI construiu um sistema de avaliação completo - Colossal, na esperança de avaliar grandes modelos de linguagem através de múltiplas dimensões. O código da estrutura do processo é totalmente de código aberto, o que não apenas suporta a reprodução de resultados, mas também permite que os usuários personalizem conjuntos de dados e métodos de avaliação de acordo com seus diferentes cenários de aplicação. As características do quadro de avaliação são resumidas da seguinte forma:
Abrange conjuntos de dados comuns, como MMLU, CMMLU, etc. para avaliar as capacidades de reserva de conhecimento de grandes modelos de linguagem. Para a forma de questões de escolha única, além do método de cálculo comum de comparação de probabilidades ABCD, são adicionados métodos de cálculo mais abrangentes, como correspondência absoluta, perplexidade de escolha única, etc., a fim de medir de forma mais abrangente o domínio do modelo de conhecimento. .
Suporta avaliações de múltipla escolha e avaliações de texto longo.
Suporta métodos de avaliação para diferentes cenários de aplicação, como diálogo multi-rodada, dramatização, extração de informações, geração de conteúdo, etc. Os usuários podem avaliar seletivamente as capacidades de diferentes aspectos do modelo de acordo com suas próprias necessidades e apoiar a expansão dos métodos de customização e avaliação.
Construa uma ponte para a migração de grandes modelos gerais para grandes modelos verticais
A julgar pela experiência da equipe Colossal-AI, a construção da versão chinesa do modelo baseado no LLaMA-2 pode ser basicamente dividida nos seguintes processos:
Então esta solução pode ser reutilizada?
A resposta é sim e é muito significativa no cenário de implementação de negócios.
Com a onda de inteligência artificial desencadeada pelo ChatGPT, grandes gigantes da Internet, empresas de IA, startups, universidades e instituições de pesquisa em todo o mundo estão correndo na pista de grandes modelos em geral. No entanto, por trás das capacidades gerais dos grandes modelos gerais está muitas vezes a falta de conhecimento em campos específicos.Portanto, na implementação real, o problema da ilusão de grandes modelos torna-se particularmente sério. Embora o ajuste fino dos negócios possa gerar certos ganhos, a falta de grandes modelos verticais leva a gargalos de desempenho na implementação de aplicativos. Se um grande modelo vertical puder ser construído rapidamente e com baixo custo, e então o negócio puder ser ajustado com base no grande modelo vertical, seremos definitivamente capazes de dar mais um passo em frente na implementação de negócios e aproveitar oportunidades e vantagens.
Ao aplicar o processo acima para transferir conhecimento em qualquer área, você pode construir um processo leve para construir grandes modelos de base verticais em qualquer área a baixo custo: **
Para pré-treinamento e construção de um grande modelo básico a partir do zero, também podemos aproveitar a experiência acima e os recursos de redução de custos e aumento de eficiência da Colossal-AI para concluí-lo com eficiência e com o menor custo.
Otimização do Sistema
O excelente desempenho e as vantagens de custo mencionados acima do Colossal-LLaMA-2 são construídos no sistema de desenvolvimento de grandes modelos de IA de baixo custo, Colossal-AI.
Colossal-AI é baseado em PyTorch, que pode reduzir os custos de desenvolvimento e aplicação de treinamento/ajuste/inferência de grandes modelos de IA, melhorar o desempenho da tarefa do modelo e reduzir os requisitos de GPU por meio de paralelismo multidimensional eficiente, memória heterogênea, etc. Em pouco mais de um ano, recebeu mais de 30.000 GitHub Stars na comunidade de código aberto GitHub, ocupando o primeiro lugar no mundo em ferramentas de desenvolvimento de grandes modelos e segmentação de comunidade, e foi desenvolvido em conjunto com muitos fabricantes conhecidos, incluindo os principais fabricantes do mundo. 500 empresas/Otimize 100 bilhões/10 bilhões de parâmetros para pré-treinar modelos grandes ou criar modelos verticais.
Plataforma de nuvem Colossal-AI
A fim de melhorar ainda mais a eficiência do desenvolvimento e implantação de grandes modelos de IA, o Colossal-AI foi atualizado para a plataforma de nuvem Colossal-AI, que permite aos usuários treinar, ajustar e implantar grandes modelos na nuvem em um baixo custo. maneira código/sem código a baixo custo, integrando rapidamente vários modelos são integrados em aplicativos personalizados.
Atualmente, modelos e soluções convencionais, como difusão estável e LLaMA-2, foram predefinidos na plataforma de nuvem Colossal-AI. Os usuários só precisam fazer upload de seus próprios dados para ajuste fino. Ao mesmo tempo, eles também podem implantar seus próprios dados. Modelos ajustados como APIs a preços acessíveis permitem que você use A10, A800, H800 e outros recursos de GPU sem ter que manter seus próprios clusters de computação e diversas infraestruturas. Mais cenários de aplicação, diferentes campos, diferentes versões de modelos, implantação de plataformas de privatização empresarial, etc., estão sendo constantemente iterados.
Plataforma de nuvem Colossal-AI: platform.luchentech.com
Documentação da plataforma em nuvem Colossal-AI:
Endereço de código aberto Colossal-AI:
Link de referência:
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
Treinamento de meio dia com um orçamento de 1.000 yuans, o efeito é comparável aos grandes modelos convencionais, LLaMA-2 chinês de código aberto e comercialmente disponível
Comparado com o LLaMA-1, o LLaMA-2 apresenta mais corpus de alta qualidade, alcança melhorias significativas de desempenho e é totalmente permitido para uso comercial, estimulando ainda mais a prosperidade da comunidade de código aberto e expandindo a imaginação de aplicação de modelos de grande escala. No entanto, o custo do pré-treinamento de grandes modelos do zero é bastante alto e é jocosamente chamado de “US$ 50 milhões para entrar no jogo”, o que desencoraja muitas empresas e desenvolvedores. Então, como você constrói seus próprios modelos grandes a um custo menor?
Como líder na redução de custos e aumento de eficiência para modelos grandes, a equipe Colossal-AI faz pleno uso dos recursos básicos do LLaMA-2 e adota métodos de treinamento eficientes, usando apenas cerca de 8,5 bilhões de dados de token, 15 horas e milhares de yuans em custos de treinamento. **Construiu com sucesso o LLaMA-2 chinês com excelente desempenho, que apresenta excelente desempenho em múltiplas listas de avaliação.
Comparado com o LLaMA-2 original, com base na melhoria bem-sucedida da habilidade chinesa, ele melhorou ainda mais sua habilidade em inglês e seu desempenho é comparável ao modelo SOTA pré-treinado na mesma escala na comunidade de código aberto. Aderindo ao consistente princípio de código aberto da equipe Colossal-AI, ** todo o processo de treinamento, código e pesos são completamente de código aberto, sem restrições comerciais, ** e uma estrutura completa do sistema de avaliação Colossal é fornecida para obter baixo custo reprodutibilidade. Soluções relacionadas também podem ser transferidas para qualquer campo vertical e usadas para construir modelos pré-treinados de baixo custo a partir do zero.
Código-fonte aberto e peso:
Nas listas de avaliação comuns em chinês e inglês, podemos ver que na lista MMLU em inglês, Colossal-LLaMA-2-7B-base superou o problema do esquecimento catastrófico com o apoio de pré-treinamento incremental de baixo custo. Melhorando gradualmente ( 44,47 -> 53,06), o desempenho é excelente entre todos os modelos em escala 7B.
Na lista chinesa, CMMLU, AGI, GAOKAO e C- são comparados principalmente, e o efeito excede em muito outros modelos de localização chineses baseados em LLaMA-2. Mesmo comparado com outros modelos conhecidos que usam corpus chinês e podem custar dezenas de milhões de dólares para pré-treinar do zero, o Colossal-LLaMA-2 ainda tem um bom desempenho na mesma escala. Especialmente em comparação com o LLaMA-2 original, houve um salto qualitativo na capacidade chinesa (CMMLU: 32,97 -> 49,89).
No entanto, através do ajuste fino através de SFT, LoRA e outros métodos, o conhecimento e a capacidade que podem ser efetivamente injetados no modelo base são muito limitados e não podem atender melhor às necessidades de construção de conhecimento de domínio de alta qualidade ou aplicações de modelos verticais.
Para avaliar melhor o desempenho do modelo, a equipe da Colossal-AI não se baseia apenas em indicadores quantitativos, mas também avalia manualmente diferentes aspectos do modelo. Aqui estão alguns exemplos:
Expansão de vocabulário e inicialização de modelo
A lista de vocabulário original do LLaMA-2 não é otimizada especificamente para chinês e contém palavras chinesas limitadas, resultando em compreensão insuficiente do corpus chinês. Portanto, o vocabulário do LLaMA-2 foi primeiramente ampliado.
A equipe Colossal-AI encontrou:
Portanto, após repetidos experimentos e levando em consideração a qualidade e eficiência do treinamento, a equipe do Colossal-AI finalmente decidiu expandir o vocabulário dos 32.000 originais do LLaMA-2 para 69.104.
Com o vocabulário expandido, o próximo passo é inicializar a incorporação do novo vocabulário baseado no LLaMA-2 original. A fim de migrar melhor as capacidades originais do LLaMA-2 e obter uma migração rápida do LLaMA-2 original para as capacidades do LLaMA-2 chinês, a equipe Colossal-AI usou os pesos do LLaMA-2 original para calcular a média da nova incorporação. inicialização. Isso não apenas garante que a capacidade de inglês do modelo recém-inicializado não seja afetada no estado inicial, mas também permite que a capacidade de inglês seja transferida para o chinês da maneira mais integrada possível.
Construção de dados
A fim de reduzir ainda mais o custo da formação, os dados de alta qualidade desempenham um papel fundamental, especialmente para a pré-formação incremental, que tem requisitos extremamente elevados para a qualidade e distribuição dos dados. Para filtrar melhor dados de alta qualidade, a equipe da Colossal-AI construiu um sistema completo de limpeza de dados e um kit de ferramentas para rastrear dados de alta qualidade para pré-treinamento incremental.
As imagens a seguir mostram o processo completo de governança de dados da equipe Colossal-AI:
Por fim, para melhorar a eficiência do treinamento, para os dados do mesmo sujeito, a equipe Colossal-AI classificou o comprimento dos dados e os emendou de acordo com o comprimento máximo de 4096.
Estratégia de treinamento
Treinamento em vários estágios
Em termos de formação, tendo em conta as características do pré-formação incremental, a equipa da Colossal-AI desenhou um plano de pré-formação incremental hierárquico e multi-etapas, dividindo o processo de formação em três fases:
Os múltiplos estágios se complementam e, em última análise, garantem que as capacidades do modelo em chinês e inglês andem de mãos dadas.
Treinamento de balde
O pré-treinamento incremental é extremamente sensível à distribuição de dados e o equilíbrio é particularmente importante. Portanto, para garantir uma distribuição equilibrada de dados, a equipe da Colossal-AI projetou uma estratégia de agrupamento de dados para dividir o mesmo tipo de dados em 10 compartimentos diferentes. Durante o processo de treinamento, cada depósito de dados contém uniformemente um compartimento de cada tipo de dados, garantindo assim que cada tipo de dados possa ser utilizado uniformemente pelo modelo.
Sistema de avaliação
Para avaliar melhor o desempenho do modelo, a equipe Colossal-AI construiu um sistema de avaliação completo - Colossal, na esperança de avaliar grandes modelos de linguagem através de múltiplas dimensões. O código da estrutura do processo é totalmente de código aberto, o que não apenas suporta a reprodução de resultados, mas também permite que os usuários personalizem conjuntos de dados e métodos de avaliação de acordo com seus diferentes cenários de aplicação. As características do quadro de avaliação são resumidas da seguinte forma:
Construa uma ponte para a migração de grandes modelos gerais para grandes modelos verticais
A julgar pela experiência da equipe Colossal-AI, a construção da versão chinesa do modelo baseado no LLaMA-2 pode ser basicamente dividida nos seguintes processos:
A resposta é sim e é muito significativa no cenário de implementação de negócios.
Com a onda de inteligência artificial desencadeada pelo ChatGPT, grandes gigantes da Internet, empresas de IA, startups, universidades e instituições de pesquisa em todo o mundo estão correndo na pista de grandes modelos em geral. No entanto, por trás das capacidades gerais dos grandes modelos gerais está muitas vezes a falta de conhecimento em campos específicos.Portanto, na implementação real, o problema da ilusão de grandes modelos torna-se particularmente sério. Embora o ajuste fino dos negócios possa gerar certos ganhos, a falta de grandes modelos verticais leva a gargalos de desempenho na implementação de aplicativos. Se um grande modelo vertical puder ser construído rapidamente e com baixo custo, e então o negócio puder ser ajustado com base no grande modelo vertical, seremos definitivamente capazes de dar mais um passo em frente na implementação de negócios e aproveitar oportunidades e vantagens.
Ao aplicar o processo acima para transferir conhecimento em qualquer área, você pode construir um processo leve para construir grandes modelos de base verticais em qualquer área a baixo custo: **
Otimização do Sistema
O excelente desempenho e as vantagens de custo mencionados acima do Colossal-LLaMA-2 são construídos no sistema de desenvolvimento de grandes modelos de IA de baixo custo, Colossal-AI.
Colossal-AI é baseado em PyTorch, que pode reduzir os custos de desenvolvimento e aplicação de treinamento/ajuste/inferência de grandes modelos de IA, melhorar o desempenho da tarefa do modelo e reduzir os requisitos de GPU por meio de paralelismo multidimensional eficiente, memória heterogênea, etc. Em pouco mais de um ano, recebeu mais de 30.000 GitHub Stars na comunidade de código aberto GitHub, ocupando o primeiro lugar no mundo em ferramentas de desenvolvimento de grandes modelos e segmentação de comunidade, e foi desenvolvido em conjunto com muitos fabricantes conhecidos, incluindo os principais fabricantes do mundo. 500 empresas/Otimize 100 bilhões/10 bilhões de parâmetros para pré-treinar modelos grandes ou criar modelos verticais.
Plataforma de nuvem Colossal-AI
A fim de melhorar ainda mais a eficiência do desenvolvimento e implantação de grandes modelos de IA, o Colossal-AI foi atualizado para a plataforma de nuvem Colossal-AI, que permite aos usuários treinar, ajustar e implantar grandes modelos na nuvem em um baixo custo. maneira código/sem código a baixo custo, integrando rapidamente vários modelos são integrados em aplicativos personalizados.
Link de referência: