Pode ser executado em celulares, com 1 trilhão de dados de treinamento! EstávelLM-3B-4E1T está aqui

**Fonte: **Comunidade Aberta AIGC

Em 2 de outubro, horário do leste dos EUA, a famosa plataforma de código aberto Stability.ai anunciou em seu site oficial o lançamento do modelo de linguagem grande de código aberto StableLM-3B-4E1T. (Endereço de código aberto:

É relatado que o Stable LM 3B é um modelo básico de linguagem grande, principalmente para telefones celulares, laptops e outros dispositivos móveis, reduzindo significativamente os requisitos de recursos de computação e garantindo desempenho.

O Stable LM 3B suporta funções como geração de texto/código, resumo de resumo, ajuste fino de dados, raciocínio de bom senso e resolução de problemas matemáticos. O comprimento do contexto global é 4096. (referido como "LM 3B estável")

Com a popularidade do ChatGPT, houve um vigoroso "boom de desenvolvimento de grandes modelos" em todo o mundo. No entanto, a maioria dos modelos requer uma grande quantidade de recursos computacionais para serem pré-treinados e ajustados, e também possuem altos requisitos para o ambiente operacional das aplicações generativas de IA desenvolvidas. A Qualcomm até lançou um chip generativo de IA especificamente para dispositivos móveis para resolver o problema de poder de computação.

Stability.ai espera abrir o Stable LM 3B para ajudar os desenvolvedores que não possuem grandes recursos de computação a criar produtos de IA generativos pequenos e compactos que possam ser executados com segurança e estabilidade em dispositivos móveis.

Conjunto de dados de treinamento LM 3B estável

Embora o modelo tenha apenas 3 bilhões de parâmetros, ele usa um enorme conjunto de dados de treinamento de 1 trilhão de tokens, incluindo texto, código, Wikipedia, ArXiv, livros, C4 e outros dados.

Este conjunto de dados é filtrado e misturado a partir de vários conjuntos de dados de código aberto em grande escala, incluindo Falcon RefinedWeb, RedPajama-Data, The Pile e StarCoder.

Isso permite que o Stable LM 3B supere modelos do mesmo tamanho com menos recursos e seja ainda mais forte do que alguns modelos grandes com 7 bilhões ou 10 bilhões de parâmetros.

Processo de treinamento LM 3B estável

Stable LM 3B começa com treinamento de precisão bfloat16 de 972k, e o comprimento do contexto global é 4.096, em vez de melhoria em vários estágios de 2.048 a 4.096 como StableLM-Alpha v2.

Stability.ai usou AdamW para otimização de desempenho e aquecimento linear para as primeiras 4.800 etapas, seguido por um cronograma de decaimento de cosseno para reduzir a taxa de aprendizado para 4% do pico.

A instabilidade precoce é atribuída a estadias prolongadas na região com elevada taxa de aprendizagem. Como o modelo é relativamente pequeno, o dropout não é utilizado.

Durante o processo de treinamento, Stability.ai avalia benchmarks de linguagem natural e observa melhorias constantes do treinamento no final do cronograma de redução da taxa de aprendizagem. Por esta razão, os desenvolvedores decidiram reduzir linearmente a taxa de aprendizagem para 0, semelhante ao que fizeram Zhai et al., na esperança de alcançar um melhor desempenho.

Além disso, a fase inicial do pré-treinamento depende da API flash-attention e de seu suporte pronto para uso para mascaramento causal triangular. Isso força o modelo a tratar diferentes documentos na sequência compactada de maneira semelhante.

Durante a fase de resfriamento, Stability.ai redefine os IDs de posição e as máscaras de atenção nos marcadores EOD para todas as sequências compactadas após observar empiricamente a melhoria da qualidade da amostra (ou seja: duplicação reduzida) em experimentos simultâneos.

Em termos de hardware, o StableLM-3B é treinado no cluster de computação do Stability AI. O cluster contém 256 placas gráficas NVIDIA A100 de 40 GB. O treinamento começou em 23 de agosto de 2023 e durou aproximadamente 30 dias para ser concluído.

Em termos de testes de desempenho, o StableLM-3B foi testado na estrutura de avaliação de chicote de simulação de amostra zero. Os resultados mostram que o desempenho não é inferior ao modelo com 7 bilhões de parâmetros, e é ainda mais forte do que alguns modelos com 10 bilhões de parâmetros.

O material deste artigo vem do site oficial do Stability.ai. Se houver alguma infração, entre em contato conosco para excluí-la.

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Compartilhar
Comentário
0/400
Sem comentários
  • Marcar
Faça trade de criptomoedas em qualquer lugar e a qualquer hora
qrCode
Escaneie o código para baixar o app da Gate
Comunidade
Português (Brasil)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)