Benchmark de código aberto! O modelo bilingue chinês-inglês mais forte está aqui, com 34 bilhões de parâmetros, superando todos os modelos de código aberto, como o Llama2-70B

2023-10-13 13:51:44

Autor:Jin Lei

Fonte: Qubits

O modelo bilingue chinês-inglês mais forte do mundo open source, Wudao Skyhawk 34B, está aqui!

Qual é a sua força? Numa palavra:

Capacidade abrangente em chinês e inglês, capacidade de raciocínio lógico, etc., superam de forma abrangente o Llama2-70B e todos os modelos de código aberto anteriores!

Em termos de capacidade de raciocínio, o benchmark de avaliação IRD do modelo de diálogo só perde para GPT4.

Não só o modelo é grande o suficiente para lutar, mas também envia um conjunto completo de periféricos de luxo de nível "barril familiar" de uma só vez.

O que pode ter um grande negócio é o pioneiro da escola de código aberto de grande modelo da China, o KLCII Research Institute.

Se você olhar para a abordagem de código aberto de grande modelo da KLCII ao longo dos anos, não é difícil descobrir que ela está liderando uma nova tendência:

Já em 2021, o maior corpus do mundo foi tornado público e, em 2022, foi o primeiro a encaminhar o sistema de código aberto de tecnologia de modelo grande FlagOpen, e lançou sucessivamente o sistema de avaliação Flag, conjunto de dados COIG, modelo vetorial BGE e outros projetos de estrela de pilha de tecnologia completa.

Esta ousadia vem do posicionamento da KLCII como uma instituição de pesquisa neutra, sem fins lucrativos e sem fins lucrativos, e seu foco principal é uma "cocriação sincera de código aberto".

Entende-se que o modelo de pedestal Aquila2-34B lidera o ranking abrangente de 22 referenciais de avaliação, incluindo linguagem, compreensão, raciocínio, código, exame e outras dimensões de avaliação.

Aqui está uma imagem para sentir essa sensação:

△Figura: Resultados da avaliação do modelo de base (ver o repositório oficial de código aberto para obter os resultados detalhados da avaliação do conjunto de dados)

Como acabamos de mencionar, o Beijing KLCII Artificial Intelligence Research Institute também implementa de forma muito consciente o código aberto até o fim, trazendo código aberto para toda a família de uma só vez:

Atualize totalmente a série de modelos Aquila2: modelo básico Aquila2-34B/7B, modelo de diálogo AquilaChat2-34B/7B, modelo AquilaSQL "text-SQL language";

A nova versão do modelo vetorial semântico BGE é atualizada: todos os quatro principais requisitos de pesquisa são cobertos.

Estrutura de treinamento paralelo eficiente FlagScale: taxa de transferência de treinamento líder do setor e utilização de GPU;

Subconjunto de atenção de alto desempenho FlagAttention: Suporte inovador para treinamento de texto longo e linguagem Triton.

Em seguida, vamos dar uma olhada mais de perto no "código aberto mais forte" desta vez.

Capacidades "Strongest Open Source" num relance

Como acabamos de mencionar, o Aquila2-34B, um dos modelos de pedestal que abriu na pose de "código aberto mais forte", também inclui um Aquila2-7B menor.

E a chegada destes dois também torna o modelo a jusante muito rentável.

Modelo de diálogo de código aberto mais forte

Depois de ajustar as instruções, obteve-se a excelente série de modelos de diálogo AquilaChat2:

AquilaChat2-34B: É o modelo de diálogo bilíngue chinês-inglês de código aberto mais forte, liderando em avaliação abrangente subjetiva + objetiva;

AquilaChat2-7B: também alcançou o melhor desempenho geral no modelo de diálogo chinês-inglês da mesma magnitude.

△ Resultados da avaliação do modelo SFT (ver repositório oficial de fonte aberta para obter resultados detalhados da avaliação do conjunto de dados)

Descrição da revisão:

Para o modelo de diálogo generativo, a equipe da KLCII acredita que é necessário julgar estritamente de acordo com as "respostas geradas livremente do modelo em questão", o que é próximo do caso de uso real do usuário, portanto, consulte o HELM da Universidade de Stanford[1] O trabalho é avaliado, que tem requisitos mais rigorosos para a aprendizagem contextual do modelo e a capacidade de instrução de seguimento. Durante o processo de avaliação real, algumas respostas do modelo de diálogo não atendem aos requisitos de comando, e uma pontuação "0" pode ocorrer.

Por exemplo, se a resposta correta for "A" de acordo com a instrução, se o modelo for gerado como "B" ou "A resposta for A", será atribuída uma pontuação de "0".

Ao mesmo tempo, existem outros métodos de avaliação na indústria, como deixar o modelo de diálogo primeiro costurar "pergunta + resposta", o modelo calcula a probabilidade de cada texto emendado, verifica se a resposta com maior probabilidade é consistente com a resposta correta, e o modelo de diálogo não gerará nenhum conteúdo durante o processo de avaliação, mas calculará a probabilidade da opção. Este método de avaliação desvia-se muito do cenário de diálogo real, pelo que não é adotado na avaliação do modelo de diálogo generativo.

[1]

Não só isso, em termos de capacidade de raciocínio, que é muito crítica para grandes modelos de linguagem, o desempenho do AquilaChat2-34B também é muito incrível——

Ele ocupa o primeiro lugar no protocolo de avaliação IRD, superando modelos como Llama2-70B e GPT3.5, e perdendo apenas para GPT4.

△Figura: Resultados da avaliação do modelo SFT no conjunto de dados IRD

Do ponto de vista de várias realizações, seja um modelo de pedestal ou um modelo de diálogo, a série Aquila2 pode ser considerada a mais forte da indústria de código aberto.

Comprimento da janela de contexto até 16K

Para modelos de linguagem grandes, a capacidade de lidar com entradas de texto longas e manter a fluência contextual durante várias rodadas de diálogo é a chave para determinar se a experiência é boa ou ruim.

A fim de resolver este problema de "sofrer grandes modelos por um longo tempo", o Beijing KLCII Artificial Intelligence Research Institute fez SFT em 200.000 conjuntos de dados de diálogo de texto longo de alta qualidade, estendendo o comprimento da janela de contexto efetiva do modelo para 16K de uma só vez.

E não é apenas a melhoria do comprimento, o efeito foi otimizado.

Por exemplo, no efeito de avaliação das quatro perguntas e respostas de texto longo em chinês e inglês do LongBench, tarefas de resumo de texto longo, é muito óbvio——

AquilaChat2-34B-16K está no nível líder de modelos de texto longo de código aberto, perto do modelo de texto longo GPT-3.5.

△Figura: Avaliação de Tarefas de Compreensão de Texto Longo

Além disso, a equipe da KLCII conduziu uma análise visual da distribuição de atenção de vários modelos de linguagem que processam texto ultralongo e descobriu que todos os modelos de linguagem tinham um gargalo de posição relativa fixa, que era significativamente menor do que o comprimento da janela de contexto.

Para este fim, a equipe KLCII propôs de forma inovadora o método NLPE (Non-Linearized Position Embedding), que melhora a capacidade de epitaxia do modelo ajustando a codificação da posição relativa e restringindo o comprimento relativo máximo com base no método RoPE.

Experimentos de continuação de texto em código, chinês e inglês Few-Shot Leaning, e-books e outros campos mostram que a NLPE pode estender o modelo 4K Aquila2-34B para 32K de comprimento, e a coerência do texto continuado é muito melhor do que a do Dynamic-NTK, interpolação de posição e outros métodos.

△Figura: Comparação dos métodos de epitaxia NLPE e Dynamic-NTK no modelo Base (quanto menor o valor de ppl, melhor)

Não só isso, a instrução seguinte teste de habilidade no HotpotQA, 2WikiMultihopQA e outros conjuntos de dados com um comprimento de 5K ~ 15K mostra que a precisão de AquilaChat2-7B (2K) após epitaxia NLPE é de 17,2%, enquanto a precisão de AquilaChat2-7B da extensão Dynamic-NTK é de apenas 0,4%.

△Figura: Comparação dos métodos epitaxiais NLPE e Dynamic-NTK em modelos SFT

Todos os tipos de cenários de aplicação reais podem ser realizados

Bons "resultados" são apenas um dos critérios para testar modelos grandes e, mais importante, "bom uso é a última palavra".

Esta também é a capacidade de generalização de modelos grandes, mesmo se você encontrar problemas que você não viu, você pode facilmente lidar com.

Para este fim, a equipe do Wudao Skyhawk verificou a capacidade de generalização do modelo Aquila2 através de três cenários de aplicação do mundo real.

Construa agentes poderosos no Minecraft

Minecraft é um jogo que é um bom campo de testes para a tecnologia de teste de IA.

Gerou infinitamente mundos complexos e um grande número de tarefas abertas, fornecendo interfaces de interação ricas para os agentes.

Com base nisso, a KLCII e a equipe da Universidade de Pequim criaram o Plan4MC, um método para resolver eficientemente a multitarefa do Minecraft sem dados de especialistas.

Plan4MC pode treinar as habilidades básicas do agente usando a aprendizagem por reforço com recompensas intrínsecas, para que o agente possa usar a capacidade de raciocínio do modelo de linguagem grande AquilaChat2 para o planejamento de tarefas.

Por exemplo, no vídeo abaixo, o efeito do agente usando AquilaChat2 para completar automaticamente várias rodadas de interação de diálogo é mostrado.

Digite o "estado atual do ambiente" e "tarefas a serem concluídas" do jogo no modelo AquilaChat2, e AquilaChat2 retroalimenta o personagem "quais habilidades usar a seguir" e outras informações de tomada de decisão, e finalmente completa a tarefa definida em Minecraft "Corte madeira e faça uma bancada de trabalho para colocar nas proximidades".

Link banco de dados vetorial via Aquila2+BGE2

Os bancos de dados vetoriais tornaram-se um favor no grande círculo de modelos nos últimos anos, mas ainda estão ligeiramente esticados em termos de habilidade diante de problemas complexos que exigem compreensão profunda.

Para este fim, a KLCII combinou Aqiula2 com seu modelo vetorial semântico de código aberto BGE2 auto-desenvolvido para desbloquear completamente algumas tarefas complexas de recuperação que não podem ser resolvidas por métodos de recuperação baseados apenas em bibliotecas vetoriais tradicionais.

Por exemplo, no exemplo abaixo, podemos ver claramente que tarefas como "recuperar artigos de um autor sobre um determinado tópico" e "gerar texto de resumo para vários artigos sobre um tópico" podem se tornar muito sedosas.

Modelo de geração ideal de "linguagem text-SQL"

Muitos usuários têm uma dor de cabeça para SQL ao lidar com tarefas como consultas de banco de dados.

Não seria bonito se pudesse ser operado no vernáculo que usamos com frequência?

Agora, esta maneira conveniente é possível - AquilaSQL.

Em cenários práticos de aplicação, os usuários também podem executar o desenvolvimento secundário baseado no AquilaSQL, enxertando-o na base de conhecimento local, gerando SQL de consulta local ou melhorando ainda mais o desempenho da análise de dados do modelo, para que o modelo possa não apenas retornar resultados de consulta, mas também gerar conclusões de análise e gráficos.

Por exemplo, ao lidar com a seguinte tarefa de consulta complexa, você só precisa falar linguagem natural agora:

Filtre carros com vendas superiores a 100 e cor vermelha a partir de duas tabelas de dados contendo vendas de carros (carro_sales) e cor do carro (carro_color).

E as "conquistas" de AquilaSQL também são muito impressionantes.

Após pré-treinamento contínuo e treinamento SFT em dois estágios com corpus SQL, o modelo SOTA no Cspider finalmente superou o ranking "modelo de geração de linguagem text-SQL" com 67,3% de precisão.

A precisão do modelo GPT4 sem ajuste fino do corpus SQL é de apenas 30,8%.

Há também o código aberto de nível de bucket da família

Como mencionamos anteriormente, a KLCII sempre esteve focada em código aberto.

Desta vez, por ocasião da grande atualização do modelo, a KLCII também abriu sem reservas uma série de projetos estrela, incluindo algoritmos, dados, ferramentas e avaliações.

Entende-se que o modelo da série Aquila2 não só adota plenamente os acordos de licenciamento comercial, mas também permite que o público os utilize amplamente em pesquisas acadêmicas e aplicações comerciais.

Em seguida, vamos dar uma olhada rápida nesses buckets de família de código aberto.

FlagScale, uma estrutura de treinamento paralelo eficiente

O FlagScale é uma estrutura de treinamento paralelo eficiente usada pelo Aquila2-34B, que pode fornecer funções de treinamento únicas para grandes modelos de linguagem.

A equipe da KLCII compartilhou a configuração de treinamento, esquema de otimização e hiperparâmetros do modelo Aquila2 com grandes desenvolvedores de modelos através do projeto FlagScale, e foi a primeira na China a abrir totalmente o código de treinamento e hiperparâmetros.

Com base na extensão Megatron-LM, o FlagScale oferece uma gama de aprimoramentos de recursos, incluindo fatiamento de estado do otimizador distribuído, posicionamento preciso de dados de problemas de treinamento e conversão de parâmetro para Huggingface.

O Aquila2 foi medido para alcançar a taxa de transferência de treinamento e a utilização da GPU líderes do setor.

△Figura: Taxa de transferência de treinamento do FlagScale e utilização da GPU (consulte o final do artigo para obter a fonte de dados e a fórmula de estimativa)

Entende-se que, no futuro, o FlagScale continuará a sincronizar com o código mais recente do projeto upstream Megatron-LM, introduzirá funções mais personalizadas, integrará a mais recente tecnologia de treinamento distribuído e inferência e modelos grandes convencionais, suportará hardware de IA heterogêneo e se esforçará para construir uma estrutura de inferência de treinamento de modelo distribuída geral, conveniente e eficiente para atender às tarefas de treinamento de modelo de diferentes escalas e necessidades.

FlagAttentionSubconjunto Open Source de Atenção de Alto Desempenho

O FlagAttention é o primeiro subconjunto de computação de código aberto Attention de alto desempenho desenvolvido usando a linguagem Triton para suportar o treinamento de modelos grandes de texto longo, e estende o operador Memory Efficient Attention da série Flash Attention para atender às necessidades de treinamento de modelos grandes.

Atualmente, o operador de atenção segmentada - PiecewiseAttention foi implementado.

PiecewiseAttention resolve principalmente o problema de extrapolação do modelo Transformer com codificação de posição de rotação (Roformer), e suas características podem ser resumidas como:

Versatilidade: A semelhança com modelos que usam atenção de computação segmentada pode ser facilmente migrada para grandes modelos de linguagem fora de Aquila.

Facilidade de uso: FlagAttention é baseado na implementação da linguagem Triton e fornece a interface PyTorch, tornando o processo de construção e instalação mais fácil do que o Flash Attention desenvolvido pela CUDA C.

Extensibilidade: Também graças à linguagem Triton, o algoritmo FlagAttention em si tem um limite baixo para modificação e extensão, e os desenvolvedores podem facilmente estender mais novos recursos em cima disso.

No futuro, o projeto FlagAttention continuará a apoiar os operadores de atenção com outras extensões de função para grandes necessidades de pesquisa de modelos, otimizar ainda mais o desempenho do operador e adaptar-se a hardware de IA mais heterogêneo.

Modelo vetorial semântico de próxima geração BGE2**

A nova geração do modelo vetorial semântico BGE também será open source com Aquila2.

O modelo BGE-LLM Embedder no BGE2 integra os quatro recursos de "recuperação de conhecimento", "recuperação de memória", "pesquisa de amostras" e "recuperação de ferramentas".

Pela primeira vez, ele realiza a cobertura abrangente dos principais requisitos de recuperação de um modelo de linguagem grande por um único modelo vetorial semântico.

Combinado com casos de uso específicos, o BGE-LLM Embedder melhorará significativamente o desempenho de grandes modelos de linguagem em áreas importantes, como lidar com tarefas intensivas em conhecimento, memória de longo prazo, seguimento de instruções e uso de ferramentas.

......

Então, você está animado com um "código aberto mais forte" tão completo?

Mais uma coisa

A KLCII realizará um novo workshop sobre tecnologias de ponta para modelos de grande porte nos dias 28 e 29 de outubro, onde nove pesquisadores importantes apresentarão o progresso recente e a implementação do FlagOpen.

Os parceiros interessados também podem viver no código.

Endereço completo de código aberto do modelo Aquila2:

Endereço do repositório de código aberto AquilaSQL:

Repositório de código aberto FlagAttention:

Endereço de código aberto BGE2

papel:

Modelo: /LLM-Embedder

Repo:

Fórmula de estimativa de taxa de transferência LLAMA2: total de tokens / (total de horas GPU * 3600), de acordo com Llama 2: Open Foundation e Fine-Tuned Chat Models paper: 1) 7B tem um token total de 2,0 T, total de horas de GPU é 184320, e substituído na fórmula dá 3014 tokens/seg/GPU; 2) O total de tokens de 34B é de 2,0 T, o total de horas de GPU é 1038336 e a fórmula é substituída para obter 535 Tokens/seg/GPU.

— Fim —

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

2 gostos

Recompensa
2
Comentar
Partilhar

Comentar

0/400

Nenhum comentário

Tópico
1/3
1CandyDrop Airdrop Event 6.0
16k Popularidade
2White House Crypto Report
33k Popularidade
3Join Alpha RION Airdrop to Earn $40
9k Popularidade
4Fed Holds Rates Decision
8k Popularidade
5July Spark Program TOP 10 Creators Announced
2k Popularidade

Pino