Alpacas evoluem para baleias, Meta "automatiza" o alinhamento e Jubarte derrota todos os modelos LLaMa existentes

2023-08-15 05:46:13

Editores: Xiaozhou, Chen Ping

**Fonte:**O coração da máquina

No ano passado, o modelo de linguagem grande (LLM) representado por ChatGPT e GPT-4 se desenvolveu rapidamente, seguido pelos modelos de código aberto da série LLaMa e Llama 2 da Meta, que também causaram grande agitação no mundo da IA . Mas o que se seguiu foi uma controvérsia constante.Algumas pessoas acreditavam que o LLM apresentava alguns riscos incontroláveis, apresentando algumas ameaças potenciais à sobrevivência humana.

Para lidar com esses desafios, a pesquisa sobre alinhamento LLM tornou-se cada vez mais importante.Alguns pesquisadores propuseram o seguimento de instruções (instruction following), mas esse método requer muita anotação manual. No entanto, anotar esses conjuntos de dados de instrução de alta qualidade é caro.

Neste artigo, os pesquisadores da Meta AI propõem um método escalável chamado backtranslation de instruções, que cria um modelo de linguagem de acompanhamento de instruções de alta qualidade anotando automaticamente as instruções correspondentes.

Endereço de papel:

Especificamente, o estudo começa com um modelo de linguagem como um modelo de semente, que é ajustado em uma pequena quantidade de dados de semente, bem como corpora da web. A função do modelo de semente é construir amostras de treinamento e, em seguida, algumas amostras de alta qualidade dessas amostras serão selecionadas e, em seguida, esses dados serão usados para ajustar um modelo mais poderoso.

Após duas rodadas de ajuste fino iterativo do conjunto de dados LLaMa, o modelo Humpback resultante supera outros modelos não destilados existentes, como LIMA, Claude, Guanaco, etc. na tabela de classificação da Alpaca.

Jubarte originalmente significava uma baleia jubarte, também conhecida como baleia jubarte. Meta nomeou o modelo Jubarte, então não há um significado profundo.

A razão pela qual é chamada de tradução reversa de instrução, disseram os pesquisadores, é que ela se baseia no método clássico de tradução reversa em tradução automática, na qual a frase de destino escrita por humanos é automaticamente anotada com a frase de origem em outro idioma gerado pelo modelo. .

O vencedor do Turing Award, Yann LeCun, deu uma visão geral de alto nível da metodologia do estudo e elogiou o trabalho da Meta como uma importante contribuição para a pesquisa de alinhamento:

Alguns internautas fizeram um bom resumo desta pesquisa: a qualidade dos dados é realmente importante para grandes modelos. Durante o processo de pesquisa, eles usaram diferentes níveis de dados filtrados para ajustar um modelo. Os resultados mostraram que apenas as melhores amostras Para obter um modelo que funciona melhor do que outras amostras.

Este artigo propõe um novo paradigma de aumento de dados que precisa ser concluído em duas etapas. Primeiro, é necessário ter um conjunto de pares de semente (instrução, saída) e um corpus para gerar dados de instrução mais bons.

A figura abaixo compara o Humpback com alguns modelos proprietários e de código aberto.

A Tabela 4 abaixo mostra que nosso método funciona melhor entre os modelos não destilados nas escalas de modelo 65B e 33B.

Vejamos o método específico abaixo.

Introdução ao Método

O estudo propõe uma abordagem de autotreinamento que geralmente assume o acesso a um modelo básico de linguagem, uma pequena quantidade de dados iniciais e um conjunto de amostras não rotulados (como um web corpus). Os dados não rotulados geralmente são uma grande coleção de documentos de várias formas, escritos por humanos, incluindo conteúdo sobre vários tópicos de interesse humano, mas o mais importante, não foram combinados com instruções.

Existem duas suposições principais aqui. A primeira suposição é que existem alguns subconjuntos desse conjunto de texto muito grande (conjunto de amostra sem rótulo) que são adequados como amostras geradas para algumas instruções do usuário. A segunda hipótese é que as instruções dessas respostas candidatas podem ser previstas, o que pode ser usado para formar pares de amostras de alta qualidade para treinar modelos de seguimento de instruções.

Conforme mostrado na Figura 1 abaixo, o estudo propõe que o processo de retrotradução de instruções inclua duas etapas principais:

Autoaumento: Gere instruções para dados não rotulados (ou seja, web corpus) para gerar pares de dados de treinamento (instrução-saída) para ajuste de instrução.
Autogerenciamento: selecione independentemente dados de amostra de alta qualidade como dados de treinamento para ajustar o modelo básico para seguir as instruções. Este método é feito de forma iterativa.

Dentre elas, as etapas de autogestão adotadas são apresentadas na Tabela 1 a seguir:

Experiência e resultados

O conjunto de dados neste documento inclui principalmente dados de sementes e dados aprimorados. As informações específicas são mostradas na Tabela 2 e na Figura 2:

A Figura 3 mostra que os dados aumentados sem autocura usados para treinar o modelo não melhoram o desempenho após a instrução, apesar do aumento do tamanho dos dados.

A figura abaixo compara a eficiência de dados de diferentes conjuntos de dados de ajuste de instrução.

Expansão conjunta de dados e modelos: o estudo constata que as tendências de expansão de dados observadas no modelo 7B também se aplicam a modelos maiores. Por exemplo, adicionar dados de aumento de alta qualidade ao modelo de semente 65B trará mais melhorias.

Raciocínio de senso comum: o estudo foi testado em cinco benchmarks de raciocínio de senso comum, SIQA, PIQA, Arc-Easy, Arc-Challenge e Openbook QA (OBQA), e os resultados estão resumidos na Tabela 5. Os resultados mostram que em comparação com o modelo base, o desempenho do nosso modelo foi melhorado em vários aspectos, como o raciocínio social.

MMLU: A Tabela 6 resume os resultados de diferentes modelos em MMLU (entendimento massivo de linguagem multitarefa). Nosso modelo ajustado melhora a precisão de disparo zero em comparação com o modelo básico, mas apresenta desempenho ruim no exemplo de contexto de 5 amostras.

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.

1 Curtidas

Recompensa
1
Comentário
Compartilhar

Comentário

0/400

Sem comentários

Tema
Gate 2025 Q2 Report Released
25k Popularidade
Altcoin Season Update
8k Popularidade
Gate Derivatives Volume Hits New High
15k Popularidade
4CPI Data Incoming
59k Popularidade
5Join Gate VIP to Win MacBook
30k Popularidade
6MicroStrategy Buys More Bitcoin
2k Popularidade
7BTC Hits New High
111k Popularidade
8My Gate Moments
27k Popularidade
9VIP Exclusive Airdrop Carnival
26k Popularidade
10Fed June Meeting Minutes
7k Popularidade

Marcar

sitemap