Retreine um modelo grande com um token de pausa e a IA aprende a pensar duas vezes

2023-10-15 04:52:39

Fonte: Qubits

Pensar mais sobre as etapas antes do ChatGPT dar uma resposta pode melhorar a precisão.

Então, você pode pular o prompt e internalizar diretamente essa capacidade no modelo grande?

O novo estudo da CMU e da equipe do Google adiciona um token de pausa ao treinar modelos grandes para conseguir isso.

No experimento, os escores de 8 avaliações melhoraram, entre os quais o escore EM do SQuAD aumentou em 18%, o CommonSenseQA aumentou em 8% e a tarefa de inferência no GSM8k também aumentou em 1%.

O pesquisador Jack Hack disse que havia apresentado uma hipótese semelhante há pouco tempo e ficou feliz em vê-la testada.

O engenheiro da Nvidia, Aaron Erickson, disse que é uma verdade adicionar "uh-huh-ah" ao falar com humanos?

O ajuste fino pré-treinamento é adicionado ao token de pausa

Todo o estudo se baseia numa ideia simples:

Anexe uma série (token de pausa) à sequência de entrada, atrasando a saída do modelo para o próximo token.

Isso pode dar ao modelo tempo computacional adicional para processar entradas mais complexas.

Os autores não só a introduzem quando a tarefa a jusante é ajustada, mas também a inserem aleatoriamente na sequência durante o pré-treino, permitindo que o modelo aprenda a tirar partido deste atraso computacional em ambas as fases.

No estágio de pré-treinamento, uma certa porcentagem de tokens de pausa são inseridos aleatoriamente no corpus na sequência de entrada para pré-treinamento autorregressivo padrão. No entanto, a previsão do token suspenso é ignorada ao calcular a perda.

Quando a tarefa downstream é ajustada, um certo número de tokens de pausa é anexado à entrada e, em seguida, a previsão autorregressiva é feita na sequência de destino, enquanto ajusta os parâmetros do modelo.

A fase de inferência também acrescenta o mesmo número de tokens de pausa, mas ignora a saída do modelo até o último token de pausa e, em seguida, começa a extrair a resposta.

O experimento usa o modelo padrão Transformer pure Decoder, que é dividido em duas versões: 130M parâmetro e 1B parâmetro.

O token de pausa adiciona apenas 1024 parâmetros, que é seu próprio tamanho de incorporação.

Experimentos em 9 tarefas diferentes mostraram que o efeito da introdução de tokens de pausa apenas durante a fase de ajuste fino não era óbvio, e algumas tarefas não melhoraram.

Mas se você usar tokens de pausa nas fases de pré-treinamento e ajuste fino, obterá uma melhoria significativa na maioria das tarefas.

O documento também explora os principais hiperparâmetros, como o número e a localização dos tokens suspensos. Verificou-se que geralmente existe uma quantidade ideal para diferentes modelos.

Por fim, os autores também apontam que este trabalho também tem uma série de limitações.

Uma vez que o token de suspensão aumenta a quantidade de cálculo do modelo, ainda não se discute se é justo comparar com outros métodos
O novo método necessita de ser requalificado e continua a ser difícil aplicá-lo na prática
Continua a verificar-se uma falta de compreensão aprofundada dos mecanismos de trabalho específicos
Se o número de tokens de pausa for 0 durante a inferência, o modelo ainda terá um desempenho ruim

O CEO do motor de busca You.com disse que o próximo passo é experimentar todas as técnicas para melhorar o desempenho cognitivo humano em grandes modelos ?

Agora há "pensar passo a passo" e "respirar fundo".

Talvez o próximo artigo de sucesso seja ensinar grandes modelos a dormir com problemas, ou uma alimentação e exercício mais escandalosamente saudáveis.

Endereço em papel:

Links de referência:
[1]

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

Recompensa
gostar
Comentar
Partilhar

Comentar

0/400

Nenhum comentário

Tópico
1/3
1CandyDrop Airdrop Event 6.0
17k Popularidade
2White House Crypto Report
35k Popularidade
3Join Alpha RION Airdrop to Earn $40
9k Popularidade
4Fed Holds Rates Decision
8k Popularidade
5July Spark Program TOP 10 Creators Announced
2k Popularidade

Pino