Pensar mais sobre as etapas antes do ChatGPT dar uma resposta pode melhorar a precisão.
Então, você pode pular o prompt e internalizar diretamente essa capacidade no modelo grande?
O novo estudo da CMU e da equipe do Google adiciona um token de pausa ao treinar modelos grandes para conseguir isso.
No experimento, os escores de 8 avaliações melhoraram, entre os quais o escore EM do SQuAD aumentou em 18%, o CommonSenseQA aumentou em 8% e a tarefa de inferência no GSM8k também aumentou em 1%.
O pesquisador Jack Hack disse que havia apresentado uma hipótese semelhante há pouco tempo e ficou feliz em vê-la testada.
O engenheiro da Nvidia, Aaron Erickson, disse que é uma verdade adicionar "uh-huh-ah" ao falar com humanos?
O ajuste fino pré-treinamento é adicionado ao token de pausa
Todo o estudo se baseia numa ideia simples:
Anexe uma série (token de pausa) à sequência de entrada, atrasando a saída do modelo para o próximo token.
Isso pode dar ao modelo tempo computacional adicional para processar entradas mais complexas.
Os autores não só a introduzem quando a tarefa a jusante é ajustada, mas também a inserem aleatoriamente na sequência durante o pré-treino, permitindo que o modelo aprenda a tirar partido deste atraso computacional em ambas as fases.
No estágio de pré-treinamento, uma certa porcentagem de tokens de pausa são inseridos aleatoriamente no corpus na sequência de entrada para pré-treinamento autorregressivo padrão. No entanto, a previsão do token suspenso é ignorada ao calcular a perda.
Quando a tarefa downstream é ajustada, um certo número de tokens de pausa é anexado à entrada e, em seguida, a previsão autorregressiva é feita na sequência de destino, enquanto ajusta os parâmetros do modelo.
A fase de inferência também acrescenta o mesmo número de tokens de pausa, mas ignora a saída do modelo até o último token de pausa e, em seguida, começa a extrair a resposta.
O experimento usa o modelo padrão Transformer pure Decoder, que é dividido em duas versões: 130M parâmetro e 1B parâmetro.
O token de pausa adiciona apenas 1024 parâmetros, que é seu próprio tamanho de incorporação.
Experimentos em 9 tarefas diferentes mostraram que o efeito da introdução de tokens de pausa apenas durante a fase de ajuste fino não era óbvio, e algumas tarefas não melhoraram.
Mas se você usar tokens de pausa nas fases de pré-treinamento e ajuste fino, obterá uma melhoria significativa na maioria das tarefas.
O documento também explora os principais hiperparâmetros, como o número e a localização dos tokens suspensos. Verificou-se que geralmente existe uma quantidade ideal para diferentes modelos.
Por fim, os autores também apontam que este trabalho também tem uma série de limitações.
Uma vez que o token de suspensão aumenta a quantidade de cálculo do modelo, ainda não se discute se é justo comparar com outros métodos
O novo método necessita de ser requalificado e continua a ser difícil aplicá-lo na prática
Continua a verificar-se uma falta de compreensão aprofundada dos mecanismos de trabalho específicos
Se o número de tokens de pausa for 0 durante a inferência, o modelo ainda terá um desempenho ruim
O CEO do motor de busca You.com disse que o próximo passo é experimentar todas as técnicas para melhorar o desempenho cognitivo humano em grandes modelos ?
Agora há "pensar passo a passo" e "respirar fundo".
Talvez o próximo artigo de sucesso seja ensinar grandes modelos a dormir com problemas, ou uma alimentação e exercício mais escandalosamente saudáveis.
Endereço em papel:
Links de referência:
[1]
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
Retreine um modelo grande com um token de pausa e a IA aprende a pensar duas vezes
Fonte: Qubits
Pensar mais sobre as etapas antes do ChatGPT dar uma resposta pode melhorar a precisão.
Então, você pode pular o prompt e internalizar diretamente essa capacidade no modelo grande?
O novo estudo da CMU e da equipe do Google adiciona um token de pausa ao treinar modelos grandes para conseguir isso.
O ajuste fino pré-treinamento é adicionado ao token de pausa
Todo o estudo se baseia numa ideia simples:
Anexe uma série (token de pausa) à sequência de entrada, atrasando a saída do modelo para o próximo token.
Isso pode dar ao modelo tempo computacional adicional para processar entradas mais complexas.
Quando a tarefa downstream é ajustada, um certo número de tokens de pausa é anexado à entrada e, em seguida, a previsão autorregressiva é feita na sequência de destino, enquanto ajusta os parâmetros do modelo.
A fase de inferência também acrescenta o mesmo número de tokens de pausa, mas ignora a saída do modelo até o último token de pausa e, em seguida, começa a extrair a resposta.
O experimento usa o modelo padrão Transformer pure Decoder, que é dividido em duas versões: 130M parâmetro e 1B parâmetro.
O token de pausa adiciona apenas 1024 parâmetros, que é seu próprio tamanho de incorporação.
Experimentos em 9 tarefas diferentes mostraram que o efeito da introdução de tokens de pausa apenas durante a fase de ajuste fino não era óbvio, e algumas tarefas não melhoraram.
Mas se você usar tokens de pausa nas fases de pré-treinamento e ajuste fino, obterá uma melhoria significativa na maioria das tarefas.
O documento também explora os principais hiperparâmetros, como o número e a localização dos tokens suspensos. Verificou-se que geralmente existe uma quantidade ideal para diferentes modelos.
Por fim, os autores também apontam que este trabalho também tem uma série de limitações.
O CEO do motor de busca You.com disse que o próximo passo é experimentar todas as técnicas para melhorar o desempenho cognitivo humano em grandes modelos ?
Talvez o próximo artigo de sucesso seja ensinar grandes modelos a dormir com problemas, ou uma alimentação e exercício mais escandalosamente saudáveis.
Endereço em papel:
Links de referência:
[1]